FORMATION HADOOP Administrateur pour Hadoop (Apache)
Transcription
FORMATION HADOOP Administrateur pour Hadoop (Apache)
FORMATION HADOOP Administrateur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l’objet d’une demande écrite auprès de Cyrès. Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26 Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z Sommaire I. OBJECTIFS .............................................................................................................................................................. 3 II. PUBLIC CONCERNE................................................................................................................................................ 3 III. PRE-REQUIS ............................................................................................................................................................ 3 IV. CONDITIONS GENERALES .................................................................................................................................... 3 V. CONTENU DE LA FORMATION .............................................................................................................................. 3 Introduction ..................................................................................................................................................... 3 HDFS ................................................................................................................................................................. 4 Alimenter un cluster Hadoop ......................................................................................................................... 4 MapReduce ....................................................................................................................................................... 4 Installation et configuration d’un cluster ..................................................................................................... 5 Ecosystème Hadoop ....................................................................................................................................... 5 Sécurité - Hadoop............................................................................................................................................ 5 Ordonnancement des jobs ............................................................................................................................. 6 Tâches courantes ............................................................................................................................................ 6 Initiation à Hbase............................................................................................................................................. 6 Conclusion ....................................................................................................................................................... 6 Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26 Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z 2 I. Objectifs Encadrée par un formateur qualifié, cette formation vous permettra d’exploiter et de gérer un cluster Hadoop. De l’installation à la configuration en passant par l’optimisation, toutes les étapes seront traitées pour que vous soyez apte à administrer Hadoop. Les thématiques abordées seront les suivantes : Le système de fichiers distribués HDFS et l’algorithme MapReduce Bâtir une architecture Hadoop Déployer et configurer Hadoop, choix de l’infrastructure Comment alimenter un cluster Hadoop L’optimisation des configurations et les techniques d’améliorations des performances Diagnostic, problèmes et résolutions Initiation à Hbase Préparation à la certification Cloudera II. Public concerné Cette formation convient aux administrateurs système qui ont déjà une expérience avec Linux. III. Pré-requis Connaissances en système d’exploitation Linux. IV. Conditions Générales Formation Référence Durée Tarif Administrateur pour Hadoop (Apache) HADADM1 4 jours (32 heures) A partir de 1 500 € H.T. / personne V. Contenu de la formation Introduction Objectifs : Tour d’horizon de Hadoop, cette introduction revient sur les origines du projet et détaille les problématiques « Big Data » auxquelles les entreprises sont confrontées. A l’issue de ce module le stagiaire a une vision claire des tenants et aboutissants du projet Hadoop. Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26 Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z 3 Thèmes abordés : Enjeux et limites des systèmes actuels Quels besoins ? Approche « Big Data » HDFS Objectifs : Ce module présente le système de fichiers interne de Hadoop. A la fin de ce module, le stagiaire possède les connaissances nécessaires pour comprendre et utiliser un environnement HDFS. Thèmes abordés : Fonctionnalités HDFS Ecriture/Lecture Namenode, clé de voute Sécurité Exercices : « Premiers pas » Alimenter un cluster Hadoop Objectifs : Comprendre les enjeux et les techniques d’alimentation. Le stagiaire intégrera des données provenant de sources extérieures via Flume et depuis des SGBDR via Sqoop. Thèmes abordés : Best practices Intégration au fil de l’eau via Flume Intégration depuis SGBDR via Sqoop MapReduce Objectifs : Ce module présente le mécanisme de traitement de Hadoop. A la fin de ce module, le stagiaire possède les connaissances nécessaires pour comprendre et utiliser un environnement MapReduce. Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26 Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z 4 Thèmes abordés : Introduction Fonctionnalités MapReduce JobTracker et MapReduce v2 Exercices : « Configuration MapReduce » Installation et configuration d’un cluster Objectifs : Ce module permet de découvrir les processus d’installation et de configuration de cluster Hadoop. A la fin de ce module, le stagiaire peut installer et configurer un environnement complet. Thèmes abordés : Techniques de déploiement Installation Configuration HDFS et MapReduce Exercices : « Déployer un cluster Hadoop » Ecosystème Hadoop Objectifs : Présentation des différents projets gravitant autour de Hadoop. Ce module se consacre sur l’installation et la configuration des produits Hive, Pig et Impala Thèmes abordés : Installation et configuration Exercices : Déployer des services supplémentaires » Sécurité - Hadoop Objectifs : Ce module présente les différents aspects pour permettre de sécuriser un environnement Hadoop au travers Kerberos. Il permet de comprendre les enjeux et les moyens disponibles pour sécuriser Hadoop. Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26 Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z 5 Thèmes abordés : Introduction Présentation Kerberos Sécurisation avec Kerberos Ordonnancement des jobs Objectifs : Nous verrons les différentes politiques d’ordonnancement des jobs. De manière plus globale, nous verrons comment faire gérer l’allocation MapReduce pour plusieurs équipes au sein d’un même cluster. Thèmes abordés : Politiques d’ordonnancement Capacity Scheduler et Fair Scheduler Exercices : « Configurer une politique d’ordonnancement » Tâches courantes Objectifs : Maitriser les opérations de maintenance Ce module débute avec une présentation des commandes essentielles d’exploitation du cluster. La seconde partie du module sera consacrée au diagnostic et à la résolution des erreurs et problèmes que l’on peut rencontrer sur un cluster. Thèmes abordés : Commandes essentielles Diagnostic et résolution d’anomalies Maintenance Initiation à Hbase - Architecture Globale Système Hbase ( Master et région serveur) Modélisation de la rowkey orientée performance Conclusion Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26 Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z 6