FORMATION HADOOP Administrateur pour Hadoop (Apache)

Transcription

FORMATION HADOOP Administrateur pour Hadoop (Apache)
FORMATION HADOOP
Administrateur pour Hadoop
(Apache)
Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l’objet
d’une demande écrite auprès de Cyrès.
Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26
Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr
SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z
Sommaire
I.
OBJECTIFS .............................................................................................................................................................. 3
II.
PUBLIC CONCERNE................................................................................................................................................ 3
III.
PRE-REQUIS ............................................................................................................................................................ 3
IV. CONDITIONS GENERALES .................................................................................................................................... 3
V.
CONTENU DE LA FORMATION .............................................................................................................................. 3











Introduction ..................................................................................................................................................... 3
HDFS ................................................................................................................................................................. 4
Alimenter un cluster Hadoop ......................................................................................................................... 4
MapReduce ....................................................................................................................................................... 4
Installation et configuration d’un cluster ..................................................................................................... 5
Ecosystème Hadoop ....................................................................................................................................... 5
Sécurité - Hadoop............................................................................................................................................ 5
Ordonnancement des jobs ............................................................................................................................. 6
Tâches courantes ............................................................................................................................................ 6
Initiation à Hbase............................................................................................................................................. 6
Conclusion ....................................................................................................................................................... 6
Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26
Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr
SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z
2
I. Objectifs
Encadrée par un formateur qualifié, cette formation vous permettra d’exploiter et de gérer un cluster
Hadoop. De l’installation à la configuration en passant par l’optimisation, toutes les étapes seront traitées
pour que vous soyez apte à administrer Hadoop. Les thématiques abordées seront les suivantes :








Le système de fichiers distribués HDFS et l’algorithme MapReduce
Bâtir une architecture Hadoop
Déployer et configurer Hadoop, choix de l’infrastructure
Comment alimenter un cluster Hadoop
L’optimisation des configurations et les techniques d’améliorations des performances
Diagnostic, problèmes et résolutions
Initiation à Hbase
Préparation à la certification Cloudera
II. Public concerné
Cette formation convient aux administrateurs système qui ont déjà une expérience avec Linux.
III. Pré-requis
Connaissances en système d’exploitation Linux.
IV. Conditions Générales
Formation
Référence
Durée
Tarif
Administrateur pour Hadoop (Apache)
HADADM1
4 jours (32 heures)
A partir de 1 500 € H.T. / personne
V. Contenu de la formation

Introduction
Objectifs :
Tour d’horizon de Hadoop, cette introduction revient sur les origines du projet et détaille les problématiques
« Big Data » auxquelles les entreprises sont confrontées. A l’issue de ce module le stagiaire a une vision
claire des tenants et aboutissants du projet Hadoop.
Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26
Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr
SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z
3
Thèmes abordés :



Enjeux et limites des systèmes actuels
Quels besoins ?
Approche « Big Data »

HDFS
Objectifs :
Ce module présente le système de fichiers interne de Hadoop. A la fin de ce module, le stagiaire possède
les connaissances nécessaires pour comprendre et utiliser un environnement HDFS.
Thèmes abordés :





Fonctionnalités HDFS
Ecriture/Lecture
Namenode, clé de voute
Sécurité
Exercices : « Premiers pas »

Alimenter un cluster Hadoop
Objectifs :
Comprendre les enjeux et les techniques d’alimentation. Le stagiaire intégrera des données provenant de
sources extérieures via Flume et depuis des SGBDR via Sqoop.
Thèmes abordés :



Best practices
Intégration au fil de l’eau via Flume
Intégration depuis SGBDR via Sqoop

MapReduce
Objectifs :
Ce module présente le mécanisme de traitement de Hadoop. A la fin de ce module, le stagiaire possède
les connaissances nécessaires pour comprendre et utiliser un environnement MapReduce.
Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26
Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr
SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z
4
Thèmes abordés :




Introduction
Fonctionnalités MapReduce
JobTracker et MapReduce v2
Exercices : « Configuration MapReduce »

Installation et configuration d’un cluster
Objectifs :
Ce module permet de découvrir les processus d’installation et de configuration de cluster Hadoop. A la fin
de ce module, le stagiaire peut installer et configurer un environnement complet.
Thèmes abordés :




Techniques de déploiement
Installation
Configuration HDFS et MapReduce
Exercices : « Déployer un cluster Hadoop »

Ecosystème Hadoop
Objectifs :
Présentation des différents projets gravitant autour de Hadoop. Ce module se consacre sur l’installation et
la configuration des produits Hive, Pig et Impala
Thèmes abordés :


Installation et configuration
Exercices : Déployer des services supplémentaires »

Sécurité - Hadoop
Objectifs :
Ce module présente les différents aspects pour permettre de sécuriser un environnement Hadoop au
travers Kerberos. Il permet de comprendre les enjeux et les moyens disponibles pour sécuriser Hadoop.
Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26
Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr
SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z
5
Thèmes abordés :



Introduction
Présentation Kerberos
Sécurisation avec Kerberos

Ordonnancement des jobs
Objectifs :
Nous verrons les différentes politiques d’ordonnancement des jobs. De manière plus globale, nous verrons
comment faire gérer l’allocation MapReduce pour plusieurs équipes au sein d’un même cluster.
Thèmes abordés :



Politiques d’ordonnancement
Capacity Scheduler et Fair Scheduler
Exercices : « Configurer une politique d’ordonnancement »

Tâches courantes
Objectifs : Maitriser les opérations de maintenance
Ce module débute avec une présentation des commandes essentielles d’exploitation du cluster. La
seconde partie du module sera consacrée au diagnostic et à la résolution des erreurs et problèmes que
l’on peut rencontrer sur un cluster.
Thèmes abordés :



Commandes essentielles
Diagnostic et résolution d’anomalies
Maintenance

Initiation à Hbase
-
Architecture Globale
Système Hbase ( Master et région serveur)
Modélisation de la rowkey orientée performance

Conclusion
Direction commerciale et marketing : 87, avenue du Maine 75014 Paris - Tél. : 01 72 50 01 26
Centre de services : 19 rue Edouard Vaillant – 37000 Tours - Tel : 02 47 68 48 50 - Fax : 02 47 68 48 59 - www.cyres.fr
SAS au capital de 300 000 Euros - R.C.S. Tours B 442 155 818 - Code NAF: 6201Z
6