Écosystème Hadoop - CNRS - DR02

Transcription

Écosystème Hadoop - CNRS - DR02
Délégation Paris B
SRH – Bureau Ressources Humaines
16 rue Pierre et Marie Curie
75005 PARIS
Tel : 01 42 34 94 69 / 32
Annonce de stage
Écosystème Hadoop : configuration système distribué
du 1er au 3 février 2016
Public concerné
Chefs de projets, développeurs,
administrateurs systèmes et
réseaux.
Pré-requis
Connaissances générales des
systèmes d'information et des
systèmes unix/linux.
Intervenant
PYTHAGORE FD
Durée
Objectifs pédagogiques :
Connaître les différents éléments de l'écosystème Hadoop ainsi que les principes du framework
Hadoop. Savoir l'installer et le configurer.
Programme de formation :
Introduction :
-
Architecture :
-
3 jours
Dates
1er au 3 février 2016
Nombre de stagiaires
Groupe de 9 personnes
Lieu
Chez le prestataire
Les fonctionnalités apportées par Hadoop.
Les principaux composants.
Les distributions et leurs caractéristiques (HortonWorks, Cloudera, MapR, GreenPlum,
Apache, ...)
Architecture et principe de fonctionnement.
Terminologie : NameNode, DataNode, ResourceManager
Rôle et interactions des différents composants
Présentation des outils :
ₒ d'infrastructure : ambari, avro, zookeeper
ₒ de gestion des données : pig, oozie, falcon, pentaho, sqoop, flume,
ₒ d'interfaçage avec les applications GIS,
ₒ de restitution et requêtage : webhdfs, hive,hawq, impalla, drill, stinger, tajo, mahout, lucene,
elasticSearch, Kibana
Exemples interactifs :
-
Démonstrations sur une architecture Hadoop multi-noeuds.
Mise à disposition d'un environnement pour des exemples de calcul
Recherches dans des données complexes.
Les outils HADOOP :
-
Infrastrucure/Mise en oeuvre :
Avro, Ambara, Zookeeper, Pig, Oozie, Falcon, Pentaho
Vue d'ensemble
Gestion des données.
Exemple de sqoop.
Restitution : webhdfs, hive, Hawq, Mahout,ElasticSearch ..
Outils complémentaires: Spark, Shark, Storm, BigTop, Zebra
Outils complémentaires de développement : Cascading, Scalding, Flink, Pachyderm
Outils complémentaires d'analyse : RHadoop, Hama, Chukwa, kafka
Installation et configuration :
-
Trois modes d'installation : local, pseudo-distribué, distribué
Première installation.Mise en oeuvre avec un seul noeud Hadoop.
Configuration de l'environnement,étude des fichiers de configuration : core-site.xml, hdfssite.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml
Création des users pour les daemons hdfs et yarn,droits d'accès sur les exécutables et
répertoires.
Lancement des services.
-
Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc ..
Gestion de la grappe, différentes méthodes :
ligne de commandes, API Rest, serveur http intégré, APIS natives
Exemples en ligne de commandes avec hdfs, yarn, mapred
Présentation des fonctions offertes par le serveur http
Organisation et configuration d'une grappe
Administration HADOOP :
-
Outils complémentairs à yarn et hdfs :
jConsole, jconsole yarn
suivi de charges
journaux
Gestion des nœuds
Accès JMX, mise en oeuvre d'un client JMX
Administration HDFS
stockage des fichiers, fsck, dfsadmin,
gestion centralisée de caches avec Cacheadmin
Sécurité :
Activation de la sécurité avec Kerberos dans core-site.xml, et dans hdfs-site.xml pour les NameNode
et DataNode. Sécurisation de yarn avec la mise en oeuvre d'un proxy et d'un Linux Container
Executor.
Exploitation :
Supervision des éléments par le NodeManager. Visualisation des alertes en cas d'indisponibilité d'un
noeud. Configuration des logs avec log4j.
Date limite d’inscription : le 4 Janvier 2016
Contacts : Bruno VERON Tel : 01 42 34 94 69
Mèl : [email protected]
Modalités d’inscription :
Remplir la fiche de demande de formation à télécharger :
http://www.dgdr.cnrs.fr/mpr/pratique/Ressources_humaines/Formation/
Documents/RH_Demande_formation_20062013.pdf
Et la renvoyer au service des Ressources Humaines de la délégation Paris B validée par le
correspondant formation et le directeur de l’unité par mail avant la date limite d’inscription.