Écosystème Hadoop - CNRS - DR02
Transcription
Écosystème Hadoop - CNRS - DR02
Délégation Paris B SRH – Bureau Ressources Humaines 16 rue Pierre et Marie Curie 75005 PARIS Tel : 01 42 34 94 69 / 32 Annonce de stage Écosystème Hadoop : configuration système distribué du 1er au 3 février 2016 Public concerné Chefs de projets, développeurs, administrateurs systèmes et réseaux. Pré-requis Connaissances générales des systèmes d'information et des systèmes unix/linux. Intervenant PYTHAGORE FD Durée Objectifs pédagogiques : Connaître les différents éléments de l'écosystème Hadoop ainsi que les principes du framework Hadoop. Savoir l'installer et le configurer. Programme de formation : Introduction : - Architecture : - 3 jours Dates 1er au 3 février 2016 Nombre de stagiaires Groupe de 9 personnes Lieu Chez le prestataire Les fonctionnalités apportées par Hadoop. Les principaux composants. Les distributions et leurs caractéristiques (HortonWorks, Cloudera, MapR, GreenPlum, Apache, ...) Architecture et principe de fonctionnement. Terminologie : NameNode, DataNode, ResourceManager Rôle et interactions des différents composants Présentation des outils : ₒ d'infrastructure : ambari, avro, zookeeper ₒ de gestion des données : pig, oozie, falcon, pentaho, sqoop, flume, ₒ d'interfaçage avec les applications GIS, ₒ de restitution et requêtage : webhdfs, hive,hawq, impalla, drill, stinger, tajo, mahout, lucene, elasticSearch, Kibana Exemples interactifs : - Démonstrations sur une architecture Hadoop multi-noeuds. Mise à disposition d'un environnement pour des exemples de calcul Recherches dans des données complexes. Les outils HADOOP : - Infrastrucure/Mise en oeuvre : Avro, Ambara, Zookeeper, Pig, Oozie, Falcon, Pentaho Vue d'ensemble Gestion des données. Exemple de sqoop. Restitution : webhdfs, hive, Hawq, Mahout,ElasticSearch .. Outils complémentaires: Spark, Shark, Storm, BigTop, Zebra Outils complémentaires de développement : Cascading, Scalding, Flink, Pachyderm Outils complémentaires d'analyse : RHadoop, Hama, Chukwa, kafka Installation et configuration : - Trois modes d'installation : local, pseudo-distribué, distribué Première installation.Mise en oeuvre avec un seul noeud Hadoop. Configuration de l'environnement,étude des fichiers de configuration : core-site.xml, hdfssite.xml, mapred-site.xml, yarn-site.xml et capacity-scheduler.xml Création des users pour les daemons hdfs et yarn,droits d'accès sur les exécutables et répertoires. Lancement des services. - Démarrage des composants : hdfs, hadoop-daemon, yarn-daemon, etc .. Gestion de la grappe, différentes méthodes : ligne de commandes, API Rest, serveur http intégré, APIS natives Exemples en ligne de commandes avec hdfs, yarn, mapred Présentation des fonctions offertes par le serveur http Organisation et configuration d'une grappe Administration HADOOP : - Outils complémentairs à yarn et hdfs : jConsole, jconsole yarn suivi de charges journaux Gestion des nœuds Accès JMX, mise en oeuvre d'un client JMX Administration HDFS stockage des fichiers, fsck, dfsadmin, gestion centralisée de caches avec Cacheadmin Sécurité : Activation de la sécurité avec Kerberos dans core-site.xml, et dans hdfs-site.xml pour les NameNode et DataNode. Sécurisation de yarn avec la mise en oeuvre d'un proxy et d'un Linux Container Executor. Exploitation : Supervision des éléments par le NodeManager. Visualisation des alertes en cas d'indisponibilité d'un noeud. Configuration des logs avec log4j. Date limite d’inscription : le 4 Janvier 2016 Contacts : Bruno VERON Tel : 01 42 34 94 69 Mèl : [email protected] Modalités d’inscription : Remplir la fiche de demande de formation à télécharger : http://www.dgdr.cnrs.fr/mpr/pratique/Ressources_humaines/Formation/ Documents/RH_Demande_formation_20062013.pdf Et la renvoyer au service des Ressources Humaines de la délégation Paris B validée par le correspondant formation et le directeur de l’unité par mail avant la date limite d’inscription.