Administrer la plateforme Hadoop 2.X Hortonworks
Transcription
Administrer la plateforme Hadoop 2.X Hortonworks
Programme formation Date d'impression : 07/02/2017 HADOOP 1 Programme formation "HADOOP" Date d'impression : 07/02/2017 Les fondamentaux d’Hadoop DESCRIPTION Cette formation est une initiation aux fondamentaux d’Hadoop. Elle donne aux participants une connaissance théorique et pratique de la plateforme, au travers de plusieurs exercices pratiques appliqués à des cas réels. A l’issue de la session, les participants seront en capacité d’utiliser les outils de l’écosystème Hadoop pour explorer des données stockées sur un entrepôt Big Data. Stage pratique HADOOP Code : HDP01 Durée : 2 jours (14 heures) OBJECTIFS PÉDAGOGIQUES Appréhender le fonctionnement d’Hadoop Identifier l’écosystème : quels outils pour quels usages ? Manipuler les principales commandes shell d’interaction avec Hadoop Emettre des requêtes SQL avec Hive et HCatalog Créer des traitements de données avec Pig Exposés : 60% Cas pratiques : 30% PUBLIC CIBLE Échanges d'expérience : 10% Analyste Data scientist Architecte Développeur Sessions à venir : PRÉ-REQUIS • Connaissances de base en programmation ou en scripting. MÉTHODE PÉDAGOGIQUE Apports théoriques préalables présentant la plateforme Hadoop, son fonctionnement et son écosystème. Travaux pratiques pour une mise en application immédiate. Les travaux pratiques s’effectueront sur un cluster Apache Hadoop 2.x. POUR ALLER PLUS LOIN : • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2) (HWAD2) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : sécurité" (HDP Operations: Security) (HWADS) • Formation officielle Hortonworks "Administrer la base de données HBase avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced Management) (HWHB2) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive) 16 - 17 mar. 2017 Paris / 1 580 € HT 6 - 7 avr. 2017 Genève / 1 900 CHF 1 - 2 juin 2017 Paris / 1 580 € HT 7 - 8 sept. 2017 Paris / 1 580 € HT 16 - 17 nov. 2017 Genève / 1 900 CHF Tarif & dates intra : Sur demande 2 Programme formation "HADOOP" Date d'impression : 07/02/2017 (HWAPH) • Formation officielle Hortonworks "Développer des applications pour Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1) (HWSPK) • Formation officielle Hortonworks "Développer des applications pour Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV) • Formation officielle Hortonworks "Développer des applications pour YARN avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications) (HWYAR) • Formation officielle Cloudera "Apache Spark pour développeurs de Cloudera" (Cloudera Developer Training for Apache Spark) (CLSPK) • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) 3 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1 INTRODUCTION AU BIG DATA • Qu’est-ce que Big Data ? • Les grands enjeux métier • Paysage technologique : les architectures Big Data INTRODUCTION À HADOOP • Historique succinct • Le cœur de la plateforme : HDFS et YARN • L’écosystème Hadoop - Frameworks et algorithmes - Bases de données - Traitements des données - Intégration • Hadoop et la sécurité des données MANIPULER LA LIGNE DE COMMANDE HADOOP • Présentation des principales commandes • Mise en pratique "Manipulation et transfert de fichiers en ligne de commande UNE INTERFACE UTILISATEUR POUR HADOOP : HUE • Présentation de Hue et de ses modules • Mise en pratique "Manipulation interactive de données" INTERROGER HADOOP AVEC DU SQL : HIVE • Présentation de Hive • Mise en pratique "Manipulation de données avec SQL" - Créer un modèle de données - Importer des fichiers sources - Requêter les données Jour 2 TRANSFORMER DES DONNÉES : LE LANGAGE PIG • Présentation de Pig • Mise en pratique "Transformation de données avec Pig" - Charger des données semi-structurées - Croiser avec des données Hive - Sauvegarder le résultat dans HDFS ECRITURE DE TRAITEMENTS AVANCÉS • Présentation du framework Hadoop Streaming • Présentation express du langage Python et du squelette de programme pour l’exercice • Mise en pratique "Ecriture d’un programme de manipulation complexe" 4 Programme formation "HADOOP" Date d'impression : 07/02/2017 COMPOSITION ET ORDONNANCEMENT DE TRAITEMENTS • Présentation d’Oozie • Mise en pratique "Création d’un pipeline de traitement de données" 5 Programme formation "HADOOP" Date d'impression : 07/02/2017 BEST Administrer la plateforme Hadoop 2.X Hortonworks : niveau 1 Formation Hadoop officielle Hortonworks "HDP Operations: HDP Administration 1" DESCRIPTION Cette session prépare au rôle d’administrateur au sein d’un contexte technologique innovant et en particulier au cours d’un projet Big Data. A travers des exercices concrets, vous apprendrez à installer, configurer et maintenir un cluster Hadoop. Stage pratique HADOOP A la fin de cette formation, vous aurez une compréhension solide de comment Hadoop fonctionne avec le Big Data et, à travers nos mises en pratique, vous saurez déployer tout le cycle de vie pour des clusters multinœuds. Durée : 4 jours (28 heures) Code : HWADM Certification : 280 € HT OBJECTIFS PÉDAGOGIQUES Dimensionner un cluster Hadoop Installer un cluster Hadoop Configurer un cluster Hadoop Sécuriser un cluster Hadoop Maintenir un cluster Hadoop Exposés : 40% Cas pratiques : 50% PUBLIC CIBLE Échanges d'expérience : 10% Architecte Administrateur Sessions à venir : PRÉ-REQUIS • Connaissances de l’environnement Linux. MÉTHODE PÉDAGOGIQUE Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation. Cette formation prépare à la certification éditeur Hortonworks. POUR ALLER PLUS LOIN : • Site internet Hortonworks • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2) (HWAD2) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : sécurité" (HDP Operations: Security) (HWADS) • Formation officielle Hortonworks "Administrer la base de données HBase avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced Management) (HWHB2) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X 27 - 30 mar. 2017 Genève / 3 000 CHF 27 - 30 mar. 2017 Paris / 2 550 € HT 26 - 29 juin 2017 Paris / 2 550 € HT 28 - 31 août 2017 Paris / 2 550 € HT 9 - 12 oct. 2017 Paris / 2 550 € HT Tarif & dates intra : Sur demande 6 Programme formation "HADOOP" Date d'impression : 07/02/2017 Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive) (HWAPH) • Formation officielle Hortonworks "Développer des applications pour Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1) (HWSPK) • Formation officielle Hortonworks "Développer des applications pour Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV) • Formation officielle Hortonworks "Développer des applications pour YARN avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications) (HWYAR) • Formation officielle Cloudera "Apache Spark pour développeurs de Cloudera" (Cloudera Developer Training for Apache Spark) (CLSPK) • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) 7 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1 BIG DATA, HADOOP ET LA PLATEFORME HORTONWORKS : LES BASES DU BIG DATA • • • • Les produits de la HDP Qu’est-ce que Hadoop ? Une architecture de cluster type Introduction à Ambari GESTION DES UTILISATEURS AVEC AMBARI • Gérer les users et les groupes • Gérer les permissions • Mise en pratique : "Gestion des utilisateurs avec Ambari" GESTION DES SERVICES HADOOP VIA AMBARI • • • • Configuration des services Surveillance des services Maintenance des services Mise en pratique : "Gestion des services Hadoop" UTILISER LE STOCKAGE HDFS • Accéder aux données • Gestion des fichiers • Mise en pratique : "Utiliser le stockage HDFS" Jour 2 UTILISER LE STOCKAGE HDFS (SUITE) • • • • Les web services d’HDFS Mise en pratique : "Utiliser WebHDFS" Protéger les accès Mise en pratique : "Utiliser les ACLs HDFS" GESTION DU STOCKAGE HDFS • • • • • Architecture HDFS Assurer l’intégrité de la donnée Mise en pratique : "Gestion du stockage sur HDFS" Les quotas HDFS Mise en pratique : "Gestion des quotas sur HDFS" GESTION DES RESSOURCES AVEC YARN • • • • • Architecture de YARN Utilisation de YARN Les différentes façons de gérer YARN Mise en pratique : "Configurer et gérer YARN" Mise en pratique : "Gestion de YARN sans Ambari" 8 Programme formation "HADOOP" Date d'impression : 07/02/2017 Jour 3 DÉCOUVERTE DES APPLICATIONS YARN • Les bases d’une application YARN • Mise en pratique : "Démarrer une application YARN" GESTION DES NŒUDS DANS UN CLUSTER • Ajouter, enlever un nœud du cluster • Déplacer des composants • Mise en pratique : "Ajouter, décommissionner et recommissionner un nœud" LE CAPACITY SCHEDULER DE YARN • • • • • Contrôler la répartition des ressources grâce aux queues YARN Contrôler les accès sur les queues YARN Mise en pratique : "Configuration des utilisateurs et des groupes pour YARN" Mise en pratique : "Configurer les ressources avec les queues" Mise en pratique : "Tuning de la gestion des ressources" GESTION DES RACKS SUR HADOOP • Les bénéfices de la "rack awareness" • Configurer la "rack awareness" • Mise en pratique : "Configurer la rack awareness" Jour 4 ACTIVER LA HAUTE DISPONIBILITÉ AVEC HDFS ET YARN • • • • • Les principes de la haute disponibilité Haute disponibilité du Namenode Haute disponibilité du Resource manager Mise en pratique : "Configurer la haute disponibilité du namenode" Mise en pratique : "Configurer la haute disponibilité du resource manager" SURVEILLANCE DE CLUSTER • Surveillance avec Ambari • Lever des alertes avec Ambari • Mise en pratique : "Configurer les alertes avec Ambari" PROTÉGER SES DONNÉES • • • • • De l’importance des backups Les snapshots HDFS Utiliser DistCP Mise en pratique : "Gestion des snapshots HDFS" Mise en pratique : "Utiliser DistCP" INSTALLER LA HDP • Identifier les options de déploiement de cluster • Planifier un déploiement de cluster 9 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Faire une installation avec Ambari • Mise en pratique : "Installer la HDP" 10 Programme formation "HADOOP" Date d'impression : 07/02/2017 EXCLU Administrer la plateforme Hadoop 2.X Hortonworks : niveau avancé Formation Hadoop officielle Hortonworks "HDP Administrator: HDP Administration 2" DESCRIPTION Cette formation est destinée aux administrateurs de plateforme HDP qui souhaiteraient approfondir leurs connaissances. Le focus est mis sur la haute disponibilité des divers outils, la gouvernance de la donnée, les réglages avancés de la plateforme ainsi que l’automatisation de déploiement de celleci. OBJECTIFS PÉDAGOGIQUES Mettre en place une gestion avancée du stockage sur HDFS Piloter une gestion avancée de l’utilisation des ressources avec YARN et Slider Réaliser un paramétrage avancé des outils de développement Assurer une gouvernance de la donnée avec Falcon et Oozie Automatiser le déploiement avec Ambari Blueprint PUBLIC CIBLE Administrateur et architecte de la plateforme HDP cherchant à approfondir et à développer leurs compétences. Stage pratique HADOOP Code : HWAD2 Durée : 3 jours (21 heures) Certification : 280 € HT Exposés : 40% Cas pratiques : 50% Échanges d'expérience : 10% PRÉ-REQUIS • Avoir suivi la formation "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HWADM) serait un plus. • Expérience en ligne de commande. • Expérience en administration de la HDP. MÉTHODE PÉDAGOGIQUE Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation. Cette formation prépare à la certification éditeur Hortonworks. Sessions à venir : 13 - 15 mar. 2017 Paris / 1 950 € HT 6 - 8 juin 2017 Paris / 1 950 € HT 11 - 13 sept. 2017 Paris / 1 950 € HT 11 - 13 déc. 2017 Paris / 1 950 € HT POUR ALLER PLUS LOIN : • Site internet Hortonworks • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : sécurité" (HDP Operations: Security) (HWADS) • Formation officielle Hortonworks "Administrer la base de données HBase avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced Management) (HWHB2) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Tarif & dates intra : Sur demande 11 Programme formation "HADOOP" Date d'impression : 07/02/2017 Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive) (HWAPH) • Formation officielle Hortonworks "Développer des applications pour Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1) (HWSPK) • Formation officielle Hortonworks "Développer des applications pour Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV) • Formation officielle Hortonworks "Développer des applications pour YARN avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications) (HWYAR) • Formation officielle Cloudera "Apache Spark pour développeurs de Cloudera" (Cloudera Developer Training for Apache Spark) (CLSPK) • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) 12 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1 UPGRADE DE VERSION HDP • • • • Compatibilités de version Les prérequis à la montée de version Installer la nouvelle version Mise en pratique : "Faire une montée de version HDP" CONFIGURATION DU STOCKAGE HÉTÉROGÈNE HDFS • • • • • Les différents stockages physiques supportés Stockage asymétrique Politique de stockage de la donnée Configurer ses politiques Mise en pratique : "Configurer les politiques de stockage HDFS" GATEWAY NFS SUR HDFS • • • • • Monter une gateway NFS Comment scaler son gateway ? Authentification des utilisateurs Installation de la gateway Mise en pratique : "Configurer la gateway NFS" CONFIGURER LE CACHE CENTRALISÉ HDFS • • • • • Qu’est-ce que le cache centralisé ? Mécanique interne du cache Utilisation du cache Gestion du cache Mise en pratique : "Configurer le cache centralisé HDFS" GESTION DE LA COMPRESSION DE LA DONNÉE • Trade-off de la compression • Quel niveau de compression pour vos données ? • Codecs et sérialisation Jour 2 LES LABELS SUR LES NŒUDS YARN • • • • Principes de base et application Gestion des labels Activer et configurer les labels Mise en pratique : "Configurer et tester les labels de nœuds YARN" DÉPLOIEMENT D’APPLICATIONS AVEC APACHE SLIDER • Quels usages pour Slider ? • L’intégration avec YARN 13 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Slider pour les développeurs • Déployer une application Slider • Mise en pratique : "Déployer HBase avec Slider" INTÉGRATION DU LDAP AVEC AMBARI • Configurer le LDAP avec Ambari • Synchronisation des utilisateurs • Mise en pratique : "Intégrer un LDAP avec Ambari" PARAMÉTRAGE DE HIVE • Vers des requêtes Hive interactive • Améliorer Hive avec Tez HAUTE DISPONIBILITÉ DU SERVEUR HIVE • • • • L’architecture de Hive Les prérequis pour la HA Installer et configurer la HA Mise en pratique : "Configurer la HA Hive" GESTION DES WORKFLOWS AVEC OOZIE • • • • Retour sur les possibilités offertes L’architecture d’Oozie Déploiement de jobs sur Oozie Mise en pratique : "Gestion de workflow avec Oozie" Jour 3 HAUTE DISPONIBILITÉ OOZIE • • • • Prérequis à la HA Architecture HA pour Oozie Configurer la HA Mise en pratique : "Configurer la HA Oozie" INTRODUCTION À FALCON • • • • • • • • Les challenges de la gouvernance de la donnée Le cycle de vie de la donnée Lineage de la donnée Architecture Falcon Déploiement de Falcon Les entités Falcon Mirroring avec Falcon Mise en pratique : "Configurer les entités et le mirroring Falcon" PROVISIONNEMENT DE CLUSTER AVEC LES BLUEPRINTS AMBARI • Déploiement de cluster à la volée grâce aux blueprints • Capturer les blueprints • Déploiement de template de création 14 Programme formation "HADOOP" Date d'impression : 07/02/2017 • • • • Les fichiers de configuration logique Les templates de création pour les noeuds Les bonnes pratiques pour le déploiement avec les blueprints Mise en pratique : "Déploiement de cluster et ajouts de nœuds avec les blueprints Ambari" 15 Programme formation "HADOOP" Date d'impression : 07/02/2017 EXCLU Administrer la plateforme Hadoop 2.X Hortonworks : sécurité Formation Hadoop officielle Hortonworks "HDP Operations: Security" DESCRIPTION Cette formation est destinée aux administrateurs de la plateforme HDP qui souhaiteraient approfondir leurs connaissances en matière de sécurité. Le focus est mis sur les outils permettant de sécuriser la plateforme en termes d’authentification, d’autorisation et d’audit. Stage pratique HADOOP OBJECTIFS PÉDAGOGIQUES Durée : 3 jours (21 heures) Introduire les 5 piliers de la sécurité Décrire la façon dont la sécurité est intégrée à Hadoop Découvrir et installer Kerberos Protéger son cluster avec Knox Gérer les permissions et l’audit avec Ranger Code : HWADS Exposés : 40% PUBLIC CIBLE Cas pratiques : 50% Administrateur et architecte de la plateforme HDP cherchant à approfondir et à développer leurs compétences Échanges d'expérience : 10% PRÉ-REQUIS • Avoir suivi la formation "Administrer la plateforme Hadoop 2.X Hortonworks 1" serait un plus (HWADM). • Expérience en ligne de commande. • Expérience en administration de la plateforme HDP. MÉTHODE PÉDAGOGIQUE Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation. POUR ALLER PLUS LOIN : • Site internet Hortonworks • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2) (HWAD2) • Formation officielle Hortonworks "Administrer la base de données HBase avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced Management) (HWHB2) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive) (HWAPH) Sessions à venir : 20 - 22 mar. 2017 Paris / 1 950 € HT 21 - 23 juin 2017 Paris / 1 950 € HT 4 - 6 sept. 2017 Genève / 2 300 CHF 18 - 20 sept. 2017 Paris / 1 950 € HT 18 - 20 déc. 2017 Paris / 1 950 € HT Tarif & dates intra : Sur demande 16 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Formation officielle Hortonworks "Développer des applications pour Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1) (HWSPK) • Formation officielle Hortonworks "Développer des applications pour Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV) • Formation officielle Hortonworks "Développer des applications pour YARN avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications) (HWYAR) • Formation officielle Cloudera "Apache Spark pour développeurs de Cloudera" (Cloudera Developer Training for Apache Spark) (CLSPK) • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) 17 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1-3 DÉCRIRE LES 5 PILIERS D’UN ENVIRONNEMENT SÉCURISÉ LISTER LES BESOINS POUR UN ENVIRONNEMENT HADOOP SÉCURISÉ DÉCOUVRIR COMMENT LA SÉCURITÉ EST INTÉGRÉE DANS HADOOP CHOISIR VOS OUTILS DE SÉCURITÉ EN FONCTION DE VOS USAGES LISTER LES PRÉREQUIS DE LA SÉCURITÉ CONFIGURER KERBEROS VIA AMBARI CONFIGURER KERBEROS POUR HADOOP SAVOIR ACTIVER KERBEROS INSTALLER ET CONFIGURER KNOX INSTALLER ET CONFIGURER RANGER INSTALLER ET CONFIGURER LE RANGER KEY MANAGEMENT SERVICES (KMS) UTILISER RANGER POUR SÉCURISER L’ACCÈS AUX DONNÉES LISTER LES SOLUTIONS DISPONIBLES DES PARTENAIRES MISES EN PRATIQUE : • • • • • • • • • • • • • • • Activer l’intégration entre l’OS et AD/LDAP Configurer l’utilisateur du daemon Ambari en non-root Crypter la base de données Ambari Activer l’authentification AD/LDAP sur Ambari Activer HTTPS/SSL pour Ambari Configurer le Two-Way SSL entre les agents Ambari et le serveur Activer l’authentication SPNEGO pour Hadoop Configurer les Ambari Views pour Kerberos Installer Knox par Ambari Configurer la passerelle Knox Configurer Knox pour l’authentification LDAP/AD Installer Ranger via Ambari Configurer Ranger Configurer Ranger KMS Configurer HDFS pour le cryptage des données 18 Programme formation "HADOOP" Date d'impression : 07/02/2017 • • • • Configurer Hive pour le cryptage HDFS Activer l’audit sur le Ranger KMS Utiliser le Ranger KMS Tester les accès sécurisés via HDFS, Hive, Pig et Sqoop 19 Programme formation "HADOOP" Date d'impression : 07/02/2017 Administrer la base de données HBase avec Hadoop 2.X Hortonworks Formation Hadoop officielle Hortonworks "HDP Operations: Apache HBase Advanced Management" DESCRIPTION Inspirée des publications de Google sur BigTable, HBase est un SGBD non relationnel capable de gérer d'énormes quantités de données. Intégré à l’écosystème Hadoop, il permet de distribuer les données en utilisant le système de fichiers distribué HDFS (Hadoop Distributed File System) du framework. Son fonctionnement, qui repose donc sur le stockage distribué des données sur un cluster de machines physiques, garantit à la fois la haute disponibilité et les hautes performances des bases. Deux arguments de poids qui suffisent à comprendre le succès croissant de la solution. A l’issue de cette formation, les participants disposeront des connaissances et compétences nécessaires à la mise en œuvre de HBase. OBJECTIFS PÉDAGOGIQUES Savoir installer HBase Sécuriser les accès cluster Assurer la maintenance des données Monitorer HBase pour faciliter la résolution de problème Optimiser les performances PUBLIC CIBLE Architecte Administrateur Analyste Développeur Tech lead Chef de projet Gestionnaire de bases de données Stage pratique HADOOP Code : HWHB2 Durée : 4 jours (28 heures) Exposés : 40% Cas pratiques : 50% Échanges d'expérience : 10% Sessions à venir : 18 - 21 avr. 2017 Paris / 2 550 € HT 16 - 19 oct. 2017 Paris / 2 550 € HT Tarif & dates intra : Sur demande PRÉ-REQUIS • Connaissance de l’environnement Linux et des SGBD relationnels MÉTHODE PÉDAGOGIQUE Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation. POUR ALLER PLUS LOIN : • Site internet Hortonworks • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X 20 Programme formation "HADOOP" Date d'impression : 07/02/2017 Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2) (HWAD2) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : sécurité" (HDP Operations: Security) (HWADS) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive) (HWAPH) • Formation officielle Hortonworks "Développer des applications pour Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1) (HWSPK) • Formation officielle Hortonworks "Développer des applications pour Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV) • Formation officielle Hortonworks "Développer des applications pour YARN avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications) (HWYAR) • Formation officielle Cloudera "Apache Spark pour développeurs de Cloudera" (Cloudera Developer Training for Apache Spark) (CLSPK) • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) 21 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1 INTRODUCTION À HADOOP • • • • Présentation de cas d’usage big data Différents types de données : structurée, non structurée Les caractéristiques d’un projet big data Hadoop et Hortonworks HDFS ET YARN • Démonstration pour la découverte et l’utilisation de HDFS (Hadoop Distributed File System) • Architecture de Yarn INTRODUCTION À HBASE • Modèle clé-valeur, lignes, colonnes • Architecture • Phoenix, une solution pour requêter HBase en SQL Jour 2 INSTALLATION • • • • • • Installations de Standalone : semi-distribuées ou pleinement distribuées Prérequis demandés : Java, Zookeeper, Master Server, Region Server Installation manuelle ou automatisée avec Ambari Mise en pratique : "Installation automatisée avec Ambari" Mise en pratique : "Installation manuelle" Vérification de l'installation UTILISATION DU CLIENT • • • • • Commandes générales Manipulation des tables Manipulation des données Mise en pratique : "Exploration des commandes" Mise en pratique : "Administration du cluster (régions, balance, etc.)" INGESTION DE DONNÉES • • • • • • • • Composants impliqués dans le stockage (re, Write Ahead log, Memstore, HFile, etc.) Modèle de stockage : paires clés-valeur, clés de lignes, familles de colonnes, etc. Appréhender les mécanismes de lecture et d'écriture de données Flush process (memstore, etc.) Compactage des régions Ingestion de données en masse (import tsv, coompletebulkload) Mise en pratique : "Utiliser ImportTSV pour ingérer des données" CopyTable (use cases, exemples) 22 Programme formation "HADOOP" Date d'impression : 07/02/2017 Jour 3 GESTION DES OPÉRATIONS • • • • • • • Utilisation d'Ambari pour gérer HBase Haute disponibilité (sauvegarde des maires, lectures HA) Mise en pratique : "Haute disponibilité" Log files (log4j, Linux, GUI Master Server) Mise en pratique : "Log files" Coprocesseur : le pendant des triggers SQL Filtres (filtres de scan, filtres customs) SAUVEGARDE ET RESTAURATION DES DONNÉES • • • • • Protection des données : réplication HDFS, réplication de clusters, backup et snapshots Mise en pratique : "Snapshots" Réplication de cluster : topologies, configuration Mise en pratique : "Réplication" Snapshots hbase : processus, création et gestion, travailler avec SÉCURITÉ • • • • • • • • Authentification Autorisations et Access Control Lists Mise en pratique : "Autorisations et Access Control Lists" Commandes Hbase Shell relatives à la sécurité Ranger : un outil pour configurer les autorisations sur l'ensemble du cluster Knox : un point d'accès sécurisé au cluster Authentifications simples Bulk load secure Jour 4 MONITORING HBASE ET DIAGNOSTIC DES PROBLÈMES • • • • • • Métriques importantes (Master Server, Region Server) Les outils de monitoring HBase : Nagios, Ganglia, OpenTSDB Identifier les HotSpots Mise en pratique : "Identifier les hotspots" Eviter les hotspots par le design des clés de ligne Utiliser le pré-split MAINTENANCE • • • • • • Split de régions Mise en pratique : "Split de régions" Load balancer Monitoring de la taille des régions Split et merge manuel de régions Problèmes d'intégrité (utilisation de hbck) RÉSOLUTION DE PROBLÈMES • Vérification des statuts Zookeeper 23 Programme formation "HADOOP" Date d'impression : 07/02/2017 • • • • • Monitoring des garbage collection de la JVM Mise en pratique : "Monitoring des garbage collection de la JVM" Résolution des erreurs au démarrage des serveurs HBase Régler HBase pour obtenir de meilleures performances Régler HDFS pour obtenir de meilleures performances PROJET RÉCAPITULATIF 24 Programme formation "HADOOP" Date d'impression : 07/02/2017 Analyse de données pour Hadoop 2.X Hortonworks avec HBase Formation Hadoop officielle Hortonworks "HDP Analyst: Apache HBase Essentials" DESCRIPTION Inspirée des publications de Google sur BigTable, HBase est un SGBD non relationnel capable de gérer d'énormes quantités de données. Intégré à l’écosystème Hadoop, il permet de distribuer les données en utilisant le système de fichiers distribué HDFS (Hadoop Distributed File System) du framework. Son fonctionnement, qui repose donc sur le stockage distribué des données sur un cluster de machines physiques, garantit à la fois la haute disponibilité et les hautes performances des bases. Deux arguments de poids qui suffisent à comprendre le succès croissant de la solution. A l’issue de cette formation, les participants disposeront des connaissances et compétences nécessaires à la mise en oeuvre de HBase. Stage pratique HADOOP OBJECTIFS PÉDAGOGIQUES Cas pratiques : 65% Découvrir le fonctionnement de HBase Savoir configurer et utiliser HBase Modéliser une table HBase Prendre en main et utiliser les différents outils à disposition Code : HWHB1 Durée : 2 jours (14 heures) Exposés : 25% Échanges d'expérience : 10% PUBLIC CIBLE Sessions à venir : Architecte Administrateur Développeur de logiciel Analyste 23 - 24 mar. 2017 Paris / 1 540 € HT 21 - 22 sept. 2017 Paris / 1 540 € HT PRÉ-REQUIS • Connaissance de l’environnement Linux. • Connaissance des bases de données relationnelles. Tarif & dates intra : Sur demande MÉTHODE PÉDAGOGIQUE Une pédagogie basée sur l'alternance de phases théoriques et de mises en pratique qui permet aux participants d'acquérir une première expérience concrète du stockage de données en environnement HBase. Des échanges avec l’intervenant sur les meilleures pratiques pour garantir la disponibilité des bases et leurs performances. POUR ALLER PLUS LOIN : • Site internet Hortonworks • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2) (HWAD2) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X 25 Programme formation "HADOOP" Date d'impression : 07/02/2017 Hortonworks : sécurité" (HDP Operations: Security) (HWADS) • Formation officielle Hortonworks "Administrer la base de données HBase avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced Management) (HWHB2) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive) (HWAPH) • Formation officielle Hortonworks "Développer des applications pour Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1) (HWSPK) • Formation officielle Hortonworks "Développer des applications pour Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV) • Formation officielle Hortonworks "Développer des applications pour YARN avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications) (HWYAR) • Formation officielle Cloudera "Apache Spark pour développeurs de Cloudera" (Cloudera Developer Training for Apache Spark) (CLSPK) • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) 26 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1 GENERALITES • • • • • Rappels rapides sur l'écosystème Hadoop Hortonworks HDFS Yarn Mise en pratique : lancement d’une tâche MapReduce INTRODUCTION A HBASE • Fonctionnement général • Mise en pratique : - Utilisation du client HBase - Importation d’une table MySQL avec Sqoop ARCHITECTURE • Fonctionnement et cycle de vie des régions HBase • Orchestration du cluster avec Zookeeper • Mise en pratique : manipulation des nœuds ZooKeeper SERVICES ET OPERATIONS • HMaster et RegionServer • Opérations : get, put, scans • Mise en pratique : prise en main des fichiers de configuration Jour 2 COMMANDES • • • • • Manipulation des données Manipulation des tables Réparations Réplication de clusters Mise en pratique : utilisation des commandes CONFIGURATION ET DISTRIBUTIONS • • • • Configuration HBase et Zookeeper Distributions HBase Backups Mises en pratique : - Backup et snapshots - Exports avec Pig, imports avec Importtsv CONCEPTION D’UN SCHEMA HBASE • Modèle de données HBase • Designer les clés de lignes : patterns et techniques 27 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Modèle de table pour une application de messagerie • Familles de colonnes • Mise en pratique : - Familles de colonnes - Etude de cas : application de suivi de colis OPTIMISATION • Blocs, caches, filtres de bloom, memstore, logs • Filtres de colonnes • Mise en pratique : manipulation des filtres de bloom DEMONSTRATION : REALISATION D’UN CLIENT JAVA HBASE 28 Programme formation "HADOOP" Date d'impression : 07/02/2017 BEST Analyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark Formation Hadoop officielle Hortonworks "HDP Developer: Apache Pig and Hive" DESCRIPTION Cette formation présente les grands outils de l’écosystème Hadoop en se focalisant plus spécifiquement sur Pig et Hive. Le principal objectif est le développement de compétences de data analyst orientées accès et traitement des données sans nécessairement avoir un fort background technique. OBJECTIFS PÉDAGOGIQUES Stage pratique HADOOP Code : HWAPH Durée : 4 jours (28 heures) Identifier et définir les différents composants de l’écosystème Hadoop Appréhender l’architecture de Hadoop 2.X Expérimenter les outils d’exploration et d’analyse avancée de données Certification : 280 € HT PUBLIC CIBLE Exposés : 40% Analyste Statisticien Développeur PRÉ-REQUIS • Connaissances de base en scripting (SQL, Python, R) ou en programmation. Cas pratiques : 50% Échanges d'expérience : 10% Sessions à venir : MÉTHODE PÉDAGOGIQUE Formation mêlant des apports théoriques à de nombreux travaux pratiques sous forme d’exercices d’application et d’analyse de uses cases métier complétés des retours d’expérience du formateur. POUR ALLER PLUS LOIN : • Site internet Hortonworks • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2) (HWAD2) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : sécurité" (HDP Operations: Security) (HWADS) • Formation officielle Hortonworks "Administrer la base de données HBase avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced Management) (HWHB2) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1) • Formation officielle Hortonworks "Développer des applications pour Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1) (HWSPK) 6 - 9 mar. 2017 Paris / 2 550 € HT 15 - 18 mai 2017 Genève / 3 000 CHF 12 - 15 juin 2017 Paris / 2 550 € HT 11 - 14 sept. 2017 Paris / 2 550 € HT 27 - 30 nov. 2017 Paris / 2 550 € HT Tarif & dates intra : Sur demande 29 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Formation officielle Hortonworks "Développer des applications pour Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV) • Formation officielle Hortonworks "Développer des applications pour YARN avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications) (HWYAR) • Formation officielle Cloudera "Apache Spark pour développeurs de Cloudera" (Cloudera Developer Training for Apache Spark) (CLSPK) • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) 30 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1 COMPRENDRE HADOOP 2.X • L’architecture de Hadoop 2.X • The Hortonworks Data Platform (HDP) LE SYSTÈME DE FICHIERS DISTRIBUÉ HDFS • Architecture fonctionnelle de HDFS - Exercice d’interaction en ligne de commande avec HDFS ALIMENTER HDFS EN DONNÉES • Prise en main de l’outil Flume • Prise en main de l’outil Sqoop - Application de ces deux outils d’import et d’export des données LE FRAMEWORK MAPREDUCE • Architecture et fonctionnement général de MapReduce - Exemples d’utilisation d’un job MapReduce • Présentation de Hadoop Streaming Jour 2 INTRODUCTION À PIG • Types et mots-clés dans Pig - Exploration de données avec Pig PROGRAMMATION PIG AVANCÉE • Mots-clés et fonctionnalités avancées dans Pig • Jointures dans Pig • Astuces d’optimisation de scripts Pig - Analyse de cas d’usages métier divers avec Pig Jour 3 PROGRAMMATION HIVE • Types et mots-clés dans Hive • Concept de table et base de données dans Hive • Présentation et explication des types de jointures - Démonstration de jointures - Analyse de cas d’usages métier UTILISER HCATALOG • Fonctionnement et utilisation de HCatalog - Démonstration du fonctionnement de HCatalog 31 Programme formation "HADOOP" Date d'impression : 07/02/2017 Jour 4 PROGRAMMATION HIVE AVANCÉE • Les vues dans Hive • Les différents formats de stockage des tables Hive • Optimisation de scripts Hive - Illustration des fonctions avancées HADOOP 2.X ET YARN • Architecture de YARN - Démonstration d’une application YARN APACHE SPARK • Introduction à Spark • Programmation Spark (RDD, programmation fonctionnelle) - Ecriture d’un job Spark en Python • Spark SQL et les DataFrames - Utilisation de Spark SQL et des DataFrames sur des tables Hive et des fichiers HDFS CRÉER ET UTILISER UN WORKFLOW OOZIE • Workflow et coordinateur Oozie • Actions possibles avec Oozie 32 Programme formation "HADOOP" Date d'impression : 07/02/2017 EXCLU Développer des applications pour Apache Spark avec Python ou Scala Formation Hadoop officielle Hortonworks "HDP Developer: Enterprise Apache Spark I" DESCRIPTION Spark est né en 2009 dans le laboratoire AMPLab de l’université de Berkeley. Ce framework offre un modèle de programmation plus simple que celui du MapReduce d’Hadoop et surtout plus rapide avec des temps d’exécution jusqu’à 100 fois plus courts. Avec Spark, les développeurs peuvent écrire simplement des applications distribuées complexes qui permettent de prendre des meilleures décisions plus rapidement et des actions en temps réel, appliquées à une grande variété de cas d’utilisations, d’architecture et de secteurs d’activités. Cette formation s’adresse aux développeurs qui souhaitent créer et déployer des applications Big Data complètes et uniques en combinant batchs, le streaming et analyses interactives sur l’ensemble des données. OBJECTIFS PÉDAGOGIQUES Identifier et définir les différents composants de l’écosystème Hadoop Appréhender le fonctionnement de Spark Développer des applications avec Apache Spark Optimiser une application Spark Utiliser Spark SQL et les dataframes Faire de l’analyse en temps réel avec Spark streaming Découvrir MLLib pour du machine learning sur Spark Explorer, manipuler et visualiser votre donnée avec Zeppelin PUBLIC CIBLE Développeur d'applications avec des contraintes temps réel Ingénieur d’études Architecte technique Chef de projet technique PRÉ-REQUIS • Connaissances de base en programmation ou en scripting (Python/Scala) • Expérience basique en ligne de commande • Aucune connaissance sur Hadoop n’est requise • Connaissances en SQL et conception d'application temps réel utiles mais non obligatoire MÉTHODE PÉDAGOGIQUE Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation. Cette formation prépare à la certification éditeur Hortonworks. Stage pratique HADOOP Code : HWSPK Durée : 4 jours (28 heures) Certification : 280 € HT Exposés : 40% Cas pratiques : 50% Échanges d'expérience : 10% Sessions à venir : 24 - 27 avr. 2017 Paris / 2 550 € HT 2 - 5 mai 2017 Genève / 3 000 CHF 3 - 6 juil. 2017 Paris / 2 550 € HT 25 - 28 sept. 2017 Paris / 2 550 € HT 20 - 23 nov. 2017 Paris / 2 550 € HT Tarif & dates intra : Sur demande POUR ALLER PLUS LOIN : • Site internet Hortonworks • Livre blanc "Hadoop, feuille de route" 33 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2) (HWAD2) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : sécurité" (HDP Operations: Security) (HWADS) • Formation officielle Hortonworks "Administrer la base de données HBase avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced Management) (HWHB2) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive) (HWAPH) • Formation officielle Hortonworks "Développer des applications pour Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV) • Formation officielle Hortonworks "Développer des applications pour YARN avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications) (HWYAR) • Formation officielle Cloudera "Apache Spark pour développeurs de Cloudera" (Cloudera Developer Training for Apache Spark) (CLSPK) • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) 34 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1 INTRODUCTION À HADOOP, HORTONWORKS ET AU BIG DATA • • • • Cas d’usage pour Hadoop Qu’est-ce que Big Data ? HDP, Hortonworks et l’écosystème Hadoop Pourquoi utiliser Hortonworks ? INTRODUCTION À APACHE SPARK • • • • Qu’est-ce que Spark et d’où vient-il ? Pourquoi utiliser Spark ? Spark vs MapReduce L’évolution rapide de Spark et l’engagement d’Hortonworks PROGRAMMER AVEC APACHE SPARK • • • • • • • Les composants de Spark Premiers pas avec Spark Les RDD Transformations et actions Spark Hello World (wordcount) Lazy evaluation Mise en pratique: "Assurer ses premiers pas avec Apache Spark" VUE D’ENSEMBLE DE HDFS ET YARN • • • • • Vue d’ensemble de HDFS Le Namenode et le Datanode Vue d’ensemble de YARN Composants cœur de YARN Mise en pratique: "Utiliser les commandes HDFS" PROGRAMMATION RDD AVANCÉE • • • • D’autres fonctions de RDD "cœur" Fonctions de RDD paires Utiliser la documentation de Spark Mise en pratique : "Utiliser le stockage HDFS" Jour 2 PROGRAMMATION PARALLÈLE AVEC SPARK • • • • Partitionnement, jobs, stage et tasks L’UI de Spark Changer le niveau de parrallélisation Mise en pratique : Programmation parallèle sur Spark CACHER ET PERSISTER LA DONNÉE 35 Programme formation "HADOOP" Date d'impression : 07/02/2017 • • • • • Cache et persistance Mise en pratique : "cacher et persister la donnée" Exemple d’application itérative : PageRank Checkpointing Mise en pratique : "Checkpointing et RDD lineage" CRÉER DES APPLICATIONS SPARK • • • • • • Créer une application à soumettre au cluster Soumettre une application au cluster Yarn client vs Yarn cluster Points importants de configuration Gérer/packager les dépendances Mise en pratique : "Créer une application Spark standalone" Jour 3 FONCTIONNALITÉS AVANCÉES ET AMÉLIORATION DES PERFORMANCES • • • • • • Accumulateurs Mise en pratique : "Utiliser les accumulateurs pour vérifier la qualité des données" Variables « broadcast » Mise en pratique : "Utiliser les variables broadcast" Partitionnement avancé et opérations Point de départ pour l’optimisation TRAVAILLER VOS DONNÉES AVEC ZEPPELIN • L'exploration de données en Spark avec Zeppelin • Visualisation de données avec Zeppelin • Faire du reporting avec Zeppelin SPARK SQL • • • • • • Les concepts de Spark SQL Créer une Dataframe Sauvegarder une Dataframe Spark SQL et UDF Mise en pratique : "Spark SQL avec utilisation d’UDF" Mise en pratique : "Spark SQL avec Hive" Jour 4 SPARK STREAMING • • • • • • L’architecture de Spark Streaming Vue d’ensemble de Spark Streaming Fiabilité des récepteurs et des sources Transformations et opérations de sorties Mise en pratique : "Wordcount en Spark Streaming" Configurer le checkpointing 36 Programme formation "HADOOP" Date d'impression : 07/02/2017 SPARK MLLIB • Vue d’ensemble de MLLib • Apprentissage supervisé • Apprentissage non supervisé 37 Programme formation "HADOOP" Date d'impression : 07/02/2017 Développer des applications pour Hadoop 2.X Hortonworks avec Java Formation Hadoop officielle Hortonworks "HDP Developer: Java" DESCRIPTION Ce stage de formation présente les grands outils de l’écosystème Hadoop d’un point de vue technique et est orienté développement Java. Les objectifs principaux sont d’avoir une parfaite compréhension et pratique du framework d’exécution de calculs MapReduce ainsi que d’être capable de développer des modules d’extensions de Pig et Hive. OBJECTIFS PÉDAGOGIQUES Identifier et définir les différents composants de l’écosystème Hadoop Appréhender l’architecture de Hadoop 2.X Mettre en application les techniques avancées MapReduce Analyser un use case métier et valoriser les données correspondantes PUBLIC CIBLE Architecte Développeur Analyste PRÉ-REQUIS Stage pratique HADOOP Code : HWJAV Durée : 4 jours (28 heures) Certification : 280 € HT Exposés : 40% Cas pratiques : 50% Échanges d'expérience : 10% • Bonne connaissance du langage Java. MÉTHODE PÉDAGOGIQUE Tarif & dates intra : Sur demande Formation avec d’importants apports théoriques, des retours d’expérience du formateur complétés de travaux pratiques sous forme d’exercices d’application et d’analyse de uses cases métier. POUR ALLER PLUS LOIN : • Site internet Hortonworks • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2) (HWAD2) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : sécurité" (HDP Operations: Security) (HWADS) • Formation officielle Hortonworks "Administrer la base de données HBase avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced Management) (HWHB2) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive) (HWAPH) 38 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Formation officielle Hortonworks "Développer des applications pour Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1) (HWSPK) • Formation officielle Hortonworks "Développer des applications pour YARN avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications) (HWYAR) • Formation officielle Cloudera "Apache Spark pour développeurs de Cloudera" (Cloudera Developer Training for Apache Spark) (CLSPK) • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) 39 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1 COMPRENDRE HADOOP 2.X ET HDFS • Hadoop et Hadoop 2.X • Le système de gestion de ressources et de cluster YARN • Le système de fichiers distribué HDFS - Prise en main de l’environnement de développement Hadoop et accès aux fichiers HDFS ECRIRE DES APPLICATIONS MAPREDUCE • Illustration avec un exemple simple • Grands principes du framework MapReduce • MapReduce sur YARN - Développement de programmes MapReduce LES AGRÉGATIONS AVEC MAPREDUCE • Utilisation des combiners • Utilisation de l’in-map agrégation - Mise en pratique de l’agrégation à travers deux exemples Jour 2 PARTITIONNEMENT ET TRI • Le partitioner de MapReduce • Analyse et compréhension du Secondary Sort - Implémentation de deux types de Partitioner - Implémentation du Secondary Sort à travers un cas pratique INPUT ET OUTPUT FORMATS • Récapitulatifs des formats d’entrée et de sortie standards MapReduce • Analyse du fonctionnement d’un input format - Implémentations d’un input format et d’un output format OPTIMISER LES JOBS MAPREDUCE • Optimisation des différentes phases d’un programme MapReduce • Utilisation et paramétrage de la compression • Utilisation des comparateurs de données non sérialisées - Illustration du principe de la compression de données - Implémentation d’un RawComparator Jour 3 FONCTIONNALITÉS AVANCÉES DE MAPREDUCE • Localisation partagée des données • Les différents types de jointure 40 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Les filtres de Bloom - Illustration d’une jointure côté Map - Illustration de l’utilisation d’un filtre de Bloom TESTER UNITAIREMENT SON CODE • Présentation de la librairie MRUnit - Ecriture de tests unitaires PROGRAMMATION HBASE • Architecture de HBase • Interactions avec HBase - Import de données avec HBase - Illustration d’un job MapReduce avec HBase Jour 4 PROGRAMMATION PIG • Types et mots-clés dans Pig • Extension de Pig via les classes définies par l’utilisateur (UDF) - Implémentation d’une UDF PROGRAMMATION HIVE • Types et mots-clés dans Hive • Extension de Hive via les classes définies par l’utilisateur (UDF) - Implémentation d’une UDF CRÉER ET UTILISER UN WORKFLOW OOZIE • Workflow et coordinateur Oozie • Actions possibles avec Oozie 41 Programme formation "HADOOP" Date d'impression : 07/02/2017 Développer des applications pour YARN avec Hadoop 2.X Hortonworks Formation Hadoop officielle Hortonworks "HDP Developer: Custom Apache YARN Applications" DESCRIPTION Cet atelier vous présente le fonctionnement détaillé de YARN et la méthodologie pour développer ses propres applications avec le framework YARN. Durant ces deux journées, nous aborderons les différents patterns d'architecture logicielle avec YARN et les possibilités d’interactions avec Hadoop. Cet atelier permettra aux participants d’avoir une parfaite compréhension du fonctionnement de YARN et la maitrise de son API. Stage pratique HADOOP Code : HWYAR Durée : 2 jours (14 heures) OBJECTIFS PÉDAGOGIQUES Identifier et définir les différents composants de YARN. Appréhender le fonctionnement détaillé de YARN. Utiliser l'API YARN pour développer des applications Java. Configurer le Job Scheduler. Maitriser le contexte d'exécution des conteneurs. Interagir avec le framework Hadoop. PUBLIC CIBLE Architecte Développeur Expert technique Exposés : 40% Cas pratiques : 50% Échanges d'expérience : 10% Tarif & dates intra : Sur demande PRÉ-REQUIS • Bonne connaissance du langage Java. • La connaissance de l’environnement Linux est un plus. MÉTHODE PÉDAGOGIQUE Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés d’exercices pratiques et de mises en situation. POUR ALLER PLUS LOIN : • Site internet Hortonworks • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2) (HWAD2) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : sécurité" (HDP Operations: Security) (HWADS) • Formation officielle Hortonworks "Administrer la base de données HBase avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced Management) (HWHB2) 42 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive) (HWAPH) • Formation officielle Hortonworks "Développer des applications pour Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1) (HWSPK) • Formation officielle Hortonworks "Développer des applications pour Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV) • Formation officielle Cloudera "Apache Spark pour développeurs de Cloudera" (Cloudera Developer Training for Apache Spark) (CLSPK) • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) 43 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1 PRESENTATION DE L’ARCHITECTURE DE YARN • • • • • L’architecture YARN Les différences entre Hadoop 1 et Hadoop 2 Management des logs Administration basique Exercice pratique : exécuter un shell distribué DEFINITION D'UNE APPLICATION YARN • • • • Le cycle de vie d'une application L'API YARN La gestion des dépendances : LocalResource Exercice pratique : installer l’environnement DEVELOPPER UNE APPLICATION YARN • • • • Intéragir avec le ResourceManager Prérequis d'une application de type YARN client Récupération des métriques et monitoring de son application Exercice pratique : développer un client YARN Jour 2 DEVELOPPER SON PROPRE APPLICATION MASTER • • • • • Prérequis et fonction d'un Application Master Pattern synchrone ou asynchrone Allocation des ressources Monitoring des conteneurs Exercice pratique : développer un Application Master TRAITER AVEC LES CONTENEURS • • • • • Démarrer un conteneur Communiquer avec l'Application Master Ecrire ses propres conteneurs personnalisés Co-localisation des données : communiquer avec HDFS Exercice pratique : développer une application Java s’exécutant dans un conteneur ORDONNANCER UN JOB YARN • Présentation du Capactity Scheduler • Présentation du Fair Scheduler • Configuration du scheduler dans YARN 44 Programme formation "HADOOP" Date d'impression : 07/02/2017 BEST Spark avec Hadoop pour développeurs de Cloudera Formation officielle "Cloudera Developer Training for Spark and Hadoop" DESCRIPTION Cette formation propose de fournir aux participants les concepts clés et l’expertise nécessaire pour intégrer et enregistrer les données dans un cluster Hadoop avec les techniques et les outils récents. Les participants utiliseront des projets tels que Spark, Hive, Flume, Sqoop et Impala afin de bénéficier de la meilleure préparation possible pour faire face aux défis quotidiens auxquels sont confrontés les développeurs Hadoop. Ils apprendront à identifier et à utiliser les outils appropriés à chaque situation. Ils découvriront comment importer des données dans leur"cluster" Apache Hadoop et le transformer avec Spark, Hive, Flume, Sqoop, Impala, et d’autres outils de l’écosystème Hadoop. Stage pratique HADOOP OBJECTIFS PÉDAGOGIQUES Cas pratiques : 50% Identifier et utiliser les outils appropriés à chaque situation dans un écosystème Hadoop Utiliser Apache Spark et l’intégrer dans l’écosystème Hadoop Utiliser Hive, Impala, Flume et Sqoop PUBLIC CIBLE Architecte Développeur Analyste Code : CLSPH Durée : 4 jours (28 heures) Exposés : 40% Échanges d'expérience : 10% Tarif & dates intra : Sur demande PRÉ-REQUIS • Être à l’aise pour programmer dans l’un de ces langages : Scala et/ou Python. • Connaissance de base des lignes de commande Linux requise. • La connaissance de base de SQL est plus. • Aucune expérience préalable avec Hadoop n’est nécessaire. MÉTHODE PÉDAGOGIQUE Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation. Les exemples Apache Spark et les exercices de "hands-on" sont présentés avec Scala et Python. A la suite de la formation, les stagiaires auront la possibilité de passer l’examen Certification « CCA Spark and Hadoop Developer » de Cloudera. Cet examen se déroule en dehors du temps de la formation. POUR ALLER PLUS LOIN : • Site internet Cloudera • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Hadoop • Formation officielle "Apache Spark pour développeurs de Cloudera" (CLSPK) • Toutes nos formations sur la Data Science 45 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1 INTRODUCTION À HADOOP ET L’ÉCOSYSTÈME HADOOP • Problèmes avec les systèmes traditionnels à grande échelle • Hadoop • L’écosystème Hadoop ARCHITECTURE HADOOP ET HDFS • • • • • Processus de traitement d’un cluster Stockage : architecture HDFS Stockage : utiliser HDFS La gestion des ressources : architecture YARN La gestion des ressources : travailler avec YARN IMPORTER DES DONNÉES RELATIONNELLES AVEC APACHE SQOOP • • • • • Généralités sur Sqoop Imports et exports de base Résultats restrictifs Augmenter la performance de Sqoop Sqoop 2 INTRODUCTION À IMPALA ET HIVE • • • • Introduction à Impala and Hive Pourquoi utiliser Impala et Hive ? Comparer Hive aux Bases de données traditionnelles Cas d’utilisation de Hive LA MODÉLISATION ET LA GESTION DE DONNÉES AVEC IMPALA ET HIVE • • • • • Aperçu sur le stockage de données Création de bases de données et de tableaux Remplir les données dans les tableaux HCatalog Mettre en mémoire-cache les métadonnées Impala Jour 2 LES FORMATS DE DONNÉES • • • • • • Sélectionner un format de fichier Support d’outils Hadoop pour les formats de fichier Schémas Avro Utiliser Avro avec Hive et Sqoop Evolution du Schéma Avro Compression LA PARTITION DES DONNÉES 46 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Un aperçu sur la partition • La partition dans Impala et Hive CAPTURER LES DONNÉES AVEC APACHE FLUME • • • • • • Qu’est-ce que Apache Flume ? Architecture basique de Flume Les sources de Flume "Flume Sinks" Les réseaux de Flume La configuration de Flume LES BASES DE SPARK • • • • Qu’est-ce qu’Apache Spark ? Utiliser "Spark Shell" RDDs (Resilient Distributed Datasets) La programmation fonctionnelle dans Spark Jour 3 TRAVAILLER AVEC DES "RDD" DANS SPARK • • • • Une présentation plus approfondie sur les "RDD" "Key-Value Pair RDDs" MapReduce D’autres opérations RDD en pair ECRIRE ET DÉPLOYER DES APPLICATIONS SPARK • • • • • • • Spark applications / "Spark Shell" Créer le "SparkContext" Elaborer une application Spark (Scala et Java) Exécuter une application Spark L’application Spark Web UI Configurer les propriétés de Spark L’enregistrement LA PROGRAMMATION PARALLÈLE AVEC SPARK • • • • • • Rappel : Spark dans un "cluster" "RDD Partitions" Partition d’un fichier basé sur des "RDD" HDFS et localisation des données Exécuter des opérations parallèles Etapes et tâches Jour 4 MISE EN MÉMOIRE-CACHE SPARK ET PERSISTENCE • Origine de "RDD" • Un aperçu de la mise en mémoire-cache 47 Programme formation "HADOOP" Date d'impression : 07/02/2017 • "Distributed Persistence" LE TRAITEMENT DE DONNÉES AVEC SPARK ET "COMMON PATTERNS" • • • • • Cas fréquent d’utilisation de Spark Algorithmes itératifs dans Spark Traitement graphique et analyse Machine Learning Exemple : k-means APERÇU SUR SPARK SQL • • • • • Spark SQL et le "SQL Context" Créer des "DataFrames" Transformer et faire des requêtes à partir des "DataFrames" Sauvegarder des "DataFrames" Comparer Spark SQL avec Impala 48 Programme formation "HADOOP" Date d'impression : 07/02/2017 Apache Spark pour développeurs de Cloudera Formation officielle "Cloudera Developer Training for Apache Spark" DESCRIPTION Cette formation pose les bases du développement avec Apache Spark, tout en présentant l’écosystème Hadoop dans lequel il s’intègre. Le principal objectif est la prise en main de cet outil incontournable du paysage du Big Data ainsi que l’acquisition de notions essentielles relatives à son architecture. Des éléments de Spark Streaming et Spark SQL sont aussi abordés. Stage pratique HADOOP Code : CLSPK OBJECTIFS PÉDAGOGIQUES Durée : 3 jours (21 heures) Découvrir et manipuler les principes fondamentaux d’Apache Spark Découvrir l’environnement Hadoop dans lequel il s’intègre Explorer les différents cas d’usage et les stratégies de performance Exposés : 40% PUBLIC CIBLE Développeur Analyste Architecte PRÉ-REQUIS • Expérience en programmation Python, Java ou Scala • Expérience de la ligne de commande • Notions sur l’écosystème Hadoop Cas pratiques : 50% Échanges d'expérience : 10% Tarif & dates intra : Sur demande MÉTHODE PÉDAGOGIQUE Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation. POUR ALLER PLUS LOIN : • Site internet Cloudera • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2) (HWAD2) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : sécurité" (HDP Operations: Security) (HWADS) • Formation officielle Hortonworks "Administrer la base de données HBase avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced Management) (HWHB2) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive) (HWAPH) 49 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Formation officielle Hortonworks "Développer des applications pour Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1) (HWSPK) • Formation officielle Hortonworks "Développer des applications pour Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV) • Formation officielle Hortonworks "Développer des applications pour YARN avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications) (HWYAR) • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) 50 Programme formation "HADOOP" Date d'impression : 07/02/2017 Programme pédagogique détaillé par journée Jour 1 INTRODUCTION À APACHE SPARK • • • • • Qu’est-ce que Spark ? Rappel : de MapReduce à Spark Rappel : HDFS Rappel : YARN Vue d’ensemble de Spark LES BASES D’APACHE SPARK • • • • • Qu’est-ce que Spark ? Utilisation de la console Spark RDDs (Resilient Distributed Datasets) Programmation fonctionnelle en Spark Travaux pratiques UTILISATION DES RDDS • Créer des RDDs • Autres opérations générales sur les RDDs • Travaux pratiques AGRÉGER LES DONNÉES À L’AIDE DES PAIR RDDS • • • • Les Pair RDDs clé-valeur MapReduce Autres opérations sur les Pair RDDs Travaux pratiques Jour 2 ÉCRIRE ET DÉPLOYER UNE APPLICATION SPARK • • • • • • • • • Application VS console Spark Créer un Spark Context Build d’une application Spark (en Java ou Scala) Lancer une application Spark L’interface utilisateur web Travaux pratiques Configurer les propriétés de Spark Logging Travaux pratiques : configurer une application Spark TRAITEMENTS PARALLÈLES • • • • Rappel : Spark sur un cluster Partitions d’un RDD Partitionnement d’un RDD créé à partir d’un fichier HDFS et la colocalité 51 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Exécuter des traitements parallèles • Stages et tasks • Travaux pratiques PERSISTANCE DES RDDS • • • • Généalogie des RDDs Vue d’ensemble de la persistance d’un RDD Persistance distribuée Travaux pratiques BASES DE SPARK STREAMING • • • • • Vue d’ensemble de Spark Streaming Exemple : comptage de connexions DStream Déveloper une application Spark Streaming Travaux pratiques Jour 3 SPARK STREAMING AVANCÉ • • • • • Opérations Multi-Batch Opérations avec mémoire (State Operations) Fenêtres glissantes Sources de données avancées Travaux pratiques PATTERNS CLASSIQUES EN SPARK • • • • • • Use cases classiques Algorithmes itératifs en Spark Analyse de Graphe Machine-Learning Exemple : k-means Travaux pratiques AMÉLIORATION DES PERFORMANCES • • • • • Variables partagées : broadcast Variable Variables partagées : accumulateurs Problèmes de performance classiques Diagnostiquer les problèmes de performance Travaux pratiques SPARK SQL ET DATAFRAMES • • • • • • Spark SQL et le SQL Context Créer des dataframes Transformer et interroger un dataframe Sauvegarder un dataframe Lien entre dataframe et RDD Comparaison de Spark SQL, Impala et Hive-on-Spark 52 Programme formation "HADOOP" Date d'impression : 07/02/2017 • Travaux pratiques 53