Administrer la plateforme Hadoop 2.X Hortonworks

Transcription

Programme formation
Date d'impression : 07/02/2017
HADOOP
1
Programme formation "HADOOP"
Les fondamentaux d’Hadoop
DESCRIPTION
Cette formation est une initiation aux fondamentaux d’Hadoop. Elle donne
aux participants une connaissance théorique et pratique de la plateforme, au
travers de plusieurs exercices pratiques appliqués à des cas réels. A l’issue de
la session, les participants seront en capacité d’utiliser les outils de
l’écosystème Hadoop pour explorer des données stockées sur un entrepôt
Big Data.
Stage pratique
HADOOP
Code :
HDP01
Durée :
2 jours (14 heures)
OBJECTIFS PÉDAGOGIQUES
Appréhender le fonctionnement d’Hadoop
Identifier l’écosystème : quels outils pour quels usages ?
Manipuler les principales commandes shell d’interaction avec Hadoop
Emettre des requêtes SQL avec Hive et HCatalog
Créer des traitements de données avec Pig
Exposés :
60%
Cas pratiques :
30%
PUBLIC CIBLE
Échanges d'expérience :
10%
Analyste
Data scientist
Architecte
Développeur
Sessions à venir :
PRÉ-REQUIS
• Connaissances de base en programmation ou en scripting.
MÉTHODE PÉDAGOGIQUE
Apports théoriques préalables présentant la plateforme Hadoop, son
fonctionnement et son écosystème.
Travaux pratiques pour une mise en application immédiate.
Les travaux pratiques s’effectueront sur un cluster Apache Hadoop 2.x.
POUR ALLER PLUS LOIN :
• Livre blanc "Hadoop, feuille de route"
• Toutes nos formations Hadoop
• Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X
Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM)
Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2)
(HWAD2)
Hortonworks : sécurité" (HDP Operations: Security) (HWADS)
• Formation officielle Hortonworks "Administrer la base de données HBase
avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced
Management) (HWHB2)
• Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X
Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1)
Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive)
16 - 17 mar. 2017
Paris / 1 580 € HT
6 - 7 avr. 2017
Genève / 1 900 CHF
1 - 2 juin 2017
Paris / 1 580 € HT
7 - 8 sept. 2017
Paris / 1 580 € HT
16 - 17 nov. 2017
Genève / 1 900 CHF
Tarif & dates intra :
Sur demande
2
(HWAPH)
• Formation officielle Hortonworks "Développer des applications pour
Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1)
(HWSPK)
Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV)
• Formation officielle Hortonworks "Développer des applications pour YARN
avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications)
(HWYAR)
• Formation officielle Cloudera "Apache Spark pour développeurs de
Cloudera" (Cloudera Developer Training for Apache Spark) (CLSPK)
• Toutes nos formations Data Science
• Formation "Fondamentaux de la Data Science" (DSFDX)
• Formation "Data Science : niveau avancé" (DSNVA)
3
Programme pédagogique détaillé par journée
Jour 1
INTRODUCTION AU BIG DATA
• Qu’est-ce que Big Data ?
• Les grands enjeux métier
• Paysage technologique : les architectures Big Data
INTRODUCTION À HADOOP
• Historique succinct
• Le cœur de la plateforme : HDFS et YARN
• L’écosystème Hadoop
- Frameworks et algorithmes
- Bases de données
- Traitements des données
- Intégration
• Hadoop et la sécurité des données
MANIPULER LA LIGNE DE COMMANDE HADOOP
• Présentation des principales commandes
• Mise en pratique "Manipulation et transfert de fichiers en ligne de commande
UNE INTERFACE UTILISATEUR POUR HADOOP : HUE
• Présentation de Hue et de ses modules
• Mise en pratique "Manipulation interactive de données"
INTERROGER HADOOP AVEC DU SQL : HIVE
• Présentation de Hive
• Mise en pratique "Manipulation de données avec SQL"
- Créer un modèle de données
- Importer des fichiers sources
- Requêter les données
Jour 2
TRANSFORMER DES DONNÉES : LE LANGAGE PIG
• Présentation de Pig
• Mise en pratique "Transformation de données avec Pig"
- Charger des données semi-structurées
- Croiser avec des données Hive
- Sauvegarder le résultat dans HDFS
ECRITURE DE TRAITEMENTS AVANCÉS
• Présentation du framework Hadoop Streaming
• Présentation express du langage Python et du squelette de programme pour l’exercice
• Mise en pratique "Ecriture d’un programme de manipulation complexe"
4
COMPOSITION ET ORDONNANCEMENT DE TRAITEMENTS
• Présentation d’Oozie
• Mise en pratique "Création d’un pipeline de traitement de données"
5
BEST
Administrer la plateforme Hadoop 2.X Hortonworks :
niveau 1
Formation Hadoop officielle Hortonworks "HDP Operations: HDP Administration 1"
DESCRIPTION
Cette session prépare au rôle d’administrateur au sein d’un contexte
technologique innovant et en particulier au cours d’un projet Big Data. A
travers des exercices concrets, vous apprendrez à installer, configurer et
maintenir un cluster Hadoop.
Stage pratique
HADOOP
A la fin de cette formation, vous aurez une compréhension solide de
comment Hadoop fonctionne avec le Big Data et, à travers nos mises en
pratique, vous saurez déployer tout le cycle de vie pour des clusters multinœuds.
Durée :
4 jours (28 heures)
Code :
HWADM
Certification :
280 € HT
Dimensionner un cluster Hadoop
Installer un cluster Hadoop
Configurer un cluster Hadoop
Sécuriser un cluster Hadoop
Maintenir un cluster Hadoop
Exposés :
40%
Cas pratiques :
50%
PUBLIC CIBLE
10%
Architecte
Administrateur
Sessions à venir :
PRÉ-REQUIS
• Connaissances de l’environnement Linux.
Formation avec apports théoriques, échanges sur les contextes des
participants et retours d’expérience pratique du formateur, complétés de
travaux pratiques et de mises en situation.
Cette formation prépare à la certification éditeur Hortonworks.
• Site internet Hortonworks
(HWAD2)
Management) (HWHB2)
27 - 30 mar. 2017
Genève / 3 000 CHF
27 - 30 mar. 2017
Paris / 2 550 € HT
26 - 29 juin 2017
Paris / 2 550 € HT
28 - 31 août 2017
Paris / 2 550 € HT
9 - 12 oct. 2017
Paris / 2 550 € HT
Sur demande
6
(HWAPH)
(HWSPK)
(HWYAR)
7
Jour 1
BIG DATA, HADOOP ET LA PLATEFORME HORTONWORKS : LES BASES DU BIG DATA
•
•
•
•
Les produits de la HDP
Qu’est-ce que Hadoop ?
Une architecture de cluster type
Introduction à Ambari
GESTION DES UTILISATEURS AVEC AMBARI
• Gérer les users et les groupes
• Gérer les permissions
• Mise en pratique : "Gestion des utilisateurs avec Ambari"
GESTION DES SERVICES HADOOP VIA AMBARI
•
•
•
•
Configuration des services
Surveillance des services
Maintenance des services
Mise en pratique : "Gestion des services Hadoop"
UTILISER LE STOCKAGE HDFS
• Accéder aux données
• Gestion des fichiers
• Mise en pratique : "Utiliser le stockage HDFS"
Jour 2
UTILISER LE STOCKAGE HDFS (SUITE)
•
•
•
•
Les web services d’HDFS
Mise en pratique : "Utiliser WebHDFS"
Protéger les accès
Mise en pratique : "Utiliser les ACLs HDFS"
GESTION DU STOCKAGE HDFS
•
•
•
•
•
Architecture HDFS
Assurer l’intégrité de la donnée
Mise en pratique : "Gestion du stockage sur HDFS"
Les quotas HDFS
Mise en pratique : "Gestion des quotas sur HDFS"
GESTION DES RESSOURCES AVEC YARN
•
•
•
•
•
Architecture de YARN
Utilisation de YARN
Les différentes façons de gérer YARN
Mise en pratique : "Configurer et gérer YARN"
Mise en pratique : "Gestion de YARN sans Ambari"
8
Jour 3
DÉCOUVERTE DES APPLICATIONS YARN
• Les bases d’une application YARN
• Mise en pratique : "Démarrer une application YARN"
GESTION DES NŒUDS DANS UN CLUSTER
• Ajouter, enlever un nœud du cluster
• Déplacer des composants
• Mise en pratique : "Ajouter, décommissionner et recommissionner un nœud"
LE CAPACITY SCHEDULER DE YARN
•
•
•
•
•
Contrôler la répartition des ressources grâce aux queues YARN
Contrôler les accès sur les queues YARN
Mise en pratique : "Configuration des utilisateurs et des groupes pour YARN"
Mise en pratique : "Configurer les ressources avec les queues"
Mise en pratique : "Tuning de la gestion des ressources"
GESTION DES RACKS SUR HADOOP
• Les bénéfices de la "rack awareness"
• Configurer la "rack awareness"
• Mise en pratique : "Configurer la rack awareness"
Jour 4
ACTIVER LA HAUTE DISPONIBILITÉ AVEC HDFS ET YARN
•
•
•
•
•
Les principes de la haute disponibilité
Haute disponibilité du Namenode
Haute disponibilité du Resource manager
Mise en pratique : "Configurer la haute disponibilité du namenode"
Mise en pratique : "Configurer la haute disponibilité du resource manager"
SURVEILLANCE DE CLUSTER
• Surveillance avec Ambari
• Lever des alertes avec Ambari
• Mise en pratique : "Configurer les alertes avec Ambari"
PROTÉGER SES DONNÉES
•
•
•
•
•
De l’importance des backups
Les snapshots HDFS
Utiliser DistCP
Mise en pratique : "Gestion des snapshots HDFS"
Mise en pratique : "Utiliser DistCP"
INSTALLER LA HDP
• Identifier les options de déploiement de cluster
• Planifier un déploiement de cluster
9
• Faire une installation avec Ambari
• Mise en pratique : "Installer la HDP"
10
EXCLU
niveau avancé
Formation Hadoop officielle Hortonworks "HDP Administrator: HDP Administration 2"
DESCRIPTION
Cette formation est destinée aux administrateurs de plateforme HDP qui
souhaiteraient approfondir leurs connaissances. Le focus est mis sur la haute
disponibilité des divers outils, la gouvernance de la donnée, les réglages
avancés de la plateforme ainsi que l’automatisation de déploiement de celleci.
Mettre en place une gestion avancée du stockage sur HDFS
Piloter une gestion avancée de l’utilisation des ressources avec YARN et
Slider
Réaliser un paramétrage avancé des outils de développement
Assurer une gouvernance de la donnée avec Falcon et Oozie
Automatiser le déploiement avec Ambari Blueprint
PUBLIC CIBLE
Administrateur et architecte de la plateforme HDP cherchant à approfondir et
à développer leurs compétences.
Stage pratique
HADOOP
Code :
HWAD2
Durée :
3 jours (21 heures)
Certification :
280 € HT
Exposés :
40%
Cas pratiques :
50%
10%
PRÉ-REQUIS
• Avoir suivi la formation "Administrer la plateforme Hadoop 2.X
Hortonworks 1" (HWADM) serait un plus.
• Expérience en ligne de commande.
• Expérience en administration de la HDP.
Sessions à venir :
13 - 15 mar. 2017
Paris / 1 950 € HT
6 - 8 juin 2017
Paris / 1 950 € HT
11 - 13 sept. 2017
Paris / 1 950 € HT
11 - 13 déc. 2017
Paris / 1 950 € HT
Management) (HWHB2)
Sur demande
11
(HWAPH)
(HWSPK)
(HWYAR)
12
Jour 1
UPGRADE DE VERSION HDP
•
•
•
•
Compatibilités de version
Les prérequis à la montée de version
Installer la nouvelle version
Mise en pratique : "Faire une montée de version HDP"
CONFIGURATION DU STOCKAGE HÉTÉROGÈNE HDFS
•
•
•
•
•
Les différents stockages physiques supportés
Stockage asymétrique
Politique de stockage de la donnée
Configurer ses politiques
Mise en pratique : "Configurer les politiques de stockage HDFS"
GATEWAY NFS SUR HDFS
•
•
•
•
•
Monter une gateway NFS
Comment scaler son gateway ?
Authentification des utilisateurs
Installation de la gateway
Mise en pratique : "Configurer la gateway NFS"
CONFIGURER LE CACHE CENTRALISÉ HDFS
•
•
•
•
•
Qu’est-ce que le cache centralisé ?
Mécanique interne du cache
Utilisation du cache
Gestion du cache
Mise en pratique : "Configurer le cache centralisé HDFS"
GESTION DE LA COMPRESSION DE LA DONNÉE
• Trade-off de la compression
• Quel niveau de compression pour vos données ?
• Codecs et sérialisation
Jour 2
LES LABELS SUR LES NŒUDS YARN
•
•
•
•
Principes de base et application
Gestion des labels
Activer et configurer les labels
Mise en pratique : "Configurer et tester les labels de nœuds YARN"
DÉPLOIEMENT D’APPLICATIONS AVEC APACHE SLIDER
• Quels usages pour Slider ?
• L’intégration avec YARN
13
• Slider pour les développeurs
• Déployer une application Slider
• Mise en pratique : "Déployer HBase avec Slider"
INTÉGRATION DU LDAP AVEC AMBARI
• Configurer le LDAP avec Ambari
• Synchronisation des utilisateurs
• Mise en pratique : "Intégrer un LDAP avec Ambari"
PARAMÉTRAGE DE HIVE
• Vers des requêtes Hive interactive
• Améliorer Hive avec Tez
HAUTE DISPONIBILITÉ DU SERVEUR HIVE
•
•
•
•
L’architecture de Hive
Les prérequis pour la HA
Installer et configurer la HA
Mise en pratique : "Configurer la HA Hive"
GESTION DES WORKFLOWS AVEC OOZIE
•
•
•
•
Retour sur les possibilités offertes
L’architecture d’Oozie
Déploiement de jobs sur Oozie
Mise en pratique : "Gestion de workflow avec Oozie"
Jour 3
HAUTE DISPONIBILITÉ OOZIE
•
•
•
•
Prérequis à la HA
Architecture HA pour Oozie
Configurer la HA
Mise en pratique : "Configurer la HA Oozie"
INTRODUCTION À FALCON
•
•
•
•
•
•
•
•
Les challenges de la gouvernance de la donnée
Le cycle de vie de la donnée
Lineage de la donnée
Architecture Falcon
Déploiement de Falcon
Les entités Falcon
Mirroring avec Falcon
Mise en pratique : "Configurer les entités et le mirroring Falcon"
PROVISIONNEMENT DE CLUSTER AVEC LES BLUEPRINTS AMBARI
• Déploiement de cluster à la volée grâce aux blueprints
• Capturer les blueprints
• Déploiement de template de création
14
•
•
•
•
Les fichiers de configuration logique
Les templates de création pour les noeuds
Les bonnes pratiques pour le déploiement avec les blueprints
Mise en pratique : "Déploiement de cluster et ajouts de nœuds avec les blueprints Ambari"
15
EXCLU
sécurité
Formation Hadoop officielle Hortonworks "HDP Operations: Security"
DESCRIPTION
Cette formation est destinée aux administrateurs de la plateforme HDP qui
souhaiteraient approfondir leurs connaissances en matière de sécurité. Le
focus est mis sur les outils permettant de sécuriser la plateforme en termes
d’authentification, d’autorisation et d’audit.
Stage pratique
HADOOP
Durée :
3 jours (21 heures)
Introduire les 5 piliers de la sécurité
Décrire la façon dont la sécurité est intégrée à Hadoop
Découvrir et installer Kerberos
Protéger son cluster avec Knox
Gérer les permissions et l’audit avec Ranger
Code :
HWADS
Exposés :
40%
PUBLIC CIBLE
Cas pratiques :
50%
Administrateur et architecte de la plateforme HDP cherchant à approfondir et
à développer leurs compétences
10%
PRÉ-REQUIS
• Avoir suivi la formation "Administrer la plateforme Hadoop 2.X
Hortonworks 1" serait un plus (HWADM).
• Expérience en ligne de commande.
• Expérience en administration de la plateforme HDP.
(HWAD2)
Management) (HWHB2)
(HWAPH)
Sessions à venir :
20 - 22 mar. 2017
Paris / 1 950 € HT
21 - 23 juin 2017
Paris / 1 950 € HT
4 - 6 sept. 2017
Genève / 2 300 CHF
18 - 20 sept. 2017
Paris / 1 950 € HT
18 - 20 déc. 2017
Paris / 1 950 € HT
Sur demande
16
(HWSPK)
(HWYAR)
17
Jour 1-3
DÉCRIRE LES 5 PILIERS D’UN ENVIRONNEMENT SÉCURISÉ
LISTER LES BESOINS POUR UN ENVIRONNEMENT HADOOP SÉCURISÉ
DÉCOUVRIR COMMENT LA SÉCURITÉ EST INTÉGRÉE DANS HADOOP
CHOISIR VOS OUTILS DE SÉCURITÉ EN FONCTION DE VOS USAGES
LISTER LES PRÉREQUIS DE LA SÉCURITÉ
CONFIGURER KERBEROS VIA AMBARI
CONFIGURER KERBEROS POUR HADOOP
SAVOIR ACTIVER KERBEROS
INSTALLER ET CONFIGURER KNOX
INSTALLER ET CONFIGURER RANGER
INSTALLER ET CONFIGURER LE RANGER KEY MANAGEMENT SERVICES (KMS)
UTILISER RANGER POUR SÉCURISER L’ACCÈS AUX DONNÉES
LISTER LES SOLUTIONS DISPONIBLES DES PARTENAIRES
MISES EN PRATIQUE :
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Activer l’intégration entre l’OS et AD/LDAP
Configurer l’utilisateur du daemon Ambari en non-root
Crypter la base de données Ambari
Activer l’authentification AD/LDAP sur Ambari
Activer HTTPS/SSL pour Ambari
Configurer le Two-Way SSL entre les agents Ambari et le serveur
Activer l’authentication SPNEGO pour Hadoop
Configurer les Ambari Views pour Kerberos
Installer Knox par Ambari
Configurer la passerelle Knox
Configurer Knox pour l’authentification LDAP/AD
Installer Ranger via Ambari
Configurer Ranger
Configurer Ranger KMS
Configurer HDFS pour le cryptage des données
18
•
•
•
•
Configurer Hive pour le cryptage HDFS
Activer l’audit sur le Ranger KMS
Utiliser le Ranger KMS
Tester les accès sécurisés via HDFS, Hive, Pig et Sqoop
19
Administrer la base de données HBase avec Hadoop 2.X
Hortonworks
Formation Hadoop officielle Hortonworks "HDP Operations: Apache HBase Advanced
Management"
DESCRIPTION
Inspirée des publications de Google sur BigTable, HBase est un SGBD non
relationnel capable de gérer d'énormes quantités de données.
Intégré à l’écosystème Hadoop, il permet de distribuer les données en
utilisant le système de fichiers distribué HDFS (Hadoop Distributed File
System) du framework. Son fonctionnement, qui repose donc sur le stockage
distribué des données sur un cluster de machines physiques, garantit à la fois
la haute disponibilité et les hautes performances des bases. Deux arguments
de poids qui suffisent à comprendre le succès croissant de la solution.
A l’issue de cette formation, les participants disposeront des connaissances et
compétences nécessaires à la mise en œuvre de HBase.
Savoir installer HBase
Sécuriser les accès cluster
Assurer la maintenance des données
Monitorer HBase pour faciliter la résolution de problème
Optimiser les performances
PUBLIC CIBLE
Architecte
Administrateur
Analyste Développeur
Tech lead
Chef de projet
Gestionnaire de bases de données
Stage pratique
HADOOP
Code :
HWHB2
Durée :
4 jours (28 heures)
Exposés :
40%
Cas pratiques :
50%
10%
Sessions à venir :
18 - 21 avr. 2017
Paris / 2 550 € HT
16 - 19 oct. 2017
Paris / 2 550 € HT
Sur demande
PRÉ-REQUIS
• Connaissance de l’environnement Linux et des SGBD relationnels
20
(HWAD2)
(HWAPH)
(HWSPK)
(HWYAR)
21
Jour 1
INTRODUCTION À HADOOP
•
•
•
•
Présentation de cas d’usage big data
Différents types de données : structurée, non structurée
Les caractéristiques d’un projet big data
Hadoop et Hortonworks
HDFS ET YARN
• Démonstration pour la découverte et l’utilisation de HDFS (Hadoop Distributed File System)
• Architecture de Yarn
INTRODUCTION À HBASE
• Modèle clé-valeur, lignes, colonnes
• Architecture
• Phoenix, une solution pour requêter HBase en SQL
Jour 2
INSTALLATION
•
•
•
•
•
•
Installations de Standalone : semi-distribuées ou pleinement distribuées
Prérequis demandés : Java, Zookeeper, Master Server, Region Server
Installation manuelle ou automatisée avec Ambari
Mise en pratique : "Installation automatisée avec Ambari"
Mise en pratique : "Installation manuelle"
Vérification de l'installation
UTILISATION DU CLIENT
•
•
•
•
•
Commandes générales
Manipulation des tables
Manipulation des données
Mise en pratique : "Exploration des commandes"
Mise en pratique : "Administration du cluster (régions, balance, etc.)"
INGESTION DE DONNÉES
•
•
•
•
•
•
•
•
Composants impliqués dans le stockage (re, Write Ahead log, Memstore, HFile, etc.)
Modèle de stockage : paires clés-valeur, clés de lignes, familles de colonnes, etc.
Appréhender les mécanismes de lecture et d'écriture de données
Flush process (memstore, etc.)
Compactage des régions
Ingestion de données en masse (import tsv, coompletebulkload)
Mise en pratique : "Utiliser ImportTSV pour ingérer des données"
CopyTable (use cases, exemples)
22
Jour 3
GESTION DES OPÉRATIONS
•
•
•
•
•
•
•
Utilisation d'Ambari pour gérer HBase
Haute disponibilité (sauvegarde des maires, lectures HA)
Mise en pratique : "Haute disponibilité"
Log files (log4j, Linux, GUI Master Server)
Mise en pratique : "Log files"
Coprocesseur : le pendant des triggers SQL
Filtres (filtres de scan, filtres customs)
SAUVEGARDE ET RESTAURATION DES DONNÉES
•
•
•
•
•
Protection des données : réplication HDFS, réplication de clusters, backup et snapshots
Mise en pratique : "Snapshots"
Réplication de cluster : topologies, configuration
Mise en pratique : "Réplication"
Snapshots hbase : processus, création et gestion, travailler avec
SÉCURITÉ
•
•
•
•
•
•
•
•
Authentification
Autorisations et Access Control Lists
Mise en pratique : "Autorisations et Access Control Lists"
Commandes Hbase Shell relatives à la sécurité
Ranger : un outil pour configurer les autorisations sur l'ensemble du cluster
Knox : un point d'accès sécurisé au cluster
Authentifications simples
Bulk load secure
Jour 4
MONITORING HBASE ET DIAGNOSTIC DES PROBLÈMES
•
•
•
•
•
•
Métriques importantes (Master Server, Region Server)
Les outils de monitoring HBase : Nagios, Ganglia, OpenTSDB
Identifier les HotSpots
Mise en pratique : "Identifier les hotspots"
Eviter les hotspots par le design des clés de ligne
Utiliser le pré-split
MAINTENANCE
•
•
•
•
•
•
Split de régions
Mise en pratique : "Split de régions"
Load balancer
Monitoring de la taille des régions
Split et merge manuel de régions
Problèmes d'intégrité (utilisation de hbck)
RÉSOLUTION DE PROBLÈMES
• Vérification des statuts Zookeeper
23
•
•
•
•
•
Monitoring des garbage collection de la JVM
Mise en pratique : "Monitoring des garbage collection de la JVM"
Résolution des erreurs au démarrage des serveurs HBase
Régler HBase pour obtenir de meilleures performances
Régler HDFS pour obtenir de meilleures performances
PROJET RÉCAPITULATIF
24
Analyse de données pour Hadoop 2.X Hortonworks avec
HBase
Formation Hadoop officielle Hortonworks "HDP Analyst: Apache HBase Essentials"
DESCRIPTION
Inspirée des publications de Google sur BigTable, HBase est un SGBD non
relationnel capable de gérer d'énormes quantités de données. Intégré à
l’écosystème Hadoop, il permet de distribuer les données en utilisant le
système de fichiers distribué HDFS (Hadoop Distributed File System) du
framework. Son fonctionnement, qui repose donc sur le stockage distribué
des données sur un cluster de machines physiques, garantit à la fois la haute
disponibilité et les hautes performances des bases. Deux arguments de poids
qui suffisent à comprendre le succès croissant de la solution. A l’issue de cette
formation, les participants disposeront des connaissances et compétences
nécessaires à la mise en oeuvre de HBase.
Stage pratique
HADOOP
Cas pratiques :
65%
Découvrir le fonctionnement de HBase
Savoir configurer et utiliser HBase
Modéliser une table HBase
Prendre en main et utiliser les différents outils à disposition
Code :
HWHB1
Durée :
2 jours (14 heures)
Exposés :
25%
10%
PUBLIC CIBLE
Sessions à venir :
Architecte
Administrateur
Développeur de logiciel
Analyste
23 - 24 mar. 2017
Paris / 1 540 € HT
21 - 22 sept. 2017
Paris / 1 540 € HT
PRÉ-REQUIS
• Connaissance de l’environnement Linux.
• Connaissance des bases de données relationnelles.
Sur demande
Une pédagogie basée sur l'alternance de phases théoriques et de mises en
pratique qui permet aux participants d'acquérir une première expérience
concrète du stockage de données en environnement HBase. Des échanges
avec l’intervenant sur les meilleures pratiques pour garantir la disponibilité des
bases et leurs performances.
(HWAD2)
25
Management) (HWHB2)
(HWAPH)
(HWSPK)
(HWYAR)
26
Jour 1
GENERALITES
•
•
•
•
•
Rappels rapides sur l'écosystème Hadoop
Hortonworks
HDFS
Yarn
Mise en pratique : lancement d’une tâche MapReduce
INTRODUCTION A HBASE
• Fonctionnement général
• Mise en pratique :
- Utilisation du client HBase
- Importation d’une table MySQL avec Sqoop
ARCHITECTURE
• Fonctionnement et cycle de vie des régions HBase
• Orchestration du cluster avec Zookeeper
• Mise en pratique : manipulation des nœuds ZooKeeper
SERVICES ET OPERATIONS
• HMaster et RegionServer
• Opérations : get, put, scans
• Mise en pratique : prise en main des fichiers de configuration
Jour 2
COMMANDES
•
•
•
•
•
Manipulation des données
Manipulation des tables
Réparations
Réplication de clusters
Mise en pratique : utilisation des commandes
CONFIGURATION ET DISTRIBUTIONS
•
•
•
•
Configuration HBase et Zookeeper
Distributions HBase
Backups
Mises en pratique :
- Backup et snapshots
- Exports avec Pig, imports avec Importtsv
CONCEPTION D’UN SCHEMA HBASE
• Modèle de données HBase
• Designer les clés de lignes : patterns et techniques
27
• Modèle de table pour une application de messagerie
• Familles de colonnes
• Mise en pratique :
- Familles de colonnes
- Etude de cas : application de suivi de colis
OPTIMISATION
• Blocs, caches, filtres de bloom, memstore, logs
• Filtres de colonnes
• Mise en pratique : manipulation des filtres de bloom
DEMONSTRATION : REALISATION D’UN CLIENT JAVA HBASE
28
BEST
Analyse de données pour Hadoop 2.X Hortonworks avec
Pig, Hive et Spark
Formation Hadoop officielle Hortonworks "HDP Developer: Apache Pig and Hive"
DESCRIPTION
Cette formation présente les grands outils de l’écosystème Hadoop en se
focalisant plus spécifiquement sur Pig et Hive. Le principal objectif est le
développement de compétences de data analyst orientées accès et
traitement des données sans nécessairement avoir un fort background
technique.
Stage pratique
HADOOP
Code :
HWAPH
Durée :
4 jours (28 heures)
Identifier et définir les différents composants de l’écosystème Hadoop
Appréhender l’architecture de Hadoop 2.X
Expérimenter les outils d’exploration et d’analyse avancée de données
Certification :
280 € HT
PUBLIC CIBLE
Exposés :
40%
Analyste
Statisticien
Développeur
PRÉ-REQUIS
• Connaissances de base en scripting (SQL, Python, R) ou en
programmation.
Cas pratiques :
50%
10%
Sessions à venir :
Formation mêlant des apports théoriques à de nombreux travaux pratiques
sous forme d’exercices d’application et d’analyse de uses cases métier
complétés des retours d’expérience du formateur.
(HWAD2)
Management) (HWHB2)
(HWSPK)
6 - 9 mar. 2017
Paris / 2 550 € HT
15 - 18 mai 2017
Genève / 3 000 CHF
12 - 15 juin 2017
Paris / 2 550 € HT
11 - 14 sept. 2017
Paris / 2 550 € HT
27 - 30 nov. 2017
Paris / 2 550 € HT
Sur demande
29
(HWYAR)
30
Jour 1
COMPRENDRE HADOOP 2.X
• L’architecture de Hadoop 2.X
• The Hortonworks Data Platform (HDP)
LE SYSTÈME DE FICHIERS DISTRIBUÉ HDFS
• Architecture fonctionnelle de HDFS
- Exercice d’interaction en ligne de commande avec HDFS
ALIMENTER HDFS EN DONNÉES
• Prise en main de l’outil Flume
• Prise en main de l’outil Sqoop
- Application de ces deux outils d’import et d’export des données
LE FRAMEWORK MAPREDUCE
• Architecture et fonctionnement général de MapReduce
- Exemples d’utilisation d’un job MapReduce
• Présentation de Hadoop Streaming
Jour 2
INTRODUCTION À PIG
• Types et mots-clés dans Pig
- Exploration de données avec Pig
PROGRAMMATION PIG AVANCÉE
• Mots-clés et fonctionnalités avancées dans Pig
• Jointures dans Pig
• Astuces d’optimisation de scripts Pig
- Analyse de cas d’usages métier divers avec Pig
Jour 3
PROGRAMMATION HIVE
• Types et mots-clés dans Hive
• Concept de table et base de données dans Hive
• Présentation et explication des types de jointures
- Démonstration de jointures
- Analyse de cas d’usages métier
UTILISER HCATALOG
• Fonctionnement et utilisation de HCatalog
- Démonstration du fonctionnement de HCatalog
31
Jour 4
PROGRAMMATION HIVE AVANCÉE
• Les vues dans Hive
• Les différents formats de stockage des tables Hive
• Optimisation de scripts Hive
- Illustration des fonctions avancées
HADOOP 2.X ET YARN
• Architecture de YARN
- Démonstration d’une application YARN
APACHE SPARK
• Introduction à Spark
• Programmation Spark (RDD, programmation fonctionnelle)
- Ecriture d’un job Spark en Python
• Spark SQL et les DataFrames
- Utilisation de Spark SQL et des DataFrames sur des tables Hive et des fichiers HDFS
CRÉER ET UTILISER UN WORKFLOW OOZIE
• Workflow et coordinateur Oozie
• Actions possibles avec Oozie
32
EXCLU
Développer des applications pour Apache Spark avec
Python ou Scala
Formation Hadoop officielle Hortonworks "HDP Developer: Enterprise Apache Spark I"
DESCRIPTION
Spark est né en 2009 dans le laboratoire AMPLab de l’université de Berkeley.
Ce framework offre un modèle de programmation plus simple que celui du
MapReduce d’Hadoop et surtout plus rapide avec des temps d’exécution
jusqu’à 100 fois plus courts. Avec Spark, les développeurs peuvent écrire
simplement des applications distribuées complexes qui permettent de
prendre des meilleures décisions plus rapidement et des actions en temps
réel, appliquées à une grande variété de cas d’utilisations, d’architecture et de
secteurs d’activités.
Cette formation s’adresse aux développeurs qui souhaitent créer et déployer
des applications Big Data complètes et uniques en combinant batchs, le
streaming et analyses interactives sur l’ensemble des données.
Appréhender le fonctionnement de Spark
Développer des applications avec Apache Spark
Optimiser une application Spark
Utiliser Spark SQL et les dataframes
Faire de l’analyse en temps réel avec Spark streaming
Découvrir MLLib pour du machine learning sur Spark
Explorer, manipuler et visualiser votre donnée avec Zeppelin
PUBLIC CIBLE
Développeur d'applications avec des contraintes temps réel
Ingénieur d’études
Architecte technique
Chef de projet technique
PRÉ-REQUIS
• Connaissances de base en programmation ou en scripting (Python/Scala)
• Expérience basique en ligne de commande
• Aucune connaissance sur Hadoop n’est requise
• Connaissances en SQL et conception d'application temps réel utiles mais
non obligatoire
Stage pratique
HADOOP
Code :
HWSPK
Durée :
4 jours (28 heures)
Certification :
280 € HT
Exposés :
40%
Cas pratiques :
50%
10%
Sessions à venir :
24 - 27 avr. 2017
Paris / 2 550 € HT
2 - 5 mai 2017
Genève / 3 000 CHF
3 - 6 juil. 2017
Paris / 2 550 € HT
25 - 28 sept. 2017
Paris / 2 550 € HT
20 - 23 nov. 2017
Paris / 2 550 € HT
Sur demande
33
(HWAD2)
Management) (HWHB2)
(HWAPH)
(HWYAR)
34
Jour 1
INTRODUCTION À HADOOP, HORTONWORKS ET AU BIG DATA
•
•
•
•
Cas d’usage pour Hadoop
Qu’est-ce que Big Data ?
HDP, Hortonworks et l’écosystème Hadoop
Pourquoi utiliser Hortonworks ?
INTRODUCTION À APACHE SPARK
•
•
•
•
Qu’est-ce que Spark et d’où vient-il ?
Pourquoi utiliser Spark ?
Spark vs MapReduce
L’évolution rapide de Spark et l’engagement d’Hortonworks
PROGRAMMER AVEC APACHE SPARK
•
•
•
•
•
•
•
Les composants de Spark
Premiers pas avec Spark
Les RDD
Transformations et actions
Spark Hello World (wordcount)
Lazy evaluation
Mise en pratique: "Assurer ses premiers pas avec Apache Spark"
VUE D’ENSEMBLE DE HDFS ET YARN
•
•
•
•
•
Vue d’ensemble de HDFS
Le Namenode et le Datanode
Vue d’ensemble de YARN
Composants cœur de YARN
Mise en pratique: "Utiliser les commandes HDFS"
PROGRAMMATION RDD AVANCÉE
•
•
•
•
D’autres fonctions de RDD "cœur"
Fonctions de RDD paires
Utiliser la documentation de Spark
Mise en pratique : "Utiliser le stockage HDFS"
Jour 2
PROGRAMMATION PARALLÈLE AVEC SPARK
•
•
•
•
Partitionnement, jobs, stage et tasks
L’UI de Spark
Changer le niveau de parrallélisation
Mise en pratique : Programmation parallèle sur Spark
CACHER ET PERSISTER LA DONNÉE
35
•
•
•
•
•
Cache et persistance
Mise en pratique : "cacher et persister la donnée"
Exemple d’application itérative : PageRank
Checkpointing
Mise en pratique : "Checkpointing et RDD lineage"
CRÉER DES APPLICATIONS SPARK
•
•
•
•
•
•
Créer une application à soumettre au cluster
Soumettre une application au cluster
Yarn client vs Yarn cluster
Points importants de configuration
Gérer/packager les dépendances
Mise en pratique : "Créer une application Spark standalone"
Jour 3
FONCTIONNALITÉS AVANCÉES ET AMÉLIORATION DES PERFORMANCES
•
•
•
•
•
•
Accumulateurs
Mise en pratique : "Utiliser les accumulateurs pour vérifier la qualité des données"
Variables « broadcast »
Mise en pratique : "Utiliser les variables broadcast"
Partitionnement avancé et opérations
Point de départ pour l’optimisation
TRAVAILLER VOS DONNÉES AVEC ZEPPELIN
• L'exploration de données en Spark avec Zeppelin
• Visualisation de données avec Zeppelin
• Faire du reporting avec Zeppelin
SPARK SQL
•
•
•
•
•
•
Les concepts de Spark SQL
Créer une Dataframe
Sauvegarder une Dataframe
Spark SQL et UDF
Mise en pratique : "Spark SQL avec utilisation d’UDF"
Mise en pratique : "Spark SQL avec Hive"
Jour 4
SPARK STREAMING
•
•
•
•
•
•
L’architecture de Spark Streaming
Vue d’ensemble de Spark Streaming
Fiabilité des récepteurs et des sources
Transformations et opérations de sorties
Mise en pratique : "Wordcount en Spark Streaming"
Configurer le checkpointing
36
SPARK MLLIB
• Vue d’ensemble de MLLib
• Apprentissage supervisé
• Apprentissage non supervisé
37
Développer des applications pour Hadoop 2.X Hortonworks
avec Java
Formation Hadoop officielle Hortonworks "HDP Developer: Java"
DESCRIPTION
Ce stage de formation présente les grands outils de l’écosystème Hadoop
d’un point de vue technique et est orienté développement Java. Les objectifs
principaux sont d’avoir une parfaite compréhension et pratique du framework
d’exécution de calculs MapReduce ainsi que d’être capable de développer
des modules d’extensions de Pig et Hive.
Appréhender l’architecture de Hadoop 2.X
Mettre en application les techniques avancées MapReduce
Analyser un use case métier et valoriser les données correspondantes
PUBLIC CIBLE
Architecte
Développeur
Analyste
PRÉ-REQUIS
Stage pratique
HADOOP
Code :
HWJAV
Durée :
4 jours (28 heures)
Certification :
280 € HT
Exposés :
40%
Cas pratiques :
50%
10%
• Bonne connaissance du langage Java.
Sur demande
Formation avec d’importants apports théoriques, des retours d’expérience du
formateur complétés de travaux pratiques sous forme d’exercices
d’application et d’analyse de uses cases métier.
(HWAD2)
Management) (HWHB2)
(HWAPH)
38
(HWSPK)
(HWYAR)
39
Jour 1
COMPRENDRE HADOOP 2.X ET HDFS
• Hadoop et Hadoop 2.X
• Le système de gestion de ressources et de cluster YARN
• Le système de fichiers distribué HDFS
- Prise en main de l’environnement de développement Hadoop et accès aux fichiers HDFS
ECRIRE DES APPLICATIONS MAPREDUCE
• Illustration avec un exemple simple
• Grands principes du framework MapReduce
• MapReduce sur YARN
- Développement de programmes MapReduce
LES AGRÉGATIONS AVEC MAPREDUCE
• Utilisation des combiners
• Utilisation de l’in-map agrégation
- Mise en pratique de l’agrégation à travers deux exemples
Jour 2
PARTITIONNEMENT ET TRI
• Le partitioner de MapReduce
• Analyse et compréhension du Secondary Sort
- Implémentation de deux types de Partitioner
- Implémentation du Secondary Sort à travers un cas pratique
INPUT ET OUTPUT FORMATS
• Récapitulatifs des formats d’entrée et de sortie standards MapReduce
• Analyse du fonctionnement d’un input format
- Implémentations d’un input format et d’un output format
OPTIMISER LES JOBS MAPREDUCE
• Optimisation des différentes phases d’un programme MapReduce
• Utilisation et paramétrage de la compression
• Utilisation des comparateurs de données non sérialisées
- Illustration du principe de la compression de données
- Implémentation d’un RawComparator
Jour 3
FONCTIONNALITÉS AVANCÉES DE MAPREDUCE
• Localisation partagée des données
• Les différents types de jointure
40
• Les filtres de Bloom
- Illustration d’une jointure côté Map
- Illustration de l’utilisation d’un filtre de Bloom
TESTER UNITAIREMENT SON CODE
• Présentation de la librairie MRUnit
- Ecriture de tests unitaires
PROGRAMMATION HBASE
• Architecture de HBase
• Interactions avec HBase
- Import de données avec HBase
- Illustration d’un job MapReduce avec HBase
Jour 4
PROGRAMMATION PIG
• Types et mots-clés dans Pig
• Extension de Pig via les classes définies par l’utilisateur (UDF)
- Implémentation d’une UDF
PROGRAMMATION HIVE
• Types et mots-clés dans Hive
• Extension de Hive via les classes définies par l’utilisateur (UDF)
- Implémentation d’une UDF
CRÉER ET UTILISER UN WORKFLOW OOZIE
• Workflow et coordinateur Oozie
• Actions possibles avec Oozie
41
Développer des applications pour YARN avec Hadoop 2.X
Hortonworks
Formation Hadoop officielle Hortonworks "HDP Developer: Custom Apache YARN
Applications"
DESCRIPTION
Cet atelier vous présente le fonctionnement détaillé de YARN et la
méthodologie pour développer ses propres applications avec le framework
YARN. Durant ces deux journées, nous aborderons les différents patterns
d'architecture logicielle avec YARN et les possibilités d’interactions avec
Hadoop. Cet atelier permettra aux participants d’avoir une parfaite
compréhension du fonctionnement de YARN et la maitrise de son API.
Stage pratique
HADOOP
Code :
HWYAR
Durée :
2 jours (14 heures)
Identifier et définir les différents composants de YARN.
Appréhender le fonctionnement détaillé de YARN.
Utiliser l'API YARN pour développer des applications Java.
Configurer le Job Scheduler.
Maitriser le contexte d'exécution des conteneurs.
Interagir avec le framework Hadoop.
PUBLIC CIBLE
Architecte
Développeur
Expert technique
Exposés :
40%
Cas pratiques :
50%
10%
Sur demande
PRÉ-REQUIS
• Bonne connaissance du langage Java.
• La connaissance de l’environnement Linux est un plus.
participants et retours d’expérience pratique du formateur, complétés
d’exercices pratiques et de mises en situation.
(HWAD2)
Management) (HWHB2)
42
(HWAPH)
(HWSPK)
43
Jour 1
PRESENTATION DE L’ARCHITECTURE DE YARN
•
•
•
•
•
L’architecture YARN
Les différences entre Hadoop 1 et Hadoop 2
Management des logs
Administration basique
Exercice pratique : exécuter un shell distribué
DEFINITION D'UNE APPLICATION YARN
•
•
•
•
Le cycle de vie d'une application
L'API YARN
La gestion des dépendances : LocalResource
Exercice pratique : installer l’environnement
DEVELOPPER UNE APPLICATION YARN
•
•
•
•
Intéragir avec le ResourceManager
Prérequis d'une application de type YARN client
Récupération des métriques et monitoring de son application
Exercice pratique : développer un client YARN
Jour 2
DEVELOPPER SON PROPRE APPLICATION MASTER
•
•
•
•
•
Prérequis et fonction d'un Application Master
Pattern synchrone ou asynchrone
Allocation des ressources
Monitoring des conteneurs
Exercice pratique : développer un Application Master
TRAITER AVEC LES CONTENEURS
•
•
•
•
•
Démarrer un conteneur
Communiquer avec l'Application Master
Ecrire ses propres conteneurs personnalisés
Co-localisation des données : communiquer avec HDFS
Exercice pratique : développer une application Java s’exécutant dans un conteneur
ORDONNANCER UN JOB YARN
• Présentation du Capactity Scheduler
• Présentation du Fair Scheduler
• Configuration du scheduler dans YARN
44
BEST
Spark avec Hadoop pour développeurs de Cloudera
Formation officielle "Cloudera Developer Training for Spark and Hadoop"
DESCRIPTION
Cette formation propose de fournir aux participants les concepts clés et
l’expertise nécessaire pour intégrer et enregistrer les données dans un cluster
Hadoop avec les techniques et les outils récents.
Les participants utiliseront des projets tels que Spark, Hive, Flume, Sqoop et
Impala afin de bénéficier de la meilleure préparation possible pour faire face
aux défis quotidiens auxquels sont confrontés les développeurs Hadoop. Ils
apprendront à identifier et à utiliser les outils appropriés à chaque situation. Ils
découvriront comment importer des données dans leur"cluster" Apache
Hadoop et le transformer avec Spark, Hive, Flume, Sqoop, Impala, et d’autres
outils de l’écosystème Hadoop.
Stage pratique
HADOOP
Cas pratiques :
50%
Identifier et utiliser les outils appropriés à chaque situation dans un
écosystème Hadoop
Utiliser Apache Spark et l’intégrer dans l’écosystème Hadoop
Utiliser Hive, Impala, Flume et Sqoop
PUBLIC CIBLE
Architecte
Développeur
Analyste
Code :
CLSPH
Durée :
4 jours (28 heures)
Exposés :
40%
10%
Sur demande
PRÉ-REQUIS
• Être à l’aise pour programmer dans l’un de ces langages : Scala et/ou
Python.
• Connaissance de base des lignes de commande Linux requise.
• La connaissance de base de SQL est plus.
• Aucune expérience préalable avec Hadoop n’est nécessaire.
travaux pratiques et de mises en situation. Les exemples Apache Spark et les
exercices de "hands-on" sont présentés avec Scala et Python.
A la suite de la formation, les stagiaires auront la possibilité de passer
l’examen Certification « CCA Spark and Hadoop Developer » de Cloudera. Cet
examen se déroule en dehors du temps de la formation.
• Site internet Cloudera
• Formation officielle "Apache Spark pour développeurs de Cloudera"
(CLSPK)
• Toutes nos formations sur la Data Science
45
Jour 1
INTRODUCTION À HADOOP ET L’ÉCOSYSTÈME HADOOP
• Problèmes avec les systèmes traditionnels à grande échelle
• Hadoop
• L’écosystème Hadoop
ARCHITECTURE HADOOP ET HDFS
•
•
•
•
•
Processus de traitement d’un cluster
Stockage : architecture HDFS
Stockage : utiliser HDFS
La gestion des ressources : architecture YARN
La gestion des ressources : travailler avec YARN
IMPORTER DES DONNÉES RELATIONNELLES AVEC APACHE SQOOP
•
•
•
•
•
Généralités sur Sqoop
Imports et exports de base
Résultats restrictifs
Augmenter la performance de Sqoop
Sqoop 2
INTRODUCTION À IMPALA ET HIVE
•
•
•
•
Introduction à Impala and Hive
Pourquoi utiliser Impala et Hive ?
Comparer Hive aux Bases de données traditionnelles
Cas d’utilisation de Hive
LA MODÉLISATION ET LA GESTION DE DONNÉES AVEC IMPALA ET HIVE
•
•
•
•
•
Aperçu sur le stockage de données
Création de bases de données et de tableaux
Remplir les données dans les tableaux
HCatalog
Mettre en mémoire-cache les métadonnées Impala
Jour 2
LES FORMATS DE DONNÉES
•
•
•
•
•
•
Sélectionner un format de fichier
Support d’outils Hadoop pour les formats de fichier
Schémas Avro
Utiliser Avro avec Hive et Sqoop
Evolution du Schéma Avro
Compression
LA PARTITION DES DONNÉES
46
• Un aperçu sur la partition
• La partition dans Impala et Hive
CAPTURER LES DONNÉES AVEC APACHE FLUME
•
•
•
•
•
•
Qu’est-ce que Apache Flume ?
Architecture basique de Flume
Les sources de Flume
"Flume Sinks"
Les réseaux de Flume
La configuration de Flume
LES BASES DE SPARK
•
•
•
•
Qu’est-ce qu’Apache Spark ?
Utiliser "Spark Shell"
RDDs (Resilient Distributed Datasets)
La programmation fonctionnelle dans Spark
Jour 3
TRAVAILLER AVEC DES "RDD" DANS SPARK
•
•
•
•
Une présentation plus approfondie sur les "RDD"
"Key-Value Pair RDDs"
MapReduce
D’autres opérations RDD en pair
ECRIRE ET DÉPLOYER DES APPLICATIONS SPARK
•
•
•
•
•
•
•
Spark applications / "Spark Shell"
Créer le "SparkContext"
Elaborer une application Spark (Scala et Java)
Exécuter une application Spark
L’application Spark Web UI
Configurer les propriétés de Spark
L’enregistrement
LA PROGRAMMATION PARALLÈLE AVEC SPARK
•
•
•
•
•
•
Rappel : Spark dans un "cluster"
"RDD Partitions"
Partition d’un fichier basé sur des "RDD"
HDFS et localisation des données
Exécuter des opérations parallèles
Etapes et tâches
Jour 4
MISE EN MÉMOIRE-CACHE SPARK ET PERSISTENCE
• Origine de "RDD"
• Un aperçu de la mise en mémoire-cache
47
• "Distributed Persistence"
LE TRAITEMENT DE DONNÉES AVEC SPARK ET "COMMON PATTERNS"
•
•
•
•
•
Cas fréquent d’utilisation de Spark
Algorithmes itératifs dans Spark
Traitement graphique et analyse
Machine Learning
Exemple : k-means
APERÇU SUR SPARK SQL
•
•
•
•
•
Spark SQL et le "SQL Context"
Créer des "DataFrames"
Transformer et faire des requêtes à partir des "DataFrames"
Sauvegarder des "DataFrames"
Comparer Spark SQL avec Impala
48
Apache Spark pour développeurs de Cloudera
Formation officielle "Cloudera Developer Training for Apache Spark"
DESCRIPTION
Cette formation pose les bases du développement avec Apache Spark, tout
en présentant l’écosystème Hadoop dans lequel il s’intègre. Le principal
objectif est la prise en main de cet outil incontournable du paysage du Big
Data ainsi que l’acquisition de notions essentielles relatives à son architecture.
Des éléments de Spark Streaming et Spark SQL sont aussi abordés.
Stage pratique
HADOOP
Code :
CLSPK
Durée :
3 jours (21 heures)
Découvrir et manipuler les principes fondamentaux d’Apache Spark
Découvrir l’environnement Hadoop dans lequel il s’intègre
Explorer les différents cas d’usage et les stratégies de performance
Exposés :
40%
PUBLIC CIBLE
Développeur
Analyste
Architecte
PRÉ-REQUIS
• Expérience en programmation Python, Java ou Scala
• Expérience de la ligne de commande
• Notions sur l’écosystème Hadoop
Cas pratiques :
50%
10%
Sur demande
• Site internet Cloudera
(HWAD2)
Management) (HWHB2)
(HWAPH)
49
(HWSPK)
(HWYAR)
50
Jour 1
INTRODUCTION À APACHE SPARK
•
•
•
•
•
Qu’est-ce que Spark ?
Rappel : de MapReduce à Spark
Rappel : HDFS
Rappel : YARN
Vue d’ensemble de Spark
LES BASES D’APACHE SPARK
•
•
•
•
•
Qu’est-ce que Spark ?
Utilisation de la console Spark
RDDs (Resilient Distributed Datasets)
Programmation fonctionnelle en Spark
Travaux pratiques
UTILISATION DES RDDS
• Créer des RDDs
• Autres opérations générales sur les RDDs
• Travaux pratiques
AGRÉGER LES DONNÉES À L’AIDE DES PAIR RDDS
•
•
•
•
Les Pair RDDs clé-valeur
MapReduce
Autres opérations sur les Pair RDDs
Travaux pratiques
Jour 2
ÉCRIRE ET DÉPLOYER UNE APPLICATION SPARK
•
•
•
•
•
•
•
•
•
Application VS console Spark
Créer un Spark Context
Build d’une application Spark (en Java ou Scala)
Lancer une application Spark
L’interface utilisateur web
Travaux pratiques
Configurer les propriétés de Spark
Logging
Travaux pratiques : configurer une application Spark
TRAITEMENTS PARALLÈLES
•
•
•
•
Rappel : Spark sur un cluster
Partitions d’un RDD
Partitionnement d’un RDD créé à partir d’un fichier
HDFS et la colocalité
51
• Exécuter des traitements parallèles
• Stages et tasks
PERSISTANCE DES RDDS
•
•
•
•
Généalogie des RDDs
Vue d’ensemble de la persistance d’un RDD
Persistance distribuée
Travaux pratiques
BASES DE SPARK STREAMING
•
•
•
•
•
Vue d’ensemble de Spark Streaming
Exemple : comptage de connexions
DStream
Déveloper une application Spark Streaming
Travaux pratiques
Jour 3
SPARK STREAMING AVANCÉ
•
•
•
•
•
Opérations Multi-Batch
Opérations avec mémoire (State Operations)
Fenêtres glissantes
Sources de données avancées
Travaux pratiques
PATTERNS CLASSIQUES EN SPARK
•
•
•
•
•
•
Use cases classiques
Algorithmes itératifs en Spark
Analyse de Graphe
Machine-Learning
Exemple : k-means
Travaux pratiques
AMÉLIORATION DES PERFORMANCES
•
•
•
•
•
Variables partagées : broadcast Variable
Variables partagées : accumulateurs
Problèmes de performance classiques
Diagnostiquer les problèmes de performance
Travaux pratiques
SPARK SQL ET DATAFRAMES
•
•
•
•
•
•
Spark SQL et le SQL Context
Créer des dataframes
Transformer et interroger un dataframe
Sauvegarder un dataframe
Lien entre dataframe et RDD
Comparaison de Spark SQL, Impala et Hive-on-Spark
52
53

Administrer la plateforme Hadoop 2.X Hortonworks

Transcription

Documents pareils

Intégration Big Data en temps réel

Introduction à Hadoop + Map/Reduce Certificat Big Data

Miniatures 1/43 et 1/18 représentant les Suisses en sport

55 - Smallcar

INEPTI 13/17 ( PDF - 409.2 ko)

Communiqué de presse

Correction du sujet de CAP coiffure – Juin 2011 Les

Plaquette PDF - Formation : Introduction aux modèles statistiques