Formation Big Data avec Hadoop et Pivotal HDPartenaire

Transcription

Formation Big Data avec Hadoop et Pivotal HDPartenaire
Formation Big Data avec Hadoop et Pivotal HDPartenaire
Référence : BIGDATA-HADOOP-PIVOTAL-04
Durée : 4 jour(s)
Présentation
Cette formation de quatre jours donnera aux développeurs Java toutes les connaissances nécessaires
pour exploiter les fonctionnalités étendues de Pivotal HD, “La distribution Apache Hadoop la plus
puissante au monde”.
La session débutera par une mise à niveau des participants sur les technologies requises
* Big data, NoSQL et leur role dans les applications d’entreprise modernes
* Les bases d’Hadoop et sa place dans la distribution Pivotal HD
* Introduction à GemFire et SQLFire, des technologies de cache distribuées
* Une vue d’ensemble de Spring et Big Data
Objectifs
-
Comprendre les architectures d’Hadoop et Spring Hadoop
Débuter avec MapReduce pour analyser de grands volumes de données
Comprendre les concepts, notions avancées et mise en pratique de HDFS
Comprendre le l’architecture de Pivotal HD
Débuter avec HAWQ, la solution d’analyse Pivotal
Notions avancées et mise en pratique de HAWQ
Débuter avec le Command Center, installer et gérer un cluster Pivotal HD
Introduction au Data Loader; import à grande échelle de données dans HDFS
Introduction à HVE, le plugin de virtualisation de VMWare pour Hadoop
Répartition: 40% Théorie, 60% Pratique
Public:
Développeur, Architecte
Pré-requis: Maîtrise de la programmation Java., La gestion des données est un plus., Connaitre les
principes de base de la virtualisation.
Programme
- Introduction et logistique
- Objectifs du cours
Garbage Collector
- Limitations de Map Reduce
- Jointures (Côté Mapper et côté Reducer)
Introduction à NoSQL
Spring Data Hadoop
- Le paradigme NoSql
- NoSql et la scalabilité
- « no SQL » vs « Not Only SQL »
- Les types de bases de données NoSql (stockage clévaleur, graphe, Map-Reduce, ...)
-
Introduction
Introduction à Spring et Spring Data
Le namespace Hadoop pour Spring
Utiliser Spring pour simplifier la configuration Hadoop
Configuration du cache distribué
Définition des Jobs
Intégration des outils (Pig, Hive...)
Introduction à Hadoop
- Qu’est ce qu’Hadoop?
- L’écosystème Hadoop : Pig, Hive, HBase, Zookeeper...
- Comprendre MapReduce et HDFS (Hadoop Distributed
File System)
- S’assurer de l’intégrité des données (checksum...)
- Gagner de la place : compression des données
d’entrée/sortie dans Hadoop
- Lancer un job Hadoop
- Configurer une runtime Hadoop
HDFS - Hadoop Distributed FIle System
- Objectifs de la conception: possibilité de tourner sur
du matériel grande série, tolérance aux erreurs, ...
- Scaling d’une seule datanode à des centaines de
datanodes
- Commandes HDFS
- Travailler avec des chemins de fichiers
- Administration d’HDFS (Interface, commandes
d’admin, ...)
- Utiliser l’API Java pour HDFS
- Mise en place d’une Namenode secondaire, des
Federated Namenodes, et ees Namenodes de haute
disponibilité
Débuter avec Map Reduce
-
Vue d’ensemble de Map Reduce
Les différentes version d’Hadoop
Ecriture d’un mapper
Ecriture d’un reducer
Tester et débugger
Map Reduce en détail
- La hiérarchie Writable
- Partitionners, Combiners, Shuffle
- Comment réutiliser les objets, et optimisation du
Streaming de MapReduce, Pig
- Alternatives de haut niveau à l’écriture de Mappers et de
Reducers en Java
- Hadoop streaming
- Scripting avec Pig
- SQL dans Hadoop
Introduction à Hive
-
Vue d’ensemble de Hive
Tables et DDL de Hive
Partitions et tables externes
Extraction de données (select)
Jointures
Transformations et & User Defined Functions (UDFs)
Architecture de Pivotal HD
-
Composants Apache Hadoop
HAWQ
Data Loader
Command Center
Hadoop Virtualization Extensions (HVE)
Débuter avec HAWQ
- Installation et Environnement de HAWQ
- Vue d’ensemble de la Configuration et des Opérations
- Client d’accès à HAWQ
- Introduction à HAWQ SQL
- Introduction rapide à Spring JDBC et au support pour les
Tests
Travailler avec HAWQ
- Création de tables de bases de données
- Queries
- Jointures