Formation Big Data avec Hadoop et Pivotal HDPartenaire
Transcription
Formation Big Data avec Hadoop et Pivotal HDPartenaire
Formation Big Data avec Hadoop et Pivotal HDPartenaire Référence : BIGDATA-HADOOP-PIVOTAL-04 Durée : 4 jour(s) Présentation Cette formation de quatre jours donnera aux développeurs Java toutes les connaissances nécessaires pour exploiter les fonctionnalités étendues de Pivotal HD, “La distribution Apache Hadoop la plus puissante au monde”. La session débutera par une mise à niveau des participants sur les technologies requises * Big data, NoSQL et leur role dans les applications d’entreprise modernes * Les bases d’Hadoop et sa place dans la distribution Pivotal HD * Introduction à GemFire et SQLFire, des technologies de cache distribuées * Une vue d’ensemble de Spring et Big Data Objectifs - Comprendre les architectures d’Hadoop et Spring Hadoop Débuter avec MapReduce pour analyser de grands volumes de données Comprendre les concepts, notions avancées et mise en pratique de HDFS Comprendre le l’architecture de Pivotal HD Débuter avec HAWQ, la solution d’analyse Pivotal Notions avancées et mise en pratique de HAWQ Débuter avec le Command Center, installer et gérer un cluster Pivotal HD Introduction au Data Loader; import à grande échelle de données dans HDFS Introduction à HVE, le plugin de virtualisation de VMWare pour Hadoop Répartition: 40% Théorie, 60% Pratique Public: Développeur, Architecte Pré-requis: Maîtrise de la programmation Java., La gestion des données est un plus., Connaitre les principes de base de la virtualisation. Programme - Introduction et logistique - Objectifs du cours Garbage Collector - Limitations de Map Reduce - Jointures (Côté Mapper et côté Reducer) Introduction à NoSQL Spring Data Hadoop - Le paradigme NoSql - NoSql et la scalabilité - « no SQL » vs « Not Only SQL » - Les types de bases de données NoSql (stockage clévaleur, graphe, Map-Reduce, ...) - Introduction Introduction à Spring et Spring Data Le namespace Hadoop pour Spring Utiliser Spring pour simplifier la configuration Hadoop Configuration du cache distribué Définition des Jobs Intégration des outils (Pig, Hive...) Introduction à Hadoop - Qu’est ce qu’Hadoop? - L’écosystème Hadoop : Pig, Hive, HBase, Zookeeper... - Comprendre MapReduce et HDFS (Hadoop Distributed File System) - S’assurer de l’intégrité des données (checksum...) - Gagner de la place : compression des données d’entrée/sortie dans Hadoop - Lancer un job Hadoop - Configurer une runtime Hadoop HDFS - Hadoop Distributed FIle System - Objectifs de la conception: possibilité de tourner sur du matériel grande série, tolérance aux erreurs, ... - Scaling d’une seule datanode à des centaines de datanodes - Commandes HDFS - Travailler avec des chemins de fichiers - Administration d’HDFS (Interface, commandes d’admin, ...) - Utiliser l’API Java pour HDFS - Mise en place d’une Namenode secondaire, des Federated Namenodes, et ees Namenodes de haute disponibilité Débuter avec Map Reduce - Vue d’ensemble de Map Reduce Les différentes version d’Hadoop Ecriture d’un mapper Ecriture d’un reducer Tester et débugger Map Reduce en détail - La hiérarchie Writable - Partitionners, Combiners, Shuffle - Comment réutiliser les objets, et optimisation du Streaming de MapReduce, Pig - Alternatives de haut niveau à l’écriture de Mappers et de Reducers en Java - Hadoop streaming - Scripting avec Pig - SQL dans Hadoop Introduction à Hive - Vue d’ensemble de Hive Tables et DDL de Hive Partitions et tables externes Extraction de données (select) Jointures Transformations et & User Defined Functions (UDFs) Architecture de Pivotal HD - Composants Apache Hadoop HAWQ Data Loader Command Center Hadoop Virtualization Extensions (HVE) Débuter avec HAWQ - Installation et Environnement de HAWQ - Vue d’ensemble de la Configuration et des Opérations - Client d’accès à HAWQ - Introduction à HAWQ SQL - Introduction rapide à Spring JDBC et au support pour les Tests Travailler avec HAWQ - Création de tables de bases de données - Queries - Jointures