Formation DataStax Enterprise Analytics avec Spark
Transcription
Formation DataStax Enterprise Analytics avec Spark
Formation DataStax Enterprise Analytics avec Partenaire Spark Référence : DS320 Durée : 3 jour(s) Présentation Cours approfondi sur Spark, le moteur open-source d’analytique de données de DataStax Enterprise. Les étudiants apprendrons à utiliser l’API Spark Context à travers des exercices clé-en-main en Scala. Les Pair RDDs seront traités en détails, incluant l’intégration avec les tables CQL pour lire, écrire depuis et vers des structures Cassandra. Les étudiants utiliserons les APIs Action et Transformation, apprendrons comment Spark Streaming rend l’analyse temps-réel possible et comment Spark SQL permet, de manière ad-hoc, le requêtage SQL des données stockées dans Cassandra. Objectifs Répartition: 40% Théorie, 60% Pratique Public: Data scientists, Data management, Business intelligence professionals Pré-requis: Une première expérience avec Apache Cassandra (CASCOR), Scala et Linux, Un cluster DSE Analytics pré-configuré, les outils associés, les fichiers d’exercice (fournit par DataStax) Programme Introduction à l’analyse de données avec Cassandra et Spark. - Introduction à l'analytique Big Data avec Cassandra et Spark Installer, configurer, lancer et optimiser un cluster Cassandra DSE et Spark Introduction à la Data Analytics avec Cassandra et Spark Inventaire des outils Cassandra et Spark TP 1 : Travailler avec DSE Analytics cluster Les fondamentaux de Spark - Introduction au Resilient Distributed Dataset Description des principales fonctionnalités du connecteur Spark-Cassandra Opérations basique sur les RDDs Utilisation des variables partagées Describe lineage graphs, lazy evaluation, er la persistance. TP 2: Travailler avec Spark et les RDDs Cassandra Les opérations sur les RDDs les pairs de clé-valeur - Introduction aux Pair RDDs Utilisation des aggrégration, grouping et sorting Utilisations des jointures, intersections, unions et différences Comprendre et maîtriser le partitionnement TP 3: Utiliser les Pair RDDs de Spark pour joindre et aggrégger des données dans Cassandra Applications de Spark : Traitement de données Cassandra, Analyse et Analytics. - Créer et déployer une application Spark en standalone. - Utiliser Spark le traitement de données. - Utiliser Spark pour l’analyse de données et la data analytics. - TP 4: Implémenter un système de recommandation de musique avec une approche de filtrage collaboratif utilisant Spark et Cassandra. Tel: +33(0)1 45 26 19 15 Fax : +33(0)1 75 43 49 92 Email : [email protected]