Formation DataStax Enterprise Analytics avec Spark

Transcription

Formation DataStax Enterprise Analytics avec Spark
Formation DataStax Enterprise Analytics avec Partenaire
Spark
Référence : DS320
Durée : 3 jour(s)
Présentation
Cours approfondi sur Spark, le moteur open-source d’analytique de données de DataStax Enterprise.
Les étudiants apprendrons à utiliser l’API Spark Context à travers des exercices clé-en-main en Scala.
Les Pair RDDs seront traités en détails, incluant l’intégration avec les tables CQL pour lire, écrire depuis
et vers des structures Cassandra. Les étudiants utiliserons les APIs Action et Transformation,
apprendrons comment Spark Streaming rend l’analyse temps-réel possible et comment Spark SQL
permet, de manière ad-hoc, le requêtage SQL des données stockées dans Cassandra.
Objectifs
Répartition: 40% Théorie, 60% Pratique
Public:
Data scientists, Data management, Business intelligence professionals
Pré-requis: Une première expérience avec Apache Cassandra (CASCOR), Scala et Linux, Un cluster DSE
Analytics pré-configuré, les outils associés, les fichiers d’exercice (fournit par DataStax)
Programme
Introduction à l’analyse de données avec Cassandra et Spark.
-
Introduction à l'analytique Big Data avec Cassandra et Spark
Installer, configurer, lancer et optimiser un cluster Cassandra DSE et Spark
Introduction à la Data Analytics avec Cassandra et Spark
Inventaire des outils Cassandra et Spark
TP 1 : Travailler avec DSE Analytics cluster
Les fondamentaux de Spark
-
Introduction au Resilient Distributed Dataset
Description des principales fonctionnalités du connecteur Spark-Cassandra
Opérations basique sur les RDDs
Utilisation des variables partagées
Describe lineage graphs, lazy evaluation, er la persistance.
TP 2: Travailler avec Spark et les RDDs Cassandra
Les opérations sur les RDDs les pairs de clé-valeur
-
Introduction aux Pair RDDs
Utilisation des aggrégration, grouping et sorting
Utilisations des jointures, intersections, unions et différences
Comprendre et maîtriser le partitionnement
TP 3: Utiliser les Pair RDDs de Spark pour joindre et aggrégger des données dans Cassandra
Applications de Spark : Traitement de données Cassandra, Analyse et Analytics.
- Créer et déployer une application Spark en standalone.
- Utiliser Spark le traitement de données.
- Utiliser Spark pour l’analyse de données et la data analytics.
- TP 4: Implémenter un système de recommandation de musique avec une approche de filtrage collaboratif utilisant
Spark et Cassandra.
Tel: +33(0)1 45 26 19 15
Fax : +33(0)1 75 43 49 92
Email : [email protected]