Panorama des technologies Big Data

Transcription

Panorama des technologies Big Data
Panorama des
technologies Big Data
Cyrille SAVELIEF – MNCC
29/09/2016
MNCC
1
Sommaire
1
Le Big Data : un écosystème complexe
2
Du SQL au NewSQL
3
BACKBONE & Microsoft Excel Intelligence Collector
MNCC
2
Sommaire
1
Le Big Data : un écosystème complexe
2
Du SQL au NewSQL
3
BACKBONE & Microsoft Excel Intelligence Collector
MNCC
3
Ecosystème Big Data
Projets Big Data : Samza,
Kudu, Samsara, Atlas, Apex,
NiFi, Flink, Drill, Ranger,
Ambari, Ignite, Storm,
Parquet, Sentry, Spark,
Impala, Solr, Kafka, Flume,
Bigtop, Oozie, MRUnit,
HCatalog, Sqoop, Whirr,
Avro, Hive, Pig, Mahout,
Accumulo, HBase,
ZooKeeper, Hadoop, etc.
MNCC
4
Data Supply Chain
Producteurs de données
Consommateurs de données
Internet !
Hors de contrôle
MNCC
Bases de données
Sous contrôle
Challenges
• Infrastructure
• Intégration
• Structuration & Stockage
• Redistribution
Méta-challenges
• Traçabilité
• Sécurité
5
Data Supply Chain
Bases de données
Systèmes de fichiers
Machine Learning
Programmation distribuée
Intégration de données
Hors de contrôle
MNCC
Sous contrôle
6
Ecosystème Big Data
Domaines
Solutions
Systèmes de fichiers
HDFS : Hadoop Distributed File System, Red Hat GlusterFS, QuantCast
FileSystem, Ceph FileSystem, etc.
Bases NoSQL
MongoDB, ElasticSearch, Parquet, Reddis, MemCache, VoldeMort, Accumulo,
HBase, HyperTable, Cassandra, Neo4J, etc.
Bases NewSQL
Hive, HCatalog, Drill, Impala, Bayes DB, Sensei, Drizzle, etc.
Intégration de données
Flume, Sqoop, NiFi, Storm, Flink, Scribe, Chukwa, etc.
Programmation
distribuée
MapReduce, Pig, Samza, Kudu, JAQL, Spark, PigGen, Twill, Hama, etc.
Machine learning
Mahout, WEKA, Onyx, H2O, Sparkling Water, MADLib, SPARK, Bibliothèques
Python, Bibliothèques R, Julia, etc.
Sécurité
Sentry, Ranger, etc.
Autre
Thrift, ZooKeeper, Tika, GraphBuilder, Oozie, Falcon, Mesos, Hue, Ambari, etc.
MNCC
Source: Davy Cielen, Arno D. B. Meysman & Mohamed Ali
7
Sommaire
1
Le Big Data : un écosystème complexe
2
Du SQL au NewSQL
3
BACKBONE & Microsoft Excel Intelligence Collector
MNCC
8
Evolution des bases de données
1970
E.F. Codd
2006
2010
F. Chang
A Relational
R. Cattell
Model of Data for
Large Shared Data Bigtable: A
Distributed Storage
Banks
Scalable SQL and
System for
NoSQL data stores
Structured Data
MNCC
9
SQL vs NoSQL vs NewSQL
SQL
NoSQL
NewSQL
Exemple
PostgreSQL
Accumulo
SciDB
Applications
Transactions
Recherche
Analyse
Modèle de données
Tables relationnelles
Paires de (clef, valeur)
Matrices creuses
Mathématiques
Théorie des ensembles
Théorie des graphes
Algèbre linéaire
Cohérence
Volume
Vélocité
Variété
Analytics
Facilité d’utilisation
MNCC
10
Anatomie d’une requête
SQL
MNCC
NoSQL
NewSQL
Source: Jeremy Kepner, Vijay Gadepally, Dylan Hutchison & Hayden Jananthan 11
Sommaire
1
Le Big Data : un écosystème complexe
2
Du SQL au NewSQL
3
BACKBONE & Microsoft Excel Intelligence Collector
MNCC
12
Constat
• L’éclair de compréhension est rarement lié au volume
des données analysées.
• Il surgit généralement du croisement de données qui,
auparavant, n’ont jamais été combinées.
• Cependant, l’organisation interne des entreprises rend
souvent complexe l’extraction et la combinaison de
données vivant dans des silos distincts.
MNCC
13
BACKBONE
BACKBONE
MNCC
* Cérès Conseil est partenaire MondoBrain 14
Microsoft Excel Intelligence Collector
Client
Addin pour Microsoft Excel
Serveur
REST API
Query Language Parser
Linear Algebra Kernel
Associative Arrays
Accumulo
MNCC
MySQL
SQL Server
15
Cyrille SAVELIEF
[email protected]
www.mncc.fr
Adresse:
MNCC
9, rue du 4 septembre
75002 Paris

Documents pareils