Panorama des technologies Big Data
Transcription
Panorama des technologies Big Data
Panorama des technologies Big Data Cyrille SAVELIEF – MNCC 29/09/2016 MNCC 1 Sommaire 1 Le Big Data : un écosystème complexe 2 Du SQL au NewSQL 3 BACKBONE & Microsoft Excel Intelligence Collector MNCC 2 Sommaire 1 Le Big Data : un écosystème complexe 2 Du SQL au NewSQL 3 BACKBONE & Microsoft Excel Intelligence Collector MNCC 3 Ecosystème Big Data Projets Big Data : Samza, Kudu, Samsara, Atlas, Apex, NiFi, Flink, Drill, Ranger, Ambari, Ignite, Storm, Parquet, Sentry, Spark, Impala, Solr, Kafka, Flume, Bigtop, Oozie, MRUnit, HCatalog, Sqoop, Whirr, Avro, Hive, Pig, Mahout, Accumulo, HBase, ZooKeeper, Hadoop, etc. MNCC 4 Data Supply Chain Producteurs de données Consommateurs de données Internet ! Hors de contrôle MNCC Bases de données Sous contrôle Challenges • Infrastructure • Intégration • Structuration & Stockage • Redistribution Méta-challenges • Traçabilité • Sécurité 5 Data Supply Chain Bases de données Systèmes de fichiers Machine Learning Programmation distribuée Intégration de données Hors de contrôle MNCC Sous contrôle 6 Ecosystème Big Data Domaines Solutions Systèmes de fichiers HDFS : Hadoop Distributed File System, Red Hat GlusterFS, QuantCast FileSystem, Ceph FileSystem, etc. Bases NoSQL MongoDB, ElasticSearch, Parquet, Reddis, MemCache, VoldeMort, Accumulo, HBase, HyperTable, Cassandra, Neo4J, etc. Bases NewSQL Hive, HCatalog, Drill, Impala, Bayes DB, Sensei, Drizzle, etc. Intégration de données Flume, Sqoop, NiFi, Storm, Flink, Scribe, Chukwa, etc. Programmation distribuée MapReduce, Pig, Samza, Kudu, JAQL, Spark, PigGen, Twill, Hama, etc. Machine learning Mahout, WEKA, Onyx, H2O, Sparkling Water, MADLib, SPARK, Bibliothèques Python, Bibliothèques R, Julia, etc. Sécurité Sentry, Ranger, etc. Autre Thrift, ZooKeeper, Tika, GraphBuilder, Oozie, Falcon, Mesos, Hue, Ambari, etc. MNCC Source: Davy Cielen, Arno D. B. Meysman & Mohamed Ali 7 Sommaire 1 Le Big Data : un écosystème complexe 2 Du SQL au NewSQL 3 BACKBONE & Microsoft Excel Intelligence Collector MNCC 8 Evolution des bases de données 1970 E.F. Codd 2006 2010 F. Chang A Relational R. Cattell Model of Data for Large Shared Data Bigtable: A Distributed Storage Banks Scalable SQL and System for NoSQL data stores Structured Data MNCC 9 SQL vs NoSQL vs NewSQL SQL NoSQL NewSQL Exemple PostgreSQL Accumulo SciDB Applications Transactions Recherche Analyse Modèle de données Tables relationnelles Paires de (clef, valeur) Matrices creuses Mathématiques Théorie des ensembles Théorie des graphes Algèbre linéaire Cohérence Volume Vélocité Variété Analytics Facilité d’utilisation MNCC 10 Anatomie d’une requête SQL MNCC NoSQL NewSQL Source: Jeremy Kepner, Vijay Gadepally, Dylan Hutchison & Hayden Jananthan 11 Sommaire 1 Le Big Data : un écosystème complexe 2 Du SQL au NewSQL 3 BACKBONE & Microsoft Excel Intelligence Collector MNCC 12 Constat • L’éclair de compréhension est rarement lié au volume des données analysées. • Il surgit généralement du croisement de données qui, auparavant, n’ont jamais été combinées. • Cependant, l’organisation interne des entreprises rend souvent complexe l’extraction et la combinaison de données vivant dans des silos distincts. MNCC 13 BACKBONE BACKBONE MNCC * Cérès Conseil est partenaire MondoBrain 14 Microsoft Excel Intelligence Collector Client Addin pour Microsoft Excel Serveur REST API Query Language Parser Linear Algebra Kernel Associative Arrays Accumulo MNCC MySQL SQL Server 15 Cyrille SAVELIEF [email protected] www.mncc.fr Adresse: MNCC 9, rue du 4 septembre 75002 Paris