Présentation BigData
Transcription
Présentation BigData
1 FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES « Dans le concret, projets de transformation vers le BigData … » V1 - 10/03/15 ABED AJRAOU CONNAISSEZ-VOUS PAGESJAUNES ? CONNAISSEZ-VOUS PAGESJAUNES ? LES MEGADONNEES RÉPONDENT À DE NOUVEAUX BESOINS Gestion des Logs Texte Mining Sentiment Analysis Self-Service BI Business Discovery Data Visualisation Data Interact BI institutionnelle Mining Reporting DataWarehouse ETL ERP CRM Analyse des RFID / Capteurs Big Data Flux des clics utilisateurs en temps réel Voix en Texte Données GPS et spatiales Analyse du Web Mobile Social Interaction Open Data Massive Processing Parallel Indexation Approche Agile Couche sémantique Datamart Cubes Data Gathering Data Cleansing SCM Base de données Données structurées d’entreprise Système de fichiers textes Données locales Gestion de contenu, Logs Image, Vidéo Réseaux sociaux Données non structurées d’entreprise et externes LA PREUVE PAR L’EXPÉRIMENTATION…. 5 BI - ARCHITECTURE 2013 ET 2014 Quelques limitations de la BI actuelle: BI Audience BI Mobile 1. BI globalement en silo => ce qui ne constitue pas de la vraie BI 2. Socle de données sur Netezza avec risque de saturation avérée 3. Aucune possibilité d’incorporer des données non structurées (type blog, réseaux sociaux …) 4. BI en mode batch BI Commercial BI Données DMT DWH ODS Logs fixe Logs mobile Base de donnée Base de données Base de données Données Structurées ou Semi-structurées d’entreprise 6 Date • Titre de la présentation Parc applicatif BI en transformation en 2014 et cible 2015 : activons le Big Data ! 7 VISION CIBLE ARCHITECTURE DE LA BI Data Visualisation Data Mart Fonctionnel Open Data Group (Données brutes et Open Datamart) Logs fixe Logs mobile Commerc iale Finance RH MPG Données Structurées ou Semi-structurées d’entreprise CRM Social Network Portail / Intranet Image, Vidéo Données non structurées 8 RÉALISATIONS 2014 – REAL TIME BUSINESS Real Time Business 9 RÉALISATIONS 2014/2015 - POWER SELECTOR Search Power Selector 10 OUR CONVICTION: OPENSOURCE WOULD SOLVE MOST OF BI PAINS The Enterprise Data Hub of Cloudera would be the « Extended DataWarehouse » The NoSql « Column Database » is the simple way to give access to the end user and ensure good performance Performance ETL for the data transformation on top of Hadoop New Data Visualization / Data Story Telling, which is very quick to install/deploy, and simple to use The end of the Batch, and the welcome of the Streaming and real time data 11 LE PARTAGE DE CONNAISSANCES EST CLEF! Le mangement de la donnée est essentiel dans toute pratique Big Data et tout projet. Nous avons lancé dans le cadre de l’association 3 groupes de travail: • Big Data • Data Science • Data Gouvernance D’autres ateliers suivront, des événements, de la littérature … donc abonnez-vous et n’attendez plus! http://www.dama-france.org/ 12 BIENVENUE DANS LE MONDE DU NOSQL 13 LE NOSQL, POURQUOI? 1970 Systèmes de fichiers Système transactionnel: Écritures concurrentes, Performance accès concurrents Standardisation … Base de données - RDBMS ~2009 Base de données - RDBMS Big Data: Volumétrie (téra/péta octet) Performance Données non structurées 14 NOSQL – NOT ONLY SQL DIFFÉRENTS TYPES: • BASES ORIENTÉES CLÉ / VALEUR • BASES ORIENTÉES COLONNES • BASES ORIENTÉES GRAPHES • BASES ORIENTÉES DOCUMENTS Ben Scofield a évalué les différents types de NoSQL: Data Model Key–Value Store Column-Oriented Store DocumentOriented Store Graph Database Relational Database Performance Scalability Flexibility Complexity Functionality high high high none variable (none) high high moderate low minimal high low variable (low) graph theory high variable (high) variable variable high high variable variable low moderate relational algebra 15 NOSQL – FOCUS SUR IMPALA ET L’ORIENTÉE COLONNE RowId Matricule 1 2 3 4 5 Nom 53427 Dupont 89765 Martin 109755 LeMaitre 76598 Dupont 9090432 Prince Prénom Eric Jean Gaston Gaston Charles Nom Dupont Martin LeMaitre Prince 1;4 2 3 5 DateEntrée 01/01/2000 15/03/2007 13/12/2003 01/01/2000 01/01/2010 Fonction Ingénieur Contrôleur Architecte Contrôleur Ingénieur Salaire 30000 65000 45000 50000 55000 Prenom Eric Jean Gaston Charles 1 2 3;4 5 Sur Impala, le mode Parquet enregistre cela en binaire et de façon compressée, ce qui accélère les analyses OLAP – agrégations, filtres … 16 CONSEIL: COMMENT ACTIVER LES PROJETS ET COMMENT REMÉDIER À L’IMMOBILISME? Avec votre bâton de pèlerin: • expliquez • démystifiez • donnez du sens • fédérez! Trouvez le sponsor dans l’entreprise, qui vous • soutiendra • appuiera • mettra en lumière Lancez-vous! Nous avons toute la maturité technologique pour enfin réaliser tous nos désirs en termes de data! Épanouissezvous! 17