Big Data SIAD Toulouse
Transcription
Big Data SIAD Toulouse
20 ans du Master SIAD de Toulouse Big Data par l’exemple Julien DULOUT 22 mars 2013 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Qui a déjà entendu parler du phénomène Big Data? Qui a déjà mis en œuvre des technos Big Data ou connait des entreprises qui l’ont déjà fait ? 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT ou réalité? 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Accroissement du volume d’information 1.8 Zettaoctets (1 zetta =1021 ) ont été produits en 2011, un chiffre qui continue à augmenter de 50% chaque année. Un homme en 2006 générait 5Go de données par ans En 2011, il génère 85Go par ans + 1700 % Source IDC 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Sources multiples et Variées… Open Data OPEN DATA Objets intelligents Médias sociaux …dont le format est Variable dans le temps 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT …et traitées toujours plus vite 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT …avec des modes de Visualisation toujours plus sophistiqués v …C’est là que réside la vraie aleur 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Alors Combien de V à Big Data ? Volume Variété Variabilité Vélocité 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Visualisation 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Pour qui? 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Pour qui? TELCO MARKETING • Flux Data • Optimisation des réseaux • Connaissance marques • Impacts Produits • Analyse navigation WEB • Social Marketing SANTE • Ingénierie médicale • Maitrise de couts PUBLIC • Sécurité • Assurance maladie • Transports collectifs VENTES • Vente en temps réel • Connaissance Client • Analyse du tunnel de vente RH BANQUE • Maitrise des flux / transaction • Fraude / Risque • Mesure du climat social • Recrutement ASSURANCE • Assurance à l’usage LOGISTIQUE • Optimisation flux, stocks, • Inventaire ENERGIE • Optimisation des réseaux • Conseil consommation (Economie, effacement) 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Pour qui? VS CA 2011 : 185 Mds€ 96000 employés CA 2011 : 10,5M€ (source JDN) 160 employés Leader du Web Analytics en France 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Exploiter le capital numérique à ma disposition Consommation Localisation Paiements Relations Contacts Navigation Consommation Internes Externes 1 2 Foyer Domotique Influence Déplacement OPEN DATA NOUVEAUX SERVICES NOUVEAUX USAGES 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Quels bénéfices à capter les données en masse? Créer un système à recommandation Connaitre le client Booster les ventes Connaitre ses préférences Répondre au besoin du client Prédire ses achats Améliorer l’experience utilisateur Evaluer sa satisfaction Améliorer le fonctionnement du site internet Caractériser ses besoins Augmenter la diversité des achats Analyse prédictive des ventes L’exploitation des données peut être très variée Améliorer la gestion des stocks Mettre en avant des produits Vision à 360° Estimer les ventes Utiliser des données internes et externes Diminuer les pertes de produits Croiser les informations Avoir une vision global de l’activité 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Repérer les pages non visitées Analyser les problèmes d’ergonomie Réaliser des statistiques précises Recherche d’information Rechercher efficacement Améliorer la réactivité Augmenter la pertinence des résultats 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT L’incontournable Hadoop Les atouts Performance Stockage Scalabilité Données non structurées Haute disponibilité R&D mondiale Les points d’attention Open source Ressources spécialisées Standard Web Langage non SQL Système distribué Très orienté Analyse Connectivité croissante Orienté batch 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Le Framework Hadoop Écosystème et distributions Connecteurs (stockage simple ou utilisation de Hadoop pour réaliser des traitements) Distributions Workflow et Scheduling (Oozie) Base NoSQL orientée colonnes (Hbase) Coordinattion (Zookeeper) Flux de données (Pig) Pseudo SQL (Hive) Intégration données non-structurées (flume, chuhwa) Calculs distribués (MapReduce) Stockage distribué (HDFS) 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Intégration données structurées (Sqoop) L’adoption d’Hadoop 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Quelle fonction analytique supporte Hadoop dans votre organisation ? 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Quelles sont les données intégrées dans Hadoop ? 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Cas d’utilisation d’Hadoop en terme d’architecture 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Cas d’utilisation Hadoop Pourquoi Facebook a migré vers Hadoop ? En 2007, Facebook a préféré Hadoop aux solutions MPP pour de supporter ses données décisionnelles d’un volume de 15 To Les critères de choix Aspect logiciel : Open Source vs licences Prise en main aisée par les développeurs de FaceBook Flexibilité Aspects matériel : Cluster de machines à bas prix vs serveurs spécialisés (~10 000 US$ par instance MySQL ou MPP vs 2 000 à 4 000 US$ par instance Hadoop) Scalabilité horizontale jusqu’à 4000 nœuds Performance accrue Chiffres clés (2012) 210 To de données Hadoop (via Hive) manipulées…chaque heure 500 To de données intégrés par jour dont 300 millions de photos MAJ des requêtes de ciblages de publicité : chaque heure 100 Po de données sur une seule grappe Hadoop 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Les cas d’usage fonctionnels des technologies « Big Data » Hadoop Archithecture MPP (appliance ou non) Cloud Data Viz Data mining Stockage Visualisation Analyse Big Data Etl Eco système Hadoop Traitement Requête 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT In Memory Solutions MPP Bases NoSQL Les solutions MPP Appliance EXADATA Sans Appliance Database 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Les solutions In memory Appliance Cache pour cluster Visual Analytics 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Memcached Les solutions NoSQL Clé / Valeurs Orienté Colonne NOSQL Orienté Documents Orienté Graphe 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Les solutions de traitements Traitement - Map Reduce Traitement De nombreuses implémentation différentes Pig : utilisation d’un langage de requêtage – Basé sur des travaux réalisés par Google ETL Concept simple mais apprentissage difficile Hive : utilisation d’un langage proche du sql – Data warehouse Gain en productivité Plus accessible 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Les solutions de Visualisation et d’analyse Datamining Dataviz 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Le nouvel éco système analytique Collecte Analyse Visualisation Sources Down Top BIG DATA Transformation de gros volume pour Visualisation Le pilotage opérationnel, Sources Sources IN OUT Indicateurs de pilotage, DATAVIZ Nouveaux services Business intelligence Top Down ACCELERATION DU CYCLE DECISIONNEL 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Le nouvel éco système analytique 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Le nouvel éco système analytique 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Exemple POC Big Data • 1 Million de contrats par année • Plus de 2 Millions de lignes de log par jour • Des données de log en constante évolution et difficiles à analyser • Impossibilité de visualiser le parcours client sur un temps de traitement très court • Connaitre le trafic et la répartition des charges serveurs sur de longue période est compliqué et très couteux avec une telle volumétrie 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Objectifs du POC • A partir des logs tomcat : – Quantification du traffic – Vérification du load balancing pour les serveurs d’application – Identification des erreurs tomcat – Analyse du parcours client – Evolution du taux de transformation en fonction des actions marketing et des évolutions du site Web 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Solutions mises en œuvre • Hadoop distribution Cloudera CDH4 – Stockage : HDFS – Requêtage : Hive • Traitements : Talend BigData • Requêtage : Vectorwise • Visualisation : Tableau software • Hébergement serveur : Cloud Amazon EC2 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Architecture technique NoSQL Sources REEL Base NoSQL Talend BigData Tomcat 1 HDFS Tomcat 2 DataNode 1 MNA Tomcat 1 Talend BigData NameNode Tomcat 2 Étape 1 Étape 2 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT DataNode 2 DataNode 3 Indicateurs du POC • Temps de chargement moyen – Phase init : 8H – Phase quotidien : 30 min • Temps d’exécution moyen – Requête complexe : <15 min – Requête simple : < 1 min • Volumétrie : – – – – 1,5 ans d’historique 476 Millions de lignes 1500 Fichiers de log4j 400 Go 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT La donnée est le "nouveau pétrole". En conséquence, les métiers changent. Le cabinet Gardner chiffre à 4,4 millions le nombre d'emplois dans le monde créés d'ici à 2015 dans le secteur du Big Data Nouveaux métiers • CDO (chief data officer) : situé au même niveau hiérarchique que les directeurs marketing et informatique, il fait le lien entre les deux services. • Data Scientist 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Data scientist selon Yahoo! labs Data scientists have the skills to lead and execute projects involving: - Design algorithms to efficiently compute metrics on big data - Mine data to extract deep insights into user media consumption, consumer purchase behavior, user response to advertising - Perform analysis such as social network analysis, anomaly detection, trend analysis, etc - Develop high dimensional predictive models of user behavior - Develop visualizations Data scientists will develop a deep understanding of Yahoo's data. They will have the skills to design and implement algorithms, manipulate data in one or more programming languages. They will have deep knowledge of big data processing architectures such as map reduce, stream processing, etc. Data scientists will have a PhD in computer science or related fields. 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Autrement dit 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Autrement dit 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Autrement dit Les compétences recherchées couvrent trois domaines : • la gestion des données (les capter), • l'analyse (statisticiens, mathématiciens) • les compétences métiers, liées au management et à la prise de décisions. Les deux premiers profils se trouvent en écoles d'ingénieurs et universités. Le troisième plutôt en école de commerce. 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT Autrement dit 20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT