Big Data SIAD Toulouse

Transcription

Big Data SIAD Toulouse
20 ans du Master SIAD de
Toulouse
Big Data par l’exemple
Julien DULOUT
22 mars 2013
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Qui a déjà entendu parler du phénomène
Big Data?
Qui a déjà mis en œuvre des technos Big
Data ou connait des entreprises qui l’ont
déjà fait ?
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
ou réalité?
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Accroissement du volume d’information
1.8 Zettaoctets (1 zetta =1021 ) ont été produits en 2011, un chiffre qui continue à augmenter
de 50% chaque année.
Un homme en 2006 générait 5Go de
données par ans
En 2011, il génère 85Go par ans
+ 1700 %
Source IDC
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Sources multiples et Variées…
Open Data
OPEN DATA
Objets
intelligents
Médias
sociaux
…dont le format est Variable dans le
temps
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
…et traitées toujours plus vite
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
…avec des modes de Visualisation
toujours plus sophistiqués
v
…C’est là que réside la vraie aleur
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Alors Combien de V à Big Data ?
Volume
Variété
Variabilité
Vélocité
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Visualisation
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Pour qui?
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Pour qui?
TELCO
MARKETING
• Flux Data
• Optimisation des réseaux
• Connaissance marques
• Impacts Produits
• Analyse navigation WEB
• Social Marketing
SANTE
• Ingénierie médicale
• Maitrise de couts
PUBLIC
• Sécurité
• Assurance maladie
• Transports collectifs
VENTES
• Vente en temps réel
• Connaissance Client
• Analyse du tunnel de vente
RH
BANQUE
• Maitrise des flux / transaction
• Fraude / Risque
• Mesure du climat social
• Recrutement
ASSURANCE
• Assurance à l’usage
LOGISTIQUE
• Optimisation flux, stocks,
• Inventaire
ENERGIE
• Optimisation des réseaux
• Conseil consommation (Economie,
effacement)
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Pour qui?
VS
CA 2011 : 185 Mds€
96000 employés
CA 2011 : 10,5M€ (source JDN)
160 employés
Leader du Web Analytics
en France
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Exploiter le capital numérique à ma
disposition
Consommation
Localisation
Paiements
Relations
Contacts
Navigation
Consommation
Internes
Externes
1
2
Foyer
Domotique
Influence
Déplacement
OPEN DATA
NOUVEAUX SERVICES
NOUVEAUX USAGES
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Quels bénéfices à capter les données en
masse?
Créer un système à
recommandation
Connaitre le client
Booster les ventes
Connaitre ses préférences
Répondre au besoin du
client
Prédire ses achats
Améliorer l’experience
utilisateur
Evaluer sa satisfaction
Améliorer le fonctionnement du
site internet
Caractériser ses besoins
Augmenter la diversité
des achats
Analyse prédictive des ventes
L’exploitation des données
peut être très variée
Améliorer la gestion des
stocks
Mettre en avant des
produits
Vision à 360°
Estimer les ventes
Utiliser des données internes
et externes
Diminuer les pertes de
produits
Croiser les informations
Avoir une vision global de
l’activité
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Repérer les pages non
visitées
Analyser les problèmes
d’ergonomie
Réaliser des statistiques
précises
Recherche d’information
Rechercher
efficacement
Améliorer la réactivité
Augmenter la
pertinence des
résultats
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
L’incontournable Hadoop
Les atouts
Performance
Stockage
Scalabilité
Données non structurées
Haute disponibilité
R&D mondiale
Les points d’attention
Open source
Ressources spécialisées
Standard Web
Langage non SQL
Système distribué
Très orienté Analyse
Connectivité croissante
Orienté batch
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Le Framework Hadoop
Écosystème et distributions
Connecteurs (stockage simple ou utilisation de Hadoop pour réaliser des traitements)
Distributions
Workflow et
Scheduling
(Oozie)
Base NoSQL
orientée colonnes
(Hbase)
Coordinattion
(Zookeeper)
Flux de
données
(Pig)
Pseudo
SQL
(Hive)
Intégration données
non-structurées
(flume, chuhwa)
Calculs distribués
(MapReduce)
Stockage distribué
(HDFS)
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Intégration données
structurées
(Sqoop)
L’adoption d’Hadoop
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Quelle fonction analytique supporte
Hadoop dans votre organisation ?
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Quelles sont les données intégrées
dans Hadoop ?
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Cas d’utilisation d’Hadoop en terme
d’architecture
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Cas d’utilisation Hadoop
Pourquoi Facebook a migré vers Hadoop ?
En 2007, Facebook a préféré Hadoop aux solutions MPP pour de supporter
ses données décisionnelles d’un volume de 15 To
Les critères de choix
Aspect logiciel :
Open Source vs licences
Prise en main aisée par les
développeurs de FaceBook
Flexibilité
Aspects matériel :
Cluster de machines à bas prix vs
serveurs spécialisés (~10 000 US$ par
instance MySQL ou MPP vs 2 000 à 4 000
US$ par instance Hadoop)
Scalabilité horizontale jusqu’à 4000
nœuds
Performance accrue
Chiffres clés (2012)
210 To de données Hadoop (via Hive)
manipulées…chaque heure
500 To de données intégrés par jour
dont 300 millions de photos
MAJ des requêtes de ciblages de
publicité : chaque heure
100 Po de données sur une seule
grappe Hadoop
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Les cas d’usage fonctionnels des
technologies « Big Data »
Hadoop
Archithecture MPP (appliance ou non)
Cloud
Data Viz
Data mining
Stockage
Visualisation
Analyse
Big Data
Etl
Eco système Hadoop
Traitement
Requête
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
In Memory
Solutions MPP
Bases NoSQL
Les solutions MPP
Appliance
EXADATA
Sans Appliance
Database
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Les solutions In memory
Appliance
Cache pour cluster
Visual Analytics
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Memcached
Les solutions NoSQL
Clé / Valeurs
Orienté Colonne
NOSQL
Orienté Documents
Orienté Graphe
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Les solutions de traitements
Traitement - Map Reduce
Traitement
De nombreuses implémentation
différentes
Pig : utilisation d’un langage de
requêtage –
Basé sur des travaux réalisés par
Google
ETL
Concept simple mais apprentissage
difficile
Hive : utilisation d’un langage proche
du sql – Data warehouse
Gain en productivité
Plus accessible
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Les solutions de Visualisation et
d’analyse
Datamining
Dataviz
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Le nouvel éco système analytique
Collecte
Analyse
Visualisation
Sources
Down
Top
BIG DATA
Transformation de
gros volume pour
Visualisation
Le pilotage
opérationnel,
Sources
Sources
IN
OUT
Indicateurs
de pilotage,
DATAVIZ
Nouveaux services
Business intelligence
Top
Down
ACCELERATION DU CYCLE DECISIONNEL
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Le nouvel éco système analytique
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Le nouvel éco système analytique
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Exemple POC Big Data
• 1 Million de contrats par année
• Plus de 2 Millions de lignes de log par jour
• Des données de log en constante évolution et difficiles
à analyser
• Impossibilité de visualiser le parcours client sur un
temps de traitement très court
• Connaitre le trafic et la répartition des charges serveurs
sur de longue période est compliqué et très couteux
avec une telle volumétrie
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Objectifs du POC
• A partir des logs tomcat :
– Quantification du traffic
– Vérification du load balancing pour les
serveurs d’application
– Identification des erreurs tomcat
– Analyse du parcours client
– Evolution du taux de transformation en
fonction des actions marketing et des
évolutions du site Web
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Solutions mises en œuvre
• Hadoop distribution Cloudera CDH4
– Stockage : HDFS
– Requêtage : Hive
• Traitements : Talend BigData
• Requêtage : Vectorwise
• Visualisation : Tableau software
• Hébergement serveur : Cloud Amazon EC2
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Architecture technique
NoSQL
Sources
REEL
Base NoSQL
Talend
BigData
Tomcat 1
HDFS
Tomcat 2
DataNode 1
MNA
Tomcat 1
Talend
BigData
NameNode
Tomcat 2
Étape 1
Étape 2
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
DataNode 2
DataNode 3
Indicateurs du POC
• Temps de chargement moyen
– Phase init : 8H
– Phase quotidien : 30 min
• Temps d’exécution moyen
– Requête complexe : <15 min
– Requête simple : < 1 min
• Volumétrie :
–
–
–
–
1,5 ans d’historique
476 Millions de lignes
1500 Fichiers de log4j
400 Go
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
La donnée est le "nouveau pétrole". En conséquence, les métiers changent.
Le cabinet Gardner chiffre à 4,4 millions le nombre d'emplois dans le monde
créés d'ici à 2015 dans le secteur du Big Data
Nouveaux métiers
• CDO (chief data officer) : situé au même
niveau hiérarchique que les directeurs
marketing et informatique, il fait le lien
entre les deux services.
• Data Scientist
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Data scientist selon Yahoo! labs
Data scientists have the skills to lead and execute projects involving:
- Design algorithms to efficiently compute metrics on big data
- Mine data to extract deep insights into user media consumption,
consumer purchase behavior, user response to advertising
- Perform analysis such as social network analysis, anomaly detection,
trend analysis, etc
- Develop high dimensional predictive models of user behavior
- Develop visualizations
Data scientists will develop a deep understanding of Yahoo's data. They
will have the skills to design and implement algorithms, manipulate data
in one or more programming languages. They will have deep
knowledge of big data processing architectures such as map reduce,
stream processing, etc.
Data scientists will have a PhD in computer science or related fields.
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Autrement dit
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Autrement dit
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Autrement dit
Les compétences recherchées couvrent
trois domaines :
• la gestion des données (les capter),
• l'analyse (statisticiens, mathématiciens)
• les compétences métiers, liées au
management et à la prise de décisions.
Les deux premiers profils se trouvent en
écoles d'ingénieurs et universités. Le
troisième plutôt en école de commerce.
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT
Autrement dit
20 ans du SIAD - "Big Data par l'exemple" - Julien DULOUT