Présentation BigData

Transcription

Présentation BigData
1
FINI LA RÉCRÉ
PASSONS AUX MÉGADONNÉES
« Dans le concret, projets
de transformation vers le
BigData … »
V1 - 10/03/15
ABED AJRAOU
CONNAISSEZ-VOUS PAGESJAUNES ?
CONNAISSEZ-VOUS PAGESJAUNES ?
LES MEGADONNEES RÉPONDENT À DE NOUVEAUX
BESOINS
Gestion des Logs
Texte Mining
Sentiment Analysis
Self-Service BI
Business Discovery
Data Visualisation
Data Interact
BI institutionnelle
Mining
Reporting
DataWarehouse
ETL
ERP
CRM
Analyse des RFID /
Capteurs
Big Data
Flux des clics
utilisateurs en
temps réel
Voix en Texte
Données GPS et
spatiales
Analyse du Web
Mobile
Social Interaction
Open Data
Massive Processing
Parallel
Indexation
Approche Agile
Couche sémantique
Datamart
Cubes
Data Gathering
Data Cleansing
SCM
Base de
données
Données structurées d’entreprise
Système de
fichiers textes
Données locales
Gestion de
contenu, Logs
Image, Vidéo Réseaux sociaux
Données non structurées d’entreprise et externes
LA PREUVE PAR L’EXPÉRIMENTATION….
5
BI - ARCHITECTURE 2013 ET 2014
Quelques limitations de la
BI actuelle:
BI Audience
BI Mobile
1. BI globalement en silo
=> ce qui ne constitue
pas de la vraie BI
2. Socle de données sur
Netezza avec risque de
saturation avérée
3. Aucune possibilité
d’incorporer des
données non
structurées (type blog,
réseaux sociaux …)
4. BI en mode batch
BI Commercial
BI Données
DMT
DWH
ODS
Logs fixe
Logs mobile
Base de
donnée
Base de
données
Base de
données
Données Structurées ou Semi-structurées d’entreprise
6
Date • Titre de la présentation
Parc applicatif BI en transformation
en 2014 et cible 2015 : activons le
Big Data !
7
VISION CIBLE ARCHITECTURE DE LA BI
Data Visualisation
Data Mart Fonctionnel
Open Data Group
(Données brutes et Open Datamart)
Logs fixe
Logs mobile Commerc
iale
Finance
RH
MPG
Données Structurées ou Semi-structurées d’entreprise
CRM
Social Network
Portail / Intranet
Image, Vidéo
Données non structurées
8
RÉALISATIONS 2014 – REAL TIME BUSINESS
Real Time Business
9
RÉALISATIONS 2014/2015 - POWER
SELECTOR
Search Power Selector
10
OUR CONVICTION: OPENSOURCE WOULD SOLVE
MOST OF BI PAINS
The Enterprise Data Hub of Cloudera would be
the « Extended DataWarehouse »
The NoSql « Column Database » is the simple way to give access to the
end user and ensure good performance
Performance ETL for the data transformation on top of
Hadoop
New Data Visualization / Data Story Telling, which is very
quick to install/deploy, and simple to use
The end of the Batch, and the welcome of the Streaming
and real time data
11
LE PARTAGE DE CONNAISSANCES EST CLEF!
Le mangement de la donnée est essentiel dans toute
pratique Big Data et tout projet. Nous avons lancé dans le
cadre de l’association 3 groupes de travail:
• Big Data
• Data Science
• Data Gouvernance
D’autres ateliers suivront, des événements, de la littérature
… donc abonnez-vous et n’attendez plus!
http://www.dama-france.org/
12
BIENVENUE DANS LE MONDE DU
NOSQL
13
LE NOSQL, POURQUOI?
1970
Systèmes de fichiers
Système transactionnel:
Écritures concurrentes,
Performance accès concurrents
Standardisation …
Base de données - RDBMS
~2009
Base de données - RDBMS
Big Data:
Volumétrie (téra/péta octet)
Performance
Données non structurées
14
NOSQL – NOT ONLY SQL
DIFFÉRENTS TYPES:
• BASES ORIENTÉES CLÉ / VALEUR
• BASES ORIENTÉES COLONNES
• BASES ORIENTÉES GRAPHES
• BASES ORIENTÉES DOCUMENTS
Ben Scofield a évalué les différents types de NoSQL:
Data Model
Key–Value Store
Column-Oriented
Store
DocumentOriented Store
Graph Database
Relational
Database
Performance
Scalability
Flexibility
Complexity
Functionality
high
high
high
none
variable (none)
high
high
moderate
low
minimal
high
low
variable (low)
graph theory
high
variable
(high)
variable
variable
high
high
variable
variable
low
moderate
relational
algebra
15
NOSQL – FOCUS SUR IMPALA ET
L’ORIENTÉE COLONNE
RowId
Matricule
1
2
3
4
5
Nom
53427 Dupont
89765 Martin
109755 LeMaitre
76598 Dupont
9090432 Prince
Prénom
Eric
Jean
Gaston
Gaston
Charles
Nom
Dupont
Martin
LeMaitre
Prince
1;4
2
3
5
DateEntrée
01/01/2000
15/03/2007
13/12/2003
01/01/2000
01/01/2010
Fonction
Ingénieur
Contrôleur
Architecte
Contrôleur
Ingénieur
Salaire
30000
65000
45000
50000
55000
Prenom
Eric
Jean
Gaston
Charles
1
2
3;4
5
Sur Impala, le mode Parquet enregistre cela en binaire et de façon compressée, ce
qui accélère les analyses OLAP – agrégations, filtres …
16
CONSEIL: COMMENT ACTIVER LES PROJETS ET
COMMENT REMÉDIER À L’IMMOBILISME?
Avec votre bâton de pèlerin:
• expliquez
• démystifiez
• donnez du sens
• fédérez!
Trouvez le sponsor dans l’entreprise, qui vous
• soutiendra
• appuiera
• mettra en lumière
Lancez-vous! Nous avons toute la maturité
technologique pour enfin réaliser tous nos
désirs en termes de data! Épanouissezvous!
17

Documents pareils