Big Data et Graphes

Transcription

Big Data et Graphes
Big Data et Graphes : Défis et pistes de
recherche
Hamamache Kheddouci
http://liris.cnrs.fr/hamamache.kheddouci
Laboratoire d'InfoRmatique en Image et Systèmes d'information
LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon
http://liris.cnrs.fr
Préambule
Recherche
C’est bien !
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Préambule
Recherche utile
Recherche
C’est très bien !
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Préambule
Recherche doublement utile
Recherche utile
Recherche
C’est encore mieux !
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data : Grandes Masses de Données
Age du Big Data !
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Générateurs des Big Data
Mobiles
(tracer tous les objets tout le temps)
Instruments scientifiques
(collecter toute sorte de données)
Réseaux de capteurs
(mesurer tout type de données)
Média et réseaux sociaux
(tous des générateurs de données)
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Nouveau modèle de données
Le Modèle de Génération/Consommation de la donnée
a changé
Ancien modèle : Quelques compagnies génèrent des données,
les autres sont des consommateurs de données
Nouveau Modèle : nous sommes tous des générateurs de données, et
nous sommes tous des consommateurs de données
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data … Partout !!
Santé
Vente
Finance
Analyse des Log
Analysis
Sécurité urbaine
Contrôle du trafic
Telecom
Web
Fraude et Risque
E-commerce
Fabrication
Hamamache Kheddouci
Bourse
JCIA – CERIST – Alger - 2016
Age du Big Data
“Data is a new class of economic asset, like currency and gold.”
Source: World Economic Forum 2012
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Phénomène Big Data
Un enjeu sociétal important :
•
Big bang numérique (réseaux sociaux, internet des objets, Smartphones,
Open Data, etc)
•
Déluge de données : Un univers de données de l'ordre de l'infiniment
grand (zettaoctet : 1021 octets)
•
En 2 jours, l'humanité produit plus de données que dans toute son
histoire depuis ses débuts jusqu'en 2003.
•
Facebook a généré en une année, plus d'informations que l'humanité n'en
a générées dans les 36 siècles qui ont précédé.
•
A chaque minute, en moyenne 350 000 tweets et quinze millions de SMS
sont envoyés au niveau mondial.
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Phénomène Big Data
Un enjeu économique important :
•
Le marché du Big Data n’est qu’à ses débuts !
•
la vente de solutions Big Data 3,2 milliards de $ en 2010 à 16,9 milliards de $ en
2015 (croissance annuelle de 40%)
IDC – International Data Corporation
Phénomène Big Data
Un enjeu économique important :
•
En 2015, 4.4 millions d’emplois en IT, 1.9 millions en USA !
•
la vente de solutions Big Data 3,2 milliards de $ en 2010 à 16,9 milliards
de $ en 2015 (croissance annuelle de 40%)
•
McKinsey 2012 : En 2025, les Big Data représentent 5 000 milliards de
dollars par an.
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data
Un enjeu scientifique important :
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Définition du Big Data
Définitions …
“Big Data” is a massive volume of both structured and
unstructured data that is so large that it's difficult to process with
traditional database and software techniques.”
“Big Data” is data whose scale, diversity, and complexity require
new architecture, techniques, algorithms, and analytics to manage
it and extract value and hidden knowledge from it…
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Caractéristiques des Big Data
Volume
Vélocité
Variété
Véracité
• Quantité
importante de
données
• Temps réel
• Différents
types
• Différentes
types de
valeurs
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Caractéristiques de Big Data
V1 : Volume
Rappel
1 million Octets/Caractères
1 Megaoctet
1 000 Megaoctet
1 Gigaoctet
Information contenue
dans le génome humain
1 000 Gigaoctets
1 teraoctet
Production littéraire
annuelle dans le monde
1 000 teraoctets
1 Petaoctet
Toutes les bibliothèques
Académiques américaines
1 000 Petaoctets
1 Exaoctet
2/3 de la production annuelle
d’information
1 000 Exaoctets
1 Zettaoctet
- Environ six fois le nombre
d’étoiles dans notre galaxie
- 200 milliards de films HD de
2 heures.
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Caractéristiques de Big Data
V1 : Volume
Volume de données
˜ augmente de 44x de 2009 à 2020
˜ De 0.8 à 35 Zo
˜ 1,8 Zo en 2011
Volume de données
façon exponentielle
augmente d’une
Augmente d’une façon
exponentielle dans la
collecte/génération de données
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Caractéristiques de Big Data
V2 : Variété (complexité)
Variété/hétérogéniété de formats, types,
de structures
Textes, numériques, images, audio,
vidéo, séquences, données sociales,
tableaux multidimensionnels, etc…
Données statiques, flux de données
(streaming data)
Une même application peut
générer/collecter plusieurs types de
données
Pour extraire de la connaissance è Tous
ces types de données doivent être
connectés ensemble
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Caractéristiques de Big Data
V3 : Vélocité
Données sont générées rapidement et doivent être traitées
rapidement
Plus vite la donnée est analysée, plus grande est
sa valeur prédictive
Analyse de données en temps réel (Online).
Tout retard de décision è perte d’opportunités
Exemples
˜E-Promotions : Suivant votre position actuelle, votre historique
d'achat, ce que vous aimez, des promotions vous seront
proposées par des magasins proches de votre position
˜Healthcare monitoring: des capteurs surveillent l’activité du corps
humain, è toute mesure anormale exige une réaction immédiate
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Caractéristiques de Big Data
V4 : Véracité
Une matière première naturelle !
Elle n’est plus liée à son traitement, elle est autonome
L’enjeu est de pouvoir hiérarchiser les données (n’ont pas toute
la même valeur)
Elle a plus de valeur après croisement avec des données
diverses.
Sa valeur persiste, ne pas la jeter !
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data
Innovation, Compétition et Productivité
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Défis du Big Data
THINK
BIG !
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Défis du Big Data
THINK
BIG !
THINK BIG
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Défis du Big Data
Un enjeu scientifique important : DATA SCIENCE
DATA SCIENCE : Recherche en Big Data
Méthodes innovantes de traitement et d’analyse sur toute la chaîne de
valeur de la donnée :
Ø Collecte,
Ø Indexation,
Ø Stockage,
Ø Gestion,
Ø Exploitation,
Ø Accessibilité́ ,
Ø Visualisation
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Défis du Big Data
Un enjeu scientifique important : DATA SCIENCE
DATA SCIENCE : Recherche en Big Data
Méthodes innovantes de traitement et d’analyse sur toute la chaîne de
valeur de la donnée :
Collecte, Indexation, Stockage, Gestion, Exploitation, Accessibilité́ , Visualisation
Qui se traduit, en termes de verrous, par :
• Infrastructure de stockage et de gestion
• Distribution et Indexation intelligente
• Optimisation de requêtes (traitement parallèle,…)
• Traitement de flux de données
• Qualité des données et leurs sémantiques
• Sécurisation des données
• Outils d’analyse, de fouille et d’exploration de données
• Visualisation
•…
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Data Science
Wikipédia
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Data Science
Recherche en Big Data est à ses débuts !
Plusieurs nouveaux appels à projets BIG DATA (Région, CNRS, ANR,
Europe H2020, Projets bilatéraux, etc)
Course vers les technologies Big Data (IBM, Google, Microsoft, etc)
Développer :
•
•
une algorithmie efficace (temps raisonnable, passage à l’échelle, prise en
compte de la complexité, etc)
techniques d’optimisation sur toute la chaîne de valeur de la donnée
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data & Graphs ?
Naturellement, les graphes et les données sont liés :
-
Linked open Data (graphes d’interactions entre données)
Des objets du Web sont des graphes (XML, RDF, …)
Graphes des amis de Facebook
Graphe de connaissances de Google
Graphes extraits de grandes base de données
….
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data & Graphes ?
Base de données
Données
temps
Emetteur
Récepteur
Type de mess.
D1
1
S1
S2
A
….
….
D2
2
S1
S3
C
….
D3
3
S2
S4
B
D4
4
S4
S2
A
D5
5
S3
S5
C
….
….
Hamamache Kheddouci
….
….
….
….
….
….
JCIA – CERIST – Alger - 2016
….
Attribut n.
3444
2112
5858
600
2333
….
Big Data & Graphes
Base de données
D1
temps
temps
Emetteur
Récepteur
Type de mess.
D1
1
S1
S2
A
D2
2
S1
S3
C
D2
D5
D3
3
S2
S4
B
D4
4
S4
S2
A
D5
5
S3
S5
C
….
….
Hamamache Kheddouci
….
….
D3
….
JCIA – CERIST – Alger - 2016
D4
Big Data & Graphes
Base de données
D1
temps
temps
Emetteur
Récepteur
Type de mess.
D1
1
S1
S2
A
D2
2
S1
S3
C
D2
D5
D3
3
S2
S4
B
D4
4
S4
S2
A
D5
5
S3
S5
C
….
….
Hamamache Kheddouci
….
….
D3
….
JCIA – CERIST – Alger - 2016
D4
Big Data & Graphes
Base de données
D1
temps
temps
Emetteur
Récepteur
Type de mess.
D1
1
S1
S2
A
D2
2
S1
S3
C
D2
D5
D3
3
S2
S4
B
D4
4
S4
S2
A
D5
5
S3
S5
C
….
….
Hamamache Kheddouci
….
….
D3
….
JCIA – CERIST – Alger - 2016
D4
Big Data & Graphes
Base de données
D1
temps
temps
Emetteur
Récepteur
Type de mess.
D1
1
S1
S2
A
D2
2
S1
S3
C
D2
D5
D3
3
S2
S4
B
D4
4
S4
S2
A
D5
5
S3
S5
C
….
….
Hamamache Kheddouci
….
….
D3
….
JCIA – CERIST – Alger - 2016
D4
Big Data & Graphes
Base de données
D1
temps
temps
Emetteur
Récepteur
Type de mess.
D1
1
S1
S2
A
D2
2
S1
S3
C
D2
D5
D3
3
S2
S4
B
D4
4
S4
S2
A
D5
5
S3
S5
C
….
….
Hamamache Kheddouci
….
….
D3
….
JCIA – CERIST – Alger - 2016
D4
Big Data & Graphes
Base de données
D1
temps
temps
Emetteur
Récepteur
Type de mess.
D1
1
S1
S2
A
D2
2
S1
S3
C
D2
D5
D3
3
S2
S4
B
D4
4
S4
S2
A
D5
5
S3
S5
C
….
….
Hamamache Kheddouci
….
….
D3
….
JCIA – CERIST – Alger - 2016
D4
Big Data & Graphes
Un graphe capture mieux les relations entre les données !
Base de données
D1
temps
temps
Emetteur
Récepteur
Type de mess.
D1
1
S1
S2
A
D2
2
S1
S3
C
D2
D5
D3
3
S2
S4
B
D4
4
S4
S2
A
D5
5
S3
S5
C
….
….
….
….
D3
….
Avec les graphes, c’est mieux ! J
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
D4
Big Data & Graphes
Un graphe capture mieux les relations entre les données !
Base de données
D1
temps
temps
Emetteur
Récepteur
Type de mess.
D1
1
S1
S2
A
D2
2
S1
S3
C
D2
D5
D3
3
S2
S4
B
D4
4
S4
S2
A
D5
5
S3
S5
C
….
….
….
….
D3
….
D4
Avec les graphes, c’est mieux ! J
Mais … ce sont de Big Graphs (Grands Graphes) ! L
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data & Big Graphs
Big Graphs
Big Data
+
Big Data Graphs =
Grands Graphes de Données
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Verrous Big Data
Solution à base de graphes
Indexation et stockage
Partitionnement de graphes
Analyse de flux de données Analyse de flux de graphes
Agrégation de données
Appariement et agrégation de graphes
Visualisation des données
Visualisation de graphes
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Verrous Big Data
Solution à base de graphes
Indexation et stockage
Partitionnement de graphes
Analyse de flux de données Analyse de flux de graphes
Agrégation de données
Appariement et agrégation de graphes
Visualisation des données
Visualisation de graphes
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
possible ?
Big Graphs
(Milliards de nœuds et arêtes)
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
1 machine ?
Combien de :
- RAM?
- Disque ?
Big Graphs for Big Data
Partitionnement de graphes de données
possible ?
NON
Big Graphs
(Milliards de nœuds et arêtes)
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
1 machine ?
Combien de :
- RAM?
- Disque ?
Big Graphs for Big Data
Partitionnement de graphes de données
possible ?
Machine parallèle ?
Big Graphs
(Milliards de nœuds et arêtes)
k machines ?
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
possible ?
Machine parallèle
OUI
Big Graphs
(Milliards de nœuds et arêtes)
k machines
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
possible ?
Machine parallèle
OUI
Big Graphs
(Milliards de nœuds et arêtes)
Comment découper le grand graphe ?
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
k machines
Big Graphs for Big Data
Comment découper le grand graphe en 2 partitions ?
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Comment découper le grand graphe en 2 partitions ?
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Comment découper le grand graphe en 2 partitions ?
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Comment découper le grand graphe en 2 partitions ?
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
Comment découper le grand graphe en k partitions ?
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
Comment découper le grand graphe en k partitions ?
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
2 (2)
Etant donné un graphe G = (N, E, WN, WE)
˜ N = sommets,
˜ W N = poids sur les sommets
˜ E = arêtes
˜ W E = poids des arêtes
4
1 (2)
2
5 (1)
1
3 (1)
2
3
5
6 (2)
4 (3)
1
2
1
6
7 (3)
Ex: N = {données}, WN = {vecteurs d’attributs de données},
arête (j,k) dans E : j envoie WE(j,k) mots au k
Choisir une partition N = N1 U N2 U … U NP telle que
˜ La somme des poids des nœuds dans chaque Nj est “presque le même”
˜ La somme des poids des arêtes connectant toutes les différentes paires Nj et Nk est
minimisée
Ex: équilibrage des chargements de données, en minimisant la communication entre les
machines
Cas particulier, N = N1 U N2
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
8 (1)
Big Graphs for Big Data
Partitionnement de graphes de données
Etant donné un graphe G = (N, E, WN, WE)
˜ N = sommets,
˜ W N = poids sur les sommets
˜ E = arêtes
˜ W E = poids des arêtes
1 (2)
2 (2)
4
2
5 (1)
3
5
6 (2)
1
3 (1)
2
4 (3)
1
2
1
8 (1)
6
7 (3)
Ex: N = {données}, WN = {vecteurs d’attributs de données},
arête (j,k) dans E : j envoie WE(j,k) mots au k
Choisir une partition N = N1 U N2 U … U NP telle que
˜ La somme des poids des nœuds dans chaque Nj est “presque le même”
˜ La somme des poids des arêtes connectant toutes les différentes paires Nj et Nk est
minimisée
Ex: équilibrage des chargements de données, en minimisant la communication entre les
machines
Cas particulier, N = N1 U N2
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
Partitionnement de matrices sur des machines
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
NP-complet
Plusieurs algorithmes existent :
˜ partitionnement spectral
˜ partitionnement géométrique
˜ partitionnement en graphes Multi-niveaux
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
NP-complet
Plusieurs algorithmes existent :
˜ partitionnement spectral
˜ partitionnement géométrique
˜ partitionnement en graphes Multi-niveaux
3 Phases
˜ compresser
˜ Partitionner
˜ Décompresser
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
Partitionnement en graphes Multi-niveaux
Compresser
(couplage
maximum)
partitionnement
équilibré
décompresser
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
Quelques paramètres de graphes liés au partitionnement
Ensemble d’arêtes Séparateur : Es (sous-ensemble de E) sépare G si en
retirant Es de E donne 2 composantes connexes de tailles égales, N: N1
and N2
Ensemble de sommets Séparateur : Ns (sous-ensemble de N) sépare G si
en retirant Ns et toutes leurs arêtes incidentes donne 2 composantes
connexes de tailles égales, N: N1 and N2
G = (N, E), sommets N et arêtes E
Ns = sommets verts
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
Quelques paramètres de graphes liés au partitionnement
Ensemble de sommets/arêtes critiques (CNP ou CEP)
o
CNP (Critical Node Problem)
Etant donnés un graphe G et un entier k.
Trouver un ensemble de k nœuds à retirer pour déconnecter au maximum G (i.e.
un maximum de composantes connectes dans le graphe restant)
o
CC-CNP (Constraint Cardinality CNP)
Etant donnés un graphe G et une borne L.
Trouver un nombre minimum de nœuds à retirer de G de sorte que la taille de
chaque composante connexe obtenue est au plus L.
o
Construire de nouvelles variantes liées au Big Data (équilibrage des tailles de
composantes connexes) !
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Partitionnement de graphes de données
Quelques paramètres de graphes liés au partitionnement
Colorations sommets/arêtes équilibrées
Toutes les colorations propres classiques peuvent être revues avec une contrainte
en plus : les tailles des classes de couleurs sont proches, IICiI- ICjII <= c, c une
constante
Une coloration propre
équilibrée
Graphes de dissimilarités (conflits)
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data Graphs & HPC
Partitionnement de graphes de données
˜ Minimiser
les surcoûts
mémoires partagées
de
communications
entre
processeurs/
˜ Minimiser les attentes (déséquilibrage de charges, synchronisation,
présence de parties séquentielles)
˜ Mieux exploiter le parallélisme hiérarchique (algorithmes efficaces sur 3
millions de processeurs ?)
˜ Meilleure gestion des fautes et/ou pannes (plus il y a des processeurs
plus il y a des pannes. Sur 1 million de processeurs, risque de pannes
toutes les 10 secondes)
˜ Exemple : Hadoop sur HPC, Cray Urika-GD,…
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Verrous Big Data
Solution à base de graphes
Indexation et stockage
Partitionnement de graphes
Analyse de flux de données Analyse de flux de graphes
Agrégation de données
Appariement et agrégation de graphes
Visualisation des données
Visualisation de graphes
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Verrous Big Data
Solution à base de graphes
Indexation et stockage
Partitionnement de graphes
Analyse de flux de données Analyse de flux de graphes
Agrégation de données
Appariement et agrégation de graphes
Visualisation des données
Visualisation de graphes
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Analyse de graphes en flux
Flux de données :
Un flux de données est une séquence de données : a1, a2, …, an .
˜Flux de prix
˜Flux de paquets IP
Les données ont différentes formes dans différentes applications.
˜Valeur scalaire
˜Tuple
˜…
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Analyse de graphes en flux
Modèle de traitement de flux :
Accès séquentiel au flux de données
Ordre des données dans le flux n’est pas contrôlé par l’algorithme et peut être artificiel.
Petit espace de travail comparé à la longueur du flux n :
˜ Polylog n
˜ ne
Petit nombre de passes sur le flux :
˜ Une passe
˜ Un nombre constant de passes
Temps de traitement d’une donnée est court
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
66
Big Graphs for Big Data
Analyse de graphes en flux
Buffer possible de taille
Toute machine
possède
noeuds
Graphe en flux
Graphe est ordonné :
• aléatoire
• Parcours en largeur d’abord
• Parcours en profondeur
d’abord
Hamamache Kheddouci
Partitionner
JCIA – CERIST – Alger - 2016
1
67
Big Graphs for Big Data
Analyse de graphes en flux
Buffer possible de taille
Toute machine
possède
noeuds
Graphe en flux
Partitionner
Graphe est ordonné :
• aléatoire
• Parcours en largeur d’abord
• Parcours en profondeur d’abord
1
But : Générer un k-partitionnement
approximativement équilibré
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
68
Big Graphs for Big Data
Graphe en flux
Soit un graphe : G=(V,E)
V = {v1, v2, …, vn} E = {e1, e2, …, em}
Un graphe en flux (stream) est une séquence d’arêtes de E.
3
5
1
2
(4,5) (2,3) (1,3) (3,5) (1,2) (2,4) (1,5) (3,4)
4
Les arêtes arrivent dans un ordre arbitraire dans le flux
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
69
Big Graphs for Big Data
Analyse de graphes en flux
Des travaux existent :
˜Tester la connectivité,
˜ Tester la planarité,
˜ construction d’arbre couvrant,
˜ …
Ces algorithmes de flux utilisent O(n·polylogn) espace et O(1) passes.
Re-penser les problèmes de graphes classiques dans le modèle
streaming, notamment pour l’organisation des données : clustering,
détection de propriétés structurelles, etc
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
70
Big Data Graphs & HPC
Analyse de graphes en flux
˜ Architectures dédiées : Cray Urika-GD Graph Discovery Appliance,…
˜ Découverte des relations et motifs sur les grands graphes de données
˜ Analyse des graphes de données en temps réel (dynamique).
˜ Mémoire partagée de grande taille (jusqu’à 512To)
˜ Algorithmique online sur les graphes à approfondir !!
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Verrous Big Data
Solution à base de graphes
Indexation et stockage
Partitionnement de graphes
Analyse de flux de données Analyse de flux de graphes
Agrégation de données
Appariement et agrégation de graphes
Visualisation des données
Visualisation de graphes
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Verrous Big Data
Solution à base de graphes
Indexation et stockage
Partitionnement de graphes
Analyse de flux de données Analyse de flux de graphes
Agrégation de données
Appariement et agrégation de graphes
Visualisation des données
Visualisation de graphes
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Appariement et agrégation de graphes
Un seul document ou une seule source ne pourrait pas répondre seul à une
requête !
information sur le vol
Quel est le
statut de mon
vol?
Source Web
Météo
Hamamache Kheddouci
Agence de voyage
JCIA – CERIST – Alger - 2016
DB centralisée
Big Graphs for Big Data
Appariement et agrégation de graphes
Un seul document ou une seule source ne pourrait pas répondre seul à une
requête !
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Appariement et agrégation de graphes
Un seul document ou une seule source ne pourrait pas répondre seul à une
requête !
Agrégation
Requêtes agrégatives :
- Tourisme en Algérie
- Nouveauté sur 3G++
- Synthèse sur la poésie populaire en Algérie
-…
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Appariement et agrégation de graphes
Un seul document ou une seule source ne pourrait pas répondre seul à une
requête !
Agrégation de documents graphes
Fragment 3
Fragment 1
Fragment 2
Principe :
• localiser des fragments qui répondent partiellement à la requête (par décomposition,
découverte de sous-graphes, matching, etc)
• agréger/composer les fragments (par des opérateurs de compositions de graphes)
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data et Graphes
Appariement et agrégation de graphes
Un seul document ou une seule source ne pourrait pas répondre seul à une
requête !
Agrégation
Requêtes agrégatives :
- Brad Pitt
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data et Graphes
Appariement et agrégation de graphes (ANR CAIR 2015-2019)
Un seul document ou une seule source ne pourrait pas répondre seul à une
requête !
Agrégation de documents graphes
Problématiques Combinatoire/Graphes
Ø Objets du Web -> graphes
Ø trouver des sous-graphes qui répondent
partiellement à la requête
Ø Choix de l’assemblage optimal (multiples façons de
combiner les objets)
Ø Construire des opérateurs d’agrégation de graphes
q
n Requête
n Base de graphes
g3
g2
g1
+
n Réponse
g1
g3
Opérateurs ?
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data Graphs & HPC
Appariement et agrégation de graphes
˜ Utiliser la puissance de calcul pour résoudre la combinatoire
explosive du problème
˜ Répondre à plusieurs requêtes à la seconde (Exp. Google)
˜ Obtenir des meilleurs résultats au même temps
˜ Efficacité dépend également des langages de requêtes sous-jacents.
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Verrous Big Data
Solution à base de graphes
Indexation et stockage
Partitionnement de graphes
Analyse de flux de données Analyse de flux de graphes
Agrégation de données
Appariement et agrégation de graphes
Visualisation des données
Visualisation de graphes
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Verrous Big Data
Solution à base de graphes
Indexation et stockage
Partitionnement de graphes
Analyse de flux de données Analyse de flux de graphes
Agrégation de données
Appariement et agrégation de graphes
Visualisation des données
Visualisation de graphes
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Visualisation des grands graphes
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Visualisation de grands graphes
•
•
Comment visualiser les grands graphes de données ?
Quels algorithmes et techniques pour explorer visuellement le grand graphe ?
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Graphs for Big Data
Visualisation de grands graphes
•
•
•
Communautés/clustering/classification
•
•
Visualisation 2D, 3D
Recherche de motifs fréquents
Visualisation d’échantillons
représentatifs, de sous-graphes, etc
Combiner la fouille visuelle avec
l’exploration algorithmique des grands
graphes.
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data Graphs & HPC
Appariement et agrégation de graphes
˜ Yark Data’s Urika (Cray)
˜ Rapidité de visualisation (des parties) du grand graphe
˜ Utiliser la puissance de calcul pour :
ü compresser/décompresser des grands graphes (décompresser les parties
à visualiser)
ü Enrichir le graphe à la demande avec des données complémentaires
provenant d’autres sources.
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016
Big Data, Graphes et HPC,
Ce n’est que le début de l’histoire …. !!
Hamamache Kheddouci
JCIA – CERIST – Alger - 2016

Documents pareils