Big Data et Graphes
Transcription
Big Data et Graphes
Big Data et Graphes : Défis et pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'InfoRmatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon http://liris.cnrs.fr Préambule Recherche C’est bien ! Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Préambule Recherche utile Recherche C’est très bien ! Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Préambule Recherche doublement utile Recherche utile Recherche C’est encore mieux ! Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data : Grandes Masses de Données Age du Big Data ! Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Générateurs des Big Data Mobiles (tracer tous les objets tout le temps) Instruments scientifiques (collecter toute sorte de données) Réseaux de capteurs (mesurer tout type de données) Média et réseaux sociaux (tous des générateurs de données) Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Nouveau modèle de données Le Modèle de Génération/Consommation de la donnée a changé Ancien modèle : Quelques compagnies génèrent des données, les autres sont des consommateurs de données Nouveau Modèle : nous sommes tous des générateurs de données, et nous sommes tous des consommateurs de données Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data … Partout !! Santé Vente Finance Analyse des Log Analysis Sécurité urbaine Contrôle du trafic Telecom Web Fraude et Risque E-commerce Fabrication Hamamache Kheddouci Bourse JCIA – CERIST – Alger - 2016 Age du Big Data “Data is a new class of economic asset, like currency and gold.” Source: World Economic Forum 2012 Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Phénomène Big Data Un enjeu sociétal important : • Big bang numérique (réseaux sociaux, internet des objets, Smartphones, Open Data, etc) • Déluge de données : Un univers de données de l'ordre de l'infiniment grand (zettaoctet : 1021 octets) • En 2 jours, l'humanité produit plus de données que dans toute son histoire depuis ses débuts jusqu'en 2003. • Facebook a généré en une année, plus d'informations que l'humanité n'en a générées dans les 36 siècles qui ont précédé. • A chaque minute, en moyenne 350 000 tweets et quinze millions de SMS sont envoyés au niveau mondial. Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Phénomène Big Data Un enjeu économique important : • Le marché du Big Data n’est qu’à ses débuts ! • la vente de solutions Big Data 3,2 milliards de $ en 2010 à 16,9 milliards de $ en 2015 (croissance annuelle de 40%) IDC – International Data Corporation Phénomène Big Data Un enjeu économique important : • En 2015, 4.4 millions d’emplois en IT, 1.9 millions en USA ! • la vente de solutions Big Data 3,2 milliards de $ en 2010 à 16,9 milliards de $ en 2015 (croissance annuelle de 40%) • McKinsey 2012 : En 2025, les Big Data représentent 5 000 milliards de dollars par an. Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data Un enjeu scientifique important : Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Définition du Big Data Définitions … “Big Data” is a massive volume of both structured and unstructured data that is so large that it's difficult to process with traditional database and software techniques.” “Big Data” is data whose scale, diversity, and complexity require new architecture, techniques, algorithms, and analytics to manage it and extract value and hidden knowledge from it… Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Caractéristiques des Big Data Volume Vélocité Variété Véracité • Quantité importante de données • Temps réel • Différents types • Différentes types de valeurs Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Caractéristiques de Big Data V1 : Volume Rappel 1 million Octets/Caractères 1 Megaoctet 1 000 Megaoctet 1 Gigaoctet Information contenue dans le génome humain 1 000 Gigaoctets 1 teraoctet Production littéraire annuelle dans le monde 1 000 teraoctets 1 Petaoctet Toutes les bibliothèques Académiques américaines 1 000 Petaoctets 1 Exaoctet 2/3 de la production annuelle d’information 1 000 Exaoctets 1 Zettaoctet - Environ six fois le nombre d’étoiles dans notre galaxie - 200 milliards de films HD de 2 heures. Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Caractéristiques de Big Data V1 : Volume Volume de données ˜ augmente de 44x de 2009 à 2020 ˜ De 0.8 à 35 Zo ˜ 1,8 Zo en 2011 Volume de données façon exponentielle augmente d’une Augmente d’une façon exponentielle dans la collecte/génération de données Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Caractéristiques de Big Data V2 : Variété (complexité) Variété/hétérogéniété de formats, types, de structures Textes, numériques, images, audio, vidéo, séquences, données sociales, tableaux multidimensionnels, etc… Données statiques, flux de données (streaming data) Une même application peut générer/collecter plusieurs types de données Pour extraire de la connaissance è Tous ces types de données doivent être connectés ensemble Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Caractéristiques de Big Data V3 : Vélocité Données sont générées rapidement et doivent être traitées rapidement Plus vite la donnée est analysée, plus grande est sa valeur prédictive Analyse de données en temps réel (Online). Tout retard de décision è perte d’opportunités Exemples ˜E-Promotions : Suivant votre position actuelle, votre historique d'achat, ce que vous aimez, des promotions vous seront proposées par des magasins proches de votre position ˜Healthcare monitoring: des capteurs surveillent l’activité du corps humain, è toute mesure anormale exige une réaction immédiate Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Caractéristiques de Big Data V4 : Véracité Une matière première naturelle ! Elle n’est plus liée à son traitement, elle est autonome L’enjeu est de pouvoir hiérarchiser les données (n’ont pas toute la même valeur) Elle a plus de valeur après croisement avec des données diverses. Sa valeur persiste, ne pas la jeter ! Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data Innovation, Compétition et Productivité Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Défis du Big Data THINK BIG ! Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Défis du Big Data THINK BIG ! THINK BIG Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Défis du Big Data Un enjeu scientifique important : DATA SCIENCE DATA SCIENCE : Recherche en Big Data Méthodes innovantes de traitement et d’analyse sur toute la chaîne de valeur de la donnée : Ø Collecte, Ø Indexation, Ø Stockage, Ø Gestion, Ø Exploitation, Ø Accessibilité́ , Ø Visualisation Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Défis du Big Data Un enjeu scientifique important : DATA SCIENCE DATA SCIENCE : Recherche en Big Data Méthodes innovantes de traitement et d’analyse sur toute la chaîne de valeur de la donnée : Collecte, Indexation, Stockage, Gestion, Exploitation, Accessibilité́ , Visualisation Qui se traduit, en termes de verrous, par : • Infrastructure de stockage et de gestion • Distribution et Indexation intelligente • Optimisation de requêtes (traitement parallèle,…) • Traitement de flux de données • Qualité des données et leurs sémantiques • Sécurisation des données • Outils d’analyse, de fouille et d’exploration de données • Visualisation •… Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Data Science Wikipédia Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Data Science Recherche en Big Data est à ses débuts ! Plusieurs nouveaux appels à projets BIG DATA (Région, CNRS, ANR, Europe H2020, Projets bilatéraux, etc) Course vers les technologies Big Data (IBM, Google, Microsoft, etc) Développer : • • une algorithmie efficace (temps raisonnable, passage à l’échelle, prise en compte de la complexité, etc) techniques d’optimisation sur toute la chaîne de valeur de la donnée Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data & Graphs ? Naturellement, les graphes et les données sont liés : - Linked open Data (graphes d’interactions entre données) Des objets du Web sont des graphes (XML, RDF, …) Graphes des amis de Facebook Graphe de connaissances de Google Graphes extraits de grandes base de données …. Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data & Graphes ? Base de données Données temps Emetteur Récepteur Type de mess. D1 1 S1 S2 A …. …. D2 2 S1 S3 C …. D3 3 S2 S4 B D4 4 S4 S2 A D5 5 S3 S5 C …. …. Hamamache Kheddouci …. …. …. …. …. …. JCIA – CERIST – Alger - 2016 …. Attribut n. 3444 2112 5858 600 2333 …. Big Data & Graphes Base de données D1 temps temps Emetteur Récepteur Type de mess. D1 1 S1 S2 A D2 2 S1 S3 C D2 D5 D3 3 S2 S4 B D4 4 S4 S2 A D5 5 S3 S5 C …. …. Hamamache Kheddouci …. …. D3 …. JCIA – CERIST – Alger - 2016 D4 Big Data & Graphes Base de données D1 temps temps Emetteur Récepteur Type de mess. D1 1 S1 S2 A D2 2 S1 S3 C D2 D5 D3 3 S2 S4 B D4 4 S4 S2 A D5 5 S3 S5 C …. …. Hamamache Kheddouci …. …. D3 …. JCIA – CERIST – Alger - 2016 D4 Big Data & Graphes Base de données D1 temps temps Emetteur Récepteur Type de mess. D1 1 S1 S2 A D2 2 S1 S3 C D2 D5 D3 3 S2 S4 B D4 4 S4 S2 A D5 5 S3 S5 C …. …. Hamamache Kheddouci …. …. D3 …. JCIA – CERIST – Alger - 2016 D4 Big Data & Graphes Base de données D1 temps temps Emetteur Récepteur Type de mess. D1 1 S1 S2 A D2 2 S1 S3 C D2 D5 D3 3 S2 S4 B D4 4 S4 S2 A D5 5 S3 S5 C …. …. Hamamache Kheddouci …. …. D3 …. JCIA – CERIST – Alger - 2016 D4 Big Data & Graphes Base de données D1 temps temps Emetteur Récepteur Type de mess. D1 1 S1 S2 A D2 2 S1 S3 C D2 D5 D3 3 S2 S4 B D4 4 S4 S2 A D5 5 S3 S5 C …. …. Hamamache Kheddouci …. …. D3 …. JCIA – CERIST – Alger - 2016 D4 Big Data & Graphes Base de données D1 temps temps Emetteur Récepteur Type de mess. D1 1 S1 S2 A D2 2 S1 S3 C D2 D5 D3 3 S2 S4 B D4 4 S4 S2 A D5 5 S3 S5 C …. …. Hamamache Kheddouci …. …. D3 …. JCIA – CERIST – Alger - 2016 D4 Big Data & Graphes Un graphe capture mieux les relations entre les données ! Base de données D1 temps temps Emetteur Récepteur Type de mess. D1 1 S1 S2 A D2 2 S1 S3 C D2 D5 D3 3 S2 S4 B D4 4 S4 S2 A D5 5 S3 S5 C …. …. …. …. D3 …. Avec les graphes, c’est mieux ! J Hamamache Kheddouci JCIA – CERIST – Alger - 2016 D4 Big Data & Graphes Un graphe capture mieux les relations entre les données ! Base de données D1 temps temps Emetteur Récepteur Type de mess. D1 1 S1 S2 A D2 2 S1 S3 C D2 D5 D3 3 S2 S4 B D4 4 S4 S2 A D5 5 S3 S5 C …. …. …. …. D3 …. D4 Avec les graphes, c’est mieux ! J Mais … ce sont de Big Graphs (Grands Graphes) ! L Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data & Big Graphs Big Graphs Big Data + Big Data Graphs = Grands Graphes de Données Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Agrégation de données Appariement et agrégation de graphes Visualisation des données Visualisation de graphes Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Agrégation de données Appariement et agrégation de graphes Visualisation des données Visualisation de graphes Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données possible ? Big Graphs (Milliards de nœuds et arêtes) Hamamache Kheddouci JCIA – CERIST – Alger - 2016 1 machine ? Combien de : - RAM? - Disque ? Big Graphs for Big Data Partitionnement de graphes de données possible ? NON Big Graphs (Milliards de nœuds et arêtes) Hamamache Kheddouci JCIA – CERIST – Alger - 2016 1 machine ? Combien de : - RAM? - Disque ? Big Graphs for Big Data Partitionnement de graphes de données possible ? Machine parallèle ? Big Graphs (Milliards de nœuds et arêtes) k machines ? Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données possible ? Machine parallèle OUI Big Graphs (Milliards de nœuds et arêtes) k machines Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données possible ? Machine parallèle OUI Big Graphs (Milliards de nœuds et arêtes) Comment découper le grand graphe ? Hamamache Kheddouci JCIA – CERIST – Alger - 2016 k machines Big Graphs for Big Data Comment découper le grand graphe en 2 partitions ? Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Comment découper le grand graphe en 2 partitions ? Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Comment découper le grand graphe en 2 partitions ? Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Comment découper le grand graphe en 2 partitions ? Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données Comment découper le grand graphe en k partitions ? Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données Comment découper le grand graphe en k partitions ? Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données 2 (2) Etant donné un graphe G = (N, E, WN, WE) ˜ N = sommets, ˜ W N = poids sur les sommets ˜ E = arêtes ˜ W E = poids des arêtes 4 1 (2) 2 5 (1) 1 3 (1) 2 3 5 6 (2) 4 (3) 1 2 1 6 7 (3) Ex: N = {données}, WN = {vecteurs d’attributs de données}, arête (j,k) dans E : j envoie WE(j,k) mots au k Choisir une partition N = N1 U N2 U … U NP telle que ˜ La somme des poids des nœuds dans chaque Nj est “presque le même” ˜ La somme des poids des arêtes connectant toutes les différentes paires Nj et Nk est minimisée Ex: équilibrage des chargements de données, en minimisant la communication entre les machines Cas particulier, N = N1 U N2 Hamamache Kheddouci JCIA – CERIST – Alger - 2016 8 (1) Big Graphs for Big Data Partitionnement de graphes de données Etant donné un graphe G = (N, E, WN, WE) ˜ N = sommets, ˜ W N = poids sur les sommets ˜ E = arêtes ˜ W E = poids des arêtes 1 (2) 2 (2) 4 2 5 (1) 3 5 6 (2) 1 3 (1) 2 4 (3) 1 2 1 8 (1) 6 7 (3) Ex: N = {données}, WN = {vecteurs d’attributs de données}, arête (j,k) dans E : j envoie WE(j,k) mots au k Choisir une partition N = N1 U N2 U … U NP telle que ˜ La somme des poids des nœuds dans chaque Nj est “presque le même” ˜ La somme des poids des arêtes connectant toutes les différentes paires Nj et Nk est minimisée Ex: équilibrage des chargements de données, en minimisant la communication entre les machines Cas particulier, N = N1 U N2 Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données Partitionnement de matrices sur des machines Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données NP-complet Plusieurs algorithmes existent : ˜ partitionnement spectral ˜ partitionnement géométrique ˜ partitionnement en graphes Multi-niveaux Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données NP-complet Plusieurs algorithmes existent : ˜ partitionnement spectral ˜ partitionnement géométrique ˜ partitionnement en graphes Multi-niveaux 3 Phases ˜ compresser ˜ Partitionner ˜ Décompresser Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données Partitionnement en graphes Multi-niveaux Compresser (couplage maximum) partitionnement équilibré décompresser Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données Quelques paramètres de graphes liés au partitionnement Ensemble d’arêtes Séparateur : Es (sous-ensemble de E) sépare G si en retirant Es de E donne 2 composantes connexes de tailles égales, N: N1 and N2 Ensemble de sommets Séparateur : Ns (sous-ensemble de N) sépare G si en retirant Ns et toutes leurs arêtes incidentes donne 2 composantes connexes de tailles égales, N: N1 and N2 G = (N, E), sommets N et arêtes E Ns = sommets verts Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données Quelques paramètres de graphes liés au partitionnement Ensemble de sommets/arêtes critiques (CNP ou CEP) o CNP (Critical Node Problem) Etant donnés un graphe G et un entier k. Trouver un ensemble de k nœuds à retirer pour déconnecter au maximum G (i.e. un maximum de composantes connectes dans le graphe restant) o CC-CNP (Constraint Cardinality CNP) Etant donnés un graphe G et une borne L. Trouver un nombre minimum de nœuds à retirer de G de sorte que la taille de chaque composante connexe obtenue est au plus L. o Construire de nouvelles variantes liées au Big Data (équilibrage des tailles de composantes connexes) ! Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Partitionnement de graphes de données Quelques paramètres de graphes liés au partitionnement Colorations sommets/arêtes équilibrées Toutes les colorations propres classiques peuvent être revues avec une contrainte en plus : les tailles des classes de couleurs sont proches, IICiI- ICjII <= c, c une constante Une coloration propre équilibrée Graphes de dissimilarités (conflits) Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data Graphs & HPC Partitionnement de graphes de données ˜ Minimiser les surcoûts mémoires partagées de communications entre processeurs/ ˜ Minimiser les attentes (déséquilibrage de charges, synchronisation, présence de parties séquentielles) ˜ Mieux exploiter le parallélisme hiérarchique (algorithmes efficaces sur 3 millions de processeurs ?) ˜ Meilleure gestion des fautes et/ou pannes (plus il y a des processeurs plus il y a des pannes. Sur 1 million de processeurs, risque de pannes toutes les 10 secondes) ˜ Exemple : Hadoop sur HPC, Cray Urika-GD,… Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Agrégation de données Appariement et agrégation de graphes Visualisation des données Visualisation de graphes Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Agrégation de données Appariement et agrégation de graphes Visualisation des données Visualisation de graphes Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Analyse de graphes en flux Flux de données : Un flux de données est une séquence de données : a1, a2, …, an . ˜Flux de prix ˜Flux de paquets IP Les données ont différentes formes dans différentes applications. ˜Valeur scalaire ˜Tuple ˜… Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Analyse de graphes en flux Modèle de traitement de flux : Accès séquentiel au flux de données Ordre des données dans le flux n’est pas contrôlé par l’algorithme et peut être artificiel. Petit espace de travail comparé à la longueur du flux n : ˜ Polylog n ˜ ne Petit nombre de passes sur le flux : ˜ Une passe ˜ Un nombre constant de passes Temps de traitement d’une donnée est court Hamamache Kheddouci JCIA – CERIST – Alger - 2016 66 Big Graphs for Big Data Analyse de graphes en flux Buffer possible de taille Toute machine possède noeuds Graphe en flux Graphe est ordonné : • aléatoire • Parcours en largeur d’abord • Parcours en profondeur d’abord Hamamache Kheddouci Partitionner JCIA – CERIST – Alger - 2016 1 67 Big Graphs for Big Data Analyse de graphes en flux Buffer possible de taille Toute machine possède noeuds Graphe en flux Partitionner Graphe est ordonné : • aléatoire • Parcours en largeur d’abord • Parcours en profondeur d’abord 1 But : Générer un k-partitionnement approximativement équilibré Hamamache Kheddouci JCIA – CERIST – Alger - 2016 68 Big Graphs for Big Data Graphe en flux Soit un graphe : G=(V,E) V = {v1, v2, …, vn} E = {e1, e2, …, em} Un graphe en flux (stream) est une séquence d’arêtes de E. 3 5 1 2 (4,5) (2,3) (1,3) (3,5) (1,2) (2,4) (1,5) (3,4) 4 Les arêtes arrivent dans un ordre arbitraire dans le flux Hamamache Kheddouci JCIA – CERIST – Alger - 2016 69 Big Graphs for Big Data Analyse de graphes en flux Des travaux existent : ˜Tester la connectivité, ˜ Tester la planarité, ˜ construction d’arbre couvrant, ˜ … Ces algorithmes de flux utilisent O(n·polylogn) espace et O(1) passes. Re-penser les problèmes de graphes classiques dans le modèle streaming, notamment pour l’organisation des données : clustering, détection de propriétés structurelles, etc Hamamache Kheddouci JCIA – CERIST – Alger - 2016 70 Big Data Graphs & HPC Analyse de graphes en flux ˜ Architectures dédiées : Cray Urika-GD Graph Discovery Appliance,… ˜ Découverte des relations et motifs sur les grands graphes de données ˜ Analyse des graphes de données en temps réel (dynamique). ˜ Mémoire partagée de grande taille (jusqu’à 512To) ˜ Algorithmique online sur les graphes à approfondir !! Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Agrégation de données Appariement et agrégation de graphes Visualisation des données Visualisation de graphes Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Agrégation de données Appariement et agrégation de graphes Visualisation des données Visualisation de graphes Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Appariement et agrégation de graphes Un seul document ou une seule source ne pourrait pas répondre seul à une requête ! information sur le vol Quel est le statut de mon vol? Source Web Météo Hamamache Kheddouci Agence de voyage JCIA – CERIST – Alger - 2016 DB centralisée Big Graphs for Big Data Appariement et agrégation de graphes Un seul document ou une seule source ne pourrait pas répondre seul à une requête ! Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Appariement et agrégation de graphes Un seul document ou une seule source ne pourrait pas répondre seul à une requête ! Agrégation Requêtes agrégatives : - Tourisme en Algérie - Nouveauté sur 3G++ - Synthèse sur la poésie populaire en Algérie -… Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Appariement et agrégation de graphes Un seul document ou une seule source ne pourrait pas répondre seul à une requête ! Agrégation de documents graphes Fragment 3 Fragment 1 Fragment 2 Principe : • localiser des fragments qui répondent partiellement à la requête (par décomposition, découverte de sous-graphes, matching, etc) • agréger/composer les fragments (par des opérateurs de compositions de graphes) Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data et Graphes Appariement et agrégation de graphes Un seul document ou une seule source ne pourrait pas répondre seul à une requête ! Agrégation Requêtes agrégatives : - Brad Pitt Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data et Graphes Appariement et agrégation de graphes (ANR CAIR 2015-2019) Un seul document ou une seule source ne pourrait pas répondre seul à une requête ! Agrégation de documents graphes Problématiques Combinatoire/Graphes Ø Objets du Web -> graphes Ø trouver des sous-graphes qui répondent partiellement à la requête Ø Choix de l’assemblage optimal (multiples façons de combiner les objets) Ø Construire des opérateurs d’agrégation de graphes q n Requête n Base de graphes g3 g2 g1 + n Réponse g1 g3 Opérateurs ? Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data Graphs & HPC Appariement et agrégation de graphes ˜ Utiliser la puissance de calcul pour résoudre la combinatoire explosive du problème ˜ Répondre à plusieurs requêtes à la seconde (Exp. Google) ˜ Obtenir des meilleurs résultats au même temps ˜ Efficacité dépend également des langages de requêtes sous-jacents. Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Agrégation de données Appariement et agrégation de graphes Visualisation des données Visualisation de graphes Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Agrégation de données Appariement et agrégation de graphes Visualisation des données Visualisation de graphes Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Visualisation des grands graphes Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Visualisation de grands graphes • • Comment visualiser les grands graphes de données ? Quels algorithmes et techniques pour explorer visuellement le grand graphe ? Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Graphs for Big Data Visualisation de grands graphes • • • Communautés/clustering/classification • • Visualisation 2D, 3D Recherche de motifs fréquents Visualisation d’échantillons représentatifs, de sous-graphes, etc Combiner la fouille visuelle avec l’exploration algorithmique des grands graphes. Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data Graphs & HPC Appariement et agrégation de graphes ˜ Yark Data’s Urika (Cray) ˜ Rapidité de visualisation (des parties) du grand graphe ˜ Utiliser la puissance de calcul pour : ü compresser/décompresser des grands graphes (décompresser les parties à visualiser) ü Enrichir le graphe à la demande avec des données complémentaires provenant d’autres sources. Hamamache Kheddouci JCIA – CERIST – Alger - 2016 Big Data, Graphes et HPC, Ce n’est que le début de l’histoire …. !! Hamamache Kheddouci JCIA – CERIST – Alger - 2016