Data Lakes vs. Data Vaults

Transcription

Data Lakes vs. Data Vaults
Sujet de TER 2016-2017
Data Lakes vs. Data Vaults
[email protected]
Contexte
Les lacs de données (data lakes ; Dixon, 2010 ; Clapeau, 2015) sont une manière, née avec les mégadonnées
(big data), de stocker des données variées et diversement structurées dans leur format natif en vue de les
analyser (reporting, visualisation, fouille de données…). C’est un concept qui s’oppose à celui de magasin de
données (datamart), qui est une base de données décisionnelle intégrée, très structurée et orientée sur un
sujet précis, mais qui a l’inconvénient de diviser les données en silos étanches (Stein & Morrison, 2014).
Toutefois, tout le monde s’accorde pour dire qu’un lac de données doit être bien conçu sous peine de devenir
un marécage (data swamp) inexploitable (Alrehamy & Walker, 2015). En revanche, les solutions pour y
parvenir sont peu ou prou inexistantes dans la littérature et relèvent à l’heure actuelle de pratiques
industrielles peu divulguées.
C’est pourquoi Pathirana (2015) a proposé un modèle conceptuel de métadonnées permettant l’indexation
et l’interrogation d’un lac de données patrimoniales. Ce modèle a été instancié au niveau physique dans
différents systèmes de gestion de bases de données NoSQL.
Objectif
Le data vault1 (Hutlgren, 2016 ; Jovanovic & Bojicic, 2012) est un modèle de données alternatif aux modèles
d’entrepôts de données classiques en étoile et leurs dérivés. De par son évolutivité, il semble bien adapté
pour la gestion des métadonnées d’un lac de données. De plus, il peut être traduit en modèle relationnel
(Krneta et al., 2014).
L’objectif de ce TER est de remodéliser le modèle conceptuel de métadonnées de Pathirana (2015) sous la
forme d’un data vault, d’en tirer deux modèles physiques relationnel et NoSQL, respectivement, et de
comparer les performances de requêtes lancées via les métadonnées sur ces deux modèles physiques.
Tâches à effectuer
1. Lire les documents cités en références bibliographiques. En trouver d’autres si possible.
2. Proposer un modèle conceptuel de métadonnées en data vault et ses traductions en modèles
physiques relationnel (PostgreSQL2) et NoSQL (MongoDB3).
3. Alimenter le lac de données et ses métadonnées avec les données patrimoniales qui vous seront
fournies.
4. Définir différentes requêtes visant à interroger les données stockées dans le lac par l’intermédiaire
des métadonnées. Exécuter ces requêtes sur les deux modèles physiques et en comparer les
performances (espace de stockage, temps de réponse des requêtes…).
5. Écrire un article d’une dizaine de page maximum, de préférence à l’aide de LaTeX4, en français ou en
anglais, qui présente votre travail. Plan de l’article :
a. Introduction
1
La traduction littérale étant chambre forte de données, je préfère ne pas l’utiliser en attendant mieux.
https://www.postgresql.org
3
https://www.mongodb.com
4
https://www.latex-project.org
2
b.
c.
d.
e.
État de l’art : data lakes et data vaults
Modèles de métadonnées en data vault (conceptuel et physiques)
Comparaison expérimentale
Conclusion
Références bibliographiques
Clapeau A. (2015). Qu’est-ce que le Data Lake, le nouveau concept "Big Data" en vogue. Journal du Net.
http://www.journaldunet.com/solutions/cloud-computing/1165409-qu-est-ce-que-le-datalake-le-nouveauconcept-big-data-en-vogue/
Dixon J. (2010). Pentaho, Hadoop, and Data Lakes. James Dixon’s Blog.
https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/
Hultgren H. (2016). Data vault modelling guide – Introductory guide to data vault modelling. Genesee
Academy. https://hanshultgren.files.wordpress.com/2012/09/data-vault-modeling-guide.pdf
Jovanovic V., Bojicic I. (2012). Conceptual Data Vault Model. Southern Association for Information Systems
Conference, Atlanta, GA, USA: 131-136. https://works.bepress.com/vladan-jovanovic/9/
Krneta D., Jovanovic V., Marjanovic Z. (2014). A Direct Approach to Physical Data Vault Design. Computer
Science and Information Systems, 11(2): 569-599. http://www.comsis.org/pdf.php?id=472-1305
Pathirana N. (2015). Modeling territorial knowledge from web data about natural and cultural heritage.
Mémoire de master, Université Lumière Lyon 2.
Stein B., Morrison, A. (2014). The enterprise data lake: Better integration and deeper analytics. Technology
Forecast, 1. http://www.pwc.com/us/en/technology-forecast/2014/cloud-computing/assets/pdf/pwctechnology-forecast-data-lakes.pdf
Alrehamy H.H., Walker C. (2015). Personal Data Lake with Data Gravity Pull. IEEE Fifth International
Conference on Big Data and Cloud Computing (BDCloud 2015), Dalian, China: 160-167.
https://www.researchgate.net/publication/283053696_Personal_Data_Lake_With_Data_Gravity_Pull