Data Lakes vs. Data Vaults
Transcription
Data Lakes vs. Data Vaults
Sujet de TER 2016-2017 Data Lakes vs. Data Vaults [email protected] Contexte Les lacs de données (data lakes ; Dixon, 2010 ; Clapeau, 2015) sont une manière, née avec les mégadonnées (big data), de stocker des données variées et diversement structurées dans leur format natif en vue de les analyser (reporting, visualisation, fouille de données…). C’est un concept qui s’oppose à celui de magasin de données (datamart), qui est une base de données décisionnelle intégrée, très structurée et orientée sur un sujet précis, mais qui a l’inconvénient de diviser les données en silos étanches (Stein & Morrison, 2014). Toutefois, tout le monde s’accorde pour dire qu’un lac de données doit être bien conçu sous peine de devenir un marécage (data swamp) inexploitable (Alrehamy & Walker, 2015). En revanche, les solutions pour y parvenir sont peu ou prou inexistantes dans la littérature et relèvent à l’heure actuelle de pratiques industrielles peu divulguées. C’est pourquoi Pathirana (2015) a proposé un modèle conceptuel de métadonnées permettant l’indexation et l’interrogation d’un lac de données patrimoniales. Ce modèle a été instancié au niveau physique dans différents systèmes de gestion de bases de données NoSQL. Objectif Le data vault1 (Hutlgren, 2016 ; Jovanovic & Bojicic, 2012) est un modèle de données alternatif aux modèles d’entrepôts de données classiques en étoile et leurs dérivés. De par son évolutivité, il semble bien adapté pour la gestion des métadonnées d’un lac de données. De plus, il peut être traduit en modèle relationnel (Krneta et al., 2014). L’objectif de ce TER est de remodéliser le modèle conceptuel de métadonnées de Pathirana (2015) sous la forme d’un data vault, d’en tirer deux modèles physiques relationnel et NoSQL, respectivement, et de comparer les performances de requêtes lancées via les métadonnées sur ces deux modèles physiques. Tâches à effectuer 1. Lire les documents cités en références bibliographiques. En trouver d’autres si possible. 2. Proposer un modèle conceptuel de métadonnées en data vault et ses traductions en modèles physiques relationnel (PostgreSQL2) et NoSQL (MongoDB3). 3. Alimenter le lac de données et ses métadonnées avec les données patrimoniales qui vous seront fournies. 4. Définir différentes requêtes visant à interroger les données stockées dans le lac par l’intermédiaire des métadonnées. Exécuter ces requêtes sur les deux modèles physiques et en comparer les performances (espace de stockage, temps de réponse des requêtes…). 5. Écrire un article d’une dizaine de page maximum, de préférence à l’aide de LaTeX4, en français ou en anglais, qui présente votre travail. Plan de l’article : a. Introduction 1 La traduction littérale étant chambre forte de données, je préfère ne pas l’utiliser en attendant mieux. https://www.postgresql.org 3 https://www.mongodb.com 4 https://www.latex-project.org 2 b. c. d. e. État de l’art : data lakes et data vaults Modèles de métadonnées en data vault (conceptuel et physiques) Comparaison expérimentale Conclusion Références bibliographiques Clapeau A. (2015). Qu’est-ce que le Data Lake, le nouveau concept "Big Data" en vogue. Journal du Net. http://www.journaldunet.com/solutions/cloud-computing/1165409-qu-est-ce-que-le-datalake-le-nouveauconcept-big-data-en-vogue/ Dixon J. (2010). Pentaho, Hadoop, and Data Lakes. James Dixon’s Blog. https://jamesdixon.wordpress.com/2010/10/14/pentaho-hadoop-and-data-lakes/ Hultgren H. (2016). Data vault modelling guide – Introductory guide to data vault modelling. Genesee Academy. https://hanshultgren.files.wordpress.com/2012/09/data-vault-modeling-guide.pdf Jovanovic V., Bojicic I. (2012). Conceptual Data Vault Model. Southern Association for Information Systems Conference, Atlanta, GA, USA: 131-136. https://works.bepress.com/vladan-jovanovic/9/ Krneta D., Jovanovic V., Marjanovic Z. (2014). A Direct Approach to Physical Data Vault Design. Computer Science and Information Systems, 11(2): 569-599. http://www.comsis.org/pdf.php?id=472-1305 Pathirana N. (2015). Modeling territorial knowledge from web data about natural and cultural heritage. Mémoire de master, Université Lumière Lyon 2. Stein B., Morrison, A. (2014). The enterprise data lake: Better integration and deeper analytics. Technology Forecast, 1. http://www.pwc.com/us/en/technology-forecast/2014/cloud-computing/assets/pdf/pwctechnology-forecast-data-lakes.pdf Alrehamy H.H., Walker C. (2015). Personal Data Lake with Data Gravity Pull. IEEE Fifth International Conference on Big Data and Cloud Computing (BDCloud 2015), Dalian, China: 160-167. https://www.researchgate.net/publication/283053696_Personal_Data_Lake_With_Data_Gravity_Pull