XML Data Integration in OGSA Grids
Transcription
XML Data Integration in OGSA Grids
Master 2 Recherche Informatique Spécialité Systèmes d’Informations Rapport de l’article du module Grille de donnée pour l’année universitaire 2005-2006 XML Data Integration in OGSA Grids Auteurs: Carmela Comito and Domenico Talia DEIS, University of Calabria, Via P. Bucci 41 c, 87036 Rende, Italy {ccomito, talia}@deis.unical.it http://www.deis.unical.it/ Relecteur: Youssef ROUMMIEH Référence: Data Management in Grids: First VLDB Workshop, DMG 2005, Trondheim, Norway, September 2-3, 2005, Editors: Jean-Marc Pierson P.4-15, 2005, ISBN: 3-540-31212-9. Publisher: Springer-Verlag GmbH, ISSN: 0302-9743 1. Résumé Une Grille est une plate-forme du calcul géographiquement distribuée qui comprend un ensemble de machines hétérogènes que les utilisateurs peuvent accéder à travers une seule interface. Elle est un sujet de la recherche chaud parce qu'ils offrent des paradigmes prometteurs pour développer des systèmes et des applications distribués effectifs. Les sources de données dans la Grille sont de large échelle, dynamique, autonome et distribué. Elle sont maintenues dans syntaxes différentes, dirigées par les systèmes du logiciel différents, et accessible à travers protocoles et interfaces différents. Dû à cette diversité, une de l’exigence dans la gestion de données sur les Grilles est réconciliation de la donnée hétérogène. D’où la nécessité de fournir des modèles et des mécanismes de l'intégration de la donnée dans l’ordre de faciliter l’accès aux multiples sources de données hétérogènes. Le problème de l’intégration de donnée paraît depuis que la conception de nouvelles applications de traitement de données se fait dans un contexte où la plupart des données nécessaires sont déjà stockées dans des bases de données ou dans des fichiers construits de façon autonome pour les besoins des applications existantes. Pour faciliter leur réutilisation, les données à réutiliser peuvent être redéfinies sous forme d'une base de données virtuelle, assurant l’intégration logique des données sous-jacentes. Les mécanismes développés pour réaliser l’intégration peuvent être classés en deux approches principales : Système de gestion de base de donnée fédéré et Système d’intégration basé sur mediator/wrapper. La première approche est une configuration plutôt rigide où l'allocation des ressources est statique. Tandis que la deuxième doit être fait globalement et la coordination de médiateurs a être fait centralement et par conséquent les sources de la donnée ne peuvent pas changer souvent et considérablement. Mais, l'intégration de la donnée sur les Grilles doit négocier avec les volumes de la donnée imprévisibles, très dynamiques fournies par membre imprévisible de noeuds qui s'arrivent participer à tout temps. Ce qui donne que ces deux approches ne peuvent pas utiliser dans une Grille, ce n'est pas convenable de coordonner tous les nœuds d’une manière centralisée parce qu'il peut devenir un goulot et il ne bénéficie pas de la nature dynamique et a distribué de ressources de la Grille. Un peu de travaux ont conçu pour fournir le schéma intégration dans les Grilles. On note Hyper et GDMS. Les deux systèmes sont basés sur OGSA en étendant OGSA-DAI et fournissent de services d’intégration de la donnée. Notons que OGSA prévoit un ensemble d’outils permettant de gérer l’accès aux données et il facilite la découverte dynamique, l’allocation, l’accès, et l’usage de sources de la donnée. Le Service de la Médiation de la Donnée de la Grille (GDMS) utilise une approche du wrapper/mediator basée sur un schéma global. GDMS présente des sources de la donnée hétérogènes, distribuées comme une source de la donnée virtuelle logique dans la forme d'un service OGSA-DAI. Tandis que, Hyper est une structure qui intègre les données relationnelles dans les systèmes P2P construite sur les infrastructures de la Grille. Comme dans les autres P2P intégration systèmes, l'intégration est accomplie sans utiliser toute structure hiérarchique pour établir le mappings parmi les pairs autonomes. 2 Devant ce manque dans les mécanismes d’intégration de données dans la Grille, les auteurs ont proposé une approche qui vise à intégrer les sources de données XML de hétérogénéité structural distribué dans les nœuds de la Grille. Elle intègre les schémas de sources reliés sémantiquement d’une manière décentralisée. Elle est basée sur les mappings path-to-path exprimé dans le langage de la requête XPath. Les Mappings sont spécifiés comme des expressions de path qui relie un élément ou attribut spécifique dans le schéma source aux éléments ou attributs relié dans le schéma destination. Ces mappings sont spécifiées dans les documents XML appelé documents XMAP où chaque schéma source dans la structure est associé à un document XMAP contenant tous les règles mappings relié à lui. Notons que dans cette approche, il n’y a pas un schéma global qui représente tous les sources de données dans un modèle de donnée unique, mais une collection de schémas locaux, où chaque nœud joue à la fois le rôle de source et de médiateur local. En plus, chaque schéma source connaît la sémantique d’un petit nombre d’autres schémas, mais, il peut apprendre au sujet de mapping des autres noeuds. Un algorithme pour reformuler la requête posée sur un schéma source est proposé. Il prend comme paramètres la requête XPath, le schéma source S où la requête est posée et le mappings associé avec le schéma source et donne comme résultat un ensemble de requêtes reformulées utilisées sur le schéma source connecté sémantiquement à S. A partir de cet algorithme, quand une requête est posée sur le schéma source, le système sera capable d'utiliser les données de toutes les sources qui sont reliée transitivement par les mappings sémantiques. En effet, il reformulera la requête donnée et le traduire sémantiquement dans des requêtes appropriées pour chacun de source apparentée. Donc, l'utilisateur peut rapporter les données de toutes les sources apparentées dans le système en soumettant simplement une seule requête XPath. Les auteurs utilisent leur approche dans GDIS qui est une architecture d’intégration de donnée décentralisée pour les bases de données dans la grille basée sur le service. Elle est présentée dans un article pour les mêmes auteurs en 2004. Le middleware basé sur le service tient compte de développer des services de la donnée virtuels qui fournissent l'accès transparent à toutes les bases de données à travers une interface communs en cachant les détails de l’implémentation. Le dessin de la structure GDIS a été guidé par le but de développer un réseau décentralisé de schémas sémantiquement apparentés qui permettent la formulation de requêtes sur sources de la donnée hétérogènes. Le système autorise aussi des requêtes distribuées quand les sources de la donnée de la cible sont localisées à sites différents. Pour accomplir ce but les auteurs exposent des utilités de l'intégration de la donnée comme Services de la Grille qui tiennent compte de combiner ou transformer les multiples sources de données hétérogènes pour obtenir des vues intégrées ou dérivé de données. Le but de ce système est la réconciliation de sources de données hétérogènes, où il offre une approche basée sur wrapper/mediator pour intégrer les sources de la donnée : Il adopte l’approche Médiateur décentralisé XMAP pour gérer l’hétérogénéité sémantique sur les 3 sources de données. Alors que l’hétérogénéité syntactique est cachée derrière les Wrapper adhoc. Le système GDIS introduit le service Grid Data Integration (GDI), basé sur OGSA en étendant portTypes OGSA-DAI et OGSA-DQP avec les fonctionnalités qui permettent de spécifier les mappings sémantiques (dans le forme de documents XMAP) parmi un ensemble de sources de la donnée et d’exécuter l’algorithme de reformulation de la requête XMAP 2. Notation 2.1 Pertinence de l’article par rapport aux thèmes du cours : 5/5. Nous avons dans le cours une partie concerne l’intégration de donnée dans la Grille. Comme le but de cet article est de concevoir une approche pour intégrer les données dans la Grille, je trouve que cet article est bien pertinent avec les thèmes du cours. 2.2 Clarté et qualité rédactionnelle : 3,75/5. L’article est bien organisé, les auteurs indiquent les problèmes qu’ils existent dans les approches d’intégration de donnée, et après il décrit une approche qui réalise ces problèmes. Mais, parfois des ambiguïtés sont parues. 3. Synthèse 3.1 Points forts Les points forts de cet article sont : • • • • L’utilisateur peut retrouver les données en soumettant une simple requête XPath Lorsqu’on ajoute une source dans le système il suffit d’établir des connections avec un petite nombre de schémas Pruning dans la 3ème étape de l’algorithme permet d’éliminer une partie des schémas candidates sans les tester Les prototypes du logiciel de l'algorithme XMAP et le système GDIS sont développés actuellement 3.2 Points faibles Les points faibles de cet article sont : • Changement dans une source implique changement dans tous les mappings reliés à cette source • Le modèle d’intégration proposée ne résoudre que les hétérogénéités structurales sur les BD XML • Les BDRs sont supportées dans la version courant de OGSA-DQP Mais 4 Le mapping de simples expressions XPath à SQL/OQL est faisable. En effet, Dans la figure 6, on voit deux vues différentes pour représenter deux bases de données distribués sur deux sites différents, l’une est hiérarchique (pour les bases de données XML natives), et l’autre tabulaire (pour DBMSs objet-relationnel). Pour la reformulation de la requête, les utilisateurs soumettent les requêtes XPath qui font référence à une seule base de donnée physique. Par exemple, /S1/Artist[style="Cubisme'']/name, cette requête extraite les noms des artistes dont le style est Cubism et leur donnée est stockée dans la base de donnée S1. La requête suivante est soumise aux bases de données relationnelles (dans format Comme SQL): Select name from Artist where style = "Cubisme ''. 5