XML Data Integration in OGSA Grids

Transcription

XML Data Integration in OGSA Grids
Master 2 Recherche Informatique
Spécialité Systèmes d’Informations
Rapport de l’article du module Grille de donnée pour
l’année universitaire 2005-2006
XML Data Integration in OGSA Grids
Auteurs:
Carmela Comito and Domenico Talia
DEIS, University of Calabria,
Via P. Bucci 41 c,
87036 Rende, Italy
{ccomito, talia}@deis.unical.it
http://www.deis.unical.it/
Relecteur:
Youssef ROUMMIEH
Référence:
Data Management in Grids: First VLDB Workshop,
DMG 2005, Trondheim, Norway, September 2-3, 2005,
Editors: Jean-Marc Pierson
P.4-15, 2005, ISBN: 3-540-31212-9.
Publisher: Springer-Verlag GmbH, ISSN: 0302-9743
1. Résumé
Une Grille est une plate-forme du calcul géographiquement distribuée qui comprend un
ensemble de machines hétérogènes que les utilisateurs peuvent accéder à travers une seule
interface. Elle est un sujet de la recherche chaud parce qu'ils offrent des paradigmes
prometteurs pour développer des systèmes et des applications distribués effectifs.
Les sources de données dans la Grille sont de large échelle, dynamique, autonome et
distribué. Elle sont maintenues dans syntaxes différentes, dirigées par les systèmes du logiciel
différents, et accessible à travers protocoles et interfaces différents. Dû à cette diversité, une
de l’exigence dans la gestion de données sur les Grilles est réconciliation de la donnée
hétérogène. D’où la nécessité de fournir des modèles et des mécanismes de l'intégration de la
donnée dans l’ordre de faciliter l’accès aux multiples sources de données hétérogènes.
Le problème de l’intégration de donnée paraît depuis que la conception de nouvelles
applications de traitement de données se fait dans un contexte où la plupart des données
nécessaires sont déjà stockées dans des bases de données ou dans des fichiers construits de
façon autonome pour les besoins des applications existantes. Pour faciliter leur réutilisation,
les données à réutiliser peuvent être redéfinies sous forme d'une base de données virtuelle,
assurant l’intégration logique des données sous-jacentes.
Les mécanismes développés pour réaliser l’intégration peuvent être classés en deux
approches principales : Système de gestion de base de donnée fédéré et Système d’intégration
basé sur mediator/wrapper. La première approche est une configuration plutôt rigide où
l'allocation des ressources est statique. Tandis que la deuxième doit être fait globalement et la
coordination de médiateurs a être fait centralement et par conséquent les sources de la donnée
ne peuvent pas changer souvent et considérablement.
Mais, l'intégration de la donnée sur les Grilles doit négocier avec les volumes de la
donnée imprévisibles, très dynamiques fournies par membre imprévisible de noeuds qui
s'arrivent participer à tout temps. Ce qui donne que ces deux approches ne peuvent pas utiliser
dans une Grille, ce n'est pas convenable de coordonner tous les nœuds d’une manière
centralisée parce qu'il peut devenir un goulot et il ne bénéficie pas de la nature dynamique et a
distribué de ressources de la Grille.
Un peu de travaux ont conçu pour fournir le schéma intégration dans les Grilles. On note
Hyper et GDMS. Les deux systèmes sont basés sur OGSA en étendant OGSA-DAI et
fournissent de services d’intégration de la donnée. Notons que OGSA prévoit un ensemble
d’outils permettant de gérer l’accès aux données et il facilite la découverte dynamique,
l’allocation, l’accès, et l’usage de sources de la donnée.
Le Service de la Médiation de la Donnée de la Grille (GDMS) utilise une approche du
wrapper/mediator basée sur un schéma global. GDMS présente des sources de la donnée
hétérogènes, distribuées comme une source de la donnée virtuelle logique dans la forme d'un
service OGSA-DAI. Tandis que, Hyper est une structure qui intègre les données relationnelles
dans les systèmes P2P construite sur les infrastructures de la Grille. Comme dans les autres
P2P intégration systèmes, l'intégration est accomplie sans utiliser toute structure hiérarchique
pour établir le mappings parmi les pairs autonomes.
2
Devant ce manque dans les mécanismes d’intégration de données dans la Grille, les
auteurs ont proposé une approche qui vise à intégrer les sources de données XML de
hétérogénéité structural distribué dans les nœuds de la Grille. Elle intègre les schémas de
sources reliés sémantiquement d’une manière décentralisée.
Elle est basée sur les mappings path-to-path exprimé dans le langage de la requête XPath.
Les Mappings sont spécifiés comme des expressions de path qui relie un élément ou attribut
spécifique dans le schéma source aux éléments ou attributs relié dans le schéma destination.
Ces mappings sont spécifiées dans les documents XML appelé documents XMAP où chaque
schéma source dans la structure est associé à un document XMAP contenant tous les règles
mappings relié à lui.
Notons que dans cette approche, il n’y a pas un schéma global qui représente tous les
sources de données dans un modèle de donnée unique, mais une collection de schémas
locaux, où chaque nœud joue à la fois le rôle de source et de médiateur local. En plus, chaque
schéma source connaît la sémantique d’un petit nombre d’autres schémas, mais, il peut
apprendre au sujet de mapping des autres noeuds.
Un algorithme pour reformuler la requête posée sur un schéma source est proposé. Il
prend comme paramètres la requête XPath, le schéma source S où la requête est posée et le
mappings associé avec le schéma source et donne comme résultat un ensemble de requêtes
reformulées utilisées sur le schéma source connecté sémantiquement à S.
A partir de cet algorithme, quand une requête est posée sur le schéma source, le système
sera capable d'utiliser les données de toutes les sources qui sont reliée transitivement par les
mappings sémantiques. En effet, il reformulera la requête donnée et le traduire
sémantiquement dans des requêtes appropriées pour chacun de source apparentée. Donc,
l'utilisateur peut rapporter les données de toutes les sources apparentées dans le système en
soumettant simplement une seule requête XPath.
Les auteurs utilisent leur approche dans GDIS qui est une architecture d’intégration de
donnée décentralisée pour les bases de données dans la grille basée sur le service. Elle est
présentée dans un article pour les mêmes auteurs en 2004.
Le middleware basé sur le service tient compte de développer des services de la donnée
virtuels qui fournissent l'accès transparent à toutes les bases de données à travers une interface
communs en cachant les détails de l’implémentation.
Le dessin de la structure GDIS a été guidé par le but de développer un réseau décentralisé
de schémas sémantiquement apparentés qui permettent la formulation de requêtes sur sources
de la donnée hétérogènes. Le système autorise aussi des requêtes distribuées quand les
sources de la donnée de la cible sont localisées à sites différents. Pour accomplir ce but les
auteurs exposent des utilités de l'intégration de la donnée comme Services de la Grille qui
tiennent compte de combiner ou transformer les multiples sources de données hétérogènes
pour obtenir des vues intégrées ou dérivé de données.
Le but de ce système est la réconciliation de sources de données hétérogènes, où il offre
une approche basée sur wrapper/mediator pour intégrer les sources de la donnée : Il adopte
l’approche Médiateur décentralisé XMAP pour gérer l’hétérogénéité sémantique sur les
3
sources de données. Alors que l’hétérogénéité syntactique est cachée derrière les Wrapper adhoc.
Le système GDIS introduit le service Grid Data Integration (GDI), basé sur OGSA en
étendant portTypes OGSA-DAI et OGSA-DQP avec les fonctionnalités qui permettent de
spécifier les mappings sémantiques (dans le forme de documents XMAP) parmi un ensemble
de sources de la donnée et d’exécuter l’algorithme de reformulation de la requête XMAP
2. Notation
2.1 Pertinence de l’article par rapport aux thèmes du
cours : 5/5.
Nous avons dans le cours une partie concerne l’intégration de donnée dans la Grille.
Comme le but de cet article est de concevoir une approche pour intégrer les données dans la
Grille, je trouve que cet article est bien pertinent avec les thèmes du cours.
2.2 Clarté et qualité rédactionnelle : 3,75/5.
L’article est bien organisé, les auteurs indiquent les problèmes qu’ils existent dans les
approches d’intégration de donnée, et après il décrit une approche qui réalise ces problèmes.
Mais, parfois des ambiguïtés sont parues.
3. Synthèse
3.1 Points forts
Les points forts de cet article sont :
•
•
•
•
L’utilisateur peut retrouver les données en soumettant une simple requête XPath
Lorsqu’on ajoute une source dans le système il suffit d’établir des connections avec un
petite nombre de schémas
Pruning dans la 3ème étape de l’algorithme permet d’éliminer une partie des schémas
candidates sans les tester
Les prototypes du logiciel de l'algorithme XMAP et le système GDIS sont développés
actuellement
3.2 Points faibles
Les points faibles de cet article sont :
• Changement dans une source implique changement dans tous les mappings reliés à
cette source
• Le modèle d’intégration proposée ne résoudre que les hétérogénéités structurales sur
les BD XML
• Les BDRs sont supportées dans la version courant de OGSA-DQP
Mais
4
Le mapping de simples expressions XPath à SQL/OQL est faisable. En effet,
Dans la figure 6, on voit deux vues différentes pour représenter deux bases de données
distribués sur deux sites différents, l’une est hiérarchique (pour les bases de données XML
natives), et l’autre tabulaire (pour DBMSs objet-relationnel).
Pour la reformulation de la requête, les utilisateurs soumettent les requêtes XPath qui font
référence
à
une
seule
base
de
donnée
physique.
Par
exemple,
/S1/Artist[style="Cubisme'']/name, cette requête extraite les noms des artistes dont le style est
Cubism et leur donnée est stockée dans la base de donnée S1.
La requête suivante est soumise aux bases de données relationnelles (dans format Comme
SQL):
Select name from Artist where style = "Cubisme ''.
5