Gestion de Répliques dans les Grilles de Données

Transcription

Gestion de Répliques dans les Grilles de Données
Gestion de Répliques dans les Grilles de Données
Mohamed Redha Djebbara*, Hafida Belbachir**
*Ecole Supérieur d’Informatique – ESI (ex INI) Oued Semar – Alger
[email protected]
**Lab LSSD Université des Sciences et de Technologies Oran – USTO
[email protected]
serveurs (clusters). Un logiciel d'interface et de pilotage
est installé sur chaque nœud. Il assure le lien entre
l'activité locale du nœud, supervisée par les systèmes
d'exploitation de chaque serveur, et un outil de
supervision et de management global de la grille
logiquement unique, mais généralement distribué sur
plusieurs machines pour une meilleure fiabilité.
L'ensemble des logiciels assurant la gestion de la grille est
dénommé l'intergiciel (middleware) de la grille [2].
Une grille de données ne permet pas seulement de
découper des fichiers et de les ranger dans plusieurs
machines. Elle doit mettre en place des mécanismes de
recherche, d’indexation, de réplication et de sécurité pour
assurer un accès fiable et permanent.
Quand un utilisateur produit une requête pour un
dossier, il peut passer par plusieurs noeuds pour arriver au
serveur qui contient le dossier, en outre, la latence
impliquée peut être considérable en tenant compte de la
taille des dossiers. De là, le temps de réponse et la
disponibilité des données deviennent les défis principaux à
adresser. Afin de répondre à ces défis, une technique
importante est de répliquer les données dans différents
sites, de sorte qu’un utilisateur puisse accéder aux données
d’un site de sa proximité. La réplique peut également
aider dans l’équilibrage de la charge de la grille.
Pour bénéficier au maximum du gain que peuvent
apporter la réplication, leur placement stratégique dans le
système est critique. Les trois questions fondamentales
auxquelles n'importe quelle stratégie de placement de
répliques doit répondre sont : Quand les répliques
devraient-elles être créées ? Quels dossiers devraient être
répliqués ? Où devraient être placées les répliques ? Les
réponses à ces questions nous mènent à différentes
stratégies de réplication. Dans le reste du papier, nous
allons présenté et commenté plusieurs stratégies de
réplication et terminé avec une petite étude comparative.
Résumé - Les grilles de données sont des environnements
distribués très étendus où les nœuds sont distribués sur
le globe, et les données qui y sont partagées sont très
volumineuses. Ainsi, la réplication des données sur
plusieurs sites d’une grille de données est une solution
efficace afin d’obtenir de bonnes performances en terme
de temps de réponse, d’équilibrage de charge et de
meilleure disponibilité de données. Pour bénéficier au
maximum du gain que peuvent apporter les répliques de
données, leur placement stratégique dans le système est
critique. Dans ce papier, plusieurs stratégies de gestion
de répliques sont étudiées. Ces stratégies essayent de
répondre aux questions : quand, où et comment les
répliques sont créées et supprimées.
Keywords: grilles de données, réplication, disponibilité
de données, temps de réponse, placement de répliques.
1. Introduction
La grille informatique est un mécanisme important
pour bien gérer les ressources informatiques distribuées
dans différents endroits géographiques et qui apparaissent
comme une unique entité. Une sorte de puissante machine
virtuelle serait alors ainsi formée par le partage de
nombreuses
machines
provenant
d’organisations
administratives différentes. Le niveau actuel des
technologies et le fort intérêt qu’elles suscitent font que les
grilles semblent offrir une solution intéressante aux
problèmes du calcul et du stockage intensif [1].
Certaines applications comme la physique des
particules, peuvent générer des quantités astronomiques
de données pouvant atteindre plusieurs téraoctets voir
quelques péta octets. Il parait donc impossible de stoker
ces dernières sur une seule et même machine et on a donc
souvent recours à une grille de données.
On peut donner une vision simplifiée d’une
architecture générique de grilles, c.à.d quelle que soit la
technologie utilisée. La grille est physiquement constituée
de nœuds, qui sont des processeurs avec leurs disques,
l'ensemble étant interconnecté via un réseau. Suivant la
voie technologique retenue, ces nœuds sont de serveurs
plus ou moins puissants, voire des PC, ou des grappes de
2. Etat de l’art
2.1. Comparaison de quelques stratégies de
réplication dans [3]
Dans ce travail, les auteurs comparent plusieurs
stratégies dynamiques de réplication dans un
1
environnement de grille hiérarchique. Les stratégies sont
comparées en mesurant (par simulation) le temps de
réponse moyen et la bande passante totale utilisée. Ils ont
distingué entre une réplication et mise en antémémoire
(appelée aussi mise en cache ou le cashing). La réplique
est un phénomène du côté serveur. Un serveur décide
quand et où créer une copie d'un de ses dossiers. La mise
en antémémoire est définie comme phénomène du côté
client. Un client demande un dossier et stocke une copie
du dossier localement pour le futur usage.
Voici les stratégies utilisées:
Stratégie 1: Aucune réplique ou mise en antémémoire:
L'ensemble de données est disponible à la racine de la
hiérarchie quand la simulation commence.
Stratégie 2: Le meilleur client : Chaque noeud
maintient un historique détaillé pour chaque dossier qu'il
contient et il indique le nombre de requêtes qui concernent
ce dossier et les nœuds d’où viennent ces requêtes. Si ce
nombre dépasse un seuil prédéfini, le meilleur client pour
ce dossier (celui qui a produit la plus part des requêtes) est
identifié et le nœud crée alors une réplique auprès de ce
nœud.
Stratégie 3: Réplication en cascade : Une fois le seuil,
pour un dossier, est dépassé à la racine, une réplique est
créée au prochain niveau, mais sur le chemin au meilleur
client. Par conséquent le nouvel emplacement pour la
réplique est un ancêtre du meilleur client. Une fois le seuil
pour le dossier est dépassé au niveau 2, il sera alors
répliqué à la prochaine rangée inférieure et ainsi de suite.
Un dossier beaucoup demandé peut finalement être
répliqué au client lui-même.
Racine
Ces stratégies sont comparées selon trois modes
d’accès aux données, à savoir:
P-Random: mode d’accès aléatoire.
P1 : les données qui contiennent un degré de localité
temporelle, c.à.d les fichiers récemment consultés sont
susceptibles d'être à nouveau consultés.
P2 : les données contenant un degré de localité
temporelle et géographique. Cette dernière veut dire que
les fichiers récemment consultés par un client sont
susceptibles d'être consultés par les clients à proximité.
Les résultats de simulation ont notamment montré que
la stratégie 5 réduit le temps de réponse de 30% par
rapport à la mise en antémémoire simple lorsque les
modes d'accès aux données contiennent à la fois des
localités temporelles et géographiques. Lorsque le mode
d’accès est aléatoire, la propagation rapide économise la
bande passante de façon significative par rapport à
d'autres stratégies.
2.2. Placement de répliques dans une grille de
topologie hybride, étudié dans [4]
Afin de minimiser le coût de communication entre les
répliques, les auteurs ont utilisé deux topologies,
hiérarchique et anneau. Pour exploiter plus loin les
propriétés des deux topologies, une topologie hybride peut
être employée dans laquelle les organismes de réplications
d’anneau et hiérarchique peuvent être combinés.
Afin de vérifier l’utilité du placement de répliques, les
auteurs ont testé trois scénarios :
Scénario 1 : il n’y a aucune réplique.
Scénario 2 : les répliques sont placées au deuxième
niveau de l'arbre, c.-à-d. les premiers noeuds
intermédiaires.
Scénario 3 : les répliques sont placées aux noeuds
intermédiaires les plus bas, par conséquent situées plus
près des utilisateurs.
Les résultats de cette expérience ont montré qu’une
meilleure exécution est réalisée quand les répliques sont
placées plus prés des utilisateurs (le cas du scénario 3).
Les gains sont plus considérables quand les fichiers ont
des tailles plus grandes comme dans le cas d’un
environnement d’une grille de données.
Un autre facteur peut jouer un rôle aussi important et
qui est la bande passante entre les nœuds, ça peut
présenter des retards supplémentaires très considérables.
Tout cela montre que le placement de répliques
améliore la fiabilité d’accès aux données mesurée par le
temps de réponse.
F1 dépasse le seuil
F1
F1 dépasse le seuil
F1
A
B
C
Fig. 1. Réplication en cascade. A la racine le nombre
de requêtes pour F1 dépasse un seuil et une copie est
envoyée au niveau suivant. Eventuellement le seuil est
dépassé au niveau suivant et une copie est envoyée au
client C.
Stratégie 4: Mise en antémémoire simple : Étant donné
que les fichiers sont volumineux, et un client n’a
suffisamment d'espace que pour stocker un seul fichier à
la fois, les fichiers sont remplacés rapidement.
Stratégie 5: Mise en antémémoire et réplication en
cascade : Cette stratégie combine les stratégies 3 et 4. Le
client sauvegarde les fichiers localement. Le serveur
identifie régulièrement les fichiers populaires et les
propage vers le bas de la hiérarchie.
Stratégie 6: diffusion rapide : Dans cette méthode une
réplique d’un dossier est stockée à chaque noeud tout au
long de son chemin au meilleur client.
2.3. Approche économique
réplication proposée dans [5]
de
stratégie
de
Un modèle économique de gestion (création et
destruction) de répliques est proposé dans [5]. Dans ce
système, un agent est situé sur chaque nœud de stockage
2
et se sert d’un protocole d’« enchères » pour choisir quelle
réplique d’un fichier est à utiliser. Lorsqu’une donnée est
requise sur un site, l’agent concerné va interroger les
serveurs de stockage. Le serveur qui remporte l’enchère
est celui qui a proposé le prix le plus faible. Pour chaque
serveur interrogé, si la donnée est présente alors le prix
fixé est proportionnel au temps estimé pour le transfert de
fichier entre le serveur de stockage considéré et le site
demandeur. Si la donnée n’est pas présente, le serveur de
stockage a la possibilité de déclencher lui aussi une
demande d’enchère pour acquérir la donnée s’il estime
que les revenus qu’elle va lui apporter seront plus grands
que le coût de son achat. Une enchère initiale peut donc
engendrer des enchères en cascade. Bien évidemment,
cela suppose que les serveurs de stockage ont un moyen de
prédiction de l’utilisation des données pour pouvoir
estimer les revenues qu’elles peuvent générer.
Bien que ce modèle a donné de bons résultats, due à sa
capacité de déterminer les dossiers les plus accéder à
travers l'historique d'accès et de les répliquer en
conséquence, mais n’a pas pris en considération le coût de
stockage.
le meilleur placement pour ces répliques. La topologie de
la grille de données étudiée est hiérarchique.
Le problème de placement optimal de répliques est
formulé sous forme d’ensembles de répliques qui ont
comme but de minimiser la charge de travail sur la racine
et d’équilibrer la charge de travail de la grille. Les
solutions proposées sont basées sur l’estimation de
l’utilisation des données de différents sites.
L’algorithme proposé dans [7] détermine efficacement
les endroits de répliques si la charge de travail maximale
de chaque nœud et le nombre de répliques ont été bien
déterminés.
Un autre algorithme a été proposé pour déterminer le
nombre de répliques requis pour s’assurer que la charge
de travail maximale sur chaque réplique ne dépasse pas un
certain seuil.
2.6. Algorithme de placement et d’entretien de
répliques proposé dans [8]
Un algorithme d’entretien de répliques proposé dans
[8] redistribue les répliques si les performances du
système se dégradent d’une manière significative. On
commence par l’idée que les dossiers d’une grille sont très
volumineux. Cependant, il n’est pas évident de répliquer
n’importe quel dossier et de le placer dans n’importe quel
site d’où la nécessité de localiser d’abord les sites
candidats pour placer les répliques en optimisant bien sûr
le temps de transfert des dossiers et en satisfaisant le
grand nombre de requêtes utilisateurs. La bande passante
joue un rôle important dans le transfert de fichiers. Pour
cela, il est important de placer une réplique dans un site
qui est relié à ses voisins d’une bande passante limitée.
Dans ce papier, les auteurs ont pris en priorité l’état du
réseau ainsi que les requêtes utilisateurs avant le
placement des répliques. Leur approche est dynamique,
donc elle s’adapte au changement du comportement
d’utilisateur et du système.
Ils ont employé trois modèles, à savoir le p-médian, le
p-center et le multi-objective pour sélectionner les sites
candidats pour accueillir les répliques. Le p-médian place
la réplique dans des sites de telle sorte d’optimiser le
temps de réponse moyen, qui est le temps écoulé pour
transférer un dossier à partir de l'emplacement de réplique
le plus proche. Le temps de réponse est calculé en
multipliant le nombre de requêtes dans un site i avec le
temps de réponse du site i. Le modèle p-center choisit les
sites candidats pour accueillir une réplique en minimisant
le maximum de temps de réponse. L’approche multiobjective combine les deux modèles p-center et p-médian,
pour décider où placer une réplique. Ce modèle ne garde
aucun site demandé (interrogé par une requête) qui se
trouve trop loin du site de réplique candidat.
Pour évaluer leur approche, ils ont utilisé le simulateur
OptorSim [9,10]. Les résultats de simulation démontrent
2.4. Réplication basée sur l’hiérarchie de la bande
passante proposée dans [6]
D’autres types d’algorithmes prennent en compte la
localité des données. Les serveurs sont regroupés en
différentes régions en suivant la topologie du réseau. Les
communications entre les nœuds d’une même région
devraient être assez rapide. Lorsque une donnée est
nécessaire sur un serveur et qu’il n’y a plus de place pour
la stocker alors l’algorithme BHR (Bandwidth Hierarchy
based Replication) proposé cherchera à récupérer la
donnée en question uniquement si elle n’est pas déjà
présente sur un des nœuds de la même région. Si la
donnée n’est pas présente, alors de la place est faite sur le
serveur en supprimant les données les plus anciennement
accédées et qui sont présentes ailleurs dans la région. Le
principe de l’approche de BHR est basé sur la largeur de
la bande passante. L’algorithme proposé a comme but de
réduire le temps d’accès en exploitant la réplique la plus
proche en terme de largeur de bande.
2.5. Algorithme de placement optimal de répliques
proposé dans [7]
Dans [7], en plus du rôle important que joue le
placement de répliques, les auteurs ont vu que le nombre
de répliques doit être optimisé. D’un côté, autant qu’on a
de répliques, on a un accès rapide aux données, mais d’un
autre côté, le nombre élevé de répliques est coûteux du
point de vue plusieurs facteurs tels que le maintient de la
cohérence des répliques et espaces de stockage. Pour cela,
ils ont opté pour un algorithme qui détermine
efficacement le nombre minimum de répliques exigées et
3
que le p-médian et multi-objective présentent de
meilleures performances que le modèle p-center.
dynamique dans des grilles de données hiérarchiques
basées sur des dossiers dits populaires.
Ils ont évalué leur algorithme en utilisant le simulateur
OptorSim en vérifiant le temps d’accès et la largeur de
bande utilisée. Ils partent d’un principe que le maintien
des copies locales sur chaque site est coûteux ; de plus le
stockage de telles masses de données d’une façon
centralisée et les accès aux différents sites de la grille
n’est pas possible à cause de la lenteur de l’accès à
distance aux données. A partir de ces critères, les auteurs
posent des défis tels que la disponibilité des données et
l’optimisation d’accès. Pour traiter le problème de
déplacement de dossiers populaires en cas où il n y a plus
d’espace libre, une stratégie de remplacement est
nécessaire de sorte que des dossiers populaires soient
maintenus et pas déplacés quand des nouveaux dossiers
arrivent. Pour cela, ils utilisent une forme modifiée de la
politique de remplacement, le moins utilisé récemment
(Least Recently Used LRU), qui est basée sur la popularité
pour le remplacement de répliques avec une contrainte
supplémentaire pour s'assurer que des répliques créées
dans un intervalle courant ne seront pas remplacées. Le
processus entier de réplication est fait en deux phases:
a. Agrégation d’accès de bas en haut : la phase
d’agrégation de bas en haut regroupe des enregistrements
d’accès historiques pour chaque dossier aux rangées
supérieures, étape par étape jusqu’à la racine. Le calcul
additionne simplement les comptes d'accès pour les
enregistrements dont les noeuds sont des enfants de
mêmes parents et qui se rapportent aux mêmes dossiers.
Le résultat de l'agrégation est stocké dans le noeud de
parent. Un exemple de calcul des comptes d'accès pour un
dossier (F) est montré sur la figure 2.
2.7. Stratégie de placement de répliques basée sur
un modèle de coût, proposée dans [11]
Dans ce travail, les auteurs présentent une contribution
à une stratégie de placement des répliques, dont le but est
de minimiser les coûts d’accès aux données répliquées.
Les décisions de placement sont basées sur un modèle de
coût, qui dépend de plusieurs facteurs tels que la largeur
de bande, la taille de la donnée, la latence du réseau, et le
nombre d’opérations de lecture et d’écriture. Ce qui
facilitera la prise de décision pour la création ou le
déplacement des répliques à des emplacements adéquats,
ainsi que leur suppression.
Le calcul du coût global d'accès à une donnée d située
au nœud n, qui sert un ensemble de clients qui interrogent
(lecture ou écriture) la donnée d, revient à calculer la
somme de coût de transfert de la donnée d, le coût du
calcul de traitement de l’opération (lecture ou écriture) par
le nœud n et le coût de propagation des mises à jours.
En se basant sur ce modèle, un algorithme de
placement de répliques se charge de la gestion de
répliques : création, suppression ou même déplacement.
Cette gestion est basée aussi sur le nombre d’écritures et
de lectures effectuées sur une réplique de la donnée d
située au nœud n par les clients à un instant donné.
Pour une topologie d’arbre, dans le cas où des lectures
seulement sont effectuées par les clients, il est évident que
la meilleure solution est celle où toutes les répliques seront
placées sur tous les nœuds de l’avant dernier niveau (plus
prés de l’utilisateur). Or, pour le cas où des écritures
seulement sont effectuées, la meilleure solution est celle
de n’avoir aucune réplique.
Après l’arrivée des requêtes, on vérifie les valeurs du
rapport entre le nombre de lectures et d’écritures et on
prend une décision de l’emplacement des répliques
concernées selon l’algorithme de coût proposé.
Pour simuler ce modèle de coût, on a utilisé un
simulateur appelé GrepSim qui permet de générer
n’importe quelle topologie hiérarchique de type arbre.
L’algorithme proposé est comparé avec deux autres
modèles de placement. Le premier est basé sur
l’algorithme du meilleur client, et le deuxième est basé sur
l’algorithme du père commun.
Les résultats montrent que l'utilisation de ce modèle
améliore les performances d'accès aux données dans la
grille. Ces résultats sont prometteurs, mais ils sont basés
sur des environnements de travail spécifiques.
Racine
Clients
Comptes d’accès
Fig. 2. Les comptes d’agrégation d’accès de bas en haut,
placement de répliques de haut en bas.
b. Placement de répliques de haut en bas : en utilisant
les informations agrégées, les répliques sont placées de
haut vers le fond de l’arbre. L’idée est de traverser le fond
de la hiérarchie tant que le compte d’accès agrégé est
supérieur ou égal à un seuil prédéfini qui est employé pour
déterminer les dossiers populaires. Le seuil est choisi à
base des informations d’accès historiques. Une réplique
est placée sur un nœud si le compte d’accès d’un ou de
2.8. Stratégie de placement basée sur les dossiers
populaires proposée dans [12]
Dans un autre travail propose dans [12], les auteurs ont
proposé un algorithme de placement de répliques
4
plusieurs de ses enfants est inférieur au seuil. Un exemple
de placement de répliques de haut en bas est également
montré sur la figure 2 où nous traversons l'arbre de la
racine au nœud b à travers le nœud a du moment que les
deux nœuds ont un compte d’accès supérieur au seuil (5).
A partir du nœud b, on ne peut pas accéder au nœud c
puisque le compte d’accès de ce dernier (4) est inférieur
au seuil ; dans ce cas une réplique est placée dans le nœud
b. Le nœud d est aussi traversé puisque son compte
d’accès (6) est supérieur au seuil. Une réplique est placée
dans ce nœud puisque aucun des comptes d’accès de ses
fils ne dépasse pas le seuil.
L’algorithme proposé a été comparé avec d’autres
approches telles que diffusion rapide, meilleur client,
réplication en cascade et mise en antémémoire. Les
résultats de la simulation ont prouvé que cet algorithme
peut diminuer le temps d’exécution de manière
significative et réduire la consommation de la bande
passante par rapport aux autres approches.
Couche d’index de répliques
Couche de catalogue
de répliques locales
Couche de ressources
physiques
Fig. 3. Modèle de topologie de répliques.
Un noeud PN (Nid) peut être modelé comme un
processeur semi-autonome qui a deux partitions de
stockage logiques. La première partition est utilisée pour
stocker les éléments de données qu'un nœud veut publier
aux autres nœuds, on l'appelle partition de données. La
deuxième partition est un espace partagé qui est utilisé
pour stocker la table de routage qui contient des
informations du plan de distribution (mapping)
concernant les demandes de routage.
Ils ont utilisé l'approche de localisation des données à
travers leurs noms du domaine logique, ils utilisent
l'algorithme de routage de Chord [14] pour stocker le plan
de distribution du nom logique au site de ressource
physique et répliquer ces plans d'une manière adaptative
parmi les noeuds d'index de répliques.
La politique de placement de répliques est formulée
comme un problème d'optimisation en comparant
l'entretien de répliques et le coût de création avec les gains
d'accès aux données. Dans l'algorithme proposé, chaque
nœud de réplique collecte les requêtes d'accès de ses
voisins y compris ses descendants et ses ascendants et
prend des décisions localement pour changer le schéma
d'attribution de répliques. L'algorithme est exécuté à
chaque nœud de réplique périodiquement et
indépendamment.
Afin d'évaluer cette approche, les auteurs ont utilisé le
simulateur GridNet pour modéliser les différentes
configurations de la grille de données en appliquant ces
algorithmes. Les résultats expérimentaux montrent que
l'algorithme proposé peut améliorer les performances du
système d'une manière considérable, réduire le trafic du
réseau et donner une meilleure performance de mises à
jour si les répliques sont placées dans des sites voisins à
travers les tables de routage de répliques.
2.9. Stratégie de localisation et de placement de
répliques proposée dans [13]
Dans un autre travail [13], pour aborder le problème de
gestion de répliques, les auteurs combinent entre la
topologie d'arbre de l'architecture grille avec la topologie
multi anneau de l'architecture peer-to-peer. D’un côté, ils
peuvent avoir une meilleure performance pour les mises à
jour des réplications avec la topologie d’arbre ; d’un autre
côté, avec la table d’hachage dynamique de l’architecture
Peer-to-Peer, ils peuvent construire un catalogue distribué
de répliques qui comporte les propriétés d’équilibrage de
charge, d’auto organisation et de tolérance aux fautes.
Selon l’architecture proposée dans figure 3, il y a trois
couches :
a. couche de ressources physique : La couche de
ressources physique se compose de noeuds de stockage de
données physiques (PN) et qui sont placés dans le niveau
le plus bas.
b. couche de catalogue de répliques locales (LRC) : À
ce niveau des catalogues de répliques sont stockés pour
maintenir des informations du domaine logique local, un
site ou un système de stockage.
c. couche d'index de répliques : Tous les parents de
LRC sont employés comme index pour agréger des
informations sur les plans contenus dans l'un ou plusieurs
LRCs, ces nœuds sont dits noeuds d'index de répliques
(RIs).
En se basant sur ce modèle, les auteurs ont proposé un
algorithme adaptatif : l'arrangement de répliques dans les
noeuds de la grille est modifié chaque fois que des
changements se produisent dans le modèle lecture/écriture
des noeuds de la grille. Il existe deux aspects de recherche
sur la gestion de répliques: la politique de placement de
répliques et le mécanisme de localisation de répliques.
3. Etude comparative
La comparaison de différentes stratégies de réplication
dépend de plusieurs paramètres tels que :
a. Temps de réponse: C'est le temps qui s'écoule quand
un noeud envoie une demande d'un dossier jusqu'à ce qu'il
5
reçoive le fichier complet. Si une copie locale du dossier
existe, le temps de réponse est assumé d'être zéro. Le
temps de réponse dépend de deux facteurs :
- La bande passante : inclut la largeur de la bande
consommée pour des transferts de données entre un nœud
qui demande (à travers une requête) un dossier et un
serveur qui contient une réplique de ce dossier.
- Taille du dossier demandé par le client.
b. Mises à jour: le coût de propagation de mises à jour
des répliques de la grille.
c. Espace de stockage: c’est l’espace utilisé après la
création de répliques.
Le tableau suivant présente les travaux cités en section
2 et les paramètres pris en considération dans leurs
résultats de simulation:
Table 1. Paramètres pris en considération par les travaux.
Stratégies de placement
[2][Ranganathan 01]
[5][Bell 03]
[6][Park 03]
[7][Lamehamedi 02]
[8][Pangfeng 06]
[9][Rahman 07]
[10][Shorfuzzam 08]
[11][Belalem 07]
[12][Gu 08]
Temps de
réponse
Mises
à jour
Espace de
stockage
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
-
Sur la base de ces facteurs notre contribution sera basée
sur : comment déterminer le seuil d’une manière
dynamique afin de décider quand et où répliquer.
5. Références
[1]. A. Vernois : Ordonnancement et réplication de données
bioinformatiques dans un contexte de grille de calcul.
Thèse PHD octobre 2006.
[2]. M. Soberman « Les grilles informatiques - état de l'art et
déploiement », CNRS / STIC, 2005.
[3]. K. Ranganathan, I. Foster: Identifying Dynamic Replication
Strategies for a High Performance Data Grid. Dans Proc.
of the Second International Workshop on Grid Computing
(2001).
[4]. H. Lamehamedi, B. Szymanski, Z. Shentu, E. Deelman:
Data replication strategies in Grid environments. In
Proceedings of the 5th International Conference
(ICA3PP’02). IEEE Press, Los Alamitos, CA, 2002.
[5]. W. Bell, D. G. Cameron, R. Carvajal-Schiaffino, A. P.
Millar, K. Stockinger, F. Zini : Evaluation of an EconomyBased File Replication Strategy in Data-Grids. Dans Third
International Symposium on Cluster Computing and the
Grid (CC-GRID) (2003).
[6]. S. M. Park, J. H. Kim, Y. B. Ko, W. S. Yoon: Dynamic Data
Grid Replication Strategy Based on Internet Hierarchy.
Dans GCC (2) (2003), pp. 838–846.
[7]. L. Pangfeng, W. Jan-Jan: Optimal Replica Placement
Strategy for Hierarchical Data Grid Systems. Taipei,
Taiwan, R.O.C 2006.
[8]. R. M. Rahman, K. Barker, R. Alhajj: Replica Placement
Strategies in Data Grid, Springer Science + Business
Media B.V. 2007.
[9]. W. Bell, D. G. Cameron, L. Capozza, A. P. Millar, K.
Stockinger, F. Zini : Simulation of Dynamic Grid
Replication Strategies in OptorSim. Dans Proc. of the 3rd
Int’l IEEE Wksp on Grid Computing 2002.
[10]. W. Bell, D. G. Cameron, L. Capozza, A. P. Millar,
Stockinger, K., Zini, F.: OptorSim – a Grid simulator for
studying dynamic data replication strategies. Int. J. High
Perform. Comput. Appl. 17(4), (2003).
[11]. G. Belalem, F. Bouharaoua : Stratégie de Placement
Dynamique des Répliques dans les Grilles de Données,
4th International Conference: Sciences of Electronic,
Technologies of Information and Telecommunications,
SETIT and IEEE, March 2007.
[12]. M. Shorfuzzaman, P. Graham, R. Eskicioglu: PopularityDriven Dynamic Replica Placement in Hierarchical Data
Grids, 9th Inter Conf on Paral and Distrib Comp App and
Tech; IEEE 2008, pp. 524-531.
[13]. Q. Gu, B. Chen, Y. Zhang : Dynamic Replica Placement
and Location Strategies for Data Grid, in proc of
International Conference on Computer Science and Soft
Engineering, 978-0-7695-3336-0/ IEEE 2008, pp. 35-40.
[14]. L. Stoica, R. Morris, D. Karger, M. F. Kaashoek, H.
Balakrishnan : Chord: A Scalable Peer to Peer Lookup
Service for Internet Applications, Proc of ACM
SIGCOMM’2001, San Diego, Aug 2001, pp.160-177.
Simulateur
Privé
Optorsim
Optorsim
NS
/
Optorsim
Optorsim
Grepsim
Gridnet
Si nous prenons l’exemple du travail de [Ranganathan
01], qui compare quelques stratégies de réplication ; la
comparaison est basée sur les résultats du temps de
réponse, mais ne tient pas compte de l’espace de stockage
utilisé par les répliques et ne traite que les requêtes en
lecture seul.
4. Conclusion et travaux futurs
Dans ce papier, nous avons étudié quelques stratégies
de placement de répliques dans les grilles de donnée.
La comparaison des stratégies de placement de
répliques est basée sur un ou plusieurs paramètres tels
que : le temps de réponse, les mises à jour et l’espace de
stockage.
Parmi les techniques utilisées dans ces stratégies pour
le placement de répliques est celles qui sont basées sur le
nombre de demandes de dossiers [3,11], autrement dit, le
compte d’accès. Lorsque ce compte d’accès dépasse un
seuil, qui est généralement prédéfini, le processus de
réplication duplique le dossier demandé. Le seuil est fixé
pour tous les niveaux de l’arbre, et pour n’importe quelle
donnée.
Plusieurs facteurs peuvent influer sur la précision du
seuil telles que la largeur de la bande passante entre les
clients et les sources de données, et la taille de la donnée
demandée par un client.
6