Recherche sémantique dans les systèmes P2P pour les

Transcription

Recherche sémantique dans les systèmes P2P pour les
Ecole Doctorale STIM - 503 : Sciences et Technologies de l’Information etdes Mathématiques
Laboratoire d'informatique de Nantes-Atlantique (LINA), UMR 6241
Equipes Atlas-GRIM et Atlas-GDD (EPI INRIA/ATLAS)
Recherche sémantique dans les systèmes P2P pour les communautés en ligne
Encadrement : Sylvie Cazalens 60% (co-encadrante), Marc Gelgon 40% (Directeur de thèse)
Contacts : [email protected], [email protected]
Type de financement envisagé : bourse ministérielle
Mots-clés : recherche guidée par la sémantique, algorithmes top-k, organisation sémantique des
systèmes P2P, semantic overlay networks, clusterisation de documents et de pairs, interopérabilité.
Contexte et problème
Ce sujet a pour cadre général la gestion des données partagées par les membres d'une communauté
en ligne, telle qu'un réseau social ou une communauté de professionnels. Le terme de "données"
doit refléter la variété des informations mises en ligne dans ces applications et peut aussi bien
désigner un tuple d'une base de données, un triplet d'une base de connaissances qu'un texte ou une
image. Ces informations sont publiées et recherchées par des membres dont le nombre peut croître
considérablement (certaines communautés concernent des millions de participants).
Dans ce contexte, les systèmes pair à pair (P2P) apparaissent comme une base de solution très
intéressante pour concevoir des systèmes de gestion de communautés efficaces et qui passent à
l'échelle. Le sujet s'intègre dans le projet ANR « DataRing » auquel participe l'équipe et s'intéresse
plus spécifiquement au problème de la recherche d'information par un membre de la communauté :
des résultats pertinents doivent être trouvés efficacement.
Approche envisagée
L'efficacité d'un algorithme de recherche dans un système P2P dépend de plusieurs éléments : la
représentation des informations et des méta-informations, la représentation des pairs, leur
organisation, par exemple par une proximité de voisinage, les algorithmes de routage des requêtes
eux-mêmes. Ces différents éléments constituent une infrastructure globale qui doit assurer
l'efficacité des recherches.
Cette thèse a pour objet d'étude les infrastructures « sémantiques » qui utilisent la présence de métainformations apportant des précisions sur le sens des informations auxquelles elles sont rattachées.
Cette hypothèse est tout à fait réaliste car les nombreux et récents travaux menés dans le contexte de
l'ingénierie des connaissances et du Web Sémantique [WebSem] ont abouti à la réalisation d'outils
et de langages permettant des représentations conceptuelles.
L'approche envisagée consiste à utiliser la sémantique pour non seulement caractériser les
informations et les pairs, mais aussi pour organiser les pairs et pour définir des algorithmes où elle
guide la recherche d'information. Pour ce dernier point, l'objectif est d'étudier des « algorithmes
Top-K sémantiques » : le principe est de retourner les k-meilleures réponses en utilisant la
sémantique pour essayer de les trouver plus vite, en évitant de solliciter des ressources (pairs ou
groupes de pairs) n'ayant pas de rapport avec la requête. Les réponses seraient proposées au fur et à
mesure de leur arrivée, avec pour objectif de fournir très vite des réponses parmi les k-meilleures.
Enfin, si l'on veut que les résultats soient pertinents, il est indispensable de faire en sorte que les
pairs puissent interpréter les recherches d'autres pairs même s'ils ne partagent pas exactement la
même conceptualisation d'un domaine. C'est ce que nous appelons un contexte d'hétérogénéité
sémantique, que cette thèse doit aussi considérer.
Plan de travail
Le travail peut être mené en différentes phases complémentaires. Le travail bibliographique est
conséquent car chacune des phases nécessite une étude de l'existant. Toutes les phases doivent
donner lieu à évaluation. Les deux premières phases, même si elles sont très liées, peuvent débuter
en parallèle :
Représentation sémantique des informations/d'un pair/d'un groupe de pairs
Le choix d'une « bonne » représentation sémantique doit permettre de caractériser synthétiquement
les différentes informations. Au niveau des pairs, le fait de représenter ses voisins doit permettre à
un pair de distinguer les pairs, ou groupes de pairs auxquels il faut transmettre une requête par
opposition à ceux auxquels il est inutile de l'envoyer. Une caractérisation formelle de la
représentation proposée devra évaluer clairement sa capacité à permettre de tels choix ainsi que leur
validité.
Définition et évaluation d'algorithmes Top-K sémantiques
Parallèlement, le travail sur les algorithmes de routage des requêtes s'attachera à définir des
propriétés que l'on peut raisonnablement attendre d'une représentation sémantique de pairs. Elles
seront utilisées pour guider la recherche. Seront particulièrement étudiés les algorithmes Top-K qui
ramènent les k meilleures réponses, étant données certaines contraintes (ex. temps de réponse,
noeuds à visiter, profondeur de recherche...). Les propriétés de la représentation sémantique seront
exploitées pour minimiser la charge réseau et le temps d'attente pour obtenir des réponses de bonne
qualité. Une étude analytique sera menée en considérant différents scénarios. Elle sera complétée
par des simulations (outil PeerSim, [PeerSim]) pour évaluer les performances des algorithmes
proposés.
Prise en compte de l'hétérogénéité sémantique
Si l'on suppose que les pairs ne partagent plus la même ontologie (ou les mêmes ontologies) pour
représenter le domaine d'application, un problème d'interopérabilité se pose. Des « alignements »
(« mappings ») entre ontologies peuvent être utilisés. L'idée est toutefois de faire en sorte que les
pairs puissent interpréter une requête au delà des concepts partagés (trouvés par l'allignement), en
utilisant les concepts qui leur sont propres. Un certain nombre de résultats peuvent être montrés de
manière analytique. La réalisation de tests sur un système où les pairs utilisent des ontologies
différentes nécessitera un travail important pour trouver des ontologies réalistes qui s'accordent sur
certains points et diffèrent sur d'autres.
Organisation sémantique des pairs : intuitivement, plus les réponses sont dans un voisinage
proche, plus il est facile de les trouver. Deux pairs peuvent être voisins car ils montrent un intérêt
vis à vis des mêmes concepts, ils publient des informations du même domaine, ils utilisent des
représentations sémantiques proches... Une combinaison de ces critères permet de former des
groupes appelés « semantic overlay networks ». Une requête a d'autant plus de chance de trouver
rapidement des réponses pertinentes qu'elle est envoyée aux groupes qui lui correspondent. Il s'agit
de définir précisément la notion de proximité et les algorithmes assurant une maintenance efficace
de l'organisation. Cette étude peut être menée dans un milieu sémantique homogène, mais devra être
étendue au contexte hétérogène. Cela devrait avoir un impact sur la définition de la proximité.
L'infrastructure pourra être validée dans son ensemble, analytiquement et expérimentalement. Le
rapport entre le gain d'efficacité et le coût de maintenance de l'infrastructure des solutions proposées
devra faire l'objet d'une attention particulière.
Connaissances et compétences requises :
Le candidat doit avoir des bases solides en algorithmique et modèles de représentation de
l'information en général (modèles de bases de données, de RI, ingénierie des connaissances...). Il
doit posséder de bonnes qualités d'abstraction et être un développeur, JAVA en particulier.
Bibliographie
[ESWC 2008] Improving interoperability using query interpretation in semantic vector spaces,
Anthony Ventresque, Sylvie Cazalens, Philippe Lamarre, Patrick Valduriez, in proceedings of the
European Semantic Web Conference (ESWC 2008).
[ODBASE 2007] Query Expansion and Interpretation to Go Beyond Semantic Interoperability,
Anthony Ventresque, Sylvie Cazalens, Philippe Lamarre, Patrick Valduriez, in proceedings of the
International Conference on Ontologies, DataBases, and Applications of Semantics (ODBASE
2007).
[DAMAP 2008] Dealing with P2P Semantic Heterogeneity through Query Expansion and
Interpretation, Anthony Ventresque, Sylvie Cazalens, Philippe Lamarre, Patrick Valduriez, in
proceedings of the International Workshop on Data Management in Peer-to-peer systems (DAMAP
2008).
[VENT 2008] Espaces vectoriels sémantiques : enrichissement et interprétation de requêtes dans
un système d'information distribué et hétérogène, Anthony Ventresque, PhD Thesis, Nantes, France,
2008.
[PeerSim] http://peersim.sourceforge.net/
[WebSem] http://websemantique.org/PagePrincipale

Documents pareils