Recherche sémantique dans les systèmes P2P pour les
Transcription
Recherche sémantique dans les systèmes P2P pour les
Ecole Doctorale STIM - 503 : Sciences et Technologies de l’Information etdes Mathématiques Laboratoire d'informatique de Nantes-Atlantique (LINA), UMR 6241 Equipes Atlas-GRIM et Atlas-GDD (EPI INRIA/ATLAS) Recherche sémantique dans les systèmes P2P pour les communautés en ligne Encadrement : Sylvie Cazalens 60% (co-encadrante), Marc Gelgon 40% (Directeur de thèse) Contacts : [email protected], [email protected] Type de financement envisagé : bourse ministérielle Mots-clés : recherche guidée par la sémantique, algorithmes top-k, organisation sémantique des systèmes P2P, semantic overlay networks, clusterisation de documents et de pairs, interopérabilité. Contexte et problème Ce sujet a pour cadre général la gestion des données partagées par les membres d'une communauté en ligne, telle qu'un réseau social ou une communauté de professionnels. Le terme de "données" doit refléter la variété des informations mises en ligne dans ces applications et peut aussi bien désigner un tuple d'une base de données, un triplet d'une base de connaissances qu'un texte ou une image. Ces informations sont publiées et recherchées par des membres dont le nombre peut croître considérablement (certaines communautés concernent des millions de participants). Dans ce contexte, les systèmes pair à pair (P2P) apparaissent comme une base de solution très intéressante pour concevoir des systèmes de gestion de communautés efficaces et qui passent à l'échelle. Le sujet s'intègre dans le projet ANR « DataRing » auquel participe l'équipe et s'intéresse plus spécifiquement au problème de la recherche d'information par un membre de la communauté : des résultats pertinents doivent être trouvés efficacement. Approche envisagée L'efficacité d'un algorithme de recherche dans un système P2P dépend de plusieurs éléments : la représentation des informations et des méta-informations, la représentation des pairs, leur organisation, par exemple par une proximité de voisinage, les algorithmes de routage des requêtes eux-mêmes. Ces différents éléments constituent une infrastructure globale qui doit assurer l'efficacité des recherches. Cette thèse a pour objet d'étude les infrastructures « sémantiques » qui utilisent la présence de métainformations apportant des précisions sur le sens des informations auxquelles elles sont rattachées. Cette hypothèse est tout à fait réaliste car les nombreux et récents travaux menés dans le contexte de l'ingénierie des connaissances et du Web Sémantique [WebSem] ont abouti à la réalisation d'outils et de langages permettant des représentations conceptuelles. L'approche envisagée consiste à utiliser la sémantique pour non seulement caractériser les informations et les pairs, mais aussi pour organiser les pairs et pour définir des algorithmes où elle guide la recherche d'information. Pour ce dernier point, l'objectif est d'étudier des « algorithmes Top-K sémantiques » : le principe est de retourner les k-meilleures réponses en utilisant la sémantique pour essayer de les trouver plus vite, en évitant de solliciter des ressources (pairs ou groupes de pairs) n'ayant pas de rapport avec la requête. Les réponses seraient proposées au fur et à mesure de leur arrivée, avec pour objectif de fournir très vite des réponses parmi les k-meilleures. Enfin, si l'on veut que les résultats soient pertinents, il est indispensable de faire en sorte que les pairs puissent interpréter les recherches d'autres pairs même s'ils ne partagent pas exactement la même conceptualisation d'un domaine. C'est ce que nous appelons un contexte d'hétérogénéité sémantique, que cette thèse doit aussi considérer. Plan de travail Le travail peut être mené en différentes phases complémentaires. Le travail bibliographique est conséquent car chacune des phases nécessite une étude de l'existant. Toutes les phases doivent donner lieu à évaluation. Les deux premières phases, même si elles sont très liées, peuvent débuter en parallèle : Représentation sémantique des informations/d'un pair/d'un groupe de pairs Le choix d'une « bonne » représentation sémantique doit permettre de caractériser synthétiquement les différentes informations. Au niveau des pairs, le fait de représenter ses voisins doit permettre à un pair de distinguer les pairs, ou groupes de pairs auxquels il faut transmettre une requête par opposition à ceux auxquels il est inutile de l'envoyer. Une caractérisation formelle de la représentation proposée devra évaluer clairement sa capacité à permettre de tels choix ainsi que leur validité. Définition et évaluation d'algorithmes Top-K sémantiques Parallèlement, le travail sur les algorithmes de routage des requêtes s'attachera à définir des propriétés que l'on peut raisonnablement attendre d'une représentation sémantique de pairs. Elles seront utilisées pour guider la recherche. Seront particulièrement étudiés les algorithmes Top-K qui ramènent les k meilleures réponses, étant données certaines contraintes (ex. temps de réponse, noeuds à visiter, profondeur de recherche...). Les propriétés de la représentation sémantique seront exploitées pour minimiser la charge réseau et le temps d'attente pour obtenir des réponses de bonne qualité. Une étude analytique sera menée en considérant différents scénarios. Elle sera complétée par des simulations (outil PeerSim, [PeerSim]) pour évaluer les performances des algorithmes proposés. Prise en compte de l'hétérogénéité sémantique Si l'on suppose que les pairs ne partagent plus la même ontologie (ou les mêmes ontologies) pour représenter le domaine d'application, un problème d'interopérabilité se pose. Des « alignements » (« mappings ») entre ontologies peuvent être utilisés. L'idée est toutefois de faire en sorte que les pairs puissent interpréter une requête au delà des concepts partagés (trouvés par l'allignement), en utilisant les concepts qui leur sont propres. Un certain nombre de résultats peuvent être montrés de manière analytique. La réalisation de tests sur un système où les pairs utilisent des ontologies différentes nécessitera un travail important pour trouver des ontologies réalistes qui s'accordent sur certains points et diffèrent sur d'autres. Organisation sémantique des pairs : intuitivement, plus les réponses sont dans un voisinage proche, plus il est facile de les trouver. Deux pairs peuvent être voisins car ils montrent un intérêt vis à vis des mêmes concepts, ils publient des informations du même domaine, ils utilisent des représentations sémantiques proches... Une combinaison de ces critères permet de former des groupes appelés « semantic overlay networks ». Une requête a d'autant plus de chance de trouver rapidement des réponses pertinentes qu'elle est envoyée aux groupes qui lui correspondent. Il s'agit de définir précisément la notion de proximité et les algorithmes assurant une maintenance efficace de l'organisation. Cette étude peut être menée dans un milieu sémantique homogène, mais devra être étendue au contexte hétérogène. Cela devrait avoir un impact sur la définition de la proximité. L'infrastructure pourra être validée dans son ensemble, analytiquement et expérimentalement. Le rapport entre le gain d'efficacité et le coût de maintenance de l'infrastructure des solutions proposées devra faire l'objet d'une attention particulière. Connaissances et compétences requises : Le candidat doit avoir des bases solides en algorithmique et modèles de représentation de l'information en général (modèles de bases de données, de RI, ingénierie des connaissances...). Il doit posséder de bonnes qualités d'abstraction et être un développeur, JAVA en particulier. Bibliographie [ESWC 2008] Improving interoperability using query interpretation in semantic vector spaces, Anthony Ventresque, Sylvie Cazalens, Philippe Lamarre, Patrick Valduriez, in proceedings of the European Semantic Web Conference (ESWC 2008). [ODBASE 2007] Query Expansion and Interpretation to Go Beyond Semantic Interoperability, Anthony Ventresque, Sylvie Cazalens, Philippe Lamarre, Patrick Valduriez, in proceedings of the International Conference on Ontologies, DataBases, and Applications of Semantics (ODBASE 2007). [DAMAP 2008] Dealing with P2P Semantic Heterogeneity through Query Expansion and Interpretation, Anthony Ventresque, Sylvie Cazalens, Philippe Lamarre, Patrick Valduriez, in proceedings of the International Workshop on Data Management in Peer-to-peer systems (DAMAP 2008). [VENT 2008] Espaces vectoriels sémantiques : enrichissement et interprétation de requêtes dans un système d'information distribué et hétérogène, Anthony Ventresque, PhD Thesis, Nantes, France, 2008. [PeerSim] http://peersim.sourceforge.net/ [WebSem] http://websemantique.org/PagePrincipale