Annotation sémantique dans un portail communautaire
Transcription
Annotation sémantique dans un portail communautaire
Annotation sémantique dans un portail communautaire Présentation d’une thèse en cours TA Tuan Anh Doctorant de première année Département INFRES, Ecole Nationale Supérieure des Télécommunications 46 rue Barault 75634 Paris Cedex 13 [email protected] RÉSUMÉ . Notre recherche s’inscrit dans le développement actuel du web sémantique communautaire. Son objectif est la construction d’un portail communautaire à partir des méta-données qui décrivent le contenu des ressources (c’est à dire qui les indexent) par des connaissances du domaine de la communauté. Nous voulons développer un serveur d’annotation, léger et flexible, basé sur le modèle RDF/RDFS et extensible, pouvant être employé comme plate-forme principale pour une construction automatique d’un tel portail communautaire. Des applications génériques, comme la recherche intelligente et les parcours sémantiques, y seront intégrées. ABSTRACT. Our research effort follows the community semantic web development. It is aimed at building community portal on the ground of metadata describing the content of the web pages (i.e. indexing them) by knowledge within the community domain. We plan to develop a lightweight and flexible annotation server, based on RDF/RDFS and extensible, which can be used as the main platform to automatically build a community portal. Generic applications, such as meaning-based searchs or semantic itineraries, will be integrated in it. MOTS-CLÉS : web sémantique, portail communautaire, portail sémantique, annotation sémantique, RDF. KEYWORDS : semantic web, community portal, semantic portal, semantic annotation, RDF. Forum Jeunes Chercheurs INFORSID 2002 2 Forum Jeunes Chercheurs INFORSID 2002 1. Introduction Un portail sémantique communautaire est conçu pour faciliter l'accès aux ressources partagées par les membres d'une communauté grâce à une base de connaissances commune. C'est un type particulier de portail « corporate ». Il est construit pour et par le travail coopératif d'utilisateurs ayant par ailleurs des intérêts communs. Ces utilisateurs partagent plus ou moins la base de connaissances (vues globales ou partielles). Si l'on choisit pour celle-ci un modèle d'ontologie, alors on appelle ontologie d'application, ou ontologie de domaine, le schéma de cette base. Ces portails sont construits sur la base de méta-données pour décrire la valeur sémantique des ressources accessibles via le portail. Grâce à un outil d'annotation (indépendant ou intégré à un outil de collecte ou même de création de ressources), les ressources sont indexées par association de méta-données à valeur dans l'ontologie d'application. KAON1, originaire de l’Institut AIFB, est une plate-forme destinée à créer et annoter sémantiquement les pages d'un Web communautaire. Elle comporte au moins un serveur d'annotation et un entrepôt de documents annotés. Le serveur d’annotation ne contient que les données de l’ontologie d’application tandis que les liens entre documents et ontologie sont gérés par l'entrepôt documentaire. Un autre choix a été fait dans le modèle C-Web2, originaire de l'INRIA, qui permet de trouver l’ontologie et l’annotation dans une même base de méta-données. De plus, ce schéma ne modélise que l'annotation d'une ressource par un objet de l'ontologie d'application, alors que l'ontologie d'application a d'autres types sémantiques tels que classe, attribut d'objet, etc.. Enfin, par rapport avec KAON, le modèle C-Web ne permet pas d'annoter des cibles détaillés dans un document. Notre travail présente un effort de développement d'une plate-forme plus légère que KAON et C-Web. Il s'agit d'un serveur permettant d'annoter des ressources du Web avec différents types sémantiques de l'ontologie d'application. Il permet de manipuler facilement l'indexation sémantique par des méta-données enregistrées dans le serveur. 2. Modéle de schéma d'annotation Le point de départ pour les langages d'ontologie sur le Web sémantique est la recommandation du W3C pour la représentation des méta-données avec RDF et RDFS3. Elle est considérée comme la base des autres langages d'ontologie. DAML+OIL4 est un exemple de tel langage sémantique élaboré au dessus de RDF/RDFS. 1 http://kaon.semanticweb.org/ http://cweb.inria.fr 3 http://www.w3.org/RDF/ 4 http://www.daml.org/2001/03/daml+oil-index 2 Annotation sémantique dans un portail communautaire 3 Nous établirons donc nous aussi un modèle d'annotation en RDF. Ce modèle permettra d'annoter des ressources du Web avec les deux concepts de base du RDF : « resource » et « statement ». Mais évidemment nous le ferons assez ouvert pour que l’on puisse annoter aussi avec des éléments sémantiques des langages élaborés au dessus de RDF/RDFS. Annotea5, un projet de W3C, a développé un environnement d’annotation collaborative qui supporte des commentaires textuels sur des pages Web. Il a utilisé un modèle d’annotation basé sur RDF pour décrire les méta-données. Nous chercherons à l’améliorer pour l’annotation sémantique proposée ci-dessus. Notre modèle devra permettre de gérer des annotations dans le serveur, aider à l’annotation semi-automatique, etc.. 3. Implémentation du serveur d’annotation La RDFSuite 6, développée par ICS-FORTH, est une plate-forme comportant une base RSSDB pour des données en RDF(S) et un langage de requêtes semi-sructurées appelé RQL. Son modèle de stockage des méta-données est un graphe dont les nœuds sont des classes ou des objets et les arcs des types de propriétés ou des propriétés (et non pas, comme dans le modèle de base, un tableau de triplets « subject, predicate, object »). Il permet de stocker et de manipuler efficacement des données volumineuses. On bénéficiera donc de beaucoup des avantages de cette RDFSuite si l’implémentation du modèle d’annotation ci-dessus est réalisée dans le même modèle de graphe et avec les logiciels de la RDFSuite. 4. Implémentation d’applications génériques Avec notre serveur d’annotation nous développerons aussi deux applications : La première aidera la recherche de ressources du Web par leur contenu sémantique - recherche intelligente. Elle utilisera la possibilité du serveur de répondre à des questions utilisant des connaissances de l’ontologie du domaine. La deuxième s’appuiera sur les résultats du projet Eparcours.7 auquel nous participons depuis un an. Cette recherche a spécifié un modèle formel de parcours coordonné dans les documents et dans le champ de l’ontologie du domaine. Cette deuxième application permettra de créer semi-automatiquement des itinéraires de visite guidée dans le portail communautaire. 5 http://www.w3c.org/2001/Annotea/ http://139.91.183.30:9090/RDF/ 7 http://www.infres.enst.fr/~bdtest/eparcoursdemo/ 6