Annotation sémantique dans un portail communautaire

Transcription

Annotation sémantique dans un portail communautaire
Annotation sémantique dans un portail
communautaire
Présentation d’une thèse en cours
TA Tuan Anh
Doctorant de première année
Département INFRES, Ecole Nationale Supérieure des Télécommunications
46 rue Barault 75634 Paris Cedex 13
[email protected]
RÉSUMÉ .
Notre recherche s’inscrit dans le développement actuel du web sémantique
communautaire. Son objectif est la construction d’un portail communautaire à partir des
méta-données qui décrivent le contenu des ressources (c’est à dire qui les indexent) par des
connaissances du domaine de la communauté. Nous voulons développer un serveur
d’annotation, léger et flexible, basé sur le modèle RDF/RDFS et extensible, pouvant être
employé comme plate-forme principale pour une construction automatique d’un tel portail
communautaire. Des applications génériques, comme la recherche intelligente et les parcours
sémantiques, y seront intégrées.
ABSTRACT. Our research effort follows the community semantic web development. It is aimed
at building community portal on the ground of metadata describing the content of the web
pages (i.e. indexing them) by knowledge within the community domain. We plan to develop a
lightweight and flexible annotation server, based on RDF/RDFS and extensible, which can be
used as the main platform to automatically build a community portal. Generic applications,
such as meaning-based searchs or semantic itineraries, will be integrated in it.
MOTS-CLÉS : web sémantique, portail communautaire, portail sémantique, annotation
sémantique, RDF.
KEYWORDS :
semantic web, community portal, semantic portal, semantic annotation, RDF.
Forum Jeunes Chercheurs INFORSID 2002
2
Forum Jeunes Chercheurs INFORSID 2002
1. Introduction
Un portail sémantique communautaire est conçu pour faciliter l'accès aux
ressources partagées par les membres d'une communauté grâce à une base de
connaissances commune. C'est un type particulier de portail « corporate ». Il est
construit pour et par le travail coopératif d'utilisateurs ayant par ailleurs des intérêts
communs. Ces utilisateurs partagent plus ou moins la base de connaissances (vues
globales ou partielles). Si l'on choisit pour celle-ci un modèle d'ontologie, alors on
appelle ontologie d'application, ou ontologie de domaine, le schéma de cette base.
Ces portails sont construits sur la base de méta-données pour décrire la valeur
sémantique des ressources accessibles via le portail. Grâce à un outil d'annotation
(indépendant ou intégré à un outil de collecte ou même de création de ressources),
les ressources sont indexées par association de méta-données à valeur dans
l'ontologie d'application. KAON1, originaire de l’Institut AIFB, est une plate-forme
destinée à créer et annoter sémantiquement les pages d'un Web communautaire. Elle
comporte au moins un serveur d'annotation et un entrepôt de documents annotés. Le
serveur d’annotation ne contient que les données de l’ontologie d’application tandis
que les liens entre documents et ontologie sont gérés par l'entrepôt documentaire. Un
autre choix a été fait dans le modèle C-Web2, originaire de l'INRIA, qui permet de
trouver l’ontologie et l’annotation dans une même base de méta-données. De plus,
ce schéma ne modélise que l'annotation d'une ressource par un objet de l'ontologie
d'application, alors que l'ontologie d'application a d'autres types sémantiques tels
que classe, attribut d'objet, etc.. Enfin, par rapport avec KAON, le modèle C-Web ne
permet pas d'annoter des cibles détaillés dans un document.
Notre travail présente un effort de développement d'une plate-forme plus légère
que KAON et C-Web. Il s'agit d'un serveur permettant d'annoter des ressources du
Web avec différents types sémantiques de l'ontologie d'application. Il permet de
manipuler facilement l'indexation sémantique par des méta-données enregistrées
dans le serveur.
2. Modéle de schéma d'annotation
Le point de départ pour les langages d'ontologie sur le Web sémantique est la
recommandation du W3C pour la représentation des méta-données avec RDF et
RDFS3. Elle est considérée comme la base des autres langages d'ontologie.
DAML+OIL4 est un exemple de tel langage sémantique élaboré au dessus de
RDF/RDFS.
1
http://kaon.semanticweb.org/
http://cweb.inria.fr
3
http://www.w3.org/RDF/
4
http://www.daml.org/2001/03/daml+oil-index
2
Annotation sémantique dans un portail communautaire
3
Nous établirons donc nous aussi un modèle d'annotation en RDF. Ce modèle
permettra d'annoter des ressources du Web avec les deux concepts de base du RDF :
« resource » et « statement ». Mais évidemment nous le ferons assez ouvert pour que
l’on puisse annoter aussi avec des éléments sémantiques des langages élaborés au
dessus de RDF/RDFS.
Annotea5, un projet de W3C, a développé un environnement d’annotation
collaborative qui supporte des commentaires textuels sur des pages Web. Il a utilisé
un modèle d’annotation basé sur RDF pour décrire les méta-données. Nous
chercherons à l’améliorer pour l’annotation sémantique proposée ci-dessus. Notre
modèle devra permettre de gérer des annotations dans le serveur, aider à l’annotation
semi-automatique, etc..
3. Implémentation du serveur d’annotation
La RDFSuite 6, développée par ICS-FORTH, est une plate-forme comportant une
base RSSDB pour des données en RDF(S) et un langage de requêtes semi-sructurées
appelé RQL. Son modèle de stockage des méta-données est un graphe dont les
nœuds sont des classes ou des objets et les arcs des types de propriétés ou des
propriétés (et non pas, comme dans le modèle de base, un tableau de triplets
« subject, predicate, object »). Il permet de stocker et de manipuler efficacement des
données volumineuses. On bénéficiera donc de beaucoup des avantages de cette
RDFSuite si l’implémentation du modèle d’annotation ci-dessus est réalisée dans le
même modèle de graphe et avec les logiciels de la RDFSuite.
4. Implémentation d’applications génériques
Avec notre serveur d’annotation nous développerons aussi deux applications :
La première aidera la recherche de ressources du Web par leur contenu
sémantique - recherche intelligente. Elle utilisera la possibilité du serveur de
répondre à des questions utilisant des connaissances de l’ontologie du domaine.
La deuxième s’appuiera sur les résultats du projet Eparcours.7 auquel nous
participons depuis un an. Cette recherche a spécifié un modèle formel de parcours
coordonné dans les documents et dans le champ de l’ontologie du domaine. Cette
deuxième application permettra de créer semi-automatiquement des itinéraires de
visite guidée dans le portail communautaire.
5
http://www.w3c.org/2001/Annotea/
http://139.91.183.30:9090/RDF/
7
http://www.infres.enst.fr/~bdtest/eparcoursdemo/
6