Thésaurus documentaires et ontologies Divergences et

Transcription

Thésaurus documentaires et ontologies Divergences et
Thésaurus documentaires et ontologies
Divergences et ressemblances
Bénédicte Pincemin
Laboratoire de Linguistique Informatique
CNRS & Université Paris 13
Communication à la journée d'étude
Web sémantique
organisée par l'Univ. Paris V et l'ADBS
le 14 octobre 2003 à Paris–La Défense
Objectifs
• Un point de vue linguistique sur « la »
composante sémantique du Web sémantique
•
sémantique interprétative et textuelle (vs lexicale ou
référentielle)
• Thésaurus et ontologies
•
au fond, qu'y a-t-il de différent ? Eviter les confusions
comme les oppositions.
•
des enseignements à tirer de ces pratiques pour la
conception du web sémantique
Plan
• Cadre
• Point de vue d'une linguistique textuelle
• Thésaurus et ontologies : qu'est-ce qui caractérise
chacun ?
• Propriétés des thésaurus et conception du web
sémantique
Première partie :
Notre cadre de réflexion
• Définitions pratiques :
•
thésaurus
•
ontologie
•
web sémantique
• Situation des ontologies dans le web sémantique
•
spécificités du web
•
multiplicité et relativité des ontologies
•
rôle des ontologies
Thésaurus
• Contexte
•
référentiel sémantique
•
utilisé dans le contexte de systèmes documentaires
(informatisés)
•
par des professionnels de l'information
•
pour l'indexation et la recherche de documents
Thésaurus
• Caractéristiques techniques
•
Langage contrôlé : harmonise les formulations d'un
thème entre indexeurs, documents et utilisateurs
•
Structuré : globalement arborescent
−
−
noeuds : descripteurs et non-descripteurs
relations, usuellement
. générique / spécifique (hyperonymie)
. employer / employé pour (entre vedette et autres formulations
du même concept)
. voir aussi (autres relations sémantiques => puissance expressive)
Ontologie
• Expression d'une « vision du monde »
• sous forme d'un réseau de concepts
• pour les besoins d'un traitement automatique
• Sont ainsi explicités et formalisés :
•
les objets à considérer
•
les rapports entre eux (classes, dépendances, etc.)
•
les règles qui permettent d'inférer des relations
Cas du web sémantique
• Visée sémantique :
exploiter le contenu des
pages web
• Forte automatisation :
nouveaux services
(exploiter les pages plutôt
que les présenter)
• Ontologies comme
intermédiaires entre
documents et traitements
Le Web :
contours indéfinis et hétérogénéité
• une page : c'est un fichier ?
•
est-ce un document ?
• un site : c'est l'URL d'un serveur ?
•
est-ce un dossier ?
• internet : c'est tout ce qui est doté d'une adresse
http (+/- accessible ou actif) ?
•
est-ce un corpus, un fonds documentaire ?
Multiplicité des ontologies
• Deux idées essentielles :
•
localité = on ne peut pas tout décrire (avec un grand
réseau sémantique)
•
relativité = il n'y a pas qu'une seule manière, ni une
manière meilleure que les autres de décrire une partie
de la réalité
• Une ontologie = une vision du monde
•
•
qu'est-ce qui est pertinent, saillant ?
qu'est-ce qu'on choisit de voir, de distinguer ou
d'assimiler ?
• Cf. multiplicité des thésaurus, des résumés, etc.
Situation des ontologies dans le WS
• Des informations sémantiques formalisées sont
nécessaires : elles sont codées sous forme
d'ontologies.
• Ressources élaborées => tirer profit de l'existant
• Référentiels multiples et évolutifs, à rendre
globalement accessibles et comparables
• Utilisation : indexation/annotation des
documents, calcul d'inférences, pour répondre
aux demandes des internautes.
Deuxième partie :
Point de vue d'une sémantique
textuelle et interprétative
• Linguistique / sémantique / sémantique textuelle
et interprétative
• Repères théoriques :
•
lecture, sens d'un texte
•
langues naturelles vs langages formels
• Pertinence de cette approche pour les ontologies
et les thésaurus
• Propositions pour un web sémantique
« interprétatif »
Les ontologies sont lues et interprétées
par leurs utilisateurs : étapes
• construction, adaptation de l'ontologie
• mise en relation de plusieurs ontologies
(comparaison, choix, organisation)
• indexation, annotation
• interrogation, formulation du besoin de
l'internaute
• utilisation pour la mise au point de traitements
automatiques (sémantique opératoire)
• détermination et formulation d'une réponse
Les ontologies sont lues et interprétées
par leurs utilisateurs : importance
• multiplicité et évolution des ontologies :
•
obligent régulièrement à une phase de consultation et
de (re)prise de connaissance préalable à leur
utilisation
• utilisation non seulement par des professionnels
de l'information, mais aussi (et surtout) par des
internautes
•
par exemple, annotation d'une page en tant qu'auteur
ou lecteur
• => la présentation des ontologies doit être étudiée
pour guider au mieux l'interprétation de
Modélisations de la lecture
• Codage / décodage
•
extraction de la signification déposée dans le message
•
simple, mais manifestement inexact
• Modèle interprétatif
•
chaque lecteur et chaque situation de lecture
conduisent à la construction d'un sens
•
pour un texte : ni 1, ni 2 sens, ni non plus une infinité
•
importance des genres textuels – et le thésaurus ou
l'ontologie sont un genre
Comment se construit
le (un) sens d'un texte ?
Cas d'un thésaurus ou d’une ontologie
• contexte linguistique
•
descripteurs, désignations des concepts
• contexte textuel
•
voisinages dans le réseau
•
disposition et mode de présentation
• contexte intertextuel
•
•
autres réseaux
traditions
• contexte de la pratique interprétative, des usages
précédents
Importance du contexte :
indexation du texte intégral
• Les mots-clés extraits automatiquement du texte
sont bien souvent privés de contexte
•
extraction sur un critère ponctuel
•
perte de l'entour textuel
•
pas de signification par positionnement dans un
thésaurus
•
accumulation sans vision d'ensemble au fur et à
mesure du traitement du texte
•
requêtes sur un mot ou deux
Idéal linguistique visé par les
langages formels (vs langues naturelles)
• Motivation pour se doter de référentiels
sémantiques
• Idéal (selon cette perspective) :
Pouvoir déterminer, par une procédure bien définie,
•
le sens, unique et complet,
•
véhiculé par une expression linguistique (mot, phrase,
texte).
• Car on est loin d'avoir la correspondance
1 sens / 1 mot
« L'imperfection » de la langue
• Pour 1 mot :
•
plusieurs sens : polysémie
•
+/- aucun sens : « mots vides », mot grammaticaux
• Pour 1 sens :
•
plusieurs mots différents : synonymie
•
plusieurs mots à la suite : locutions, mots composés,
figement
•
+/- aucun mot : implicite
Complémentarité langues / langages
• « L'idéal » est trompeur
•
c'est la dynamique sémantique et la diversité des
langues qui font toute leur puissance et leur richesse
expressives
• A chacune de ces réalités son rôle :
•
langages formels : intermédiaires, limités
sémantiquement mais efficaces pour les traitements
automatiques
•
langues : pour les activités humaines, pour la
puissance et la liberté expressives
Confusions langues / langages
• Il n'est pas toujours facile de séparer clairement
ces deux types linguistiques.
Exemples :
•
requêtes en langue naturelle : interprétées par la
machine comme une combinaison de mots d'un
langage prédéfini
•
descripteurs et concepts : désignés par une étiquette
prenant la forme d'un terme de la langue
Ontologies : langages...
• Langage formel : ontologies faites pour
le calcul sémantique, visant l'univocité
• Ontologies « dures » et ontologies souples
•
rigueur et précision, contraintes de régularité
•
degré d'automatisation
Ontologies : ... mais aussi langues ?
• En amont et en aval du calcul, interprétation
humaine pour construire le sens
• L'interprétation humaine est d'une autre nature et
est sensible à d'autres dimensions (contexte,
disposition...)
• Prépondérance possible (ex. codage HTML pages
web)
•
sémantique naturelle inévitable
•
sémantique formelle souvent négligée ou ignorée par
l'internaute tout-venant
Ontologies : métadonnées ou données ?
• Données susceptibles d'interprétation
• Fonctionnent comme apport de contexte
• Enrichissent la sémantique des documents
indexés / annotés, sans pour autant la déterminer
Un web sémantique « interprétatif »
• Interface de consultation des ontologies
•
aide à l'interprétation
•
compréhension non trompeuse par rapport aux calculs
• Accès aux documents originaux
•
évaluer la précision, la fiabilité
•
contexte (thématique, éditorial, temporel...)
•
nouveaux modes de présentation et de parcours
• Incidences des paramètres, principes du calcul
•
pas nécessairement un exposé technique : ergonomie
Troisième partie :
Thésaurus et Ontologies
• Thésaurus et ontologies ne sont pas opposables,
mais se répondent :
•
Différence de visée
•
Différence de portée
•
Différence de maturité
Les visions confuses ou polémiques
• Ressemblance apparente
•
référentiel sémantique
réseau de concepts
•
• Convergence de fait
•
des ontologies pour la recherche de pages sur le web
des thésaurus reversés en ontologies
•
• Thésaurus = ontologie vieillote ?
• Ontologie = verni de la nouveauté et nom
ronflant pour quelque chose qui existe depuis
longtemps ?
Thésaurus : visée d'organisation
• Faciliter l’accès, rôle = médiateur
•
entre indexation et interrogation
−
−
−
•
entre documents
−
−
•
harmonisation par contrôle du vocabulaire
reformulation pour trouver le mot juste
reformulation pour élargir ou focaliser la recherche
comparabilité
positionnement
en tant que document : « accord de désignation » sur
l'ensemble d'un champ pratique
Ontologie : visée de représentation
• Dispenser de l'accès au document, rôle =
convertisseur
•
du document (texte, requête) vers le traitement
automatique
• Formalisation d'une connaissance
•
•
mobilisation d'experts
précision des relations car multiplicité des calculs
• Cf. racine des mots :
•
•
ontologie : être, essence, nature des choses
thésaurus : trésor, collection, à organiser
Ontologie : terme générique
• Diversité des contextes applicatifs, donc diversité
des points de vue, donc diversité des ontologies
• Difficulté à donner une définition générale
• Thésaurus = une ontologie pour des systèmes
documentaires
• Web sémantique =/= systèmes documentaires
•
limites normales du thésaurus
•
adaptation
Maturité vs liberté
• Maturité du thésaurus
•
cadre applicatif bien défini
•
norme AFNOR, méthodologies
•
savoir-faire solide et efficace, services reconnus
• Liberté innovante des ontologies
•
formalisme entités / relations ouvert
•
problématique originale pour les sciences de
l'information :
−
−
autonomie de l'internaute
hétérogénéité et contours indéfinis du web
Quatrième partie :
Propriétés des thésaurus et
conception du web sémantique
• Degré d'automatisation et équilibre homme /
machine
• Relations sémantiques (paradigmatiques et
syntagmatiques)
• Dimensionnement
Degré d'automatisation
• Thésaurus :
•
articulation des compétences humaines avec l’apport
des machines, dans un état de l'art des technologies
donné, pour répondre efficacement aux besoins
d'information
•
des limites qui donnent où arrêter la description :
−
−
objectif de mise en relation, pas de substituabilité
intervention d'un professionnel
• Ontologie :
•
explicitation des types de relation, détaillables dans le
cadre d'un domaine
La structure du thésaurus est
appropriée à ses contextes d'usage
• Générique / spécifique
•
indexation : accès indirect et onomasiologique (par
l'idée)
•
recherche : « magnitude feedback »
• Employer / employé pour
•
indexation : accès direct et sémasiologique (par la
forme du mot)
• Voir aussi
•
indexation et recherche : ajustement contextuel
Relations syntagmatiques
• Thésaurus
•
langages à facettes
−
−
−
restriction sémantique de la combinatoire
ajout d'informations fonctionnelles
exemples :
discipline, entité ou objet principal, action, propriété, lieu, période
musique : compositeur, exécutant, forme de la composition, élément de la
musique, caractère de la composition, technique
• Ontologies
•
relations notamment casuelles
•
typage des concepts et règles sur les types
Précision des relations
• Techniquement :
•
contrôle de la portée du calcul
•
si multiplicité des relations, risque de dispersion et de
surdétermination de l'interprétation, surtout par des
non-professionnels
• Linguistiquement :
•
combinatoire non libre : nombre de combinaisons
faible
•
pas de marquage morphologique ou syntaxique :
l'économie est possible, la contextualisation
sémantique détermine
Eléments pour une interface de
consultation d'une ontologie : accès
• parcours de l'ontologie et repérage des concepts
•
paradigmatique
−
−
•
accès onomasiologique et global
accès sémasiologique et direct
syntagmatique
−
−
cadrage par facettes
accès contextuel par liste d'autorité (combinaisons possibles)
ou index matière contextuel (combinaisons attestées)
Eléments pour une interface de
consultation d'une ontologie : accès
• Taille équilibrée des ensembles de descripteurs
•
Thésaurus
−
−
−
−
•
nombre de niveaux et regroupements intermédiaires
répartition par facettes
langages combinatoires (en compréhension vs en extension)
index matière (contextuel)
Indexation
−
−
explicitation synthétique du sujet principal
cadrage par les facettes
Dimensionnement
• Ontologie
•
Finesse des traitements : voir précision souhaitée
• Thésaurus
•
Repérage : structuration globale sur l'ensemble des
documents
−
−
•
distinguer sans disperser
répartition équilibrée
Perception sémantique de l'indexeur
Conclusion : idées principales (1 / 2)
• Localité et relativité des ontologies
• Les ontologies (même « dures ») sont lues et
interprétées par l'homme, pas seulement
exploitées mécaniquement par des machines
• Rôle des contextes dans la construction d'un sens
• Ergonomie de l'interface : consultation des
ontologies, accès aux documents, interprétation
des paramétrages
Conclusion : idées principales (2 / 2)
• Ontologie = représentation, Thésaurus =
médiation
• Relations
•
paradigmatiques et syntagmatiques
•
trop détaillées : un risque de sur-interprétation et de
dispersion des descriptions.