Thésaurus documentaires et ontologies Divergences et
Transcription
Thésaurus documentaires et ontologies Divergences et
Thésaurus documentaires et ontologies Divergences et ressemblances Bénédicte Pincemin Laboratoire de Linguistique Informatique CNRS & Université Paris 13 Communication à la journée d'étude Web sémantique organisée par l'Univ. Paris V et l'ADBS le 14 octobre 2003 à Paris–La Défense Objectifs • Un point de vue linguistique sur « la » composante sémantique du Web sémantique • sémantique interprétative et textuelle (vs lexicale ou référentielle) • Thésaurus et ontologies • au fond, qu'y a-t-il de différent ? Eviter les confusions comme les oppositions. • des enseignements à tirer de ces pratiques pour la conception du web sémantique Plan • Cadre • Point de vue d'une linguistique textuelle • Thésaurus et ontologies : qu'est-ce qui caractérise chacun ? • Propriétés des thésaurus et conception du web sémantique Première partie : Notre cadre de réflexion • Définitions pratiques : • thésaurus • ontologie • web sémantique • Situation des ontologies dans le web sémantique • spécificités du web • multiplicité et relativité des ontologies • rôle des ontologies Thésaurus • Contexte • référentiel sémantique • utilisé dans le contexte de systèmes documentaires (informatisés) • par des professionnels de l'information • pour l'indexation et la recherche de documents Thésaurus • Caractéristiques techniques • Langage contrôlé : harmonise les formulations d'un thème entre indexeurs, documents et utilisateurs • Structuré : globalement arborescent − − noeuds : descripteurs et non-descripteurs relations, usuellement . générique / spécifique (hyperonymie) . employer / employé pour (entre vedette et autres formulations du même concept) . voir aussi (autres relations sémantiques => puissance expressive) Ontologie • Expression d'une « vision du monde » • sous forme d'un réseau de concepts • pour les besoins d'un traitement automatique • Sont ainsi explicités et formalisés : • les objets à considérer • les rapports entre eux (classes, dépendances, etc.) • les règles qui permettent d'inférer des relations Cas du web sémantique • Visée sémantique : exploiter le contenu des pages web • Forte automatisation : nouveaux services (exploiter les pages plutôt que les présenter) • Ontologies comme intermédiaires entre documents et traitements Le Web : contours indéfinis et hétérogénéité • une page : c'est un fichier ? • est-ce un document ? • un site : c'est l'URL d'un serveur ? • est-ce un dossier ? • internet : c'est tout ce qui est doté d'une adresse http (+/- accessible ou actif) ? • est-ce un corpus, un fonds documentaire ? Multiplicité des ontologies • Deux idées essentielles : • localité = on ne peut pas tout décrire (avec un grand réseau sémantique) • relativité = il n'y a pas qu'une seule manière, ni une manière meilleure que les autres de décrire une partie de la réalité • Une ontologie = une vision du monde • • qu'est-ce qui est pertinent, saillant ? qu'est-ce qu'on choisit de voir, de distinguer ou d'assimiler ? • Cf. multiplicité des thésaurus, des résumés, etc. Situation des ontologies dans le WS • Des informations sémantiques formalisées sont nécessaires : elles sont codées sous forme d'ontologies. • Ressources élaborées => tirer profit de l'existant • Référentiels multiples et évolutifs, à rendre globalement accessibles et comparables • Utilisation : indexation/annotation des documents, calcul d'inférences, pour répondre aux demandes des internautes. Deuxième partie : Point de vue d'une sémantique textuelle et interprétative • Linguistique / sémantique / sémantique textuelle et interprétative • Repères théoriques : • lecture, sens d'un texte • langues naturelles vs langages formels • Pertinence de cette approche pour les ontologies et les thésaurus • Propositions pour un web sémantique « interprétatif » Les ontologies sont lues et interprétées par leurs utilisateurs : étapes • construction, adaptation de l'ontologie • mise en relation de plusieurs ontologies (comparaison, choix, organisation) • indexation, annotation • interrogation, formulation du besoin de l'internaute • utilisation pour la mise au point de traitements automatiques (sémantique opératoire) • détermination et formulation d'une réponse Les ontologies sont lues et interprétées par leurs utilisateurs : importance • multiplicité et évolution des ontologies : • obligent régulièrement à une phase de consultation et de (re)prise de connaissance préalable à leur utilisation • utilisation non seulement par des professionnels de l'information, mais aussi (et surtout) par des internautes • par exemple, annotation d'une page en tant qu'auteur ou lecteur • => la présentation des ontologies doit être étudiée pour guider au mieux l'interprétation de Modélisations de la lecture • Codage / décodage • extraction de la signification déposée dans le message • simple, mais manifestement inexact • Modèle interprétatif • chaque lecteur et chaque situation de lecture conduisent à la construction d'un sens • pour un texte : ni 1, ni 2 sens, ni non plus une infinité • importance des genres textuels – et le thésaurus ou l'ontologie sont un genre Comment se construit le (un) sens d'un texte ? Cas d'un thésaurus ou d’une ontologie • contexte linguistique • descripteurs, désignations des concepts • contexte textuel • voisinages dans le réseau • disposition et mode de présentation • contexte intertextuel • • autres réseaux traditions • contexte de la pratique interprétative, des usages précédents Importance du contexte : indexation du texte intégral • Les mots-clés extraits automatiquement du texte sont bien souvent privés de contexte • extraction sur un critère ponctuel • perte de l'entour textuel • pas de signification par positionnement dans un thésaurus • accumulation sans vision d'ensemble au fur et à mesure du traitement du texte • requêtes sur un mot ou deux Idéal linguistique visé par les langages formels (vs langues naturelles) • Motivation pour se doter de référentiels sémantiques • Idéal (selon cette perspective) : Pouvoir déterminer, par une procédure bien définie, • le sens, unique et complet, • véhiculé par une expression linguistique (mot, phrase, texte). • Car on est loin d'avoir la correspondance 1 sens / 1 mot « L'imperfection » de la langue • Pour 1 mot : • plusieurs sens : polysémie • +/- aucun sens : « mots vides », mot grammaticaux • Pour 1 sens : • plusieurs mots différents : synonymie • plusieurs mots à la suite : locutions, mots composés, figement • +/- aucun mot : implicite Complémentarité langues / langages • « L'idéal » est trompeur • c'est la dynamique sémantique et la diversité des langues qui font toute leur puissance et leur richesse expressives • A chacune de ces réalités son rôle : • langages formels : intermédiaires, limités sémantiquement mais efficaces pour les traitements automatiques • langues : pour les activités humaines, pour la puissance et la liberté expressives Confusions langues / langages • Il n'est pas toujours facile de séparer clairement ces deux types linguistiques. Exemples : • requêtes en langue naturelle : interprétées par la machine comme une combinaison de mots d'un langage prédéfini • descripteurs et concepts : désignés par une étiquette prenant la forme d'un terme de la langue Ontologies : langages... • Langage formel : ontologies faites pour le calcul sémantique, visant l'univocité • Ontologies « dures » et ontologies souples • rigueur et précision, contraintes de régularité • degré d'automatisation Ontologies : ... mais aussi langues ? • En amont et en aval du calcul, interprétation humaine pour construire le sens • L'interprétation humaine est d'une autre nature et est sensible à d'autres dimensions (contexte, disposition...) • Prépondérance possible (ex. codage HTML pages web) • sémantique naturelle inévitable • sémantique formelle souvent négligée ou ignorée par l'internaute tout-venant Ontologies : métadonnées ou données ? • Données susceptibles d'interprétation • Fonctionnent comme apport de contexte • Enrichissent la sémantique des documents indexés / annotés, sans pour autant la déterminer Un web sémantique « interprétatif » • Interface de consultation des ontologies • aide à l'interprétation • compréhension non trompeuse par rapport aux calculs • Accès aux documents originaux • évaluer la précision, la fiabilité • contexte (thématique, éditorial, temporel...) • nouveaux modes de présentation et de parcours • Incidences des paramètres, principes du calcul • pas nécessairement un exposé technique : ergonomie Troisième partie : Thésaurus et Ontologies • Thésaurus et ontologies ne sont pas opposables, mais se répondent : • Différence de visée • Différence de portée • Différence de maturité Les visions confuses ou polémiques • Ressemblance apparente • référentiel sémantique réseau de concepts • • Convergence de fait • des ontologies pour la recherche de pages sur le web des thésaurus reversés en ontologies • • Thésaurus = ontologie vieillote ? • Ontologie = verni de la nouveauté et nom ronflant pour quelque chose qui existe depuis longtemps ? Thésaurus : visée d'organisation • Faciliter l’accès, rôle = médiateur • entre indexation et interrogation − − − • entre documents − − • harmonisation par contrôle du vocabulaire reformulation pour trouver le mot juste reformulation pour élargir ou focaliser la recherche comparabilité positionnement en tant que document : « accord de désignation » sur l'ensemble d'un champ pratique Ontologie : visée de représentation • Dispenser de l'accès au document, rôle = convertisseur • du document (texte, requête) vers le traitement automatique • Formalisation d'une connaissance • • mobilisation d'experts précision des relations car multiplicité des calculs • Cf. racine des mots : • • ontologie : être, essence, nature des choses thésaurus : trésor, collection, à organiser Ontologie : terme générique • Diversité des contextes applicatifs, donc diversité des points de vue, donc diversité des ontologies • Difficulté à donner une définition générale • Thésaurus = une ontologie pour des systèmes documentaires • Web sémantique =/= systèmes documentaires • limites normales du thésaurus • adaptation Maturité vs liberté • Maturité du thésaurus • cadre applicatif bien défini • norme AFNOR, méthodologies • savoir-faire solide et efficace, services reconnus • Liberté innovante des ontologies • formalisme entités / relations ouvert • problématique originale pour les sciences de l'information : − − autonomie de l'internaute hétérogénéité et contours indéfinis du web Quatrième partie : Propriétés des thésaurus et conception du web sémantique • Degré d'automatisation et équilibre homme / machine • Relations sémantiques (paradigmatiques et syntagmatiques) • Dimensionnement Degré d'automatisation • Thésaurus : • articulation des compétences humaines avec l’apport des machines, dans un état de l'art des technologies donné, pour répondre efficacement aux besoins d'information • des limites qui donnent où arrêter la description : − − objectif de mise en relation, pas de substituabilité intervention d'un professionnel • Ontologie : • explicitation des types de relation, détaillables dans le cadre d'un domaine La structure du thésaurus est appropriée à ses contextes d'usage • Générique / spécifique • indexation : accès indirect et onomasiologique (par l'idée) • recherche : « magnitude feedback » • Employer / employé pour • indexation : accès direct et sémasiologique (par la forme du mot) • Voir aussi • indexation et recherche : ajustement contextuel Relations syntagmatiques • Thésaurus • langages à facettes − − − restriction sémantique de la combinatoire ajout d'informations fonctionnelles exemples : discipline, entité ou objet principal, action, propriété, lieu, période musique : compositeur, exécutant, forme de la composition, élément de la musique, caractère de la composition, technique • Ontologies • relations notamment casuelles • typage des concepts et règles sur les types Précision des relations • Techniquement : • contrôle de la portée du calcul • si multiplicité des relations, risque de dispersion et de surdétermination de l'interprétation, surtout par des non-professionnels • Linguistiquement : • combinatoire non libre : nombre de combinaisons faible • pas de marquage morphologique ou syntaxique : l'économie est possible, la contextualisation sémantique détermine Eléments pour une interface de consultation d'une ontologie : accès • parcours de l'ontologie et repérage des concepts • paradigmatique − − • accès onomasiologique et global accès sémasiologique et direct syntagmatique − − cadrage par facettes accès contextuel par liste d'autorité (combinaisons possibles) ou index matière contextuel (combinaisons attestées) Eléments pour une interface de consultation d'une ontologie : accès • Taille équilibrée des ensembles de descripteurs • Thésaurus − − − − • nombre de niveaux et regroupements intermédiaires répartition par facettes langages combinatoires (en compréhension vs en extension) index matière (contextuel) Indexation − − explicitation synthétique du sujet principal cadrage par les facettes Dimensionnement • Ontologie • Finesse des traitements : voir précision souhaitée • Thésaurus • Repérage : structuration globale sur l'ensemble des documents − − • distinguer sans disperser répartition équilibrée Perception sémantique de l'indexeur Conclusion : idées principales (1 / 2) • Localité et relativité des ontologies • Les ontologies (même « dures ») sont lues et interprétées par l'homme, pas seulement exploitées mécaniquement par des machines • Rôle des contextes dans la construction d'un sens • Ergonomie de l'interface : consultation des ontologies, accès aux documents, interprétation des paramétrages Conclusion : idées principales (2 / 2) • Ontologie = représentation, Thésaurus = médiation • Relations • paradigmatiques et syntagmatiques • trop détaillées : un risque de sur-interprétation et de dispersion des descriptions.