Le rôle des ontologies
Transcription
Le rôle des ontologies
Le rôle des ontologies et des terminologies dans l’ingénierie documentaire Présentée par : Laurence Dacheux Ingénieure Linguiste / Terminologue ADBS 13/02/2014 Activités terminologiques : champs d’application Gestion des connaissances ‐ Modélisation des connaissances ‐ Gestion de base de données terminologiques Gestion documentaire ‐ Définition et harmonisation des métadonnées ‐ Création de plans de classement Transfert des connaissances ‐ Gestion des ressources d’indexation : thesaurus, Pérennisation des connaissances listes de valeurs contrôlées, ontologies, Gestion Electronique de Documents Réseaux Sociaux Terminologie Support linguistique Recherche d’information Services, expertise ‐ Normalisation du langage ‐ Mise à disposition de ressources linguistiques ‐ Gestion de base de données terminologiques ‐ Audit Aide à la traduction ‐ Gestion de projet Aide à la rédaction Communication : compréhension de messages écrits et oraux Page 2 Gestion documentaire : le contexte de l’entreprise La « jungle documentaire »: • Données volumineuses : 40 000 000 de pages de procédures pour les opérations en vol, 25 000 fiches de diagnostic, 6 320 abréviations, 4 500 acronymes • Données hétérogènes : 700 types de documents (procédures, manuels, contrats,…) • Données structurées / non structurées Les utilisateurs hétérogènes avec des besoins ciblés : • Ingénieurs de maintenance, • Cies aériennes clientes, • Veilleurs, … « why the interface does not recognize our acronyms ?» « SRM means Service Request Management or Structure Repair Manual ?» « I don’t understand why the results are not the same between A‐320 and A320 » 1 seul modèle = GOOGLE « I want to find the right information, just now » Page 3 Gestion documentaire / Recherche d’information (1) Recherche d’information données structurées Recherche sur les métadonnées données non‐ structurées Recherche plein texte Recherche sur les formes plutôt que sur le sens Résultats limités à la chaîne de caractères Ambigüités : e.g. Engine Engineering Gestion documentaire / Recherche d’information (2) Définir un langage d’indexation, d’analyse et de recherche, homogène, désambigüisé et contextualisé, capable de garantir la pertinence des résultats, facilitant l’accès au contenu informationnel des documents Page 5 Projet d’integration d’une ontologie dans un moteur de recherche Ontologie : en sciences de l’information, modélisation des connaissances d’un domaine déterminé, à partir des concepts et des termes qui le composent. Taxonomie : plan de classement prédéfini servant à organiser une collection de documents Objectifs : Formuler une requête en langage naturel Faire de la recherche sémantique Augmenter le nombre de documents rapatriés (le rappel) Garantir la pertinence des résultats , éviter le « bruit » Accroître la précision : résoudre les ambigüités de sens Affiner la recherche en navigant dans les résultats Optimiser le temps passé à la recherche d’information Page 6 Projet d’integration d’une ontologie dans un moteur de recherche : construction de l’ontologie (1) Protégé 3.3.1 Documentation interne • Manuels de maintenance • Notes de description, • Ancien thésaurus • Dictionnaires spécialisés Documentation interne et externe •Open source •Gratuit •Déjà utilisé à Airbus •OWL sous‐langage XML •Forte communauté d’utilisateurs et de développeurs •Autonomie vis a vis de l’outil Vivisimo Entités nommées •Aircrafts •Engines •Manufacturers CORPUS CRM : Customer Relationships Management Validation Experts Projet d’integration d’une ontologie dans un moteur de recherche : construction de l’ontologie (2) Constitution d’un corpus • volumineux : + de 1 million de termes • homogène : ciblé sur un domaine Exple : mails échangés entre les opérateurs de maintenance et les Cies aériennes pour le suivi des problèmes techniques sur l’avion Outils d’analyse de corpus : • Analyseur syntaxique et distributionnel : SYNTEX • Concordancier AntConc (open source) • … Extraction terminologique • BD terminologique sous access2000, version française/anglaise Page 8 Projet d’integration d’une ontologie dans un moteur de recherche : construction de l’ontologie (3) Description des connaissances Page 9 Projet d’integration d’une ontologie dans un moteur de recherche : construction de l’ontologie (4) Gestion de la terminologie Page 10 Projet d’integration d’une ontologie dans un moteur de recherche : Aide à la formulation de requête 1. Requête formulée en langage naturel : termes simples / complexes / multitermes 2. Correcteur orthographique 3. Auto‐completion Page 11 Projet d’integration d’une ontologie dans un moteur de recherche Expansion automatique de la requête 1. Expansion automatique aux : Synonymes, variations orthographiques (abréviations / acronymes / formes 2. développées), termes plus spécifiques (Narrower Term) et synonymes des termes spécifiques Expansion manuelle aux termes plus génériques pour élargir la recherche Page 12 Points forts et limites • Amélioration des résultats de la recherche d’information • Optimisation du temps passé à la recherche d’information au profit des activités principales • Le coût : • Maintenance de l’ontologie • Construire une ontologie nécessite du temps et mobilise des experts • L’ontologie est liée à l’application à • Prise en compte des usages et de la langue de spécialité • Interoperabilité: ré‐utilisation de l’ontologie sur d’autres projets. laquelle elle se destine : recherche d’information Page 13