Analyse Distributionnelle Automatique pour l`adaptation de
Transcription
Analyse Distributionnelle Automatique pour l`adaptation de
Octobre 2016 Analyse Distributionnelle Automatique pour l’adaptation de domaine : création de ressources lexicales spécialisées pour la correction des exigences Collecte de données textuelles issues de documents techniques dans le cadre d’un doctorat en Linguistique Informatique et Ergonomie Thèse Cifre réalisée en collaboration avec Prometil et le laboratoire CLLE-ERSS (Université Toulouse Jean Jaurès, co-tutelle CNRS) Émilie MERDY [email protected] // http://emilie.merdy.free.fr/ Doctorante en Linguistique Informatique et Ergonomie Prometil SARL 42 Avenue du général De Croutte, 31100 Toulouse +33 (0)5 62 87 52 72 N° SIRET : 499 340 834 00013 Analyse Distributionnelle Automatique pour l’adaptation de domaine : création de ressources lexicales spécialisées pour la correction des exigences | Émilie MERDY [email protected] L’objectif de ce travail de recherche est de limiter le temps consacré à corriger les documents techniques tout en améliorant leur qualité. Pour y parvenir, nous automatisons la détection de l’ambiguïté, qui peut se manifester sous différents aspects linguistiques. Cette automatisation nécessite d’accéder au sens du texte et pas seulement à sa forme de surface, ce qui est possible en ayant recours à des lexiques structurés qui contiennent des informations linguistiques associées à chaque terme. En effet, une analyse de surface (chaîne de caractères) se limite à identifier des termes tels que « environ », « régulièrement » ou « effets indésirables ». Ces expressions expriment des attentes floues qu’il est impératif de corriger avant de valider la spécification et aujourd’hui Semios, l’outil de détection des erreurs développé par l’équipe R&D de Prometil, effectue déjà cette analyse avec une grande précision. Le problème est qu’il n’existe pas de ressources lexicales adaptées aux spécifications de chaque domaine et encore moins à chaque projet. Le sens échappe donc, au moins partiellement, aux traitements automatiques. Notre ambition est de rendre le traitement plus intelligent, en lui donnant accès à des connaissances sémantiques pour détecter les risques de mauvaises interprétations d’exigences, en français comme en anglais. L’ambiguïté est l’une des causes principales des échecs de projet entraînant des retards et surcoûts non-prévus. En identifiant et signalant systématiquement les termes qui apportent une ambiguïté dans les documents techniques, les spécifications doivent gagner en qualité tout en limitant le temps consacré à leurs corrections ainsi que les risques évitables encourus. Par exemple, « Le dispositif doit exécuter la procédure de sécurité quand la température relevée est supérieure à 150°C ». Une spécification bien formée doit être atomique, autonome et non-ambiguë, or l’exemple suivant ne respecte aucun de ces principes. Sans accès au titre de section ou aux exigences précédentes, « dispositif » peut faire références à des objets très différents, ce qui met le lecteur dans une position où son interprétation échappe aux attentes du rédacteur. Parmi ces termes, que nous appelons « termes sous-spécifiés » parce qu’ils ont besoin de précisions pour être spécifiques, on retrouve « système », « élément », « fonction », etc., qui sont suffisamment courants pour être communs à tous les domaines. Toutefois, certains termes sous-spécifiés posent problème dans un domaine et pas un autre. Par exemple, dans le cadre du développement d’un système informatique : « Le bouton de validation doit être inactif si le champ ID ne contient aucun caractère alpha-numérique » peut poser problème si « inactif » n’a pas été défini précisément dans le document (cliquable mais inactif/visible mais grisé/invisible pour l’utilisateur ?). L’apparition du même terme dans un document technique issu du domaine de l’optique ne présente pas les mêmes caractéristiques sémantiques et n’entraîne pas les mêmes risques liés à une mauvaise interprétation (i.e. « inactif : qui n'agit pas sur le plan de vibration de la lumière polarisée, qui ne la dévie pas »). Cette distinction sémantique entre différents emplois d’un même terme est rendue possible par l’observation des contextes des termes selon les théories d’Harris (1954) et Firth (1957). Cette approche, appelée « sémantique distributionnelle » repose sur le postulat qu’un terme est défini par ses contextes d’apparition. Il devient donc possible de rapprocher des synonymes si plusieurs termes partagent les mêmes contextes. De la même manière, si un terme s’associe à des contextes 1/2 Ce document est la propriété de Prometil SARL et ne peut être reproduit ou communiqué à des tiers sans son accord formel Analyse Distributionnelle Automatique pour l’adaptation de domaine : création de ressources lexicales spécialisées pour la correction des exigences | Émilie MERDY [email protected] différents au sein de plusieurs documents, il devient clair qu’il porte plusieurs sens (polysémie ou homonymie). La synonymie et la sous-spécification sont relativement faciles à évaluer pour nous, cependant l’automatisation d’une telle tâche requiert un volume massif de données pour détecter et différencier ces relations sémantiques grâce à des mesures statistiques. C’est pourquoi nous faisons appel à différents groupes susceptibles de produire et utiliser des spécifications afin de constituer une large base de données textuelles spécifiques issues de plusieurs domaines. La quantité idéale de données textuelles que nous cherchons est de l’ordre de plusieurs milliards de mots. Cette masse de données est nécessaire pour couvrir suffisamment de cas d’ambiguïtés grâce à une méthode de machine learning, et plus les sources sont différentes, plus les spécificités de chacun des sous-corpus deviennent visibles. En nous donnant accès à une partie de vos documents qui circulent dans votre contexte professionnel, vous aiderez notre équipe à développer un outil plus pertinent et performant pour assister les rédacteurs de spécifications. De plus, l’entraînement de notre outil sur vos données lui permettra d’être particulièrement adapté à votre contexte métier sans paramétrage majeur. Si la relecture d’exigences ou de procédures fait partie des tâches récurrentes de votre activité, n’hésitez pas à visiter le site dédié à Semios1 ou à nous contacter par mail ([email protected]) pour demander des informations concernant une démonstration ou une version d’essai gratuite. Les données que nous cherchons doivent contenir des termes et expressions spécifiques au domaine dans lequel elles sont produites et utilisées. Nous ne nous limitons pas aux documents matures (validés) puisque le cadre de ce travail est de développer un outil d’analyse et correction de ces ressources. À titre d’exemple, nous espérons constituer une base contenant des spécifications, manuels utilisateurs, consignes de sécurité, etc. à différents stades de rédaction, voire différentes versions d’un même document. En regroupant les documents thématiquement, nous pourrons appliquer différents traitements linguistiques (identification de termes et expressions ambigües), statistiques (fréquences relatives et absolues des cas ambigus) et mathématiques (formalisation de contextes en vecteurs) permettant de faire émerger une méthodologie robuste pour automatiser l’analyse sémantique de tous types de documents techniques sans être limités par la diversité des domaines desquels ils sont issus. L’anonymisation de la source (société, projet, équipe, rédacteur), du contenu des données (impossibilité de reconstruire les données à partir des publications), l’utilisation des données exclusivement sur le site/réseau de leur propriétaire ainsi qu’un droit de regard avant publication est prévue pour préserver la confidentialité de vos travaux. De la part de toute l’équipe R&D chargée des évolutions de Semios, je vous remercie du temps que vous accorderez à ma requête. Émilie MERDY 1 http://semiosapp.com/ 2/2 Ce document est la propriété de Prometil SARL et ne peut être reproduit ou communiqué à des tiers sans son accord formel