Analyse Distributionnelle Automatique pour l`adaptation de

Transcription

Analyse Distributionnelle Automatique pour l`adaptation de
Octobre 2016
Analyse Distributionnelle Automatique pour
l’adaptation de domaine : création de
ressources lexicales spécialisées pour la
correction des exigences
Collecte de données textuelles issues de documents techniques dans le cadre
d’un doctorat en Linguistique Informatique et Ergonomie
Thèse Cifre réalisée en collaboration avec Prometil
et le laboratoire CLLE-ERSS (Université Toulouse
Jean Jaurès, co-tutelle CNRS)
Émilie MERDY
[email protected] // http://emilie.merdy.free.fr/
Doctorante en Linguistique Informatique et Ergonomie
Prometil SARL
42 Avenue du général De Croutte, 31100 Toulouse
+33 (0)5 62 87 52 72
N° SIRET : 499 340 834 00013
Analyse Distributionnelle Automatique pour l’adaptation de domaine : création de ressources lexicales
spécialisées pour la correction des exigences | Émilie MERDY
[email protected]
L’objectif de ce travail de recherche est de limiter le temps consacré à corriger les
documents techniques tout en améliorant leur qualité. Pour y parvenir, nous automatisons
la détection de l’ambiguïté, qui peut se manifester sous différents aspects linguistiques. Cette
automatisation nécessite d’accéder au sens du texte et pas seulement à sa forme de surface, ce
qui est possible en ayant recours à des lexiques structurés qui contiennent des informations
linguistiques associées à chaque terme. En effet, une analyse de surface (chaîne de caractères) se
limite à identifier des termes tels que « environ », « régulièrement » ou « effets indésirables ».
Ces expressions expriment des attentes floues qu’il est impératif de corriger avant de valider la
spécification et aujourd’hui Semios, l’outil de détection des erreurs développé par l’équipe R&D
de Prometil, effectue déjà cette analyse avec une grande précision. Le problème est qu’il n’existe
pas de ressources lexicales adaptées aux spécifications de chaque domaine et encore moins à
chaque projet. Le sens échappe donc, au moins partiellement, aux traitements automatiques.
Notre ambition est de rendre le traitement plus intelligent, en lui donnant accès à des
connaissances sémantiques pour détecter les risques de mauvaises interprétations d’exigences, en
français comme en anglais. L’ambiguïté est l’une des causes principales des échecs de projet
entraînant des retards et surcoûts non-prévus.
En identifiant et signalant systématiquement les termes qui apportent une ambiguïté dans
les documents techniques, les spécifications doivent gagner en qualité tout en limitant le temps
consacré à leurs corrections ainsi que les risques évitables encourus.
Par exemple, « Le dispositif doit exécuter la procédure de sécurité quand la température
relevée est supérieure à 150°C ». Une spécification bien formée doit être atomique, autonome et
non-ambiguë, or l’exemple suivant ne respecte aucun de ces principes. Sans accès au titre de
section ou aux exigences précédentes, « dispositif » peut faire références à des objets très
différents, ce qui met le lecteur dans une position où son interprétation échappe aux attentes du
rédacteur. Parmi ces termes, que nous appelons « termes sous-spécifiés » parce qu’ils ont besoin
de précisions pour être spécifiques, on retrouve « système », « élément », « fonction », etc., qui
sont suffisamment courants pour être communs à tous les domaines. Toutefois, certains termes
sous-spécifiés posent problème dans un domaine et pas un autre. Par exemple, dans le cadre du
développement d’un système informatique : « Le bouton de validation doit être inactif si le champ
ID ne contient aucun caractère alpha-numérique » peut poser problème si « inactif » n’a pas été
défini précisément dans le document (cliquable mais inactif/visible mais grisé/invisible pour
l’utilisateur ?). L’apparition du même terme dans un document technique issu du domaine de
l’optique ne présente pas les mêmes caractéristiques sémantiques et n’entraîne pas les mêmes
risques liés à une mauvaise interprétation (i.e. « inactif : qui n'agit pas sur le plan de vibration de
la lumière polarisée, qui ne la dévie pas »).
Cette distinction sémantique entre différents emplois d’un même terme est rendue possible
par l’observation des contextes des termes selon les théories d’Harris (1954) et Firth (1957). Cette
approche, appelée « sémantique distributionnelle » repose sur le postulat qu’un terme est défini
par ses contextes d’apparition. Il devient donc possible de rapprocher des synonymes si plusieurs
termes partagent les mêmes contextes. De la même manière, si un terme s’associe à des contextes
1/2
Ce document est la propriété de Prometil SARL et ne peut être reproduit ou
communiqué à des tiers sans son accord formel
Analyse Distributionnelle Automatique pour l’adaptation de domaine : création de ressources lexicales
spécialisées pour la correction des exigences | Émilie MERDY
[email protected]
différents au sein de plusieurs documents, il devient clair qu’il porte plusieurs sens (polysémie ou
homonymie). La synonymie et la sous-spécification sont relativement faciles à évaluer pour nous,
cependant l’automatisation d’une telle tâche requiert un volume massif de données pour détecter
et différencier ces relations sémantiques grâce à des mesures statistiques. C’est pourquoi nous
faisons appel à différents groupes susceptibles de produire et utiliser des spécifications afin de
constituer une large base de données textuelles spécifiques issues de plusieurs domaines. La
quantité idéale de données textuelles que nous cherchons est de l’ordre de plusieurs milliards
de mots. Cette masse de données est nécessaire pour couvrir suffisamment de cas d’ambiguïtés
grâce à une méthode de machine learning, et plus les sources sont différentes, plus les spécificités
de chacun des sous-corpus deviennent visibles.
En nous donnant accès à une partie de vos documents qui circulent dans votre contexte
professionnel, vous aiderez notre équipe à développer un outil plus pertinent et performant pour
assister les rédacteurs de spécifications. De plus, l’entraînement de notre outil sur vos données lui
permettra d’être particulièrement adapté à votre contexte métier sans paramétrage
majeur. Si la relecture d’exigences ou de procédures fait partie des tâches récurrentes de votre
activité, n’hésitez pas à visiter le site dédié à Semios1 ou à nous contacter par mail
([email protected]) pour demander des informations concernant une démonstration ou
une version d’essai gratuite.
Les données que nous cherchons doivent contenir des termes et expressions spécifiques
au domaine dans lequel elles sont produites et utilisées. Nous ne nous limitons pas aux documents
matures (validés) puisque le cadre de ce travail est de développer un outil d’analyse et correction
de ces ressources. À titre d’exemple, nous espérons constituer une base contenant des
spécifications, manuels utilisateurs, consignes de sécurité, etc. à différents stades de rédaction,
voire différentes versions d’un même document. En regroupant les documents thématiquement,
nous pourrons appliquer différents traitements linguistiques (identification de termes et
expressions ambigües), statistiques (fréquences relatives et absolues des cas ambigus) et
mathématiques (formalisation de contextes en vecteurs) permettant de faire émerger une
méthodologie robuste pour automatiser l’analyse sémantique de tous types de documents
techniques sans être limités par la diversité des domaines desquels ils sont issus.
L’anonymisation de la source (société, projet, équipe, rédacteur), du contenu des
données (impossibilité de reconstruire les données à partir des publications), l’utilisation des
données exclusivement sur le site/réseau de leur propriétaire ainsi qu’un droit de regard avant
publication est prévue pour préserver la confidentialité de vos travaux.
De la part de toute l’équipe R&D chargée des évolutions de Semios, je vous remercie du
temps que vous accorderez à ma requête.
Émilie MERDY
1
http://semiosapp.com/
2/2
Ce document est la propriété de Prometil SARL et ne peut être reproduit ou
communiqué à des tiers sans son accord formel

Documents pareils