de fin d`études Ingénieur/M2R

Transcription

de fin d`études Ingénieur/M2R
STAGE INGENIEUR/M2R
Détection d’incohérences liées à la
pragmatique dans un texte
Lieu : Synapse Développement – Toulouse centre
Contact : [email protected]
Durée : 6 mois
Rémunération conventionnelle + prime sur objectifs
Contexte
La société Synapse Développement est leader sur le marché du logiciel d’analyse de la langue
française. Société innovante d’une dizaine de personnes, Synapse travaille pour le grand
public et les grands comptes comme Microsoft ou Amazon.
Depuis plusieurs années, les activités de R&D de Synapse Développement s’orientent
naturellement vers la compréhension du texte écrit. La société est notamment identifiée
comme un acteur majeur des systèmes de question-réponse en français et en anglais. Son
savoir-faire a récemment été illustré au cours de la campagne d’évaluation Entrance Exams,
dans laquelle les systèmes sont soumis au test de compréhension de l’anglais pour l’entrée à
l’Université au Japon. Aux deux dernières éditions de la compétition, la Reading Machine de
Synapse a occupé la première position, à la fois pour le test original en anglais et pour son
adaptation en français (pour laquelle textes et questions ont été traduits à la main) ; elle est
la seule à dépasser la moyenne dans les deux langues et est donc admise à l’Université !
Au cours des dernières décennies, les travaux de recherche visaient à surmonter le caractère
informel et donc ambigu de la langue naturelle. On peut considérer que ce verrou a
désormais sauté, même si, sur le plan pratique, le problème est toujours présent lors de
l’implémentation d’un système analysant le langage (la récente banalisation de l’argot, du
langage sms, et la multiplication des erreurs dans les écrits n’aident pas à la tâche).
Une approche combinant une analyse syntaxique performante, des ressources linguistiques
de qualité et des outils statistiques permet donc d’extraire de façon efficace la sémantique
Synapse Développement
SARL au capital de 53.357 E. RCS Toulouse B 393 498 324. APE 6201Z SIRET 393 498 324 00044
5 rue du Moulin Bayard 31000 Toulouse
Tél. 05.61.63.02.85 - Fax. 05.61.63.02.87
Site Internet : http://www.synapse-fr.com – Mail : [email protected]
de ce texte. Cependant, certains mécanismes cognitifs mis en œuvre lors de la lecture d’un
texte par un humain sont encore mal imités par la machine, ce qui rend la lecture
automatique d’un texte moins performante d’un point de vue qualitatif.
La principale limite à la compréhension de textes par la machine est maintenant pour nous
liée au mode d’expression du locuteur humain, celui-ci ayant tendance à se dispenser de
communiquer explicitement des informations qui sont soit déjà connues du destinataire, soit
inférables par celui-ci. Il est donc nécessaire pour une machine d’identifier et de mobiliser
ces informations implicites.
Objectifs
Dans le cadre du projet DIT (Détection d’Incohérences Textuelles), Synapse veut concevoir,
mettre en place et évaluer une méthode de détection des incohérences liées à la
pragmatique dans un texte. Dans ce contexte, nous appelons une incohérence liée à la
pragmatique une contradiction entre une assertion d'un texte et des informations issues
d’une base de connaissance considérées comme vraies (ground truth).
Cette base de connaissances sera exprimée selon un formalisme de graphes. Elle peut être :

externe et établie a priori (par exemple DBpedia),

ou construite par Machine Reading, soit sur une grande quantité de textes selon des
approches statistiques, structurant alors des connaissances de fonds (background
knowledge), soit au fur et à mesure de la lecture du texte, ce qui permettrait
d’identifier des contradictions entre plusieurs assertions d'un même texte.
Verrous
Nous identifions deux difficultés majeures dans le travail demandé. La construction d’une
base de connaissances de fond uniquement par Machine Reading sur de gros volumes de
texte soulève le problème de la gestion de la masse de données et celui de la prise en
compte de données contradictoires et leur fusion dans la base de connaissances. Le premier
problème est déjà en partie résolu par l’utilisation de la base de données orientée graphe
Neo4j, supportant une optimisation verticale.
Au niveau pragmatique, le risque tient à la complexité de la tâche cognitivo-linguistique
d'élaboration d'un schéma de représentation du texte à des fins de comparaison
Synapse Développement
SARL au capital de 53.357 E. RCS Toulouse B 393 498 324. APE 6201Z SIRET 393 498 324 00044
5 rue du Moulin Bayard 31000 Toulouse
Tél. 05.61.63.02.85 - Fax. 05.61.63.02.87
Site Internet : http://www.synapse-fr.com – Mail : [email protected]
sémantique. L'analyse du discours se situe à la frontière de plusieurs disciplines, entre autres
de la psycholinguistique et de l'intelligence artificielle, et la stratégie et les heuristiques
utilisées sont cruciales pour des résultats pertinents. Une approche agile (succession
d’itérations intégrant des tests et améliorant progressivement l’ensemble du process
développé) permettra de limiter les conséquences de cette difficulté.
Déroulement
Intégré-e à l'équipe R&D, le/la stagiaire portera ces thématiques de recherche en tirant parti
des technologies et savoir-faire Synapse. Un découpage prospectif du travail demandé a
permis de définir les tâches suivantes :
1.
2.
3.
Etat de l’art sur la détection d’incohérences liées à la pragmatique.
Contributions scientifiques :
a. Identification ou proposition d’un format pivot de représentation d’une base
de connaissances.
b. Proposition du modèle d’intégration des connaissances issues du Machine
Reading vers le format pivot.
c. Proposition d’une méthode d’identification de contradictions.
Contributions pratiques :
a. Export d’une base de connaissances externe type DBpedia vers le format
pivot.
b. Constitution d’une base de connaissances de fonds par Machine Reading.
c. Implémentation du module de détection d’incohérences pragmatiques.
d. Tests qualitatifs des résultats sur un corpus restreint annoté.
Un article scientifique sera rédigé avec l’équipe R&D et soumis en atelier ou en conférence,
selon l’avancement des travaux.
Synapse Développement
SARL au capital de 53.357 E. RCS Toulouse B 393 498 324. APE 6201Z SIRET 393 498 324 00044
5 rue du Moulin Bayard 31000 Toulouse
Tél. 05.61.63.02.85 - Fax. 05.61.63.02.87
Site Internet : http://www.synapse-fr.com – Mail : [email protected]