Bilan de recherches en TAL à Nancy
Transcription
Bilan de recherches en TAL à Nancy
Bilan de recherches en TAL à Nancy Matthieu Quignard, ICAR1 [email protected] CR1 CNRS, Section 34 Plan • Un peu d'histoire… • Quelques projets : – Multimodalité – Sémantique et dialogue finalisé – Intercompréhension • Collaborations en cours 11/02/10 M. Quignard - Séminaire ICAR 2 Un peu d'histoire • mon profil en 2002 – Ingénieur Informatique (ENST, 1994) – Thèse en sc. cog. sur l'argumentation entre élèves (M. Baker, 2000). – Post-doc pour projet SCALE > approche instrumentée (CMO) pour l'étude des processus cognitifs de l'argumentation • Nommé CR2 au LORIA au 1er Octobre 2002 11/02/10 M. Quignard - Séminaire ICAR 3 Le LORIA • creuset de la recherche en informatique de la Lorraine • UMR : 3 universités, INRIA, CNRS • 500 personnes : – 1/3 chercheurs permanents – 1/3 doctorants / post-docs – 1/3 administratifs • Informatique théorique et appliquée (cryptage, sûreté logicielle, langages, réseaux, robotique, traitement de l'image, réalité virtuelle, génomique, etc.) 11/02/10 M. Quignard - Séminaire ICAR 4 L'ingénierie des langues au LORIA et à Nancy • Langue & Dialogue (L. Romary puis P. Blackburn) – syntaxe, sémantique – pragmatique : multimodalité, référence – ressources linguistiques (corpus, grammaires, lexiques) • Parole (Y. Laprie) – Reconnaissance, synthèse de la parole • Calligramme (Ph. de Groote) – Syntaxe + ATILF (J.-M. Pierrel) – Ressources textuelles (TLFi, FranText, CNRTL) 11/02/10 M. Quignard - Séminaire ICAR 5 Etat de l'art L&D • • • • • • • • Pas de système de dialogue complet Système d'analyse grammaticale TAG Grammaire TAG large couverture Lexique morphologique (Morphalou) Tables du LADL (valence des verbes du fr.) Interface syntaxe-sémantique, logiques pour le TAL Traitement du geste de désignation en dialogue Traitement des expressions référentielles 11/02/10 M. Quignard - Séminaire ICAR 6 Projets/travaux • IST AMIGO : "Ambient Intelligence" DHM multimodal • RNTL MEDIA (campagne technolangues) performance en compréhension des systèmes de dialogue • Thèse d'Alexandre Denis intercompréhension en DHM 11/02/10 M. Quignard - Séminaire ICAR 7 AMIGO • Gros consortium industriel-académique – Philips, FT, Telefonica, Fraunhofer… – INRIA, LORIA, Univ. de Paderborn • Infrastructure de domotique "intelligente" – – – – 11/02/10 les services communiquent et partagent des ressources objets communicants (transfert de services) le service suit la personne (FollowMe) gestion de la sécurité M. Quignard - Séminaire ICAR 8 Recherche TAL dans AMIGO • Module de reconnaissance de gestes 2D (pointage d'objet) • Module de fusion multimodale • Collaboration avec : – – – – 11/02/10 VTT : reconnaissance de gestes 3D (Wii) Parole : reconnaissance vocale SingularLogic (Gr) : système de dialogue Fraunhofer : intégrateur (jeu de rôle) M. Quignard - Séminaire ICAR 9 Fusion multimodale • L'énoncé est porté conjointement à travers plusieurs canaux : – production verbale – geste de désignation sur écran tactile (2D) – geste de commande type Wii (3D) • Fusionner = combiner au niveau sémantique/pragmatique – compatibilité prédicat-arguments (ontologie) – temporalité – propriétés du "monde" 11/02/10 M. Quignard - Séminaire ICAR 10 Résultats • Positif : – Reco de gestes de désignation 2D – Fusion multimodale "générique" – Démonstrateur • Négatif : – Aucune intégration de la fusion dans le système de dialogue (incompatibilité ?) – Pas d'application effective en "domotique" (trop complexe ?) 11/02/10 M. Quignard - Séminaire ICAR 11 Bilan AMIGO • Effort de recherche axé sur le middleware (architecture logicielle, "services") • La domotique comme terrain de démonstration • Pas de recherche propre sur les usages • Pas de réflexion sur le DHM/CMC 11/02/10 M. Quignard - Séminaire ICAR 12 MEDIA • Campagnes TechnoLangues – ESTER : reconnaissance de la parole (bulletins d'information radio) – EASY : analyse grammaticale (journaux) – MEDIA : compréhension de l'oral (service vocal de réservation d'hôtel) • Objectifs : – que le meilleur gagne ! – élaborer des ressources pour le benchmarking 11/02/10 M. Quignard - Séminaire ICAR 13 Principes • Des laboratoires volontaires : LIMSI, LORIA, VALORIA, LIA , FT R&D – élaboration des manuels d'annotation – conception des systèmes • ELDA : – recueil et annotation manuelle du corpus – gestion du concours • Un corpus d'entraînement • Un test "à blanc" • Le test définitif 11/02/10 M. Quignard - Séminaire ICAR 14 La compréhension de l'oral… • Comprend : – la portée sémantique de l'énoncé dans le cadre de la tâche – la résolution des expressions référentielles • Ne comprend pas : – – – – 11/02/10 la reconnaissance de la parole l'identification des actes de langage, paires adjacentes backchannel, quel est le sens de "oui" ? ce qui ne relève pas strictement de la tâche "je ne comprends pas vous m'aviez dit tout à l'heure… et maintenant…" M. Quignard - Séminaire ICAR 15 Corpus • 250 locuteurs appelant avec une consigne particulière • 2 personnes jouant le système (WoZ) – 1 257 dialogues recueillis, ~70h – en moyenne : • un dialogue dure 3'30 • une trentaine d'interventions (courtes : ~ 6 mots) • Transcription (Transcriber) – transcription orthographique alignée – annotation des pauses, respirations – chevauchements transcrits dans la mesure du possible 11/02/10 M. Quignard - Séminaire ICAR 16 Extrait S quelle information désirez-vous C voilà je voudrais faire une réservation d' une chambre pour une personne à Niort fin juin euh cent cinquante euros maximum et qui donnerait sur les bords de la rivière si c' est possible S vous souhaitez réserver à Niort C oui S à quelle date souhaitez-vous y rés(erver) réserver C fin juin S à Niort C oui … 11/02/10 M. Quignard - Séminaire ICAR 17 Annotation "hors-contexte" voilà je voudrais faire une réservation d' une chambre pour une personne à Niort fin juin euh cent cinquante euros maximum et qui donnerait sur les bords de la rivière si c' est possible ––––– oui 11/02/10 +/null +/command-tache=reservation +/nombre-chambre-reservation=1 +/sejour-nbPersonne-reservation=1 +/localisation-ville-hotel=niort +/temps-plageRelative-reservation=fin +/temps-mois-reservation=6 +/null +/paiement-montant-entier-reservation-chambre=150 +/paiement-monnaie=euro +/comparatif-paiement=inferieur +/connectProp=addition +/null ~/localisation-distanceRelative-hotel=proche ~/localisation-lieuRelatif-general-hotel=unknown +/null ––––– +/reponse=oui M. Quignard - Séminaire ICAR 18 Annotation "en contexte" L'annotation prend en compte la compréhension des énoncés précédents • spécification plus poussée (ellipses) "la cloche" "le 11" null nombre:11 nom-hotel:la cloche temps-date:11/02 • résolution de la référence "cet hotel" 11/02/10 lienRef-coRef:sing objetBD:hotel reference="nom-hotel:la cloche" M. Quignard - Séminaire ICAR 19 Approches en compétition • Approches statistiques (< reco parole) la sémantique est portée par la séquence de mots 3 systèmes : LIMSI (2), LIA • Approche symbolique – La sémantique est compositionnelle, s'appuie sur la structure de la phrase – 3 systèmes : LORIA, VALORIA, FT 11/02/10 M. Quignard - Séminaire ICAR 20 Des approches opposées • Statistiques – le sens résulte de la régularité de certains patterns – tributaire du corpus (taille, qualité) sensibles aux cas rares ou sur-représentés – s'adaptent "automatiquement" aux règles d'annotation • Symboliques – le sens est calculé a priori. Reste à le projeter dans le formalisme voulu – tributaire de la qualité du manuel d'annotation et de la conformité de l'annotation manuelle à ce dernier – le corpus sert d'exemplier (la taille importe peu) 11/02/10 M. Quignard - Séminaire ICAR 21 Approche du LORIA • Nettoyage • Analyse syntaxique Micro grammaire (80 arbres) • Construction d'une représ. sémantique lexique sémantique (arbre ⇔ prédicat) ontologie (modèle de la tâche) • Projection dans le formalisme de sortie = réinterprétation 11/02/10 M. Quignard - Séminaire ICAR 22 Analyse syntaxique Enoncé qu’est-ce que vous auriez comme hôtel pas trop cher dans ces prix-là Normalisation, segmentation qu_est_ce_que vous auriez comme hôtel pas trop cher dans ces prix là 80 arbres élémentaires co-occurrence prédicat argument ancre ↔ prédicat ; substitution ↔ argument ; adjonction ↔ modifieur s pro◊ s s↓ pro↓ v◊ n n↓ det n n* n* adj adj adv_adj adj* n n* n gp n* adv prep n↓ 11/02/10 M. Quignard - Séminaire ICAR 23 Arbre dérivé s pro s pro v n det n n gp n adj adv_adj prep adj adv_adj qu_est_ ce_que 11/02/10 vous auriez comme hôtel pas det adj trop cher M. Quignard - Séminaire ICAR n dans ces n n adv prix là 24 Arbre de dérivation (trace de la production de l'arbre dérivé) qu_est_ce_que.qu_est_ce_que pro_v_n.auriez pro.vous n.hôtel det_n.comme n_adj.cher adv_adj.trop n_gp.dans adv_adj.pas 11/02/10 n.prix det_n.ces M. Quignard - Séminaire ICAR n_là.là 25 De la syntaxe à la sémantique… qu_est_ce_que.qu_est_ce_que pro_v_n.auriez pro.vous n.hôtel det_n.comme n_adj.cher adv_adj.trop n_gp.dans adv_adj.pas 11/02/10 n.prix det_n.ces M. Quignard - Séminaire ICAR n_là.là 26 Ce qu'en retient le système auriez sujet vous objet hôtel cher (pas trop) ces prix réinterprétation - projection +/objetBD = hotel +/paiement-montantQualitatif-chambre = pasCher +/lienRef-coRef = pluriel +/objet = paiement-montant-chambre 11/02/10 M. Quignard - Séminaire ICAR 27 Bilan • On termine 3e (0.36), juste derrière les 2 systèmes statistiques du LIMSI (.30) • Approche symbolique : – – – – très lente assez robuste largement perfectible : compréhension et projection très didactique et capitalisable • Approche statistique – heuristiques efficaces moyennant corpus – coût important 11/02/10 M. Quignard - Séminaire ICAR 28 Inter-compréhension en DHM • Thèse d'Alexandre Denis dans la suite du projet MEDIA – Généricité de l'approche ? • varier les tâches en conservant la même grammaire – La compréhension : de la performance à la compétence (dialogique) ? • dans quelle mesure les erreurs du système peuventelles se corriger dans le dialogue ? 11/02/10 M. Quignard - Séminaire ICAR 29 Background : Clark & Schaefer (89) La compréhension comme processus dialogique : – – l'entretien d'un terrain commun manifestation de preuves de compréhension 1. 2. Une intervention est présentée : A présente I à B. Elle entre dans le terrain commun lorsque les participants pensent que B a suffisamment compris ce que voulait dire A pour son but courant (A et B pensent que B a bien compris I selon A) Phase d'acceptance = négociation du statut de l'intervention (et donc d'un sens minimalement partagé). Récursion à l'infini. Il manquera toujours une preuve pour clore définitivement la phase d'acceptance (Traum 99) 11/02/10 M. Quignard - Séminaire ICAR 30 Grounding "subjectif" • BelA Gr(UA) = • • • • BelA UndB UA et BelA BelB UndB UA BelB Gr(UA) = BelB UndB UA et BelB BelA UndB UA Preuves de compréhension propres Preuves de compréhension apportées par autrui Asynchrone : le locuteur pour estimer que son énoncé est groundé avant que l'interlocuteur ne puisse l'estimé 11/02/10 M. Quignard - Séminaire ICAR 31 Evaluation sur corpus • • Problème : comment évaluer une capacité dialogique sur un corpus déjà joué ? Proposition : une relecture interactive d'un dialogue MEDIA, avec 2 systèmes de dialogue. 1. Control soumet un énoncé comprenant une expression référentielle à résoudre. 2. Test fournit la description du référent 3. Si Control estime que Test n'a pas compris, il fournit la description à trouver 4. Test doit reformuler ce qu'il en a compris, ou manifester sa non-compréhension, etc. 11/02/10 M. Quignard - Séminaire ICAR 32 Exemple positif C T C T C 11/02/10 Interprète "je voudrais confirmation concernant ces deux hôtels" OK Non, l'hôtel du lac, l'hôtel du rocher OK donc l'hôtel du lac, l'hôtel du rocher OK, interprète… M. Quignard - Séminaire ICAR 33 Exemple négatif C T C T C T C 11/02/10 Interprète "et le troisième" OK, l'hôtel des lilas Non, l'hôtel EtapHotel je ne comprends pas "l'hôtel". C'est ambigu. Le lilas ou la chapelle ou l'hôtel Etap, lequel hôtel l'hôtel EtapHotel je ne comprends pas "l'hôtel". C'est ambigu. Le lilas ou la chapelle ou l'hôtel Etap, lequel hôtel laisse tomber M. Quignard - Séminaire ICAR 34 Bilan • Compréhension sans grounding : 52% • Compréhension avec grounding : 66% • Explications : – résolution de la référence plus simple dans un sousdialogue de clarification – mais on est loin du 100% • des erreurs non réparables sans adaptation des ressources • coopération insuffisante du Control • la génération (et ses imperfections) participe du processus de compréhension 11/02/10 M. Quignard - Séminaire ICAR 35 Collaborations en cours • ANR PortMEDIA (MEDIA 2) proposition d'une représentation sémantique "propre" du corpus MEDIA • ANR CCCP-Prosodie outils TAL pour la modélisation des formes de participations dans les communautés de pratiques en ligne (~Wikipedia) (orientation argumentative, usage des pronoms personnels, certains verbes, …) 11/02/10 M. Quignard - Séminaire ICAR 36 Bilan critique • Il y a des choses qui marchent ! • Des approches variées : – TAL statistique • gros consommateur de ressources • pas de théorie linguistique mais heuristiques efficaces • détecteur de régularités à tous niveaux – TAL symbolique • s'appuie encore beaucoup sur l'écrit • évaluation théorique et empirique de modèles cogn. / ling. • forte collaboration interdisciplinaire • Des zones d'ombre : les locuteurs, l'interaction 11/02/10 M. Quignard - Séminaire ICAR 37 Retour sur investissement ? • Meilleure maîtrise de nos modèles – formalisation / réduction • Un regard sur nos méthodes d'analyse – Quels indices, marqueurs emploie-t-on ? – Ne passe-t-on pas à côté d'autres phénomènes réguliers ? • Des technologies utiles – alignement de transcriptions – annotation de corpus pour l'aide à l'analyse 11/02/10 M. Quignard - Séminaire ICAR 38