Bilan de recherches en TAL à Nancy

Transcription

Bilan de recherches en TAL à Nancy
Bilan de recherches en TAL
à Nancy
Matthieu Quignard, ICAR1
[email protected]
CR1 CNRS, Section 34
Plan
• Un peu d'histoire…
• Quelques projets :
– Multimodalité
– Sémantique et dialogue finalisé
– Intercompréhension
• Collaborations en cours
11/02/10
M. Quignard - Séminaire ICAR
2
Un peu d'histoire
• mon profil en 2002
– Ingénieur Informatique (ENST, 1994)
– Thèse en sc. cog. sur l'argumentation entre élèves
(M. Baker, 2000).
– Post-doc pour projet SCALE
> approche instrumentée (CMO) pour l'étude des
processus cognitifs de l'argumentation
• Nommé CR2 au LORIA au 1er Octobre 2002
11/02/10
M. Quignard - Séminaire ICAR
3
Le LORIA
• creuset de la recherche en informatique de la
Lorraine
• UMR : 3 universités, INRIA, CNRS
• 500 personnes :
– 1/3 chercheurs permanents
– 1/3 doctorants / post-docs
– 1/3 administratifs
• Informatique théorique et appliquée
(cryptage, sûreté logicielle, langages, réseaux, robotique,
traitement de l'image, réalité virtuelle, génomique, etc.)
11/02/10
M. Quignard - Séminaire ICAR
4
L'ingénierie des langues au
LORIA et à Nancy
• Langue & Dialogue (L. Romary puis P. Blackburn)
– syntaxe, sémantique
– pragmatique : multimodalité, référence
– ressources linguistiques (corpus, grammaires, lexiques)
• Parole (Y. Laprie)
– Reconnaissance, synthèse de la parole
• Calligramme (Ph. de Groote)
– Syntaxe
+ ATILF (J.-M. Pierrel)
– Ressources textuelles (TLFi, FranText, CNRTL)
11/02/10
M. Quignard - Séminaire ICAR
5
Etat de l'art L&D
•
•
•
•
•
•
•
•
Pas de système de dialogue complet
Système d'analyse grammaticale TAG
Grammaire TAG large couverture
Lexique morphologique (Morphalou)
Tables du LADL (valence des verbes du fr.)
Interface syntaxe-sémantique, logiques pour le TAL
Traitement du geste de désignation en dialogue
Traitement des expressions référentielles
11/02/10
M. Quignard - Séminaire ICAR
6
Projets/travaux
• IST AMIGO : "Ambient Intelligence"
DHM multimodal
• RNTL MEDIA (campagne technolangues)
performance en compréhension des systèmes de dialogue
• Thèse d'Alexandre Denis
intercompréhension en DHM
11/02/10
M. Quignard - Séminaire ICAR
7
AMIGO
• Gros consortium industriel-académique
– Philips, FT, Telefonica, Fraunhofer…
– INRIA, LORIA, Univ. de Paderborn
• Infrastructure de domotique "intelligente"
–
–
–
–
11/02/10
les services communiquent et partagent des ressources
objets communicants (transfert de services)
le service suit la personne (FollowMe)
gestion de la sécurité
M. Quignard - Séminaire ICAR
8
Recherche TAL dans AMIGO
• Module de reconnaissance de gestes 2D (pointage
d'objet)
• Module de fusion multimodale
• Collaboration avec :
–
–
–
–
11/02/10
VTT : reconnaissance de gestes 3D (Wii)
Parole : reconnaissance vocale
SingularLogic (Gr) : système de dialogue
Fraunhofer : intégrateur (jeu de rôle)
M. Quignard - Séminaire ICAR
9
Fusion multimodale
• L'énoncé est porté conjointement à travers
plusieurs canaux :
– production verbale
– geste de désignation sur écran tactile (2D)
– geste de commande type Wii (3D)
• Fusionner = combiner au niveau
sémantique/pragmatique
– compatibilité prédicat-arguments (ontologie)
– temporalité
– propriétés du "monde"
11/02/10
M. Quignard - Séminaire ICAR
10
Résultats
• Positif :
– Reco de gestes de désignation 2D
– Fusion multimodale "générique"
– Démonstrateur
• Négatif :
– Aucune intégration de la fusion dans le système de
dialogue (incompatibilité ?)
– Pas d'application effective en "domotique"
(trop complexe ?)
11/02/10
M. Quignard - Séminaire ICAR
11
Bilan AMIGO
• Effort de recherche axé sur le middleware
(architecture logicielle, "services")
• La domotique comme terrain de
démonstration
• Pas de recherche propre sur les usages
• Pas de réflexion sur le DHM/CMC
11/02/10
M. Quignard - Séminaire ICAR
12
MEDIA
• Campagnes TechnoLangues
– ESTER : reconnaissance de la parole (bulletins
d'information radio)
– EASY : analyse grammaticale (journaux)
– MEDIA : compréhension de l'oral
(service vocal de réservation d'hôtel)
• Objectifs :
– que le meilleur gagne !
– élaborer des ressources pour le benchmarking
11/02/10
M. Quignard - Séminaire ICAR
13
Principes
• Des laboratoires volontaires :
LIMSI, LORIA, VALORIA, LIA , FT R&D
– élaboration des manuels d'annotation
– conception des systèmes
• ELDA :
– recueil et annotation manuelle du corpus
– gestion du concours
• Un corpus d'entraînement
• Un test "à blanc"
• Le test définitif
11/02/10
M. Quignard - Séminaire ICAR
14
La compréhension de l'oral…
• Comprend :
– la portée sémantique de l'énoncé dans le cadre de la tâche
– la résolution des expressions référentielles
• Ne comprend pas :
–
–
–
–
11/02/10
la reconnaissance de la parole
l'identification des actes de langage, paires adjacentes
backchannel, quel est le sens de "oui" ?
ce qui ne relève pas strictement de la tâche
"je ne comprends pas vous m'aviez dit tout à l'heure… et maintenant…"
M. Quignard - Séminaire ICAR
15
Corpus
• 250 locuteurs appelant avec une consigne particulière
• 2 personnes jouant le système (WoZ)
– 1 257 dialogues recueillis, ~70h
– en moyenne :
• un dialogue dure 3'30
• une trentaine d'interventions (courtes : ~ 6 mots)
• Transcription (Transcriber)
– transcription orthographique alignée
– annotation des pauses, respirations
– chevauchements transcrits dans la mesure du possible
11/02/10
M. Quignard - Séminaire ICAR
16
Extrait
S quelle information désirez-vous
C voilà je voudrais faire une réservation d' une chambre pour une personne à
Niort fin juin euh cent cinquante euros maximum et qui donnerait sur les
bords de la rivière si c' est possible
S vous souhaitez réserver à Niort
C oui
S à quelle date souhaitez-vous y rés(erver) réserver
C fin juin
S à Niort
C oui
…
11/02/10
M. Quignard - Séminaire ICAR
17
Annotation "hors-contexte"
voilà
je voudrais faire une réservation
d' une chambre
pour une personne
à Niort
fin
juin
euh
cent cinquante
euros
maximum
et
qui donnerait
sur les bords de
la rivière
si c' est possible
–––––
oui
11/02/10
+/null
+/command-tache=reservation
+/nombre-chambre-reservation=1
+/sejour-nbPersonne-reservation=1
+/localisation-ville-hotel=niort
+/temps-plageRelative-reservation=fin
+/temps-mois-reservation=6
+/null
+/paiement-montant-entier-reservation-chambre=150
+/paiement-monnaie=euro
+/comparatif-paiement=inferieur
+/connectProp=addition
+/null
~/localisation-distanceRelative-hotel=proche
~/localisation-lieuRelatif-general-hotel=unknown
+/null
–––––
+/reponse=oui
M. Quignard - Séminaire ICAR
18
Annotation "en contexte"
L'annotation prend en compte
la compréhension des énoncés précédents
• spécification plus poussée (ellipses)
"la cloche"
"le 11"
null
nombre:11
nom-hotel:la cloche
temps-date:11/02
• résolution de la référence
"cet hotel"
11/02/10
lienRef-coRef:sing objetBD:hotel
reference="nom-hotel:la cloche"
M. Quignard - Séminaire ICAR
19
Approches en compétition
• Approches statistiques (< reco parole)
la sémantique est portée par la séquence de mots
3 systèmes : LIMSI (2), LIA
• Approche symbolique
– La sémantique est compositionnelle,
s'appuie sur la structure de la phrase
– 3 systèmes : LORIA, VALORIA, FT
11/02/10
M. Quignard - Séminaire ICAR
20
Des approches opposées
• Statistiques
– le sens résulte de la régularité de certains patterns
– tributaire du corpus (taille, qualité)
sensibles aux cas rares ou sur-représentés
– s'adaptent "automatiquement" aux règles d'annotation
• Symboliques
– le sens est calculé a priori. Reste à le projeter dans le
formalisme voulu
– tributaire de la qualité du manuel d'annotation et de la
conformité de l'annotation manuelle à ce dernier
– le corpus sert d'exemplier (la taille importe peu)
11/02/10
M. Quignard - Séminaire ICAR
21
Approche du LORIA
• Nettoyage
• Analyse syntaxique
Micro grammaire (80 arbres)
• Construction d'une représ. sémantique
lexique sémantique (arbre ⇔ prédicat)
ontologie (modèle de la tâche)
• Projection dans le formalisme de sortie =
réinterprétation
11/02/10
M. Quignard - Séminaire ICAR
22
Analyse syntaxique
Enoncé
qu’est-ce que vous auriez comme hôtel pas trop cher dans ces prix-là
Normalisation, segmentation
qu_est_ce_que vous auriez comme hôtel pas trop cher dans ces prix
là
80 arbres élémentaires
co-occurrence prédicat argument
 ancre ↔ prédicat ; substitution ↔ argument ; adjonction ↔ modifieur
s
pro◊
s
s↓ pro↓ v◊
n
n↓ det
n
n* n*
adj
adj
adv_adj adj*
n
n*
n
gp n* adv
prep n↓
11/02/10
M. Quignard - Séminaire ICAR
23
Arbre dérivé
s
pro
s
pro
v
n
det
n
n
gp
n
adj
adv_adj
prep
adj
adv_adj
qu_est_
ce_que
11/02/10
vous
auriez
comme
hôtel
pas
det
adj
trop cher
M. Quignard - Séminaire ICAR
n
dans
ces
n
n
adv
prix
là
24
Arbre de dérivation
(trace de la production de l'arbre dérivé)
qu_est_ce_que.qu_est_ce_que
pro_v_n.auriez
pro.vous
n.hôtel
det_n.comme
n_adj.cher
adv_adj.trop
n_gp.dans
adv_adj.pas
11/02/10
n.prix
det_n.ces
M. Quignard - Séminaire ICAR
n_là.là
25
De la syntaxe à la sémantique…
qu_est_ce_que.qu_est_ce_que
pro_v_n.auriez
pro.vous
n.hôtel
det_n.comme
n_adj.cher
adv_adj.trop
n_gp.dans
adv_adj.pas
11/02/10
n.prix
det_n.ces
M. Quignard - Séminaire ICAR
n_là.là
26
Ce qu'en retient le système
auriez
sujet
vous
objet
hôtel
cher
(pas trop)
ces prix
réinterprétation - projection
+/objetBD = hotel
+/paiement-montantQualitatif-chambre = pasCher
+/lienRef-coRef = pluriel
+/objet = paiement-montant-chambre
11/02/10
M. Quignard - Séminaire ICAR
27
Bilan
• On termine 3e (0.36), juste derrière les 2
systèmes statistiques du LIMSI (.30)
• Approche symbolique :
–
–
–
–
très lente
assez robuste
largement perfectible : compréhension et projection
très didactique et capitalisable
• Approche statistique
– heuristiques efficaces moyennant corpus
– coût important
11/02/10
M. Quignard - Séminaire ICAR
28
Inter-compréhension en DHM
• Thèse d'Alexandre Denis dans la suite du
projet MEDIA
– Généricité de l'approche ?
• varier les tâches en conservant la même grammaire
– La compréhension : de la performance à la
compétence (dialogique) ?
• dans quelle mesure les erreurs du système peuventelles se corriger dans le dialogue ?
11/02/10
M. Quignard - Séminaire ICAR
29
Background : Clark & Schaefer (89)
La compréhension comme processus dialogique :
–
–
l'entretien d'un terrain commun
manifestation de preuves de compréhension
1.
2.
Une intervention est présentée : A présente I à B.
Elle entre dans le terrain commun lorsque les participants pensent
que B a suffisamment compris ce que voulait dire A pour son but
courant (A et B pensent que B a bien compris I selon A)
Phase d'acceptance = négociation du statut de l'intervention (et
donc d'un sens minimalement partagé).
Récursion à l'infini. Il manquera toujours une preuve pour clore
définitivement la phase d'acceptance (Traum 99)
11/02/10
M. Quignard - Séminaire ICAR
30
Grounding "subjectif"
• BelA Gr(UA) =
•
•
•
•
BelA UndB UA
et BelA BelB UndB UA
BelB Gr(UA) =
BelB UndB UA
et BelB BelA UndB UA
Preuves de compréhension propres
Preuves de compréhension apportées par autrui
Asynchrone : le locuteur pour estimer que son
énoncé est groundé avant que l'interlocuteur ne
puisse l'estimé
11/02/10
M. Quignard - Séminaire ICAR
31
Evaluation sur corpus
•
•
Problème : comment évaluer une capacité
dialogique sur un corpus déjà joué ?
Proposition : une relecture interactive d'un
dialogue MEDIA, avec 2 systèmes de dialogue.
1. Control soumet un énoncé comprenant une
expression référentielle à résoudre.
2. Test fournit la description du référent
3. Si Control estime que Test n'a pas compris, il fournit
la description à trouver
4. Test doit reformuler ce qu'il en a compris, ou
manifester sa non-compréhension, etc.
11/02/10
M. Quignard - Séminaire ICAR
32
Exemple positif
C
T
C
T
C
11/02/10
Interprète "je voudrais confirmation
concernant ces deux hôtels"
OK
Non, l'hôtel du lac, l'hôtel du rocher
OK donc l'hôtel du lac, l'hôtel du rocher
OK, interprète…
M. Quignard - Séminaire ICAR
33
Exemple négatif
C
T
C
T
C
T
C
11/02/10
Interprète "et le troisième"
OK, l'hôtel des lilas
Non, l'hôtel EtapHotel
je ne comprends pas "l'hôtel". C'est ambigu. Le
lilas ou la chapelle ou l'hôtel Etap, lequel hôtel
l'hôtel EtapHotel
je ne comprends pas "l'hôtel". C'est ambigu. Le
lilas ou la chapelle ou l'hôtel Etap, lequel hôtel
laisse tomber
M. Quignard - Séminaire ICAR
34
Bilan
• Compréhension sans grounding : 52%
• Compréhension avec grounding : 66%
• Explications :
– résolution de la référence plus simple dans un sousdialogue de clarification
– mais on est loin du 100%
• des erreurs non réparables sans adaptation des ressources
• coopération insuffisante du Control
• la génération (et ses imperfections) participe du processus de
compréhension
11/02/10
M. Quignard - Séminaire ICAR
35
Collaborations en cours
• ANR PortMEDIA (MEDIA 2)
proposition d'une représentation sémantique
"propre" du corpus MEDIA
• ANR CCCP-Prosodie
outils TAL pour la modélisation des formes de
participations dans les communautés de
pratiques en ligne (~Wikipedia)
(orientation argumentative, usage des pronoms
personnels, certains verbes, …)
11/02/10
M. Quignard - Séminaire ICAR
36
Bilan critique
• Il y a des choses qui marchent !
• Des approches variées :
– TAL statistique
• gros consommateur de ressources
• pas de théorie linguistique mais heuristiques efficaces
• détecteur de régularités à tous niveaux
– TAL symbolique
• s'appuie encore beaucoup sur l'écrit
• évaluation théorique et empirique de modèles cogn. / ling.
• forte collaboration interdisciplinaire
• Des zones d'ombre : les locuteurs, l'interaction
11/02/10
M. Quignard - Séminaire ICAR
37
Retour sur investissement ?
• Meilleure maîtrise de nos modèles
– formalisation / réduction
• Un regard sur nos méthodes d'analyse
– Quels indices, marqueurs emploie-t-on ?
– Ne passe-t-on pas à côté d'autres phénomènes réguliers ?
• Des technologies utiles
– alignement de transcriptions
– annotation de corpus pour l'aide à l'analyse
11/02/10
M. Quignard - Séminaire ICAR
38