Apprentissage par imitation pour l`étiquetage de séquences

Transcription

Apprentissage par imitation pour l`étiquetage de séquences
Apprentissage par imitation pour l’étiquetage de
séquences : vers une formalisation des méthodes
d’étiquetage « easy-first »
Elena Knyazeva
Guillaume Wisniewski
François Yvon
Université Paris Sud & LIMSI-CNRS
23 juin 2015
1 / 30
Étiquetage de séquences
Problème
▶
Trouver une séquence dans l’espace Y correspondant à une
séquence dans l’espace X
Exemple (étiquetage morpho-syntaxique)
X. :
Le
chat
dort
sur
la
table
Y:
?
?
?
?
?
?
.
.
.
.
.
.
2 / 30
Étiquetage de séquences
Problème
▶
Trouver une séquence dans l’espace Y correspondant à une
séquence dans l’espace X
Exemple (étiquetage morpho-syntaxique)
X. :
Le
Y : DET
.
chat
dort
sur
la
table
NOUN
VERB
PREP
DET
NOUN
.
.
.
.
.
2 / 30
Étiquetage de séquences
Problème
▶
Trouver une séquence dans l’espace Y correspondant à une
séquence dans l’espace X
Exemple (étiquetage morpho-syntaxique)
X. :
Le
Y : DET
.
chat
dort
sur
la
table
NOUN
VERB
PREP
DET
NOUN
.
.
.
.
.
Objectif
▶
Inférence jointe : utiliser les dépendances entre étiquettes
▶
Apprentissage structuré
2 / 30
Apprentissage structuré
Approches classiques : CRF, SVM’Iso, ...
▶
Généralisation de la classification multi-classes
▶
Recherche exacte
▶
Coûteuses, besoin d’hypothèses Markoviennes fortes
Approche incrémentale
▶
Construire la solution pas à pas plutôt que chercher
directement la solution complète
▶
Recherche locale (approchée)
▶
Réduction de la prédiction d’une séquence à une séquence de
prédictions multi-classes
3 / 30
Contributions
Avantage des approches incrémentales :
▶
Possibilité d’utilisation d’information de structure riche
(pas d’hypothèses Markoviennes)
▶
Complexité linéaire par rapport au nombre d’étiquettes
Mais :
▶
propagation d’erreur
Contribution : une méthode incrémentale minimisant la
propagation d’erreur
4 / 30
Plan
1. Contexte
2. Approche incrémentale
3. État de l’art
4. Apprentissage avec l’oracle non-déterministe
5. Résultats
6. Conclusion
5 / 30
Première partie I
Approche incrémentale
6 / 30
Approche incrémentale
▶
Construire la solution pas à pas
▶
Étant données : une séquence d’observations et une séquence
d’étiquettes partielle, apprendre à choisir l’étiquette suivante
X. :
Le
Y:
?
chat
dort
sur
la
table
.
7 / 30
Approche incrémentale
▶
Construire la solution pas à pas
▶
Étant données : une séquence d’observations et une séquence
d’étiquettes partielle, apprendre à choisir l’étiquette suivante
X. :
Le
Y : DET
.
chat
dort
sur
la
table
?
.
7 / 30
Approche incrémentale
▶
Construire la solution pas à pas
▶
Étant données : une séquence d’observations et une séquence
d’étiquettes partielle, apprendre à choisir l’étiquette suivante
X. :
Le
Y : DET
.
chat
dort
NOUN
?
.
sur
la
table
.
7 / 30
Approche incrémentale
▶
Construire la solution pas à pas
▶
Étant données : une séquence d’observations et une séquence
d’étiquettes partielle, apprendre à choisir l’étiquette suivante
X. :
Le
Y : DET
.
▶
chat
dort
sur
NOUN
VERB
?
.
.
la
table
.
Chaque décision = problème de classification multi-classes :
yi =
arg max
F(x, y, yi−1 , yi−2 , ...)
y∈{NOUN, VERB, ...}
7 / 30
À la recherche d’une bonne politique
Politique = une fonction qui, étant donné l’état, choisit l’action
X. :
Le
Y : DET
.
chat
dort
sur
NOUN
VERB
NOUN
VERB
PREP
DET
ADJ
...
.
.
la
table
.
yi = π(x) =
arg max
F(x, y, yi−1 , yi−2 , ...)
y∈{NOUN, VERB, ...}
Comment apprendre la politique ?
8 / 30
Apprentissage de politique
Apprentissage par imitation
▶
Idée : imiter le comportement d’un expert (oracle)
▶
Oracle = politique optimale (calculée à l’aide de la référence)
▶
Ensemble d’apprentissage = ensemble d’états (X) et d’actions
correctes (Y)
Comment choisir les états ?
▶
Classiquement, l’ensemble d’apprentissage est construit à
l’aide de l’oracle (apprentissage supervisé)
9 / 30
Propagation d’erreur
X. :
Le
Y : DET
.
chat
dort
sur
la
table
NOUN
VERB
ADJ
?
?
.
.
.
.
.
▶
Les erreurs changent la distribution des états rencontrés lors
de décodage
▶
Les états non-rencontrés en apprentissage peuvent impliquer
d’autres erreurs
▶
Problème de l’approche incrémentale basique (supervisée) :
propagation d’erreur non-contrôlée
10 / 30
Deuxième partie II
État de l’art
11 / 30
Propagation d’erreur : état de l’art
Modélisation d’erreurs
▶
[Daumé III et al., 2009], [Finkel et al., 2006],
[Ross and Bagnell, 2010]
▶
Idée : apprendre à ne pas propager les erreurs
▶
Garanties théoriques fortes
Plus simple d’abord
▶
[Shen et al., 2007], [Goldberg and Elhadad, 2010],
[Gesmundo and Henderson, 2014]
▶
Idée : construire la solution dans un ordre « facile » pour
minimiser les erreurs commises au début
▶
Méthode performante mais heuristique
Peut-t-on avoir les avantages des deux ?
12 / 30
Modélisation d’erreurs avec Searn
Idée
▶
Utiliser la politique apprise pour modéliser les erreurs et
apprendre à ne pas les propager
Apprentissage en cycle
▶
Apprendre → appliquer → re-apprendre → ...
▶
Premier ensemble d’apprentissage obtenu à l’aide de la
politique optimale (oracle)
▶
Chaque nouvelle politique est apprise sur l’ensemble
d’apprentissage obtenu à l’aide de la politique précédente
13 / 30
Modélisation d’erreurs avec Searn
politique
ensemble d’apprentissage
π.t
14 / 30
Modélisation d’erreurs avec Searn
politique
ensemble d’apprentissage
π.t
St
14 / 30
Modélisation d’erreurs avec Searn
politique
ensemble d’apprentissage
π.t
St
π̂ t+1
14 / 30
Modélisation d’erreurs avec Searn
politique
ensemble d’apprentissage
π.t
St
π̂ t+1
π t+1
π t+1 = β · π t + (1 − β) · π̂ t+1
14 / 30
Construction de l’ensemble d’apprentissage
π.t
St
15 / 30
Construction de l’ensemble d’apprentissage
St
π.t
Décodage avec la politique π t :
X. :
Le
Y : DET
.
chat
dort
sur
la
table
NOUN
ADV
ADJ
DET
NOUN
.
.
.
.
.
15 / 30
Construction de l’ensemble d’apprentissage
St
π.t
Décodage avec la politique π t :
X. :
Le
Y : DET
.
chat
dort
sur
la
table
NOUN
ADV
ADJ
DET
NOUN
la
table
.
.
.
.
.
Extraction de l’ensemble d’apprentissage St :
X. :
Le
Y : DET
.
chat
dort
sur
NOUN
ADV
PREP
.
.
.
15 / 30
Pourquoi Searn réduit la propagation d’erreur ?
Intuitivement :
▶
Re-utilisation de la politique apprise pour obtenir les exemples
d’entrainement
→ les états importants sont vus au cours de l’apprentissage
→ mêmes conditions en apprentissage et en test
▶
Une erreur ne provoque pas d’autres erreurs
En théorie :
▶
Seule la qualité de la politique détermine la qualité de solution
▶
Pas d’effet d’avalanche
16 / 30
Plus simple d’abord
▶
▶
Les décisions sont prises dans l’ordre de facilité
Nécessite une mesure de confiance pour un classifieur
X. :
Le
chat
dort
sur
la
table
Y:
?
?
?
?
?
?
.
.
.
.
.
.
17 / 30
Plus simple d’abord
▶
▶
Les décisions sont prises dans l’ordre de facilité
Nécessite une mesure de confiance pour un classifieur
X. :
Le
chat
dort
sur
la
table
Y:
?
NOUN
?
?
?
?
.
.
.
.
.
.
17 / 30
Plus simple d’abord
▶
▶
Les décisions sont prises dans l’ordre de facilité
Nécessite une mesure de confiance pour un classifieur
X. :
Le
chat
dort
sur
la
table
Y:
?
NOUN
?
?
?
NOUN
.
.
.
.
.
.
17 / 30
Plus simple d’abord
▶
▶
Les décisions sont prises dans l’ordre de facilité
Nécessite une mesure de confiance pour un classifieur
X. :
Le
chat
dort
sur
la
table
Y:
?
NOUN
?
?
?
NOUN
.
.
.
.
.
.
Pourquoi la propagation d’erreur est réduite ?
▶
Permet d’éviter des erreurs au début du décodage
▶
Heuristique
17 / 30
Troisième partie III
Apprentissage avec l’oracle
non-déterministe
18 / 30
Oracle non-déterministe
Pour l’état
X. :
Le
Y : DET
.
chat
dort
sur
la
table
NOUN
?
?
?
.
?
la
table
.
.
.
les actions correctes sont les suivantes :
sur
chat
dort
X. : Le
.
19 / 30
Oracle non-déterministe
Pour l’état
X. :
Le
Y : DET
.
chat
dort
sur
la
table
NOUN
?
?
?
.
?
la
table
PRON
NOUN
.
.
.
les actions correctes sont les suivantes :
sur
chat
dort
X. : Le
DET
.
NOUN
.
VERB
.
PREP
.
19 / 30
Oracle non-déterministe
Pour l’état
X. :
Le
Y : DET
.
chat
dort
sur
la
table
NOUN
?
?
?
.
?
la
table
.
.
.
les actions correctes sont les suivantes :
sur
chat
dort
X. : Le
.
DET
NOUN
VERB
PREP
PRON
NOUN
DET
NOUN
VERB
PREP
PRON
NOUN
DET
NOUN
VERB
PREP
PRON
NOUN
DET
NOUN
VERB
PREP
PRON
NOUN
.
.
.
.
.
.
.
.
.
.
.
.
19 / 30
Oracle non-déterministe
Construction de l’ensemble d’apprentissage
▶
pour chaque état, plusieurs actions correctes
▶
problème d’ordonnancement bipartite
Choix de l’action oracle
▶
aléatoire uniforme (choix naturel)
▶
apprentissage moins rapide mais pas de biais
→ permettent de garder les garanties théoriques d’origine
20 / 30
Quatrième partie IV
Résultats
21 / 30
Cadre expérimental
Expériences sur différentes tâches du TAL :
▶
reconnaissance d’écriture manuscrite
▶
prononciation automatique (phonèmes + accents)
▶
analyse morpho syntaxique de l’allemand
Deux systèmes de référence :
▶
SVM non-structuré (sklearn)
▶
CRF linéaire (Wapiti)
22 / 30
Reconnaissance d’écriture manuscrite
▶
Image segmentée → suite de graphèmes
▶
Corpus utilisé :
http://www.seas.upenn.edu/~taskar/ocr/
▶
Exemple :
23 / 30
Prononciation automatique
▶
Graphèmes → phonèmes + structure prosodique
▶
Corpus utilisé : NETTALK
https://archive.ics.uci.edu/ml/datasets/
Connectionist+Bench+(Nettalk+Corpus)
▶
Exemple :
aerodrome
aeronaut
aeronautics
aeroplane
E-rxdromE-rxnc-t
E-rxnc-tIks
E-rxplen-
1− < 0 >> 2 < −
1− < 0 > 2− <
2− < 0 > 1− < 0 <<
1− < 0 >> 2 < −
24 / 30
Analyse morpho-syntaxique de l’allemand
▶
Phrase → catégories syntaxiques (54 catégories différentes)
▶
Corpus utilisé : TIGER
http://www.ims.uni-stuttgart.de/forschung/
ressourcen/korpora/tiger.en.html
▶
Exemple :
ADV
VMFIN PIS
ADV
ADV
ADJA
NN
$
Zeitweise müsse man allerdings noch längere Wartezeiten .
25 / 30
Résultats
SVM non-struct
CRF
Searn gauche-droite
Searn ordre libre
Écriture
75,0%
90,3%
91,9%
97,3%
Phonèmes
93,2%
93,0%
92,5%
93,3%
Accents
91,5%
91,7%
90,8%
92,3%
POS tags
96,3%
97,0%
96,5%
96,9%
⇒ Amélioration stable du système Searn « ordre libre » par rapport à :
▶
Searn « gauche-droite »
▶
les systèmes de référence
26 / 30
Résultats
SVM non-struct
CRF
Searn gauche-droite
Searn ordre libre
Écriture
75,0%
90,3%
91,9%
97,3%
Phonèmes
93,2%
93,0%
92,5%
93,3%
Accents
91,5%
91,7%
90,8%
92,3%
POS tags
96,3%
97,0%
96,5%
96,9%
▶
Pour 2 tâches sur 4, Searn « gauche-droite » est moins bon que
SVM non-structuré
▶
Impact de la propagation d’erreur ?
26 / 30
Impact de la propagation d’erreur
Expériences supplémentaires : sans propagation d’erreurs
SVM non-struct
CRF
Searn gauche-droite
Searn ordre libre
Écriture
75,0%
90,3%
91,9%
97,3%
Phonèmes
93,2%
93,0%
92,5%
93,3%
Accents
91,5%
91,7%
90,8%
92,3%
Résultats sans propagation d’erreur
Searn gauche-droite
96,6%
94,4%
94,3%
Searn ordre libre
98,7%
94,1%
94,1%
POS tags
96,3%
97,0%
96,5%
96,9%
96,7%
97,1%
⇒ L’impact de propagation d’erreur :
▶
très significatif pour les systèmes « gauche-droite »
▶
réduit pour les systèmes « ordre libre »
27 / 30
Cinquième partie V
Conclusions
28 / 30
Conclusions
Contributions
▶
nouveau cadre pour l’approche incrémentale de prédiction de
séquences
▶
méthode théoriquement bien justifiée
▶
approche validée par des résultats sur 4 tâches du TAL
Perspectives
▶
extensions à d’autres types de problèmes structurés (arbres,
graphes)
29 / 30
Merci
30 / 30
Daumé III, H., Langford, J., and Marcu, D. (2009).
Search-based structured prediction.
Machine Learning Journal.
Finkel, J. R., Manning, C. D., and Ng, A. Y. (2006).
Solving the problem of cascading errors : Approximate
Bayesian inference for linguistic annotation pipelines.
In Proceedings of the 2006 Conference on Empirical Methods
in Natural Language Processing, pages 618–626, Sydney,
Australia.
Gesmundo, A. and Henderson, J. (2014).
Undirected machine translation with discriminative
reinforcement learning.
In Proceedings of the 14th Conference of the European
Chapter of the Association for Computational Linguistics,
pages 10–19, Gothenburg, Sweden. Association for
Computational Linguistics.
Goldberg, Y. and Elhadad, M. (2010).
30 / 30
An efficient algorithm for easy-first non-directional dependency
parsing.
In Human Language Technologies : The 2010 Annual
Conference of the North American Chapter of the Association
for Computational Linguistics, pages 742–750, Los Angeles,
California.
Ross, S. and Bagnell, J. A. D. (2010).
Efficient reductions for imitation learning.
In Proceedings of the 13th International Conference on
Artificial Intelligence and Statistics (AISTATS), pages
661–668.
Shen, L., Satta, G., and Joshi, A. (2007).
Guided learning for bidirectional sequence classification.
In Proceedings of the 45th Annual Meeting of the Association
for Computational Linguistics, pages 760–767, Prague, Czech
Republic.
30 / 30