Apprentissage par imitation pour l`étiquetage de séquences
Transcription
Apprentissage par imitation pour l`étiquetage de séquences
Apprentissage par imitation pour l’étiquetage de séquences : vers une formalisation des méthodes d’étiquetage « easy-first » Elena Knyazeva Guillaume Wisniewski François Yvon Université Paris Sud & LIMSI-CNRS 23 juin 2015 1 / 30 Étiquetage de séquences Problème ▶ Trouver une séquence dans l’espace Y correspondant à une séquence dans l’espace X Exemple (étiquetage morpho-syntaxique) X. : Le chat dort sur la table Y: ? ? ? ? ? ? . . . . . . 2 / 30 Étiquetage de séquences Problème ▶ Trouver une séquence dans l’espace Y correspondant à une séquence dans l’espace X Exemple (étiquetage morpho-syntaxique) X. : Le Y : DET . chat dort sur la table NOUN VERB PREP DET NOUN . . . . . 2 / 30 Étiquetage de séquences Problème ▶ Trouver une séquence dans l’espace Y correspondant à une séquence dans l’espace X Exemple (étiquetage morpho-syntaxique) X. : Le Y : DET . chat dort sur la table NOUN VERB PREP DET NOUN . . . . . Objectif ▶ Inférence jointe : utiliser les dépendances entre étiquettes ▶ Apprentissage structuré 2 / 30 Apprentissage structuré Approches classiques : CRF, SVM’Iso, ... ▶ Généralisation de la classification multi-classes ▶ Recherche exacte ▶ Coûteuses, besoin d’hypothèses Markoviennes fortes Approche incrémentale ▶ Construire la solution pas à pas plutôt que chercher directement la solution complète ▶ Recherche locale (approchée) ▶ Réduction de la prédiction d’une séquence à une séquence de prédictions multi-classes 3 / 30 Contributions Avantage des approches incrémentales : ▶ Possibilité d’utilisation d’information de structure riche (pas d’hypothèses Markoviennes) ▶ Complexité linéaire par rapport au nombre d’étiquettes Mais : ▶ propagation d’erreur Contribution : une méthode incrémentale minimisant la propagation d’erreur 4 / 30 Plan 1. Contexte 2. Approche incrémentale 3. État de l’art 4. Apprentissage avec l’oracle non-déterministe 5. Résultats 6. Conclusion 5 / 30 Première partie I Approche incrémentale 6 / 30 Approche incrémentale ▶ Construire la solution pas à pas ▶ Étant données : une séquence d’observations et une séquence d’étiquettes partielle, apprendre à choisir l’étiquette suivante X. : Le Y: ? chat dort sur la table . 7 / 30 Approche incrémentale ▶ Construire la solution pas à pas ▶ Étant données : une séquence d’observations et une séquence d’étiquettes partielle, apprendre à choisir l’étiquette suivante X. : Le Y : DET . chat dort sur la table ? . 7 / 30 Approche incrémentale ▶ Construire la solution pas à pas ▶ Étant données : une séquence d’observations et une séquence d’étiquettes partielle, apprendre à choisir l’étiquette suivante X. : Le Y : DET . chat dort NOUN ? . sur la table . 7 / 30 Approche incrémentale ▶ Construire la solution pas à pas ▶ Étant données : une séquence d’observations et une séquence d’étiquettes partielle, apprendre à choisir l’étiquette suivante X. : Le Y : DET . ▶ chat dort sur NOUN VERB ? . . la table . Chaque décision = problème de classification multi-classes : yi = arg max F(x, y, yi−1 , yi−2 , ...) y∈{NOUN, VERB, ...} 7 / 30 À la recherche d’une bonne politique Politique = une fonction qui, étant donné l’état, choisit l’action X. : Le Y : DET . chat dort sur NOUN VERB NOUN VERB PREP DET ADJ ... . . la table . yi = π(x) = arg max F(x, y, yi−1 , yi−2 , ...) y∈{NOUN, VERB, ...} Comment apprendre la politique ? 8 / 30 Apprentissage de politique Apprentissage par imitation ▶ Idée : imiter le comportement d’un expert (oracle) ▶ Oracle = politique optimale (calculée à l’aide de la référence) ▶ Ensemble d’apprentissage = ensemble d’états (X) et d’actions correctes (Y) Comment choisir les états ? ▶ Classiquement, l’ensemble d’apprentissage est construit à l’aide de l’oracle (apprentissage supervisé) 9 / 30 Propagation d’erreur X. : Le Y : DET . chat dort sur la table NOUN VERB ADJ ? ? . . . . . ▶ Les erreurs changent la distribution des états rencontrés lors de décodage ▶ Les états non-rencontrés en apprentissage peuvent impliquer d’autres erreurs ▶ Problème de l’approche incrémentale basique (supervisée) : propagation d’erreur non-contrôlée 10 / 30 Deuxième partie II État de l’art 11 / 30 Propagation d’erreur : état de l’art Modélisation d’erreurs ▶ [Daumé III et al., 2009], [Finkel et al., 2006], [Ross and Bagnell, 2010] ▶ Idée : apprendre à ne pas propager les erreurs ▶ Garanties théoriques fortes Plus simple d’abord ▶ [Shen et al., 2007], [Goldberg and Elhadad, 2010], [Gesmundo and Henderson, 2014] ▶ Idée : construire la solution dans un ordre « facile » pour minimiser les erreurs commises au début ▶ Méthode performante mais heuristique Peut-t-on avoir les avantages des deux ? 12 / 30 Modélisation d’erreurs avec Searn Idée ▶ Utiliser la politique apprise pour modéliser les erreurs et apprendre à ne pas les propager Apprentissage en cycle ▶ Apprendre → appliquer → re-apprendre → ... ▶ Premier ensemble d’apprentissage obtenu à l’aide de la politique optimale (oracle) ▶ Chaque nouvelle politique est apprise sur l’ensemble d’apprentissage obtenu à l’aide de la politique précédente 13 / 30 Modélisation d’erreurs avec Searn politique ensemble d’apprentissage π.t 14 / 30 Modélisation d’erreurs avec Searn politique ensemble d’apprentissage π.t St 14 / 30 Modélisation d’erreurs avec Searn politique ensemble d’apprentissage π.t St π̂ t+1 14 / 30 Modélisation d’erreurs avec Searn politique ensemble d’apprentissage π.t St π̂ t+1 π t+1 π t+1 = β · π t + (1 − β) · π̂ t+1 14 / 30 Construction de l’ensemble d’apprentissage π.t St 15 / 30 Construction de l’ensemble d’apprentissage St π.t Décodage avec la politique π t : X. : Le Y : DET . chat dort sur la table NOUN ADV ADJ DET NOUN . . . . . 15 / 30 Construction de l’ensemble d’apprentissage St π.t Décodage avec la politique π t : X. : Le Y : DET . chat dort sur la table NOUN ADV ADJ DET NOUN la table . . . . . Extraction de l’ensemble d’apprentissage St : X. : Le Y : DET . chat dort sur NOUN ADV PREP . . . 15 / 30 Pourquoi Searn réduit la propagation d’erreur ? Intuitivement : ▶ Re-utilisation de la politique apprise pour obtenir les exemples d’entrainement → les états importants sont vus au cours de l’apprentissage → mêmes conditions en apprentissage et en test ▶ Une erreur ne provoque pas d’autres erreurs En théorie : ▶ Seule la qualité de la politique détermine la qualité de solution ▶ Pas d’effet d’avalanche 16 / 30 Plus simple d’abord ▶ ▶ Les décisions sont prises dans l’ordre de facilité Nécessite une mesure de confiance pour un classifieur X. : Le chat dort sur la table Y: ? ? ? ? ? ? . . . . . . 17 / 30 Plus simple d’abord ▶ ▶ Les décisions sont prises dans l’ordre de facilité Nécessite une mesure de confiance pour un classifieur X. : Le chat dort sur la table Y: ? NOUN ? ? ? ? . . . . . . 17 / 30 Plus simple d’abord ▶ ▶ Les décisions sont prises dans l’ordre de facilité Nécessite une mesure de confiance pour un classifieur X. : Le chat dort sur la table Y: ? NOUN ? ? ? NOUN . . . . . . 17 / 30 Plus simple d’abord ▶ ▶ Les décisions sont prises dans l’ordre de facilité Nécessite une mesure de confiance pour un classifieur X. : Le chat dort sur la table Y: ? NOUN ? ? ? NOUN . . . . . . Pourquoi la propagation d’erreur est réduite ? ▶ Permet d’éviter des erreurs au début du décodage ▶ Heuristique 17 / 30 Troisième partie III Apprentissage avec l’oracle non-déterministe 18 / 30 Oracle non-déterministe Pour l’état X. : Le Y : DET . chat dort sur la table NOUN ? ? ? . ? la table . . . les actions correctes sont les suivantes : sur chat dort X. : Le . 19 / 30 Oracle non-déterministe Pour l’état X. : Le Y : DET . chat dort sur la table NOUN ? ? ? . ? la table PRON NOUN . . . les actions correctes sont les suivantes : sur chat dort X. : Le DET . NOUN . VERB . PREP . 19 / 30 Oracle non-déterministe Pour l’état X. : Le Y : DET . chat dort sur la table NOUN ? ? ? . ? la table . . . les actions correctes sont les suivantes : sur chat dort X. : Le . DET NOUN VERB PREP PRON NOUN DET NOUN VERB PREP PRON NOUN DET NOUN VERB PREP PRON NOUN DET NOUN VERB PREP PRON NOUN . . . . . . . . . . . . 19 / 30 Oracle non-déterministe Construction de l’ensemble d’apprentissage ▶ pour chaque état, plusieurs actions correctes ▶ problème d’ordonnancement bipartite Choix de l’action oracle ▶ aléatoire uniforme (choix naturel) ▶ apprentissage moins rapide mais pas de biais → permettent de garder les garanties théoriques d’origine 20 / 30 Quatrième partie IV Résultats 21 / 30 Cadre expérimental Expériences sur différentes tâches du TAL : ▶ reconnaissance d’écriture manuscrite ▶ prononciation automatique (phonèmes + accents) ▶ analyse morpho syntaxique de l’allemand Deux systèmes de référence : ▶ SVM non-structuré (sklearn) ▶ CRF linéaire (Wapiti) 22 / 30 Reconnaissance d’écriture manuscrite ▶ Image segmentée → suite de graphèmes ▶ Corpus utilisé : http://www.seas.upenn.edu/~taskar/ocr/ ▶ Exemple : 23 / 30 Prononciation automatique ▶ Graphèmes → phonèmes + structure prosodique ▶ Corpus utilisé : NETTALK https://archive.ics.uci.edu/ml/datasets/ Connectionist+Bench+(Nettalk+Corpus) ▶ Exemple : aerodrome aeronaut aeronautics aeroplane E-rxdromE-rxnc-t E-rxnc-tIks E-rxplen- 1− < 0 >> 2 < − 1− < 0 > 2− < 2− < 0 > 1− < 0 << 1− < 0 >> 2 < − 24 / 30 Analyse morpho-syntaxique de l’allemand ▶ Phrase → catégories syntaxiques (54 catégories différentes) ▶ Corpus utilisé : TIGER http://www.ims.uni-stuttgart.de/forschung/ ressourcen/korpora/tiger.en.html ▶ Exemple : ADV VMFIN PIS ADV ADV ADJA NN $ Zeitweise müsse man allerdings noch längere Wartezeiten . 25 / 30 Résultats SVM non-struct CRF Searn gauche-droite Searn ordre libre Écriture 75,0% 90,3% 91,9% 97,3% Phonèmes 93,2% 93,0% 92,5% 93,3% Accents 91,5% 91,7% 90,8% 92,3% POS tags 96,3% 97,0% 96,5% 96,9% ⇒ Amélioration stable du système Searn « ordre libre » par rapport à : ▶ Searn « gauche-droite » ▶ les systèmes de référence 26 / 30 Résultats SVM non-struct CRF Searn gauche-droite Searn ordre libre Écriture 75,0% 90,3% 91,9% 97,3% Phonèmes 93,2% 93,0% 92,5% 93,3% Accents 91,5% 91,7% 90,8% 92,3% POS tags 96,3% 97,0% 96,5% 96,9% ▶ Pour 2 tâches sur 4, Searn « gauche-droite » est moins bon que SVM non-structuré ▶ Impact de la propagation d’erreur ? 26 / 30 Impact de la propagation d’erreur Expériences supplémentaires : sans propagation d’erreurs SVM non-struct CRF Searn gauche-droite Searn ordre libre Écriture 75,0% 90,3% 91,9% 97,3% Phonèmes 93,2% 93,0% 92,5% 93,3% Accents 91,5% 91,7% 90,8% 92,3% Résultats sans propagation d’erreur Searn gauche-droite 96,6% 94,4% 94,3% Searn ordre libre 98,7% 94,1% 94,1% POS tags 96,3% 97,0% 96,5% 96,9% 96,7% 97,1% ⇒ L’impact de propagation d’erreur : ▶ très significatif pour les systèmes « gauche-droite » ▶ réduit pour les systèmes « ordre libre » 27 / 30 Cinquième partie V Conclusions 28 / 30 Conclusions Contributions ▶ nouveau cadre pour l’approche incrémentale de prédiction de séquences ▶ méthode théoriquement bien justifiée ▶ approche validée par des résultats sur 4 tâches du TAL Perspectives ▶ extensions à d’autres types de problèmes structurés (arbres, graphes) 29 / 30 Merci 30 / 30 Daumé III, H., Langford, J., and Marcu, D. (2009). Search-based structured prediction. Machine Learning Journal. Finkel, J. R., Manning, C. D., and Ng, A. Y. (2006). Solving the problem of cascading errors : Approximate Bayesian inference for linguistic annotation pipelines. In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, pages 618–626, Sydney, Australia. Gesmundo, A. and Henderson, J. (2014). Undirected machine translation with discriminative reinforcement learning. In Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, pages 10–19, Gothenburg, Sweden. Association for Computational Linguistics. Goldberg, Y. and Elhadad, M. (2010). 30 / 30 An efficient algorithm for easy-first non-directional dependency parsing. In Human Language Technologies : The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pages 742–750, Los Angeles, California. Ross, S. and Bagnell, J. A. D. (2010). Efficient reductions for imitation learning. In Proceedings of the 13th International Conference on Artificial Intelligence and Statistics (AISTATS), pages 661–668. Shen, L., Satta, G., and Joshi, A. (2007). Guided learning for bidirectional sequence classification. In Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics, pages 760–767, Prague, Czech Republic. 30 / 30