Document - Laboratoire d`Informatique de l`Université du Maine
Transcription
Document - Laboratoire d`Informatique de l`Université du Maine
Université du Maine Université du Maine L A TRADUCTION AUTOMATIQUE DE LA PAROLE THÈSE présentée et soutenue publiquement le 07 décembre 2012 pour l’obtention du Doctorat de l’Université du Maine (spécialité informatique) par A NTHONY ROUSSEAU Composition du jury Rapporteurs : M. Laurent Besacier M. Gilles Adda Professeur des Universités Docteur HDR LIG, Université J. Fourier LIMSI CNRS Examinateurs : M. Samir Bennacef M. Patrik Lambert Docteur Docteur Vecsys Barcelona Media Directeurs de thèse : M. Holger Schwenk M. Yannick Estève Professeur des Universités Professeur des Universités LIUM, Université du Maine LIUM, Université du Maine Laboratoire d’Informatique de l’Université du Maine lium i Résumé Dans cette thèse, nous abordons la traduction automatique de la parole dans son ensemble. Cette étude se concentre principalement sur la mise en œuvre d’un système de traduction de la parole complet et sur les méthodes qui permettent de proposer un couplage étroit entre les domaines qui le composent : la reconnaissance automatique de la parole et la traduction automatique statistique. En effet, outre un simple enchaînement linéaire des systèmes, il est possible d’employer différentes représentations de données d’un système à l’autre afin d’atteindre de meilleures performances. De plus, il est essentiel pour un système de traduction de la parole de proposer une continuité et une cohérence importante entre ses diverses composantes afin de limiter au maximum les perturbations et le bruit qui apparaissent généralement dans les formalismes statistiques tel que ceux que nous employons. Cela nécessite tout d’abord de s’assurer de la pertinence et de l’homogénéité des données utilisées au sein de chaque système. Puis, à partir de ces données, il sera possible de réaliser conjointement l’apprentissage et l’optimisation des systèmes de façon à proposer un couplage étroit et robuste. Le cadre de développement, tel que nous l’entendons, se situe principalement dans la participation du LIUM aux campagnes d’évaluation de la traduction de la parole IWSLT (International Workshop on Spoken Language Translation) 2010 et 2011. Ces campagnes proposent des tâches de traduction de la parole soumises à des contraintes fortes, notamment au niveau de l’ensemble des données utilisables pour l’apprentissage des systèmes ou de la tâche proposée. Notre contribution dans le cadre de cette thèse s’articule autour de trois axes ayant pour objectif la traduction automatique vers le français de présentations scientifiques prononcées en anglais. D’une part, nous décrivons un ensemble de données que nous avons construit, adapté à la traduction automatique de transcriptions issues d’un système de reconnaissance de la parole anglaise. Ce corpus, TED-LIUM, est aujourd’hui distribué gratuitement à l’ensemble de la communauté scientifique. D’autre part, nous proposons une implémentation complète d’un système de traduction automatique de la parole de l’anglais vers le français. Ce système a obtenu la meilleure place lors de l’évaluation proposée dans le cadre d’IWSLT 2011. Enfin, nous présentons l’étude d’une méthode pour la sélection efficace de données, basée sur le critère de l’entropie croisée, dans le but d’augmenter de façon significative les performances d’un système de traduction automatique statistique. Nous proposons à cet effet un outil ayant démontré son efficacité dans plusieurs contextes, qu’ils soient liés à la parole ou non. Mots-clés: Reconnaissance de la parole, Traduction automatique statistique, Traduction de la parole, Couplage de systèmes, Construction de corpus, Sélection de données ii Abstract In this thesis, we address spoken language translation in its entirety. This study focuses mainly on methods allowing a tight coupling between the two underlying research domains, namely automatic speech recognition and statistical machine translation. Indeed, beyond a simple pipelining of systems, it is possible to use various data representations from one system to another to achieve better performance. Moreover, it is essential for a spoken language translation system to ensure continuity and consistency between its various components in order to limit the noise and disfluencies which can occur in statistical frameworks like the ones we use. This process begins with ensuring the pertinence and homogeneity of the data we use during the development of our systems. Then, from this data, it becomes possible to jointly perform the development and optimisation of the systems in order to propose a tight and robust coupling. This development framework, as we define it, mainly relates to LIUM’s participation to the 2010 and 2011 spoken language translation evaluation campaigns IWSLT (International Workshop on Spoken Language Translation). These campaigns propose speech translation tasks with strong constraints, such as allowed data sets for system development or the proposed task. Our thesis contributions concern three axis aimed at the automatic translation of English scientific presentations into French. First, we describe a corpus we built, adapted to automatic translation of transcriptions from an English automatic speech recognition system. This corpus, TED-LIUM, is now freely distributed to the scientific community. Second, we propose a complete implementation of an English to French spoken language translation system. This system was ranked best at the evaluation proposed at IWSLT 2011. Finally, we present a study of an efficient data selection method based on cross-entropy criterion, in order to significantly enhance a statistical machine translation system. Concerning this method, we propose a tool which has demonstrated its efficiency in various contexts, related to speech or not. Keywords: Speech recognition, Statistical machine translation, Spoken language translation, System coupling, Corpus creation, Data selection iii iv Table des matières Résumé ii Abstract iii Table des figures xi Liste des tableaux xiii Introduction Partie I 1 État de l’art et contexte 5 Chapitre 1 Domaines fondateurs 1.1 7 Reconnaissance automatique de la parole . . . . . . . . . . . . . . . . . . 9 1.1.1 Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.2 Extraction des paramètres . . . . . . . . . . . . . . . . . . . . . . 10 1.1.3 Modélisation acoustique . . . . . . . . . . . . . . . . . . . . . . . 10 1.1.3.1 Algorithme d’expectation-maximisation (EM) . . . . . . 12 1.1.3.2 Dictionnaire phonétisé . . . . . . . . . . . . . . . . . . 13 1.1.3.3 Alignement des phonèmes avec le signal . . . . . . . . . 13 1.1.3.4 Adaptation . . . . . . . . . . . . . . . . . . . . . . . . . 14 v Table des matières 1.2 1.1.4 Espace de recherche et graphes de mots . . . . . . . . . . . . . . . 15 1.1.5 Mesures de confiance . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.6 Évaluation des systèmes de RAP . . . . . . . . . . . . . . . . . . 16 Traduction automatique statistique . . . . . . . . . . . . . . . . . . . . . . 18 1.2.1 Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2.2 Modélisation de la traduction . . . . . . . . . . . . . . . . . . . . 19 1.2.2.1 Notion d’alignement . . . . . . . . . . . . . . . . . . . 20 1.2.2.2 Modèles IBM . . . . . . . . . . . . . . . . . . . . . . . 21 1.2.2.3 Modèles basés sur les séquences de mots (phrase-based models) . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Modélisation log-linéaire . . . . . . . . . . . . . . . . . . . . . . 25 1.2.3.1 Pondération lexicale . . . . . . . . . . . . . . . . . . . . 27 1.2.3.2 Modèle de réordonnement lexicalisé . . . . . . . . . . . 27 1.2.3.3 Pénalités de mot et de séquence . . . . . . . . . . . . . . 28 Optimisation des systèmes de TAS . . . . . . . . . . . . . . . . . 28 1.2.4.1 Minimum Error Rate Training (MERT) . . . . . . . . . . 29 1.2.4.2 Margin Infused Relaxed Algorithm (MIRA) . . . . . . . 29 Évaluation des systèmes de TAS . . . . . . . . . . . . . . . . . . . 30 Modélisation du langage . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.3.1 Modèles N-Gramme . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.3.2 Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 1.3.3 Modèles de langage à représentation continue (CSLM) . . . . . . . 33 1.3.4 Optimisation et évaluation des modèles de langage . . . . . . . . . 34 1.3.4.1 34 1.2.3 1.2.4 1.2.5 1.3 Perplexité . . . . . . . . . . . . . . . . . . . . . . . . . Chapitre 2 La traduction de la parole 2.1 2.2 vi 35 Spécificités de la traduction de la parole . . . . . . . . . . . . . . . . . . . 36 2.1.1 Disfluences et registres de langue . . . . . . . . . . . . . . . . . . 36 2.1.2 Ponctuation, casse et segmentation . . . . . . . . . . . . . . . . . 38 Techniques de couplage . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2.1 Justification théorique . . . . . . . . . . . . . . . . . . . . . . . . 41 2.2.2 Traduction de listes de N-meilleures hypothèses (n-best lists) . . . 42 2.2.3 Traduction de graphes de mots . . . . . . . . . . . . . . . . . . . . 43 2.2.4 Traduction de réseaux de confusion . . . . . . . . . . . . . . . . . 43 2.2.5 Couplage formalisé par des automates à états finis . . . . . . . . . 45 Chapitre 3 Contexte des travaux 3.1 3.2 Principes des campagnes d’évaluation . . . . . . . . . . . . . . . . . . . . 48 3.1.1 Définition et but premier . . . . . . . . . . . . . . . . . . . . . . . 48 3.1.2 Autres finalités essentielles . . . . . . . . . . . . . . . . . . . . . 49 Historique des campagnes récentes . . . . . . . . . . . . . . . . . . . . . . 50 3.2.1 Reconnaissance automatique de la parole . . . . . . . . . . . . . . 50 3.2.1.1 En langue anglaise . . . . . . . . . . . . . . . . . . . . 50 3.2.1.2 En langue française . . . . . . . . . . . . . . . . . . . . 51 Traduction automatique statistique . . . . . . . . . . . . . . . . . 52 Les campagnes d’évaluation en traduction de la parole . . . . . . . . . . . 54 3.3.1 Les campagnes TC-STAR . . . . . . . . . . . . . . . . . . . . . . 54 3.3.2 Les campagnes IWSLT . . . . . . . . . . . . . . . . . . . . . . . 55 3.2.2 3.3 Partie II 47 De la construction d’un système de traduction de la parole sou- mis à des contraintes applicatives 57 Chapitre 4 De la pertinence et de la cohérence des données d’apprentissage 4.1 59 Données pour la reconnaissance automatique de la parole : le corpus TEDLIUM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.1.1 Construction du corpus d’apprentissage . . . . . . . . . . . . . . . 60 4.1.1.1 Collection des données . . . . . . . . . . . . . . . . . . 61 4.1.1.2 Alignement du texte sur le signal acoustique . . . . . . . 63 vii Table des matières 4.2 4.3 4.1.2 Construction du corpus de développement . . . . . . . . . . . . . 70 4.1.3 Disponibilité et distribution du corpus . . . . . . . . . . . . . . . . 71 Données pour la traduction automatique statistique . . . . . . . . . . . . . 72 4.2.1 Données d’apprentissage parallèles . . . . . . . . . . . . . . . . . 72 4.2.2 Données de développement et de test . . . . . . . . . . . . . . . . 73 Données d’apprentissage monolingues pour la reconnaissance et la traduction 76 4.3.1 Données pour la modélisation du langage en reconnaissance automatique de la parole . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 4.4 76 Données pour la modélisation du langage en traduction automatique statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Harmonisation des données . . . . . . . . . . . . . . . . . . . . . . . . . 78 4.4.1 Cohérence dans la forme des données . . . . . . . . . . . . . . . . 78 4.4.2 Cohérence dans le choix des mots . . . . . . . . . . . . . . . . . . 80 Chapitre 5 De la mise en œuvre d’un système de traduction de la parole anglais - français 81 5.1 Architecture globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.2 Système de reconnaissance automatique de la parole en anglais . . . . . . . 86 5.2.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.2.2 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.2.2.1 Construction du dictionnaire phonétisé d’apprentissage . 88 5.2.2.2 Modélisation acoustique pour l’anglais . . . . . . . . . . 88 5.2.2.3 Modélisation du langage pour l’anglais . . . . . . . . . . 90 Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.2.3.1 Construction du vocabulaire de décodage . . . . . . . . 91 5.2.3.2 Segmentation . . . . . . . . . . . . . . . . . . . . . . . 92 5.2.3.3 Transcription multi-passes . . . . . . . . . . . . . . . . 93 Système de traduction automatique de la parole anglais - français . . . . . 94 5.3.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5.3.2 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5.3.2.1 Modélisation de la traduction de l’anglais vers le français 94 5.3.2.2 Modélisation du langage pour le français . . . . . . . . . 97 Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 5.2.3 5.3 5.3.3 5.3.3.1 Traitement des graphes de mots de la reconnaissance de la parole . . . . . . . . . . . . . . . . . . . . . . . . . . viii 98 5.4 5.5 Remise de la casse et de la ponctuation . . . . . . . . . . . . . . . . . . . 100 5.4.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.4.2 Modélisation de la traduction . . . . . . . . . . . . . . . . . . . . 100 5.4.3 Modélisation du langage . . . . . . . . . . . . . . . . . . . . . . . 101 5.4.4 Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Expérimentations et évaluation des systèmes . . . . . . . . . . . . . . . . 103 5.5.1 5.5.2 Expérimentations et évaluations internes . . . . . . . . . . . . . . 103 5.5.1.1 Sur la reconnaissance de la parole . . . . . . . . . . . . 103 5.5.1.2 Sur la traduction automatique . . . . . . . . . . . . . . . 104 5.5.1.3 Sur la remise de la casse et de la ponctuation . . . . . . . 107 Évaluation officielle : la campagne IWSLT 2011 . . . . . . . . . . 108 Chapitre 6 De l’amélioration des systèmes par la sélection de données 6.1 6.2 6.3 111 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.1.1 Sélection de données monolingues . . . . . . . . . . . . . . . . . 113 6.1.2 Sélection de données parallèles . . . . . . . . . . . . . . . . . . . 114 XenC : outil pour la sélection de données par l’entropie croisée . . . . . . . 116 6.2.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.2.2 Disponibilité de l’outil . . . . . . . . . . . . . . . . . . . . . . . . 117 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.3.1 6.3.2 Sur le système IWSLT 2011 . . . . . . . . . . . . . . . . . . . . . 118 6.3.1.1 Modélisation du langage . . . . . . . . . . . . . . . . . 118 6.3.1.2 Sélection sur les corpus parallèles . . . . . . . . . . . . 122 6.3.1.3 Expérimentations sur le système complet de traduction . 125 Autres expérimentations . . . . . . . . . . . . . . . . . . . . . . . 127 6.3.2.1 Sélection de données pour WMT12 . . . . . . . . . . . . 128 6.3.2.2 Sélection pour NIST OpenMT 2012 . . . . . . . . . . . 129 Conclusion et perspectives 131 Acronymes 135 Bibliographie 139 ix Table des matières Annexes Annexe A Liste des publications x 151 Table des figures 1.1 1.2 1.3 1.4 1.5 1.6 1.7 Représentation générale du fonctionnement d’un système de RAP. . . . . Représentation d’un modèle de Markov caché à cinq états. . . . . . . . . Schéma de la traduction automatique statistique. . . . . . . . . . . . . . . Exemple d’alignement des mots dans une phrase. . . . . . . . . . . . . . Traduction automatique statistique basée sur les séquences de mots. . . . Paires de séquences consistantes avec l’alignement symétrique mot à mot. Les trois types d’orientation : (m) monotone, (s) échange, (d) discontinu. . . . . . . . . 11 12 19 20 24 25 28 2.1 2.2 Exemples de traduction de parole avec un système de TAS inadapté. . . . . . . Représentation d’un graphe de mots et sa transformation en réseau de confusion (extrait de [Mangu 1999]). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 4.1 4.2 4.3 4.4 4.5 5.1 5.2 5.3 5.4 5.5 5.6 5.7 . . . . . . . . . . . . . . Normalisation du texte obtenu à partir de l’extraction des transcriptions du site TED. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple de fichier de sortie de reconnaissance au format CTM. . . . . . . . . Exemple de transcription de référence au format STM. . . . . . . . . . . . . . Exemple de différences entre le corpus de développement original et celui créé au LIUM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples de différences entre les références de reconnaissance automatique et de traduction statistique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 62 65 66 75 79 Représentation de l’architecture globale du système de traduction de la parole du LIUM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Architecture globale du système du LIUM pour la transcription de présentations scientifiques en anglais, d’après [Estève 2009]. . . . . . . . . . . . . . . . . . 87 Exemple de perceptron multi-couches. . . . . . . . . . . . . . . . . . . . . . . 90 Architecture globale du système du LIUM pour la traduction de transcriptions de parole dans un contexte de présentations scientifiques. . . . . . . . . . . . . 95 Exemple de réduction d’un graphe de mot afin de le rendre exploitable par le décodeur de traduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Exemples de traductions dont la ponctuation et la casse a été remise, en comparaison des traductions d’origine et de référence. . . . . . . . . . . . . . . . . . 102 Résultats (score BLEU) du filtrage par perplexité comparés à la taille des données d’apprentissage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 xi Table des figures 6.1 6.2 xii Perplexité comparée à la taille des corpus N triés selon leur entropie croisée, évaluation sur le corpus LIUM dev2010. . . . . . . . . . . . . . . . . . . . . . 119 Perplexité comparée à la taille du corpus parallèle ccb2 trié selon son entropie croisée monolingue et bilingue. . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Liste des tableaux 2.1 2.2 Principales caractéristiques des différents registres de langue. . . . . . . . . . . 37 Exemples de disfluences rencontrées en reconnaissance automatique de la parole. 37 4.1 4.2 4.3 4.4 4.5 63 66 68 69 Caractéristiques de départ du corpus TED-LIUM après extraction. . . . . . . . Caractéristiques du corpus TED-LIUM après l’itération d’amorçage. . . . . . . Caractéristiques du corpus TED-LIUM après l’itération intermédiaire. . . . . . Caractéristiques du corpus TED-LIUM après l’itération finale. . . . . . . . . . Évaluation des modèles acoustiques utilisés lors de l’alignement sur le corpus de développement du LIUM. . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 Caractéristiques du corpus de développement TED-LIUM. . . . . . . . . . . . 4.7 Caractéristiques des corpus parallèles considérés. . . . . . . . . . . . . . . . . 4.8 Caractéristiques des corpus de développement et de test. . . . . . . . . . . . . 4.9 Caractéristiques des corpus monolingues anglais pour la reconnaissance automatique de la parole. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.10 Caractéristiques des corpus monolingues français pour la traduction automatique statistique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage trigrammes et quadrigrammes pour la RAP. . . . . . . . . . . . . . . . . 5.2 Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage quadrigrammes pour la traduction. . . . . . . . . . . . . . . . . . . . . . 5.3 Exemple de statistiques d’un graphe de mots au cours de sa réduction. . . . . . 5.4 Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage quadrigrammes pour le recasing. . . . . . . . . . . . . . . . . . . . . . . 5.5 Résultats d’évaluations internes des modèles acoustiques par décodage multipasses sur le corpus LIUM dev2010, en termes de WER. . . . . . . . . . . . . 5.6 Scores BLEU des systèmes de référence en fonction des corpus utilisés. . . . . 5.7 Scores BLEU des systèmes en fonction de la sélection par la perplexité. . . . . 5.8 Résultats en termes de score BLEU selon l’ensemble de corpus et le type d’entrée considéré sur les corpus LIUM dev2010 et LIUM test2010. . . . . . . . . . 5.9 Scores BLEU obtenus après ajout du modèle de langage à espace continu. . . . 5.10 Évaluation et validation des approches pour le recasing. . . . . . . . . . . . . . 5.11 Résultats officiels du système de transcription du LIUM, en termes de WER. . . 5.12 Résultats officiels du système de traduction automatique de la parole du LIUM, en termes de score BLEU. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 70 73 75 76 77 5.1 xiii 91 98 99 101 103 104 105 106 107 107 108 109 Liste des tableaux 6.1 6.2 6.3 6.4 6.5 6.6 6.7 xiv Statistiques des corpus du domaine I et hors du domaine N et de leurs sousensembles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Perplexités originales et réduites des corpus du domaine I et hors du domaine N et tailles de leurs sous-ensembles. . . . . . . . . . . . . . . . . . . . . . . . Résultats en termes de score BLEU et tailles des ML de l’expérimentation sur la sélection par entropie croisée monolingue. . . . . . . . . . . . . . . . . . . . Résultats en termes de score BLEU des systèmes expérimentaux selon la sélection pratiquée. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Caractéristiques des tables de traduction des systèmes expérimentaux. . . . . . Résultats en termes de score BLEU des systèmes expérimentaux complets. . . . Résultats de la sélection de données pratiquée pour la campagne WMT12. . . . 120 121 122 124 125 126 128 Introduction 1 Introduction l est frappant de constater aujourd’hui la place qu’occupent le langage et la communication dans tous les aspects de la société moderne. En effet, moins d’un siècle sépare l’émergence de la linguistique moderne de l’apparition de systèmes complexes de traitement automatisé de l’information. Le rêve d’un langage universel de l’homme, popularisé avec le mythe de la Tour de Babel, semble aujourd’hui plus vivant que jamais. Et même si ce rêve de pouvoir échanger librement avec n’importe quelle personne reste de nos jours inaccessible, nous pouvons réellement observer un intérêt croissant pour la recherche scientifique en traitement automatique des langues naturelles. À ce titre, la traduction automatique de la parole occupe une place grandissante depuis le début du XXIe siècle, laissant imaginer un grand nombre d’applications. Nous pouvons notamment songer à la facilitation des échanges diplomatiques ou commerciaux, par exemple, ou encore à une utilisation dans un cadre touristique. Des applications militaires sont aussi étudiées : lors de missions à l’étranger, pouvoir communiquer plus facilement avec la population locale facilite les activités de renseignement et procure un avantage. D’autres besoins existent également : citons par exemple le nombre croissant de langues officielles au Parlement Européen, qui crée une nécessité de faire appel à plus d’interprètes mais aussi de traducteurs. I Par sa nature, la traduction automatique de la parole cherche à réunir deux domaines ayant fait l’objet de recherches de façon indépendante pendant plus de cinquante ans. D’un côté, il s’agit de reconnaître de la parole, c’est-à-dire de produire, à l’aide d’un système automatisé, une transcription de ce qu’un locuteur aura prononcé, soit un signal acoustique. Cela fait appel à une modélisation acoustique, notamment liée au genre du locuteur et aux conditions d’enregistrement de la parole, ainsi qu’à une modélisation linguistique, afin que les mots reconnus puissent former une phrase correcte. De nos jours, la totalité des systèmes de reconnaissance automatique de la parole se basent sur des méthodes statistiques, conjuguant des modèles estimés sur des corpus de parole et de texte. De l’autre côté, la traduction automatique cherche elle à modéliser les caractéristiques essentielles de deux langues dans le but de passer de l’une à l’autre, toujours à l’aide d’un système automatisé. Au fil du temps, plusieurs approches de la traduction automatique ont été décrites : parmi celles-ci, les approches statistiques sont devenues très populaires. Dans cette optique, qui nous intéresse particulièrement ici, les modèles statistiques de traduction sont estimés à partir de corpus de texte bilingues, tandis que la modélisation linguistique s’estime sur des corpus de texte monolingues. Réunir les deux domaines que sont la reconnaissance de la parole et la traduction automatique statistique suppose que l’on devra composer avec les difficultés liées à chacun, c’est ce qui constitue une des spécificités de la traduction automatique de la parole. Par exemple, le style de langage employé, les mots répétés ou encore les erreurs de reconnaissance sont 2 des phénomènes à prendre en compte dans l’élaboration d’un système automatisé qui se veut robuste. Nous pouvons aussi citer le problème de la casse et de la ponctuation, qui sont souvent absentes ou produites de façon incorrecte par le système de reconnaissance de la parole mais essentielles à la production d’une traduction faisant sens. De plus, outre le simple enchaînement séquentiel de systèmes, il est possible d’envisager des techniques pouvant produire un couplage plus étroit entre ceux-ci. Dans ce cadre, notre travail se concentre sur la traduction de la parole reconnue automatiquement en tenant compte de contraintes applicatives liées à la participation à des campagnes d’évaluation. Cette thèse s’articule autour de trois axes : 1. l’acquisition de ressources spécifiques à la reconnaissance et la traduction de la parole ; 2. le développement et le couplage des systèmes de reconnaissance et de traduction ; 3. l’amélioration des performances des dits systèmes par la sélection appropriée des données. Plus précisément, ce manuscrit est organisé comme suit : – Le chapitre 1 propose un état de l’art des deux domaines fondateurs de la traduction automatique de la parole que nous venons d’évoquer. Il présente également un troisième domaine, formant un des points communs existant entre la reconnaissance de la parole et la traduction automatique : la modélisation du langage. – Le chapitre 2 décrit de façon plus approfondie les spécificités inhérentes à la traduction de parole reconnue automatiquement et le cadre théorique qui l’accompagne. Il propose aussi un tour d’horizon des techniques de couplage envisageables entre les systèmes. – Le chapitre 3 traite quant à lui du contexte dans lequel prennent place nos travaux. Il introduit les principes attachés aux campagnes d’évaluation et présente un historique des campagnes récentes en reconnaissance de la parole et en traduction automatique. Une emphase est portée sur les campagnes dédiées à la traduction de la parole, qui définissent les contraintes applicatives telles que nous les entendons. – Le chapitre 4 s’attache à montrer l’importance de la pertinence et de la cohérence des données d’apprentissage comme socle du couplage des systèmes. Nous présentons notamment ici TED-LIUM, le corpus dédié à la transcription automatique de présentations scientifiques en anglais que nous avons créé. Nous évoquons également l’ensemble des données nécessaires au développement de nos systèmes et traitons de leur harmonisation. – Le chapitre 5 décrit l’implémentation et la mise en œuvre complète de notre système de traduction de la parole anglais - français. Il présente également les choix que nous avons faits pour notre système de remise de la casse et de la ponctuation, et retrace les expérimentations et évaluations réalisées. 3 Introduction – Le chapitre 6 traite de l’amélioration des performances initiales par une technique de sélection de données. Il en présente tout d’abord les principes, puis l’outil que nous avons créé, et décrit finalement les expériences que nous avons tentées afin de rendre notre système plus performant. Pour finir, ce manuscrit se conclut par un développement sur un ensemble de perspectives envisagées. 4 Première partie État de l’art et contexte 5 Chapitre 1 Domaines fondateurs Sommaire 1.1 1.2 Reconnaissance automatique de la parole . . . . . . . . . . . . . . . . 9 1.1.1 Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.2 Extraction des paramètres . . . . . . . . . . . . . . . . . . . . . 10 1.1.3 Modélisation acoustique . . . . . . . . . . . . . . . . . . . . . . 10 1.1.3.1 Algorithme d’expectation-maximisation (EM) . . . . . 12 1.1.3.2 Dictionnaire phonétisé . . . . . . . . . . . . . . . . . 13 1.1.3.3 Alignement des phonèmes avec le signal . . . . . . . . 13 1.1.3.4 Adaptation . . . . . . . . . . . . . . . . . . . . . . . 14 1.1.4 Espace de recherche et graphes de mots . . . . . . . . . . . . . . 15 1.1.5 Mesures de confiance . . . . . . . . . . . . . . . . . . . . . . . 15 1.1.6 Évaluation des systèmes de RAP . . . . . . . . . . . . . . . . . 16 Traduction automatique statistique . . . . . . . . . . . . . . . . . . . 18 1.2.1 Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.2.2 Modélisation de la traduction . . . . . . . . . . . . . . . . . . . 19 1.2.2.1 Notion d’alignement . . . . . . . . . . . . . . . . . . 20 1.2.2.2 Modèles IBM . . . . . . . . . . . . . . . . . . . . . . 21 1.2.2.3 Modèles basés sur les séquences de mots (phrase-based 1.2.3 1.2.4 models) . . . . . . . . . . . . . . . . . . . . . . . . . 23 Modélisation log-linéaire . . . . . . . . . . . . . . . . . . . . . 25 1.2.3.1 Pondération lexicale . . . . . . . . . . . . . . . . . . 27 1.2.3.2 Modèle de réordonnement lexicalisé . . . . . . . . . . 27 1.2.3.3 Pénalités de mot et de séquence . . . . . . . . . . . . 28 Optimisation des systèmes de TAS . . . . . . . . . . . . . . . . 28 1.2.4.1 29 Minimum Error Rate Training (MERT) . . . . . . . . 7 Chapitre 1. Domaines fondateurs 1.2.4.2 Margin Infused Relaxed Algorithm (MIRA) . . . . . . 29 Évaluation des systèmes de TAS . . . . . . . . . . . . . . . . . 30 Modélisation du langage . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.3.1 Modèles N-Gramme . . . . . . . . . . . . . . . . . . . . . . . . 32 1.3.2 Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 1.3.3 Modèles de langage à représentation continue (CSLM) . . . . . . 33 1.3.4 Optimisation et évaluation des modèles de langage . . . . . . . . 34 1.3.4.1 34 1.2.5 1.3 8 Perplexité . . . . . . . . . . . . . . . . . . . . . . . . 1.1. Reconnaissance automatique de la parole l paraît difficile de décrire convenablement la traduction automatique de la parole sans avoir préalablement décrit les deux domaines concernés, à savoir la reconnaissance automatique de la parole et la traduction automatique statistique. Ces deux domaines, déjà extrêmement vastes, peuvent se rencontrer pour former le domaine de la traduction automatique de la parole. I Ce chapitre, divisé en trois sections, se concentre sur chacun des aspects fondateurs et indispensables à la traduction de la parole. Dans une première partie seront exposés les concepts et principes inhérents à la reconnaissance automatique de la parole. Dans un second temps, nous nous attacherons à décrire également ceux relatifs à la traduction automatique statistique. Enfin, dans une troisième section, nous aborderons le domaine de la modélisation du langage, qui constitue une composante commune des systèmes de reconnaissance de la parole et de traduction automatique. 1.1 Reconnaissance automatique de la parole La reconnaissance automatique de la parole (RAP) est un domaine qui s’inscrit dans un ensemble de recherches menées depuis le début des années 50 que l’on regroupe sous le nom de « Traitement Automatique des Langues Naturelles » (TALN). Les avancées technologiques réalisées dans ce domaine permettent de nos jours de concevoir des systèmes de reconnaissance très performants, bien que l’obtention d’une transcription automatique parfaite reste toujours un but à atteindre. Cela s’explique par le fait qu’il est difficile de gérer les spécificités de la parole en elle-même. Les problèmes couramment rencontrés proviennent notamment des fortes disparités entre locuteurs (homme/femme, âge, accent. . . ) qui font fortement varier la manière dont les mots vont être prononcés. On peut également mentionner au registre des difficultés courantes les conditions d’enregistrement ainsi que les bruits extérieurs qui viennent parasiter le signal. De plus, il est important de s’assurer que le flux continu de parole puisse être correctement découpé en segments. Nous allons dans cette section nous intéresser aux principes généraux de la reconnaissance de la parole, de la théorie aux éléments concrets présents dans un système de RAP. 1.1.1 Principes de base Les systèmes de reconnaissance automatique de la parole utilisent de nos jours le formalisme introduit dans [Jelinek 1976]. Le but premier d’un tel système est d’associer une séquence de mots à une séquence d’observations acoustiques. De fait, à partir de la séquence d’observations acoustiques X = x1 x2 · · · xm , un système de RAP recherchera la séquence de mots Ŵ = 9 Chapitre 1. Domaines fondateurs w1 w2 · · · wk qui maximise la probabilité P (W |X) (probabilité d’émission de W sachant X). Cette séquence de mots devra par conséquent maximiser l’équation suivante : Ŵ = arg max P (W |X) W (1.1) En appliquant le théorème de Bayes sur cette équation, on obtient : Ŵ = arg max W P (X|W )P (W ) P (X) (1.2) L’observation acoustique X n’influençant pas arg max, la probabilité P (X) peut être élimiW née de l’équation 1.2. On obtient alors : Ŵ = arg max P (X|W )P (W ) W (1.3) Dans la RAP, deux types de modèles statistiques sont utilisés afin de déterminer la séquence de mots la plus probable : le modèle acoustique fournit la valeur de la probabilité P (X|W ) et le modèle de langage fournit la valeur de la probabilité P (W ). P (X|W ) peut être vue comme la probabilité d’observer la séquence X lorsque la séquence W est prononcée, tandis que P (W ) peut être vue comme la probabilité que la séquence W soit prononcée dans le langage reconnu. La figure 1.1 présente de façon générale le fonctionnement d’un système de RAP. 1.1.2 Extraction des paramètres Comme nous pouvons le voir dans la figure 1.1, le signal de parole ne peut pas être utilisé tel quel, il est nécessaire d’en retirer les caractéristiques essentielles. Pour cela, le signal est découpé en trames et un vecteur de paramètres acoustiques est ensuite extrait pour chacune de ces trames. Les méthodes les plus couramment utilisées de nos jours font appel à l’analyse cepstrale, telles que la méthode Mel-scale Frequency Cepstral Coefficients (MFCC) [Davis 1980] ou la méthode Perceptual Linear Prediction (PLP) [Hermansky 1990]. Cette extraction permet d’obtenir une séquence d’observations acoustiques X, où X = x1 x2 · · · xm , c’est-à-dire un vecteur de paramètres associé à une trame. 1.1.3 Modélisation acoustique Les modèles acoustiques utilisés en RAP sont essentiellement basés sur les modèles de Markov cachés (MMC, ou en anglais Hidden Markov Models, HMM) [Jelinek 1976, Rabiner 1989]. Ces MMC sont des automates à états finis dont le rôle est de calculer la probabilité d’émission 10 1.1. Reconnaissance automatique de la parole SIGNAL Extraction des paramètres Modèle acoustique Modèle de langage P(X|W) P(W) Observation acoustique X Ŵ = arg max P(X|W)P(W) w Séquence de mots Ŵ F IGURE 1.1 – Représentation générale du fonctionnement d’un système de RAP. d’une séquence d’observations donnée, observations représentées par les vecteurs de caractéristiques du signal composés des coefficients PLP ou MFCC. Le comportement des MMC correspond à l’hypothèse markovienne d’ordre 1 : on ne connaît du passé que le dernier état occupé. Afin de prendre en considération certaines évolutions du signal dans le temps, les dérivées premières et secondes sont intégrées dans les vecteurs de caractéristiques. La figure 1.2 représente un exemple de modèle de Markov caché avec saut d’état possible. Pour chaque intervalle, le MMC passe d’un état i à un état j (mais j ≥ i, c’est-à-dire qu’un état peut transiter vers lui-même) avec une probabilité aij . Pour chaque trame t un état j est atteint, générant ainsi une émission ot ayant une densité de probabilité bj associée. Par conséquent, apprendre un modèle acoustique revient en réalité à estimer les paramètres suivants : – les probabilités d’émission bi (oj ) pour chaque état (généralement des vecteurs de moyennes, des matrices de covariance et des coefficients de mixture d’un ensemble de gaussiennes), – les probabilités aij liées au MMC en indiquant la probabilité de transition d’un état à un autre. 11 Chapitre 1. Domaines fondateurs a11 1 a22 a12 a33 a23 2 o1 b2(o2) o2 a34 3 b2(o3) o3 b3(o4) o4 a55 a45 4 a24 a13 b1(o1) a44 5 a35 b5(o5) o5 b5(o6) o6 F IGURE 1.2 – Représentation d’un modèle de Markov caché à cinq états. Le plus souvent, l’unité atomique de modélisation utilisée est le phonème. La modélisation d’un mot se fait donc en concaténant les modèles de phonèmes composant ce mot. Afin de prendre en compte les variations pouvant survenir dans la prononciation d’un phonème, un MMC est construit pour un phonème particulier associé à un contexte gauche et droit spécifiques. Le contexte gauche (respectivement droit) est le phonème qui précède (respectivement succède à) ce phonème particulier. Un phonème associé à ses contextes est appelé triphone. 1.1.3.1 Algorithme d’expectation-maximisation (EM) L’apprentissage des modèles acoustiques, qui consiste à estimer les matrices de covariances, les vecteurs de moyennes et les coefficients de mixtures d’un ensemble de gaussiennes tel qu’exposé ci-dessus, se fait presque systématiquement à l’aide de l’algorithme EM tel que décrit dans [Dempster 1977]. L’objectif est de trouver le maximum de vraisemblance dans les paramètres des modèles probabilistes a posteriori lorsque le modèle dépend de variables latentes inobservables. L’algorithme EM se compose de deux étapes : 1. Évaluer l’espérance mathématique (E) de la vraisemblance calculée en fonction des variables observées. 2. Maximiser (M) la vraisemblance des paramètres à l’aide de la vraisemblance évaluée à l’étape précédente. 12 1.1. Reconnaissance automatique de la parole Ces deux étapes constituent une itération de l’algorithme EM : l’apprentissage est terminé à l’obtention d’une convergence. 1.1.3.2 Dictionnaire phonétisé Le dictionnaire phonétisé est un élément central de l’apprentissage des modèles acoustiques. Puisqu’un système de RAP est basé sur les phonèmes, il est nécessaire d’associer chaque entrée du dictionnaire (i.e. chaque mot) à une suite de phonèmes qui lui est propre. Un phonème peut correspondre à plusieurs graphèmes 1 différents, ce qui implique qu’il est nécessaire de disposer de toutes les séquences de phonèmes (variantes de prononciations) correspondant à un mot dans le dictionnaire. Afin de créer ce dictionnaire phonétisé, l’approche la plus efficace serait de le composer manuellement. Ainsi, les prononciations crées peuvent être considérées comme fiables car vérifiées par un humain. Néanmoins, générer un tel lexique manuellement est très coûteux en temps et en ressources. Pour cette raison, l’approche généralement utilisée (parfois complétée de l’approche manuelle) est la construction du dictionnaire de façon automatique, comme par exemple via le système proposé par [Béchet 2001] à base de règles de phonétisation transformant automatiquement les graphèmes en phonèmes. Ce dictionnaire se doit de comprendre tous les mots qui seront utilisés durant la phase d’apprentissage du modèle acoustique. Mais il est également possible de constituer un second dictionnaire, différent du premier, qui pourra être utilisé durant la phase de décodage du système afin de couvrir plus de mots. 1.1.3.3 Alignement des phonèmes avec le signal Pour estimer les modèles acoustiques, il est nécessaire de passer par une phase d’alignement entre les phonèmes et le signal acoustique afin que la phonétisation de la transcription soit la plus proche possible de la prononciation réelle. Le plus souvent, cet alignement est obtenu à l’aide de l’algorithme Viterbi [Viterbi 1967] ou de l’algorithme Baum-Welch [Baum 1972]. Néanmoins, lorsque des variantes de prononciation existent pour une entrée du dictionnaire, il est préférable de pouvoir déterminer la bonne prononciation mais il est impossible de vérifier manuellement chaque prononciation lorsqu’un corpus d’apprentissage se compose de centaines d’heures de parole. Pour répondre à cette problématique, il est possible d’estimer rapidement un premier modèle acoustique approximatif, puis de l’utiliser pour préciser la phonétisation réellement employée en forçant l’alignement. Dans [Estève 2004], les meilleures prononciations sont extraites 1. Un graphème se définit comme l’écriture associée à un phonème donné. Ce graphème peut être constitué d’une ou plusieurs lettres. 13 Chapitre 1. Domaines fondateurs en choisissant la phonétisation la plus courte pour l’estimation du premier modèle acoustique lorsque des variantes de prononciation existent pour une entrée du dictionnaire donnée. 1.1.3.4 Adaptation Un système de RAP doit composer avec de nombreuses contraintes. Dans ce registre, nous pouvons citer par exemple la grande variabilité des locuteurs, les diverses conditions d’enregistrement du signal audio ou encore les différences vocales qui apparaissent selon que le locuteur sera un homme ou une femme. Pour ces raisons, il est nécessaire de pratiquer une adaptation des modèles acoustiques afin de gérer de la meilleure façon possible ces contraintes, ce qui aura pour effet de rendre le système plus robuste, notamment face à des locuteurs inconnus ne faisant pas partie des données d’apprentissage. Diverses techniques d’adaptation existent et sont régulièrement utilisées, citons parmi cellesci les trois plus courantes : • Maximum Likelihood Linear Regression (MLLR) [Leggetter 1995] : l’adaptation des modèles acoustiques se fait par régression linéaire et est particulièrement efficace lorsque peu de données sont disponibles. Elle permet d’adapter à un locuteur précis les modèles indépendants du locuteur appris sur un grand nombre de données. Cela se fait par des transformations linéaires permettant d’adapter les paramètres des MMC. Toutefois, les transformations sur les moyennes et les variances des gaussiennes ne sont pas liées. • Constrained Maximum Likelihood Linear Regression (CMLLR) [Digalakis 1995] : à l’inverse de [Leggetter 1995], la méthode CMLLR relie entre elles les transformations réalisées sur les moyennes et les variances. À l’aide de l’algorithme EM, les paramètres sont optimisés selon le maximum de vraisemblance sur les données disponibles pour l’adaptation. Si des transformations identiques ont été utilisées pour apprendre les modèles indépendants du locuteur, il sera possible d’estimer conjointement les MMC et les transformations propres à chacun des locuteurs de ce corpus. Les modèles qui en découleront seront par la suite plus facilement adaptables à un nouveau locuteur. • Maximum A Posteriori (MAP) [Gauvain 1994] : 14 1.1. Reconnaissance automatique de la parole cette méthode bayésienne permet d’introduire des contraintes probabilistes dans l’estimation des paramètres des modèles. Elle permet de prendre en compte une distribution de probabilités a priori dans l’estimation des MMC. Grâce à l’algorithme EM, on cherchera à maximiser la vraisemblance a posteriori, Cela permet de rapprocher les modèles génériques des données de test, afin de créer des modèles spécifiques au genre du locuteur ou encore à des conditions d’enregistrement particulières, par exemple. Néanmoins, cette méthode nécessite de disposer d’une quantité de données d’adaptation assez importante. 1.1.4 Espace de recherche et graphes de mots À partir de l’observation des événements acoustiques, un système de RAP génère un ensemble d’hypothèses de séquences de mots reconnus. On appelle cet ensemble un espace de recherche, le but du système de RAP étant d’extraire l’hypothèse qui satisfait au mieux l’équation 1.3. Cet espace de recherche est représenté sous la forme d’un graphe, appelé graphe de recherche et intègre certaines informations utilisées pour générer les hypothèses telles que les informations temporelles ou encore les unités acoustiques (phonèmes) associées à leurs scores acoustiques. La recherche de l’hypothèse de probabilité maximale au sein du graphe est analogue au problème de la recherche du chemin de poids minimal et de nombreux algorithmes existent afin de résoudre ce problème [Cettolo 1998]. Néanmoins, l’espace de recherche est, de façon générale, d’une taille trop importante pour être traité directement sans compromettre la rapidité d’exécution. Afin d’obtenir une ou plusieurs hypothèses dans un délai raisonnable, on utilise une recherche en faisceau (en anglais, beam search) qui restreint le graphe de recherche en supprimant localement les hypothèses les moins probables [Ney 1992]. Grâce à cet espace de recherche, il est donc possible de produire en sortie du système plusieurs représentations. La plus courante est l’hypothèse unique, ou 1-best, qui sera donc l’hypothèse la plus probable trouvée par le système. Mais il est également possible de fournir plusieurs hypothèses, sous deux formes : soit une liste des N-meilleures hypothèses (ou N-best list), soit un graphe de mots, directement issu du graphe de recherche. 1.1.5 Mesures de confiance Une mesure de confiance est un score essayant d’indiquer à quel point une décision prise par un système est fiable. On les retrouve dans de nombreuses applications, telles que les systèmes de dialogue ou encore l’identification des langues. Concernant la reconnaissance automatique 15 Chapitre 1. Domaines fondateurs de la parole, [Jiang 2005] expose plusieurs avancées et utilisations de ces mesures. Dans ce cadre, une mesure de confiance notée CM et relative à un mot w se place dans l’intervalle [0, 1]. Plus le score se rapprochera de 1, plus les décisions que le système aura prises quant à l’exactitude du mot considéré seront fiables. La moyenne des mesures pour une suite de K mots avec K = w1 , w2 , · · · , wK se formalise de la façon suivante : K 1 X µ(CM ) = CM (wi ) K i=1 (1.4) où µ(CM ) sera une approximation du taux de mots correctement reconnus. Il existe plusieurs manières d’estimer les mesures de confiance en reconnaissance de la parole, les plus répandues étant exposées dans [Mauclair 2006]. Celles-ci peuvent prendre en compte diverses informations provenant du système, tant sur le plan linguistique que sur le plan acoustique. L’évaluation des mesures de confiance peut être réalisée grâce à une métrique nommée entropie croisée normalisée (en anglais Normalized Cross Entropy, NCE) [Siu 1999]. Elle représente une estimation de l’information supplémentaire (entropie) portée par la mesure de confiance sur l’hypothèse de reconnaissance considérée et est notamment employée lors des évaluations NIST. Plus la NCE sera proche de 1, plus une mesure de confiance donnée saura prédire l’exactitude du mot considéré dans l’hypothèse. Elle se formalise par : N CE = Hmax + P W corrects log2 (m(W )) + Hmax P W erronés log2 (1 − m(W )) (1.5) où Hmax = −n log2 (pe ) − (N − n) log2 (1 − pe ) avec : n le nombre de mots correctement reconnus, N le nombre total de mots, pe la probabilité moyenne qu’un mot reconnu soit exact (n/N ), m(W ) la mesure de confiance portée par le mot W . 1.1.6 Évaluation des systèmes de RAP Afin de pouvoir comparer entre eux différents systèmes de RAP de façon significative, il est nécessaire de les évaluer sur les mêmes données de test accompagnées d’une transcription de référence. Systématiquement, les systèmes de RAP sont évalués en terme de taux d’erreur/mot (en anglais Word Error Rate, WER). Le WER considère trois types d’erreurs : – Insertion : mot supplémentaire dans l’hypothèse par rapport à la transcription de référence, 16 1.1. Reconnaissance automatique de la parole – Suppression : mot non reconnu dans l’hypothèse du système de RAP par rapport à la référence, – Substitution : mot mal reconnu dans l’hypothèse par rapport à la transcription de référence. Le WER se calcule grâce à la formule : W ER = N b Insertions + N b Suppressions + N b Substitutions N b M ots de la réf érence (1.6) Pour chaque type d’erreur, le nombre pris en compte est le nombre minimal permettant de retrouver la référence. 17 Chapitre 1. Domaines fondateurs 1.2 Traduction automatique statistique La traduction automatique est un domaine qui lui aussi s’inscrit dans l’ensemble de recherches TALN. Elle peut se définir comme la traduction d’un texte source t1 écrit en langue L1 vers un texte cible t2 écrit en langue L2 à l’aide d’un système informatique, sans qu’une intervention humaine ne soit nécessaire. La traduction automatique statistique (TAS), qui est une branche de ce domaine, tente de parvenir à ce but grâce à l’utilisation de modèles statistiques, à la différence de la traduction automatique à base de règles, par exemple. Parmi ces systèmes à base de modèles statistiques, il convient de différencier les modèles basés sur les séquences de mots (Phrase-based models, tels que décrits dans [Marcu 2002, Koehn 2003]), qui nous intéressent particulièrement ici, des modèles basés sur les mots eux-mêmes (Word-based models) qui sont à la base des approches développées de nos jours. Nous allons donc dans cette section présenter les concepts et idées inhérents à ce domaine, de la théorie aux différentes parties composant un système de TAS. 1.2.1 Principes de base La traduction automatique statistique se base sur l’apprentissage automatique de modèles statistiques à partir de textes accompagnés de leurs traductions, alignés phrase à phrase et appelés corpus parallèles. Formellement, il s’agit de traduire une phrase f exprimée dans une langue source vers une phrase e exprimée dans une langue cible. Ces phrases, qui sont une suite de mots, peuvent être définies comme f = f1 , . . . , fI et e = e1 , . . . , eJ . Afin de parvenir à ce résultat, la traduction automatique statistique emploie un modèle de traduction, noté P (e|f ), permettant de connaître la probabilité qu’une phrase cible e soit la traduction d’une phrase source f et un modèle de langage noté P (e) indiquant la probabilité que e soit une phrase. Tout comme la reconnaissance de la parole, pour son formalisme mathématique, la traduction automatique statistique applique le théorème de Bayes : ê = arg max P (e|f ) = e P (f |e)P (e) P (f ) (1.7) La probabilité de la phrase source étant connue a priori, nous pouvons l’éliminer de l’équation afin d’obtenir la formule suivante : ê = arg max P (f |e)P (e) e (1.8) Il est important de noter ici qu’en raison de l’application du théorème de Bayes, le sens de traduction dans le modèle de traduction se trouve changé, de P (e|f ) à P (f |e). Cela est dû au 18 1.2. Traduction automatique statistique fait que ce qui sera considéré comme la langue source diffère entre la théorie mathématique du modèle et son application réelle. Dans ce manuscrit, nous tenterons d’éviter la confusion que cette différence pourrait induire en conservant le formalisme P (e|f ) lorsque nous évoquerons le modèle de traduction. Ce modèle, dont le rôle sera de fournir la traduction la plus probable, est appris à partir d’un ou plusieurs corpus parallèles. Le modèle de langage, quant à lui, est appris à partir de données monolingues en langue cible et son rôle sera de s’assurer que la traduction générée soit la plus correcte possible, grammaticalement parlant. Le décodeur recherchera alors la meilleure traduction ê dans son espace de recherche, basé sur les probabilités des modèles de traduction et de langage. La figure 1.3 illustre ce principe. Modèle de langage Modèle de traduction P(e) P(e|f) Phrase source f Décodeur Hypothèse ê ê = arg max P(e|f)P(e) e F IGURE 1.3 – Schéma de la traduction automatique statistique. 1.2.2 Modélisation de la traduction Il existe plusieurs techniques d’apprentissage des modèles de traduction, qui se différencient notamment au niveau de l’unité atomique de traduction. Auparavant, les modèles utilisés se basaient sur le mot, tant pour les alignements que pour l’estimation des probabilités. De nos jours, les systèmes les plus performants se basent sur des séquences de mots, on parle alors de phrase-based systems. Une séquence (ou phrase, en anglais) est une suite de mots contigus 19 Chapitre 1. Domaines fondateurs tandis qu’une paire de séquences (phrase pair, en anglais) représente une équivalence de sens supposée entre deux séquences dans deux langages donnés. Ces paires de séquences sont stockées dans le modèle de traduction accompagnées de leur fréquence et sont utilisées comme briques élémentaires du système afin de produire de nouvelles traductions. 1.2.2.1 Notion d’alignement Il apparaît clair que l’intérêt de modéliser des phrases entières dans un modèle de traduction est très fortement limité. En effet, l’écrasante majorité des phrases n’apparaît que très peu de fois (voire une seule fois) dans un corpus d’apprentissage, même de très grande taille. De plus, rien ne nous garantirait qu’une phrase extraite d’un corpus de test ait déjà été observée, à moins de modéliser l’ensemble des phrases existantes d’un langage, ce qui serait techniquement impossible compte tenu de l’explosion combinatoire. Pour cette raison, la décision de diviser les phrases en unités plus petites s’est très vite imposée d’elle-même afin de s’assurer qu’une quantité suffisante de statistiques pourrait être collectée. Les modèles basés sur les mots (wordbased models) proposés dès les années 90 par [Brown 1990, Brown 1993] ont ouvert la porte à de nombreuses recherches. Néanmoins, afin d’estimer les probabilités de traduction, il est nécessaire d’établir des correspondances entre les mots de la langue source et de la langue cible, autrement dit d’aligner les mots de la langue cible sur les mots de la langue source, comme le montre la figure 1.4. 1 2 3 4 5 6 Je possède une maison très petite I have a very small house 1 2 3 4 5 6 F IGURE 1.4 – Exemple d’alignement des mots dans une phrase. Ceci nous permet d’établir une fonction d’alignement a en associant un mot de la langue cible à la position i à un mot de la langue source à la position j tel que : a:j→i 20 (1.9) 1.2. Traduction automatique statistique Dans notre exemple, la fonction d’alignement a serait telle que : a : {1 → 1, 2 → 2, 3 → 3, 4 → 6, 5 → 4, 6 → 5} (1.10) Par conséquent, en introduisant cette fonction d’alignement a, notre modélisation de la traduction devient : P (e|f ) = X P (e, a|f ) (1.11) a Les mots en langue cible qui ne s’alignent à aucun mot en langue source sont alignés à un mot spécial vide (NULL), afin que tous les mots de la phrase cible possèdent un alignement. Ces alignements sont produits à l’aide de l’algorithme EM en maximisant la vraisemblance du corpus parallèle. 1.2.2.2 Modèles IBM Il existe cinq modèles de traduction proposés par [Brown 1993], connus sous le nom d’IBM1 à IBM5 et utilisant les mots en tant qu’unité atomique de traduction. Leurs performances sont comparées dans [Och 2003b]. Nous allons ici décrire succinctement les spécificités de chacun de ces modèles. Modèle 1 Le modèle 1 se base uniquement sur les probabilités de traduction lexicales. Pour chaque mot e produit à partir d’un mot f par celui-ci, nous utiliserons la probabilité de traduction et rien d’autre. Cette probabilité entre une phrase source f = (f1 , f2 , . . . , flf ) de taille lf et une phrase cible e = (e1 , e2 , . . . , ele ) de longueur le , avec un alignement de chaque mot cible ej vers un mot source fi selon la fonction d’alignement a, se formalise comme suit : le Y t(ej |fa(j) ) P (e, a|f ) = (lf + 1)le j=1 (1.12) Cette équation est un produit des probabilités lexicales des mots générés ej pour la taille le . est une constante de normalisation permettant que la somme de toutes les probabilités lexicales de traduction soit égale à 1. Leur apprentissage itératif via l’algorithme EM se fait de la façon suivante : 1. initialisation du modèle avec une distribution uniforme, 2. application du modèle aux données (expectation), 3. apprentissage du modèle à partir des données (maximisation), 21 Chapitre 1. Domaines fondateurs 4. répétition des étapes 2 et 3 jusqu’à convergence. La convergence est généralement déterminée en calculant la perplexité du modèle à chaque itération. Modèle 2 Le modèle 2 tente de pallier au principal défaut du modèle 1, à savoir l’incapacité à prendre en compte le réordonnement des mots. Pour cela, on ajoute explicitement un modèle d’alignement. Par conséquent, la traduction à l’aide d’un modèle IBM 2 peut être vue comme un processus à deux étapes (alignement puis traduction). Mathématiquement, ce modèle se formule comme suit : P (e, a|f ) = le Y j=1 t(ej |fa(j) )a(a(j)|j, le , lf ) (1.13) Bien que le modèle 2 soit parfaitement capable de traiter le problème du réordonnement, il subsiste tout de même des difficultés concernant le fait que les mots d’une langue peuvent se traduire en zéro, un ou plusieurs mots dans une autre langue. Modèle 3 Le modèle 3 introduit deux étapes supplémentaires, à savoir la fertilité et l’insertion vide (NULL). La fertilité indique combien de mots cibles seront produit à partir d’un mot source donné. L’insertion vide permet quant à elle d’abandonner certains mots sources qui ne doivent pas ou ne peuvent pas être traduits dans la phrase cible. Modèle 4 Le modèle 4 introduit le concept de distorsion relative et de groupes de mots, afin de pallier au problème d’alignement des longues phrases. Dans ce modèle, le placement de la traduction d’un mot source sera typiquement basé sur le placement du mot qui le précède. L’on utilisera dès lors des positions relatives en lieu et place des positions absolues. Modèle 5 Dans les modèles 3 et 4, il existe un problème : il est théoriquement possible que plusieurs mots cibles soient placés à la même position, bien que cela soit totalement impossible en pratique. Cette difficulté est appelée déficience. Le modèle 5 résout ce problème, en gardant une trace du nombre de positions vacantes dans la phrase cible durant l’alignement et en n’autorisant le placement d’un mot que dans une de ces positions. 22 1.2. Traduction automatique statistique Comme nous venons de le voir, ces modèles permettent de construire des alignements mot à mot entre les paires de phrases. Malgré cela, il reste une difficulté : cet alignement asymétrique des mots de la langue cible sur les mots de la langue source n’autorise pas l’alignement de plusieurs mots de la langue source vers un seul et même mot de la langue cible. Afin d’y pallier, les alignements à l’aide des modèles IBM sont réalisés dans les deux directions de traduction (source vers cible et cible vers source). Les alignements sont ensuite symétrisés en prenant l’intersection ou l’union des points d’alignement [Och 2003b]. 1.2.2.3 Modèles basés sur les séquences de mots (phrase-based models) Nous venons de présenter les différents modèles IBM existants basés sur les mots. Mais il semble raisonnable de penser que le mot en tant qu’unité atomique de traduction n’est pas nécessairement la meilleure des approches. En effet, un mot d’une langue source donnée peut tout à fait se traduire en une suite de plusieurs mots dans une langue cible, à l’inverse une suite de mots d’une langue source peut très bien être traduire en un seul mot dans une langue cible. Il est dès lors parfaitement concevable d’utiliser en tant qu’unité atomique de traduction des séquences de mots, appelées phrases en anglais, à différencier du mot phrase en français qui lui se traduira en anglais par sentence. Ce concept de modèle basé sur les séquences de mots a été pour la première fois proposé dans [Koehn 2003]. Depuis, la TAS basé sur les séquences de mots s’est révélée être une des approches les plus performantes. Elle est emploie des séquences de mots de longueur variable qui peuvent être réordonnées (à la fois entre elles et en leur sein) et ne sont pas nécessairement significatives linguistiquement parlant, comme le montre la figure 1.5, représentant des paires de séquences avec, sous forme de flèches, leurs alignements mot-àmot. Cette figure illustre bien l’intérêt que peut avoir la traduction à base de phrases par rapport à celle basée sur les mots. Par exemple, l’expression « Comme par hasard » doit être considérée dans son ensemble pour avoir un sens en français, mais se traduira en anglais par un seul mot, « Coincidentally ». Cette approche permet donc de résoudre certaines ambiguïtés qui peuvent apparaître, et se présente formellement de la façon suivante : P (e|f ) = I Y i=1 φ(ēi |f¯i )d(starti − endi−1 − 1) (1.14) La phrase f en langue source est décomposée en I séquences de mots f¯i . L’équation 1.14 comprend deux parties : la première indique que chaque séquence source f¯i se traduit en une séquence cible ēi par la probabilité de traduction φ(ēi |f¯i ). Le terme d(starti − endi−1 − 1) 23 Chapitre 1. Domaines fondateurs Comme par hasard , j' ai entendu une histoire incroyable . NULL Coincidentally , I have heard an amazing story . F IGURE 1.5 – Traduction automatique statistique basée sur les séquences de mots. représente le modèle de réordonnement basé sur la distance relative. Selon ce modèle, le réordonnement d’une séquence est relatif à la séquence précédente : starti et endi représentent respectivement les mots de départ et de fin de la ième séquence source qui se traduira en la ième séquence cible. Extraction des séquences et scores Les séquences de mots bilingues (également appelées paires de séquences ou en anglais phrase pairs) sont extraites des alignements mot à mot à l’aide d’un ensemble d’heuristiques. Le critère de génération d’une séquence est qu’une suite de mots consécutifs en langue source doit être alignée à une suite de mots consécutifs en langue cible. La figure 1.6 montre un exemple de création de séquence. Dans l’exemple de gauche, le mot cible 1 camion est aligné au mot source 2 truck et les mots cible 2 de et 3 pompiers sont alignés au mot source 1 fire, c’est donc une paire de séquences valide. Dans l’exemple du centre, un des points d’alignement (le mot cible 3 pompiers) se trouve en dehors de la paire de séquences, celle-ci n’est donc pas possible. Dans l’exemple de droite, le mot source 3 is, qui ne possède pas d’alignement par ailleurs, est inclus dans la paire de séquences, ce qui est également parfaitement valide. Les probabilités de traduction φ(ē|f¯) sont estimées à partir de toutes les séquences bilingues grâce à la fréquence relative de la séquence cible étant donné la séquence source. Cela se fait 24 the noirgive etircdetails eht fo of slia tedcriterion. .envoigiretirc eht fo sliated evig give details of .the criterion. All words in the target language are aligned to the the laniru laosereahtegnaiusgdnraolwt-en g r a t e h t n i s d r o w l l A the eh awugenhatlin gdreanttarget eilhat ewords nra i sedgraoin llaare A alt eoctrudoesngeihla t neiraAll sdergowords ottethe gAll uwgn l ttarget ealigned g-rnaatlwords eelanguage hctrto rwords w llsaligned A language the source lanunoithe sinsedh toare nisource din row ehto t othe t dewords ngila ein ra th guage and otherwise. There must be at least one word in the target language bt tesh um e r e h T . e s i w r e h t o d n a e g a u g eal taegera There must at word t ni dergoawugennaol tsa l tguage taehetbnand tisu hoTguage ilwtand raehetbmust ootherwise. nm abe eegrat aeu gera dm rootherwise. weren ts.aeesThere td su hg T esgione rleh aehthe etleast ga gdrone eleast ga.u nwa tword etgorbe adtnin nu itarget ow language eno tsin aelthe ta etar b phrase which is aligned to at least one word in the source language phrase. Possit s a e l t a o t d e n g i l a s i h c i h w e s a r h p d r o w e n o is one word .esarhp egaugnal e-cisrsuooPs e.ehst rnhi pdrephrase ogw tisas aligned tphrase gto irloawhich sieleast h auegnnoawhich ltseacerluo eoh tdneind w ncoih tsw aaligned eelstaword arhopt-to nP gileast l.aesource cpihelanguage w at one the id sin seoat ssairh g aeusganrin ahlpthe ephrase. crusource os ehPossit language ni drow e p ble unaligned words at the boundaries of the phrases are taken into account by a hot cfcoasoetirnaidnneukoabt earha t t a s d r o w d e n g i l a n u e l b ble unaligned words at the boundaries of the phrases are taken u s e s a r h p e h t f o s e i r a d n u o b e h t t a s d r o w d e n g i l a n u e l b yb tnuocca otble i nunaligned kat era swords esarhpat ehthe t foboundaries seiradnuobof hthe stdnruoowccdare ealtberaccount at tyabphrases aen otgtaken nilianeukinto a sesarhby p eaht fointo se extraction algorithm. Formally, an alignment a having words f , ..., f in a s,ydlrla Fiv.am tiphrase r o g l a n o i t c a r t x e e s a r h p 1.2. Traduction automatique statistique 1 n phrase extraction algorithm. Formally, an alignment a having word .a. ,n1f om w rgon hnhia t n e m n g i l a n a , y l l a m r o F . m h t i r o g l a n o i t c a r t x e e s a r h p f , . . . , f s d r o w g n i v a h a t n e m n g i l a n a , y l l m r o F . m t i r o g l a n o i t c a r t x e e s a r h p phrase extraction algorithm. Formally, annalignment i nf ,... , 1f asdhaving row gniwords vah a ft1n,e..., mnfgnilin a na ,yll n 1 ¯f ¯ ¯ ¯ ¯ points with words e , ..., e in ē creates a consistent phrase .t,n1e tssdisrnoowc hatisw phē contains tn a s n i a t n o c 1 n f contains alignment points with words e , ..., e in ē creates a scons etasteenrsciaofr¯ n i tennm ee,tn.s.gi.si,lnalignment e s d r o w h t i w s t n i o p t n e m n g i l a s n i a t n o c f p o c a s e t a e r c ē n i e , . . . , e s d r o w h t i w s t n i o p t n e m n g i l a s n i a t n o c f f contains alignment points with words e , ..., e in ē creates a consistent phrase dr nc ē ni ne ,... , 1e 1 n 1 1esarhp n tnetsisnoc a1 seta r ¯ ¯ ¯,s ē) 2.7. .7.2 pair ni nw(ofh,s ē) sa as ) ē shown , f( (f¯,riē) ain pas fh .7 .2 pair ni ninw(o2.7. sa as ) ē shown ,¯f ( .r7i.ain 2pn2.7. i nwohs sa ) ē ,¯f ( riap pair shown fire truck TTSNIS AN TO SIC SN NIOC fire truck fire truck camion camion camion de de de pompiers pompiers pompiers is INCONSISTANT TNATN SCONSISTANT IA STNSOISCNOC CONSISTANT INCONSISTANT CONSISTANT TIN AT TNCONSIST ATSISN CONSISTANT INCONSISTANT NI IS O TT NN AA TT SS IS NN O CC NI TNCONSISTANT ATS SN OS CISNOC CONSISTANT INCONSISTANT CONSISTANT 2.7: The Phrase consistent alignment. pbeing y ePhalignment. T:The laword drgrey owalignment. hpart tiw tnetsisT c egmnniegbitlarsarFigure iarP PtFigure :.7 u FnPhrase Figure 2.7: Pairs rgtneehtsTisn.otn d o n etn t.2seim senrno cgilia g bwsrh iatPairs rthsP :owith 7consistent eriword gisFtrriwith p yw eregshat2.7: erihwT gPairs dierbeing o iP w etsnaebeing isnPhrase c.2gn eub aP eseword arg rhconsistent 7..2tneegrey rm uwith gnigFipart the probable phrases [Koehn, 2010]. .]0102 phrases [Koehn, 2010]. .]0102 ,nhe oK[ sesashows rhp elbthe aboprobable r.]pshows e h t s w o h s 0102 ,nhe oK[ sesashows rhp e.l]b r,p oehsas rhp e[Koehn, 0the 1a0b2oprobable nheehotKs[wsphrases lbaborp 2010]. eht swohs F IGURE 1.6 – Paires de séquences consistantes avec l’alignement symétrique mot à mot. tootrAll align with each other isin tlauthe bowhich eow ncase i lelA sain cwhich hbut t si ishcthe i1 hwbut rehtoinhex c to each which case 1eexample rlephm toaxhecanei h iw lasi1ohtAll awords h dn weAll lcA each other case esta c enh w troihave hsclaa ewords nhgcwith iilhaw scdareohave w lAto tgutib ecliephvm arxeseh ehhtalign tiw sihave eehvtawords ohother h h tilw ngisialign t1with eevlaphm sathe dxrexample vraisemblance pour where alignment column dpoint is2second tu opin si athe ncolumn usecond c edtisn s ehin t isn ioutside tnsecond io p tnecolu mn violated in one alignment outside p axuestimation en i dd osedu iwhere em violated in where alignment the stinn mnugloilca dennooceàrseel’aide ehh noied’une tsln p texample nnegotica lael2in nexample enrieh w etlde pem anone xgexample eilnapoint i edneotaein l2 d iw sttu2 i im nom lviolated oencm ev hotmaximum tn io22p n m roeithe hve(MLE, w elone m xm eMaximum nliod ao lpoint ocievLikelihood the Example 3 unaligned consistent. .tincludes ne.tword nconsistent. oewhich can denwhich gilanu is naco pair. aentusisnnaocsesdiuhlcn elrpthe xeE .sirlniaase rcExample h pdwu eh Estimation) formalise suivante the pair. 3which word ihi w3 d om w.tan dphrase sieh ldde ctpair. m xnE .nraiincludes aunaligned han h tnsgiet onp cu sen isahphrase rnoila w33manière deincludes elp n gilaaphrase u an sp ede:sualcrExample n ip3eword eltpma x E rsiiis asp sasri unaligned hhpciis ehhw t drow results into target seitssource gsraresults arsource thtarget dneahT eand cphrases ruopairs s fo sof rphrases iasource p otni and stlust The extraction nti esgtrlu xeegophrase stai rdshn into atsedr nsaseeccorrupossn sa rp irattp tp lauThe seeehcrT sescfoorpsprocess n ti xsetprocess esaeinto ecpairs hoT esofaoitrch retan rusphrase o rextraction iaopitoctaThe nrresults lphrase u rhspseextraction rp nof o caprocess arpairs rhtpxeteand eof p ¯ which words consistent the matrix. rtitaword ialh ad oimatrix. t htiw tneword tsisnalign oc e words and are consistent the sitsnneom c negra eavtm tutctnhave eesem n cd ih w consecutive words are consistent the iladn da roswdre.oh iw n tsonicsgconsecutive nielov atconsecutive shdtriowwtwhich ev eosP crand hafh cē) irhow.x xwitrwhich th acadherrohahave w enh n e¯ scnhave cnoecount( aev danare s,with d eiv umwith cand etsnnealignment om c negvword hrcalignment hwwehwith (1.15) φ(ē| ftit)sui= ¯ alignments directions is easymmetric, teerm aboth snalignment igtiasymmetric, n em giT la csince nis snalignment oitcerid htois count( are is eryidsahstiotbnn i dnegciu es rsm anysoalignments tsin im ltaoneb sienlh T alignments inesm m em lad eircThese neim tacesem d cu rThese reboth arisd tnhetdirections m nin gniilboth adeeare su e,since h T ,co tp iriThese tndngeh g aiproduced ecen isdsonare opiin tecproduced cf dēproduced oi,)rcpiralignment a sm tsince ny ladirections esneh ēoi b and/or alignment methods) these -nunion w sceehstreftotwo sedh othtemtwo tnealignmngilaofrethe ht and/or union other methods) these alignlat reesh tot froo()sndooin u riloa/tdo n oeilh tacthe ersfeorh eintersection (or alignment methods) oiw eh h-n tegthe m nintersection ea m n odi roeohh(ttenm oin r(or on/gdintersection n a rneohitalignment c(or ersor(other eand/or tnnoi in eh w tjours, esg tde )tsn tnu ethe m ide launion u og/ildanoade ntof oeitother nof i)par De nos nombreux systèmes TAStosont appris àt rpartir l’approche séquences ments is then used. ments .deis suthen nehtused. si stnem ments .deis suthen nehtused. si stnem .desu neht si stnem de mots [Bertoldi 2006, Matusov 2006b], mais il existe également d’autres approches The phrase translation probabilities are estimated all phrases s e s a r h g la rbilingual eestimated vo dreconetam iover tse erall a sbilin eiti The probabilities are erla usgenitiilliibballbaorp tearth lasp nailta rstuephrase hspellitranslation etihlriT are evn oseod m esa rilarib oitsaelsThe eohrT sia gen a ebvaobodreptanm enraartsphrase eeista ilrih bp aestimated btranslation p noitaover lsnprobabilities aprall tlaeusbilingual an rover hilpibelh Tphrases nues. Nousepouvons par citer les modèles de traduction factorisés [Koehn the relative target given n on s ies2007], husequence. tThe negiven vil’apg ecthe nThe euqsource es tegrs frequency the the sequence. gteexemple n su target sequence cqneesutqeegsraetcreuhotsfeohytech nnT eeusing vui.qgeecerncfthe qaseleusing scrtreughortsa t efo uequeqtarget refthe arsequence letreeh httfrequency gngiven ueehuTq enuevquiterelative heith n viy gcof enfrequency ceusing n setveiof gtrelative athe fo yicssequence n e.of refcsource ethe veiutaq leesthe r eechrsource tu g 12 proche hiérarchique [Chiang 2005] ou encore l’approche basée sur la syntaxe [Yamada 2001]. Toutefois, ces approches ne rentrant pas dans le cadre de ce manuscrit, nous ne les évoquerons pas ici. 1.2.3 21 12 21 12 21 Modélisation log-linéaire Dans un système classique de TAS basé sur les séquences de mots, tous les modèles sont combinés ensemble par un produit. L’équation 1.8 s’ajoute à l’équation 1.14 pour produire l’équation suivante : ê = arg max e I Y i=1 φ(ēi |f¯i )d(starti − endi−1 − 1)PLM (e) (1.16) Nous pouvons factoriser cette équation pour obtenir l’équation suivante : ê = arg max e I Y hi (x) (1.17) i=1 25 12 Chapitre 1. Domaines fondateurs où x = variable (e, f, start, end) h1 = log φ h2 = log d h3 = log PLM Bien entendu, la traduction qui en résultera sera différente en fonction de chacun de ces modèles. Par conséquent, il peut s’avérer utile que certains modèles puissent avoir un poids supérieur aux autres, afin de favoriser leur distribution de probabilités. Formellement, cela se fait par l’introduction des poids λφ , λd et λLM qui viennent pondérer l’impact de chacun des modèles, selon l’équation : ê = arg max e I Y hi (x)λi (1.18) i=1 Lorsque nous passons dans le domaine logarithmique, les modèles sont considérés comme des caractéristiques, des paramètres (en anglais, des features) et sont pondérés de la façon suivante : ê = exp n X λi hi (x) (1.19) i=1 Par conséquent, l’équation 1.20 est une reformulation de l’équation 1.16 dans le domaine logarithmique : ê = exp[λφ I X i=1 + λd I X i=1 + λLM log φ(ēi |f¯i ) log d(starti − endi−1 − 1) I X log PLM (e)] (1.20) i=1 En pratique, on ajoutera diverses fonctions caractéristiques (feature functions) supplémentaires tant que cela améliore le système, comme par exemple la probabilité inversée de traduction φ(f¯i |ēi ). Toutefois, ce cadre formel est très fréquemment utilisé car il est extrêmement 26 1.2. Traduction automatique statistique flexible et permet justement d’inclure facilement de nombreuses modélisations supplémentaires, comme nous allons le voir dans les sous-parties suivantes. 1.2.3.1 Pondération lexicale Il a été observé expérimentalement qu’ajouter une fonction caractéristique mesurant la qualité de traduction entre deux mots isolés améliore la performance des modèles log-linéaires [Koehn 2003]. Cette pondération lexicale se calcule via le produit des mots individuels pour chaque séquence d’une paire de phrases, comme le montre cette équation : n(ē) lex(ē|f¯, a) = Y i=1 X 1 w(ei |fj ) |{j|(i, j) ∈ a}| (1.21) ∀(i,j)∈a où a correspond à la fonction d’alignement (voir 1.2.2.1) et w(ei |fj ) correspond à la probabilité lexicale de traduction et s’estime par la fréquence relative. Ces probabilités lexicales de traduction s’utilisent, au même titre que les probabilités de traduction des séquences, pour les deux sens de traduction. 1.2.3.2 Modèle de réordonnement lexicalisé Le modèle de distorsion utilisé en TAS basée sur les séquences ne prend en compte que la distance (absolue ou relative), ce qui est considéré comme insuffisant, car naturellement, certaines séquences auront tendance à être plus réordonnées que d’autres. Par conséquent, il existe un modèle de réordonnement lexical basé sur trois orientations possibles dans la matrice d’alignement comme le montre la figure 1.7 : – monotone : lorsqu’un point d’alignement entre deux mots existe dans le coin supérieur gauche, – échange (swap) : lorsqu’un point d’alignement existe dans le coin supérieur droit, – discontinu (discontinuous) : ni monotone, ni échange. Chaque orientation dans chaque paire de séquences extraite est comptée et la distribution de probabilités po est calculée sur la base du maximum de vraisemblance : count(orientation, ē, f¯) P po (orientation|ē, f¯) = ¯ o count(o, ē, f ) (1.22) De plus, à cause de la dispersion des données nécessaires au calcul de chaque orientation, les comptes sont lissés grâce à un facteur σ : po (orientation) = P P count(orientation, ē, f¯) P ēP P ¯ o f¯ ē count(o, ē, f ) f¯ (1.23) 27 Chapitre 1. Domaines fondateurs Figure 2.8: Three orientations types: (m) monotone, (s) swap, (d) discontinuous (taken from [Koehn, 2010]). F IGURE 1.7 – Les trois types d’orientation : (m) monotone, (s) échange, (d) discontinu. puis : 2.4.3 Lexicalized reordering model Standard phrase-based statistical machine translation is only based on ¯) σ po (orientation) + count(orientation, ē, fmovement ¯ P p (orientation|ē, f ) = o distance distortion model which is considered weak. Itē,isf¯)obvious to note that (1.24) σ + o count(o, some phrases are more frequently reordered than others. Therefore, lexicalized reordering model is proposed based on three orientations as shown in figure 2.8 : 1.2.3.3 Pénalités de mot et de séquence • monotone : if a word alignment point to the top left exists Ces fonctions caractéristiques tentent de modéliser la longueur de la traduction produite en termes de• mots deaséquences. De façon générale, à l’aide la pénalité de séquence ρ, on swapet: if word alignment point to the top rightde exists cherchera à favoriser les hypothèses avec un faible nombre de séquences de mots (ρ > 1), pour • discontinuous : neither monotone nor swap limiter la complexité. En introduisant la pénalité de mot ω, on cherche à maximiser le nombre de mots par séquence (ω phrase > 1), afin différencier de la of traduction sur les types mots. Each extracted pairdeisse counted with each the threebasée orientation and probability distribution po is calculated based on the maximum likelihood: 1.2.4 ē, f¯) Optimisation des systèmes decount(orientation, TAS p (orientation|f¯, ē) = (2.16) count(o, ē, f¯) La modélisation log-linéaire utilisée en TAS est une combinaison de plusieurs fonctions Due to the sparseness in the data to calculate the statistics of the each oriencaractéristiques pondérées grâce à un paramètre λi comme le montre l’équation 1.19. Il est donc tation type; the counts are smoothed with a factor ⌥ : important de bien déterminer et optimiser ce paramètre λi pour chaque fonction caractéristique o o hi afin d’obtenir de bonnes performances au niveau du système de TAS. Cela est généralement fait en minimisant les erreurs de traduction sur un corpus de développement pour lequel on dispose d’une ou plusieurs références traduites manuellement. Cette minimisation à dimensions multiples est un problème relativement complexe, pouvant receler de nombreux minima locaux, 24 et possédant un coût important en termes de temps de calcul. 28 1.2. Traduction automatique statistique 1.2.4.1 Minimum Error Rate Training (MERT) [Och 2003a] propose un algorithme supervisé efficace appelé Minimum Error Rate Training (MERT) afin de déterminer les poids optimaux des paramètres λi pour les fonctions caractéristiques hi , à partir d’un corpus de développement. Pendant l’optimisation MERT, le meilleur modèle sera celui qui produira le moins d’erreurs de traduction. En résumé, l’algorithme fonctionne de la manière suivante : – initialisation : les paramètres λi sont initialisés aléatoirement selon des heuristiques, – traduction : une liste de N-meilleures traductions sur le corpus de développement est produite, – comparaison : le score objectif (tel que BLEU, voir 1.2.5) de la liste est comparé au score de l’itération précédente, – ré-estimation : les paramètres λi sont estimés à nouveau, – itération : reproduire les étapes précédentes jusqu’à atteindre une convergence des poids. 1.2.4.2 Margin Infused Relaxed Algorithm (MIRA) Plus récemment, [Hasler 2011] a proposé une implémentation de l’algorithme Margin Infused Relaxed Algorithm (MIRA) [Crammer 2003] pour la TAS. Celui-ci tente de résoudre certains problèmes inhérents à l’optimisation avec MERT, comme le fait que les poids finaux sont totalement dépendants des poids de départ mais également que la part d’aléatoire pourra provoquer des résultats très différents entre plusieurs optimisations. MIRA est un algorithme en-ligne ultra-conservateur (ultra-conservative online algorithm), ce qui signifie qu’il traite son entrée pièce par pièce, de façon sérialisée et que les poids ne sont mis à jour que lorsque l’algorithme se trompe avec une marge qui peut être associée à une fonction de perte telle que le score BLEU. Par conséquent, tout au long du processus, cela force l’algorithme à prendre des décisions qui peuvent à l’issue ne pas s’avérer optimales, pour cette raison l’accent est mis sur la qualité du critère de décision. Concrètement, MIRA apprend et optimise un vecteur de poids w. Après que chaque nouvelle phrase fi ∈ {f1 , . . . , fn } a été traduite par le décodeur, MIRA recherche la plus petite mise à jour des poids courants selon la contrainte suivante : la différence en termes de scores du modèle, ∆hj ·w = (h(e∗i )−h(eij ))·w, entre une traduction de référence e∗i et une hypothèse de traduction eij ∈ {ei1 , . . . , eim } doit être au moins aussi importante que la perte L(e∗i , eij ) = lj entre elles. Dans le cas présent, la perte L est définie comme la différence en termes de score BLEU. Cet algorithme d’optimisation gagne à l’heure actuelle beaucoup de popularité au sein de la communauté scientifique et est en passe de supplanter l’algorithme MERT pour l’optimisation des systèmes de TAS. 29 Chapitre 1. Domaines fondateurs 1.2.5 Évaluation des systèmes de TAS L’évaluation de la traduction automatique statistique est un vaste domaine de recherche à part entière, dont le but est de juger de la qualité d’une traduction automatique. Plusieurs critères peuvent servir à la mesurer, tels que la fidélité, la cohérence, l’adéquation, l’intelligibilité ou encore l’utilisabilité. Aux prémices de la traduction automatique, il n’existait aucune métrique automatique et cette qualité de traduction était évaluée humainement, ce qui bien sûr représente un coût important en termes de moyens et de temps. L’accent était mis sur l’évaluation de l’adéquation et de la fluence selon une certaine échelle [White 1994]. La fluence exprime la propension d’une hypothèse à sembler naturelle à un natif de la langue considérée, tandis que l’adéquation représente la quantité d’information de la traduction de référence contenue dans l’hypothèse. Mais le coût important de l’évaluation humaine rend difficile son usage dans le développement itératif de systèmes de TAS, où des évaluations régulières sont nécessaires pour connaître la performance du système. Pour cette raison, de nos jours, l’accent est mis sur la comparaison des systèmes entre eux et sur les méthodes automatiques d’évaluation de la traduction. Ce besoin a vu naître plusieurs métriques différentes, toutefois, à ce jour, aucun consensus n’est apparu quant à l’utilisation unifiée d’une seule métrique. Les métriques automatiques usent d’un ensemble de phrases de test (également appelé corpus de test) pour lequel des traductions manuelles sont disponibles, appelées traductions de référence. L’idée derrière ces métriques est qu’une traduction automatique d’une phrase serait correcte si elle ressemble à une traduction manuelle de cette même phrase [Papineni 2002]. Les métriques fonctionnent en effectuant des comparaisons partielles de chaînes de caractères entre les hypothèses et les références. Toutefois, le fait de ne disposer que d’une seule référence peut introduire un biais favorisant un style de traduction particulier, pour cette raison il est préférable de disposer de plusieurs références lorsque cela est possible. Nous allons donc exposer ici un aperçu des métriques les plus populaires : – le Word Error Rate (WER) [Och 1999] évalue les hypothèses en se basant sur le nombre d’insertions, suppressions et substitutions requises pour transformer l’hypothèse en la phrase de référence, et est très utilisé en reconnaissance de la parole (voir 1.1.6). Ce WER est considéré comme relativement inadapté à la TAS puisqu’un mot correctement traduit mais à la mauvaise place sera pénalisé à la fois comme une suppression (à l’endroit où il devrait être) et une insertion (à l’endroit où il se trouve réellement). Cela a conduit à l’utilisation du Position-independent word Error Rate (PER) qui considère l’hypothèse et la référence comme des « sacs de mots » non-ordonnés [Och 1999]. 30 1.2. Traduction automatique statistique – Le Translation Edit Rate (TER), extension du WER, est une métrique qui autorise le mouvement de blocs de mots dans la phrase et par conséquent prend en compte le réordonnement les mots et séquences de mots dans l’hypothèse [Snover 2006]. Il quantifie le montant d’opérations d’édition nécessaire à l’obtention de la référence exacte à partir de l’hypothèse. – Le Translation Edit Rate plus (TERp), qui est une extension du TER. Il utilise toutes les opérations d’édition du TER tout en introduisant trois nouvelles opérations : l’accord sur la racine du mot (stem match), l’accord sur les synonymes (synonym match) et la substitution de séquences. À la différence du TER, le TERp assigne un coût variable à la substitution de telle sorte qu’un coût faible est utilisé si les deux mots sont synonymes, partagent la même racine ou sont des paraphrases l’un de l’autre [Snover 2009]. – Le BLEU (bilingual evaluation under study) [Papineni 2002], qui est la métrique la plus couramment utilisée en TAS. Elle fonctionne en mesurant la co-occurrence des N-Grammes entre une hypothèse et un ensemble de traductions de référence puis en calculant la moyenne géométrique. BLEU est une métrique mettant l’accent sur la précision. – Le score NIST [Doddington 2002], qui est une variante du score BLEU, calcule l’informativité d’un N-Gramme donné : plus un N-Gramme correct est rare, plus il aura un poids important. – Le score METEOR [Denkowski 2011] a été développé afin d’éviter certains inconvénients du score BLEU. Il est basé sur la moyenne harmonique pondérée de la précision et du rappel des unigrammes, d’après des recherches réalisées dans [Lavie 2007], où il a été démontré que les métriques basées sur le rappel sont plus proches de l’évaluation humaine que celles basées uniquement sur la précision, telles que BLEU ou NIST. 31 Chapitre 1. Domaines fondateurs 1.3 Modélisation du langage Dans un système de RAP ou de TAS, le rôle du modèle de langage est de restituer des contraintes linguistiques en guidant le décodage. Il permet donc d’éliminer des hypothèses les suites de mots ayant une probabilité très faible et tente de garantir le fait qu’une suite de mots choisie sera aussi grammaticalement correcte que possible. Pour modéliser les contraintes d’une langue, les modèles de langage statistiques les plus souvent utilisés attribuent une probabilité à chaque séquence de mots W de longueur k, exprimée par : P (W ) = P (w1 ) = P (w1 ) k Y i=1 k Y i=1 P (wi |w1 , · · · , wi−1 ) P (wi |hi ) (1.25) où hi représente l’historique du mot wi . Par conséquent, hi = w1 , · · · , wi−1 . La représentation de la probabilité P (W ) du modèle de langage utilisée ici est celle de la reconnaissance automatique de la parole. Pour la traduction automatique statistique, cette probabilité serait représentée par P (e). 1.3.1 Modèles N-Gramme Les modèles de langage de type N-Gramme sont les modèles statistiques les plus utilisés lorsqu’il s’agit de construire un système de RAP ou de TAS. Dans ce genre de modèle, l’historique d’un mot est composé des n − 1 mots qui le précèdent, n étant l’ordre du modèle, généralement d’une valeur de trois ou quatre, bien que des modèles d’ordre cinq voire sept soient parfois utilisés pour des tâches spécifiques. Cette limitation à un ordre de trois ou quatre s’explique principalement par les contraintes techniques et un manque de données d’apprentissage, empêchant de prendre en compte un large historique. Pour des ordres allant de un à quatre, on parlera alors de modèle unigramme (n = 1), bigramme (n = 2), trigramme (n = 3) et quadrigramme (n = 4). Pour un ordre supérieur à 1, l’équation 1.25 peut s’écrire : P (W ) ' P (w1 ) k Y i=n P (wi |wi−n+1 , · · · , wi−1 ) (1.26) Ce type de modèle permet de couvrir aisément la totalité des phrases exprimables dans un langage donné. Lors de la construction d’un tel modèle, l’apprentissage consiste à estimer un ensemble de probabilités à partir d’un corpus de données textuelles. Plusieurs techniques 32 1.3. Modélisation du langage existent afin de réaliser cet apprentissage [Federico 1998], la plus courante étant l’estimation par maximum de vraisemblance : la distribution des probabilités du modèle est celle qui maximise la vraisemblance du corpus d’apprentissage. L’équation 1.27 exprime cette estimation : PM V (wi |wi−n+1 , · · · , wi−1 ) = c(wi−n+1 , · · · , wi ) c(wi−n+1 , · · · , wi−1 ) (1.27) où c(wi−n+1 , · · · , wi−1 ) représente la fréquence d’apparition du N-Gramme wi−n+1 , · · · , wi−1 dans le corpus d’apprentissage. 1.3.2 Lissage Comme nous venons de l’exposer, la qualité d’un modèle de langage N-Gramme dépend fortement de la quantité de données textuelles à notre disposition. L’insuffisance de données reste toujours un des problèmes principaux rencontrés, même avec de très grands corpus, de fait certains N-Grammes n’apparaîtront jamais dans le modèle. Il est même possible que certains mots du lexique qui sera utilisé pour le décodage soient absents du corpus d’apprentissage et par conséquent du modèle généré. Pour ces raisons, il existe diverses techniques de lissage [Chen 1996] qui tentent de compenser ce manque. Elles permettent de généraliser le modèle en attribuant une probabilité non-nulle à un événement inobservé dans le corpus d’apprentissage. Le lissage par repli (en anglais back-off ) est un de ces mécanismes permettant de compenser le manque de données pour certains N-Grammes [Katz 1987]. Dans cette technique, on utilisera une probabilité issue d’un N-Gramme d’ordre inférieur n − 1, n − 2, . . . lorsque le N-Gramme d’ordre n pour un mot et un historique donné n’a pas été observé. À chaque repli sur un ordre inférieur, l’historique se retrouve diminué, ainsi les chances d’obtenir une probabilité réellement estimée sur le corpus d’apprentissage augmentent. En revanche, afin de conserver une distribution cohérente, un coefficient de normalisation est affectée à ce N-Gramme, modifiant ainsi la valeur finale de sa probabilité. D’autres techniques de lissage existent, telles que le lissage Witten-Bell [Witten 1991], basé sur l’interpolation (le modèle lissé d’ordre n est basé sur l’interpolation linéaire entre le modèle non-lissé d’ordre n et le modèle lissé d’ordre n−1) ou encore le lissage Kneser-Ney modifié [Chen 1996] très utilisé de nos jours, qui est une variante du lissage par repli de [Katz 1987]. 1.3.3 Modèles de langage à représentation continue (CSLM) Dans un modèle de langage classique utilisant un lissage par repli, les mots sont représentés dans un espace discret : le vocabulaire. Pour des systèmes à large vocabulaire, il s’avère difficile de généraliser un modèle à des événements inobservés préalablement puisqu’une modification 33 Chapitre 1. Domaines fondateurs d’un mot dans un N-Gramme entraîne la modification de la probabilité de ce N-Gramme. Une approche alternative à cela se base sur une représentation des mots dans un espace continu [Bengio 2003, Schwenk 2007]. Cette technique est utilisée avec succès depuis quelques années, que ce soit en reconnaissance automatique de la parole [Schwenk 2002, Schwenk 2005] ou en traduction automatique statistique [Schwenk 2006, Schwenk 2007]. 1.3.4 Optimisation et évaluation des modèles de langage Les modèles de langage peuvent différer de plusieurs manières : la quantité de données d’apprentissage, l’ordre, la technique de lissage... Afin de guider les décisions prises lors de l’apprentissage d’un modèle, il faut pouvoir mesurer sa qualité. Nous souhaitons que notre modèle favorise les phrases correctes d’une langue, plutôt que les tournures erronées. Si nous disposons d’un corpus de développement, considéré comme composé de phrases correctes, nous pouvons pour chaque phrase calculer la probabilité que notre modèle lui assigne. Un modèle de langage sera considéré comme meilleur s’il assigne une meilleure probabilité qu’un autre à notre corpus. 1.3.4.1 Perplexité La métrique la plus courante pour mesurer la qualité subjective d’un modèle de langage, la perplexité [Jelinek 1977]. Plus la perplexité sera basse, moins le modèle hésitera sur le choix d’un N-Gramme donné. Elle se base sur l’entropie croisée, qui se définit comme : n 1X log PLM (wi |w1 , · · · , wi−1 ) H(PLM ) = − n i=1 (1.28) P P L(W ) = 2H(PLM ) (1.29) où PLM est la probabilité du modèle de langage pour une séquence de mots W et w1 , · · · , wk−1 représente l’historique du mot wi . Par une simple transformation, la perplexité se calcule comme : Nous avons présenté, au cours de ce chapitre, les deux domaines proches que sont la reconnaissance automatique de la parole et la traduction automatique statistique. Nous avons également évoqué le domaine de la modélisation du langage, commun aux deux autres. Nous allons maintenant, dans le chapitre suivant, décrire les spécificités inhérentes à la réunion des deux domaines pour former la traduction de la parole. 34 Chapitre 2 La traduction de la parole Sommaire 2.1 2.2 Spécificités de la traduction de la parole . . . . . . . . . . . . . . . . 36 2.1.1 Disfluences et registres de langue . . . . . . . . . . . . . . . . . 36 2.1.2 Ponctuation, casse et segmentation . . . . . . . . . . . . . . . . 38 Techniques de couplage . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.2.1 Justification théorique . . . . . . . . . . . . . . . . . . . . . . . 41 2.2.2 Traduction de listes de N-meilleures hypothèses (n-best lists) . . 42 2.2.3 Traduction de graphes de mots . . . . . . . . . . . . . . . . . . 43 2.2.4 Traduction de réseaux de confusion . . . . . . . . . . . . . . . . 43 2.2.5 Couplage formalisé par des automates à états finis . . . . . . . . 45 35 Chapitre 2. La traduction de la parole es différentes approches développées pour la traduction automatique statistique sont toutes orientées vers la traduction du langage écrit : articles de presse, rapports parlementaires, sites web, modes d’emploi, forums Internet... Pour la plupart des tâches considérées, le postulat de départ sera que l’on souhaite traduire un ou plusieurs documents qui auront été pensés et produits dans l’optique d’être lus. Néanmoins, le fait de traduire de la parole transcrite automatiquement amène de nouvelles perspectives et représente aujourd’hui un domaine de recherche à part entière dont la popularité auprès de la communauté scientifique ne cesse de croître. L En effet, plusieurs projets et prototypes ont vu le jour au cours des vingts dernières années. Nous pouvons notamment citer le projet Verbmobil [Wahlster 2000] dont le but était le développement d’un système mobile de traduction de la parole spontanée ou encore le récent projet européen TC-STAR dont l’objectif était d’améliorer les performances de la traduction parole à parole (en anglais Speech-to-speech translation, ou STS). Dans ce chapitre, dans un premier temps, nous tenterons de montrer les spécificités inhérentes au problème de la traduction automatique de la parole, à la différence de la traduction automatique statistique de textes. La parole, qu’elle soit transcrite manuellement ou automatiquement, présente des particularités et des difficultés qu’il convient d’identifier afin d’être à même de les prendre en considération. Ensuite, nous nous attacherons à décrire les différentes méthodes de couplage entre un système de reconnaissance et un système de traduction, selon le type d’entrée considérée. 2.1 2.1.1 Spécificités de la traduction de la parole Disfluences et registres de langue Qu’il soit écrit ou oral, chaque document se place dans un registre bien particulier. En effet, à l’écrit, le style sera très différent selon que l’on considère un article de presse, une page sur un site web ou encore une communication officielle. À l’oral, un journaliste qui lit son prompteur ou un homme politique qui prononce son discours présenteront moins de disfluences qu’une conversation téléphonique banale ou encore qu’une interview d’un passant dans la rue. Le registre de langue, à l’oral comme à l’écrit, se définit comme l’adaptation du mode d’expression à une situation ou un auditoire particulier. Il conditionne les choix de vocabulaire, de syntaxe ou encore de style que l’on emploiera en fonction de l’interlocuteur. Celui-ci connaît trois niveaux : – le registre soutenu, principalement employé à l’écrit dans des communications officielles ou la littérature, qui utilise un vocabulaire recherché et où les règles de grammaire normative sont censées être parfaitement respectées, 36 2.1. Spécificités de la traduction de la parole – le registre courant, employé tant à l’oral qu’à l’écrit typiquement avec un interlocuteur que l’on ne connaît pas intimement, qui utilise un vocabulaire usuel et respecte généralement les règles de grammaire, – et le registre familier, employé principalement à l’oral avec des proches, qui utilise un vocabulaire relâché et ne respecte pas nécessairement les règles de grammaire. Le tableau 2.1 présente les principales caractéristiques de chaque registre. Vocabulaire Syntaxe Style Registre familier Termes de la vie quotidienne, familiers, voire argotiques. Registre courant Vocabulaire usuel, sans termes recherchés ou spécialisés. Ruptures, ellipses. Utilisation de temps simples de l’indicatif. Constructions complexes et concordance des temps. Ton neutre, pas d’effets de style. Figures de style, effets recherchés. répétitions, Hyperboles, périphrases, expressions toutes faites. Registre soutenu Termes riches, recherchés, voire rares. TABLE 2.1 – Principales caractéristiques des différents registres de langue. De plus, la parole (et a fortiori la parole spontanée) contient de très nombreuses disfluences qui surviennent naturellement, telles que les hésitations, les répétitions, les faux départs mais aussi les pauses insonores, les marques de discours, les apartés mais aussi les inachèvements et révisions. La plupart de ces disfluences sont transcrites par un système de reconnaissance automatique de la parole, que ce soit littéralement ou sous la forme de fillers. Un système de traduction de la parole doit donc prendre en compte, d’une façon ou d’une autre, toutes ces marques qui font de la parole transcrite un type d’écrit très spécifique [Déchelotte 2007]. Le tableau 2.2 présente des exemples de chacune de ces disfluences. Hésitation Répétition Faux départ Pause (insonore) Marque de discours Aparté Inachèvement Révision euuuh..., mmmh..., allongement syllabique Nous allons voir maintenant la la la fusion des des matériaux... il est il serait de bon ton... Silence de respiration bon, alors, hein, voilà, enfin, et bien, tu sais... par rapport à la mort de comment il s’appelle déjà Mitterand... c’est la moby- le scooter de Martin... la situation est problématique sur le plan du de la diplomatie... TABLE 2.2 – Exemples de disfluences rencontrées en reconnaissance automatique de la parole. 37 Chapitre 2. La traduction de la parole La figure 2.1 présente des exemples de transcriptions manuelles de parole traduites à l’aide d’un système de traduction automatique statistique conçu et optimisé pour la traduction de textes classiques et par conséquent absolument pas adapté à la traduction de transcriptions de parole. Extrait de TED - Aimee Mullins 2009P i n' ont aucune idée de qui il est et dit i monsieur' i i have no idea who he is and i said i 'm sorry sir i don 't have we met i i don 't remember meeting you sorry syr i contractez entretenons-nous recontrées i he said well you wouldn 't remember meeting me i i contractez remember rencontre-là vous précise-il mean when we met i was delivering you from your vous déchiffrent remember reunion monsieur' i mother 's womb signifierait-elle lorsque nous avons rencontré i a delivering vous de votre ventre de la mère Extrait de TED - Michael Specter 2010 i don 't know i 'm i 'm convinced that there 's some i Revêtir Ignore i monsieur' i suis convaincue qu' il y sort of pull to nostalgia to wishful thinking and i a une sorte de extirpez à nostalgia à un voeu pieux et i comprendre que i ne fais pas partie de cette understand that i 'm not part of that crowd crowd Extrait de TED - James Cameron 2010 and you know i i thought wow i 'm i 'm like living in a science fiction movie this is really cool and so i i really got bitten by the bug of deep ocean exploration et vous savez i i PENSÉE wow i monsieur' i monsieur' comme vivre dans une science fiction movie c' est vraiment cool et si i i reellement adonnions mordue par la insecte-assasin de l' exploration des océans F IGURE 2.1 – Exemples de traduction de parole avec un système de TAS inadapté. Nous pouvons voir que le système, en plus de produire des traductions n’ayant pas de sens, bute sur des difficultés inhérentes à la parole telles que les répétitions et les faux départs. Les différences de vocabulaire qui peuvent également exister entre le système de RAP et celui de TAS produiront des résultats inattendus, comme des mots non-traduits par exemple. Les différences de normalisation au niveau de la ponctuation, de la casse et de la segmentation font l’objet de la section suivante. 2.1.2 Ponctuation, casse et segmentation En plus des problèmes dus aux disfluences et aux registres de langue, la traduction automatique de la parole rencontre d’autres difficultés qui la rendent bien différente de la traduction automatique de textes. En effet, de par sa nature, la parole est un flux continu, et sa transcription automatique ne produira donc en sortie qu’une suite de mots, sans segmentation explicite en phrases. Les transcriptions ne contiennent aucune ponctuation ni aucune casse et 38 2.1. Spécificités de la traduction de la parole ne permettent pas de délimiter correctement les phrases entre elles. Bien que le signal de parole contienne quelques informations concernant la prosodie, un système de reconnaissance n’en tient généralement pas compte. Et même lorsque les transcriptions de référence contiennent la casse et la ponctuation, il n’existe pas de règles de placement clairement définies selon les langues, et l’évaluation standard des systèmes de RAP à l’aide du WER se fait sans prendre en considération la ponctuation ni la segmentation, de plus le WER est insensible à la casse, sauf lorsque cela est explicitement demandé. De fait, traduire de la parole dans une langue source vers un texte dans une langue cible demandera de retrouver la ponctuation manquante et de remettre la casse correctement. Dans [Matusov 2006a, Matusov 2009] deux approches pouvant permettre de retrouver celles-ci dans le but de traduire sont proposées : – ponctuer et remettre la casse sur la transcription source, puis la traduire à l’aide d’un système de TAS classique. Cette approche peut toutefois introduire un biais de par les erreurs qui seront commises par le système qui sera utilisé pour remettre la casse et la ponctuation. De plus, selon la technique de couplage utilisée (voir 2.2), réaliser ce prétraitement peut s’avérer coûteux en temps et en ressources. – ponctuer et remettre la casse sur le texte cible, une fois que celui-ci a été traduit par un système de TAS adapté à la parole. Cela peut notamment se faire via une approche à base de table de traduction basée sur les séquences de mots. Néanmoins, ce post-traitement est généralement rendu plus difficile du fait qu’il s’effectue sur un texte contenant a priori plus d’erreurs que le transcription originale ayant été reconnue. Selon les travaux de [Matusov 2006a, Déchelotte 2007], l’approche par pré-traitement est systématiquement plus performante que l’approche par post-traitement. Cependant, les performances que nous avons obtenues dans [Rousseau 2011] au sein de la campagne d’évaluation IWSLT 2011 montrent une bonne efficacité du système de reponctuation et de remise de la casse par post-traitement. Dans [Matusov 2007, Matusov 2009], il est également décrit un algorithme de segmentation automatique d’une transcription produite par un système de RAP, basé sur la détection d’extrémités et sur une modélisation de la longueur des phrases. D’autres approches sont également proposées, telle que celle basée sur un arbre de décision dans [Paulik 2008]. 39 Chapitre 2. La traduction de la parole 2.2 Techniques de couplage Lorsque l’on souhaite traduire de la parole, il est nécessaire, afin de construire un système performant, de disposer de données adaptées à cette tâche. Ces données doivent par ailleurs être disponibles en quantité suffisante, ce qui est rarement le cas pour des données issues de la reconnaissance de la parole. En effet, la plupart des corpus parallèles usuels sont des ensembles de textes issus d’articles d’agences de presse (news), de rapports parlementaires européens (par exemple le corpus europarl), de sites web aspirés (par exemple le corpus ccb)... Partant de ce constat, deux approches opposées sont possibles : – les données d’apprentissage peuvent être transformées afin de ressembler le plus possible aux données que l’on souhaite traduire, à savoir transformer le texte en pseudotranscriptions de parole. Cela peut se faire en passant tout le texte en bas de casse, en retirant la ponctuation, en écrivant les nombres en toutes lettres et en reformant les contractions qui apparaissent à l’oral (par exemple, « I am » deviendra « I’m », « do not » deviendra « don’t »...). De cette façon, le système de TAS sera au plus proche du système de RAP, et c’est une méthode qui à notre connaissance est relativement souvent employée mais rarement décrite dans la littérature. – À l’inverse, les transcriptions que l’on souhaite traduire peuvent être transformées pour ressembler le plus possible aux données d’apprentissage du système de TAS [Déchelotte 2007]. Mais un tel pré-traitement, à notre sens, est plus coûteux en termes d’effort à fournir, puisqu’il est nécessaire de retrouver la ponctuation manquante ainsi que la casse, d’enlever toutes les disfluences, de normaliser les contractions et autres acronymes ainsi que de réunir les mots composés. Une autre possibilité, plus intéressante, sera de combiner ces deux approches, bien qu’elles soient opposées, en transformant les données d’apprentissage du système de TAS tel que nous venons de le décrire, tout en retirant le bruit des transcriptions automatiques à traduire, tel que l’ensemble des disfluences. Ainsi, il est possible d’obtenir une condition de texte « hybride », sans pour autant ralentir de façon considérable le processus de traduction. De plus, il sera indispensable d’optimiser le système de TAS résultant sur des données de développement adaptées à la tâche, comme par exemple des transcriptions manuelles proches des données à traduire. 40 2.2. Techniques de couplage 2.2.1 Justification théorique Comme nous l’avons vu dans la section 1.1.1, le formalisme employé en reconnaissance automatique de la parole, par le biais du théorème de Bayes, est le suivant : fˆ = arg max P (f |X) = arg max P (X|f )P (f ) f f (2.1) Au cœur de cette équation, P (X|f ) représente le modèle acoustique et P (f ) le modèle de langage. En TAS, la modélisation statistique se fait selon le formalisme suivant : ê = arg max P (e|f ) = arg max P (f |e)P (e) e e (2.2) où P (f |e) est le modèle de traduction et P (e) le modèle de langage. Il est donc possible, selon [Ney 1999], de regrouper la reconnaissance automatique de la parole et la traduction automatique statistique dans un cadre théorique (framework) unifié : ê = arg max P (e|X) e = arg max P (X|e)P (e) e = arg max P (e) e X f = arg max P (e) e X f ≈ arg max P (e) e X f ! P (X, f |e) P (f |e)P (X|f, e) ! P (f |e)P (X|f ) ≈ arg max P (e) max P (f |e)P (X|f ) e f ! (2.3) (2.4) L’approximation contenue dans l’équation 2.3 revient à dire que connaître la traduction e d’une phrase source f ne permet pas d’obtenir plus d’informations sur le signal acoustique X. En revanche, l’approximation de l’équation 2.4 remplace la somme de toutes les transcriptions possibles par le maximum obtenu sur une seule transcription, ce qui revient à désigner la phrase source reconnue par le système de RAP. Cependant, cela n’est pas strictement exact, puisque la reconnaissance automatique de la parole utilise un modèle de langage source P (f ), alors que l’équation 2.4 utilise le produit P (e)P (f |e) (donc le modèle de traduction mais surtout 41 Chapitre 2. La traduction de la parole le modèle de langage cible). Cette approximation justifie à elle seule les diverses expérimentations menées sur l’unification des deux domaines que sont la reconnaissance automatique de la parole et la traduction automatique statistique en un seul domaine. Cela pose également une problématique importante : si l’on suppose qu’un modèle de langage en langue source ne permet pas de lever l’ambiguïté entre plusieurs hypothèses de reconnaissance, ne serait-il pas préférable de conserver ces diverses hypothèses et de les traduire, afin de prendre la décision de la meilleure hypothèse en fin de processus, en maximisant P (e)P (f |e), plutôt que de ne tenir compte que de f . Néanmoins, à travers cette justification, nous venons de décrire la technique de couplage la plus simple possible : enchaîner de façon basique et relativement indépendante les deux systèmes (RAP puis TAS) afin de ne traduire que la meilleure hypothèse de reconnaissance (ce que l’on appelle traduction de la 1-best). Nous allons décrire dans les sous-parties suivantes d’autres techniques pouvant permettre un couplage un peu plus étroit. 2.2.2 Traduction de listes de N-meilleures hypothèses (n-best lists) La traduction de listes de N-meilleures hypothèses est a priori la technique de couplage la plus simple entre la RAP et la TAS (hormis la traduction classique de meilleure hypothèse 1-best). Le décodeur de reconnaissance automatique de la parole peut, en sortie, produire un ensemble de N-meilleures hypothèses, classées par leurs scores respectifs, à savoir le score du modèle acoustique, le score du modèle de langage ainsi que d’éventuels scores supplémentaires. Partant de là, chaque hypothèse sera traduite, et la traduction la plus probable sera extraite parmi les N-meilleures hypothèses grâce à une combinaison et pondération des scores de la RAP et des scores obtenus lors de la TAS en un seul score global. Pour cette technique de couplage, il ne sera pas nécessaire de modifier le décodeur de TAS, mais le coût en temps augmentera proportionnellement au nombre d’hypothèses à traduire. L’approche la plus souvent utilisée dans ce cadre est celle exposée dans [Quan 2005], où l’on demandera au décodeur de TAS m hypothèses de traduction pour chacune des n hypothèses de reconnaissance, produisant un total de n×m traductions possibles pour chaque phrase originale. Dans leur approche, les poids de chaque système sont appris séparément, puis sont optimisés conjointement et combinés afin d’extraire l’hypothèse finale. [Quan 2005] rapportent une progression du score BLEU de 1,2 points par rapport à la traduction classique de la meilleure hypothèse de RAP (1-best). Par une approche similaire, [Zhang 2004] propose d’intégrer plusieurs fonctions caractéristiques de la parole et de la traduction dans un modèle log-linéaire afin de réévaluer les scores des hypothèses tout en ajoutant certaines fonctions caractéristiques 42 2.2. Techniques de couplage telles qu’un modèle de langage part-of-speech ou encore une modélisation de la longueur des hypothèses. 2.2.3 Traduction de graphes de mots Un meilleur couplage peut être réalisé en demandant au décodeur de RAP de produire directement en sortie tout ou partie de son espace de recherche sous la forme d’un graphe de mots (voir section 1.1.4), à la condition d’accepter une augmentation importante de la complexité lors de la traduction ainsi que la perte de la possibilité de connaître la meilleure hypothèse de transcription qui serait obtenue via un décodage par consensus [Mangu 1999]. De plus, il est souvent rapporté une certaine inconsistance des gains obtenus lors de la traduction de graphes de mots. Selon [Saleem 2004], cela est causé par le manque de scores linguistiques dans le graphe de mots, qui, s’ils étaient incorporés dans le graphe, provoqueraient une explosion combinatoire extrêmement importante, du fait que dans un modèle de langage, un mot peut avoir un grand nombre d’historiques différents. Dans [Matusov 2005], il est décrit une intégration des scores acoustiques et linguistiques source dans un modèle log-linéaire, mais qui nécessite un élagage important du graphe avant la traduction proprement dite. Le gain obtenu sur une tâche de traduction d’expressions en situation de tourisme (BTEC, Basic Travel Expression Corpus), de l’ordre de deux points BLEU, semble assez important, néanmoins ce gain ne se retrouve pas sur l’évaluation d’une tâche de traduction de discours parlementaire (TC-STAR). Enfin, dans [Zhang 2006], il est exposé un algorithme à deux passes visant à traduire des graphes de mots. Au cours de la première passe, le graphe de mots en langue source est traduit en un graphe de mots en langue cible, en utilisant uniquement les probabilités lexicales d’un modèle de la forme IBM-1 (voir section 1.2.2.2). Puis, lors d’une seconde passe, le graphe de mots cible est réévalué grâce à un modèle IBM-4 et la meilleure hypothèse de traduction est extraite. Les gains rapportés, encore une fois sur une tâche BTEC, sont de l’ordre d’un point BLEU. 2.2.4 Traduction de réseaux de confusion La traduction de listes de N-meilleures hypothèses, ainsi que la traduction de graphes de mots, est une opération coûteuse en temps, comme nous l’avons vu. Néanmoins, les listes et les graphes sont des représentations de données très redondantes, généralement les différentes hypothèses ne diffèrent que d’un ou quelques mots. Afin de pallier ce problème, il existe une représentation plus compacte qui permet de factoriser les redondances : le réseau de confusion. Celui-ci est construit à partir d’un graphe de mots produit par le système de reconnaissance, grâce à un décodage par consensus [Mangu 1999]. 43 Chapitre 2. La traduction de la parole F IGURE 2.2 – Représentation d’un graphe de mots et sa transformation en réseau de confusion (extrait de [Mangu 1999]). La figure 2.2 représente un exemple de graphe de mots et sa transformation en réseau de confusion. Nous pouvons, sur cet exemple, observer facilement la compacité d’un réseau de confusion par rapport au graphe équivalent. De plus, un avantage des réseaux de confusion est qu’ils peuvent potentiellement apporter de nouveaux chemins qui n’existaient pas auparavant dans le graphe. Les arcs du réseau ne portant pas de mots (marqués par un tiret « - ») indiquent un saut direct à l’arc suivant. De plus, les arcs portent également des scores permettant d’en extraire le meilleur chemin, non-représentés sur cette figure. Depuis quelques années, la traduction de réseaux de confusion est devenue une approche très populaire. [Bertoldi 2005, Bertoldi 2007] exposent les travaux ayant initié cette tendance. Ils y décrivent une adaptation de l’algorithme de traduction afin de pouvoir gérer des réseaux en entrée, bien qu’en réalité l’algorithme s’en retrouve très peu modifié. La seule réelle différence réside dans la recherche au sein de la table de traduction pour un intervalle [i, j] donné : dans le cas d’une phrase classique, on recherchera l’ensemble des traductions possibles pour la séquence de mots fi , . . . , fj tandis que dans le cas d’un réseau de confusion l’on recherchera l’ensemble des traductions possibles pour toutes les séquences de mots qu’il est possible de former dans l’intervalle [i, j] considéré. Dans [Bertoldi 2007], il est rapporté de meilleurs résultats que la traduction de listes de N-meilleures hypothèses, pour un coût en temps seulement deux fois supérieur à la traduction simple de la meilleure hypothèse. Il est également intéressant de noter les travaux de [Cattoni 2007], où est proposé une technique permettant de rajouter, directement dans le réseau de confusion, des propositions de ponctuation entre chaque mot (classiquement, trois arcs sont ajoutés entre chaque mot, proposant un saut, un point ainsi qu’une virgule). Bien 44 2.2. Techniques de couplage entendu, cela n’est valable que lorsque l’on souhaite gérer la ponctuation en pré-traitement à la traduction. De plus, cela ne permet pas de gérer la casse, hormis les majuscules de début de phrase qui seront automatiquement ajoutées par le décodeur de TAS. 2.2.5 Couplage formalisé par des automates à états finis Enfin, il est une technique qui, bien que située en marge des techniques plus reconnues et dont les performances sont pour l’instant en retrait par rapport aux réseaux de confusion, reste toutefois très élégante par son approche : l’usage du formalisme des automates à états finis pondérés (Weighted Finite State Machine, WFSM) afin de représenter le processus de traduction automatique de la parole [Mohri 2002, Mohri 2004, Kumar 2006, Justo 2010]. Par cette méthode, chaque automate caractérisera une partie du processus de reconnaissance et de traduction, par exemple un transducteur pour proposer différentes segmentations des séquences de mots en prenant le flux de mots de la reconnaissance en entrée ou encore un accepteur pour servir de modèle de langage. [Mathias 2006] proposent également une implémentation via des automates à états finis pondérés, où ils exposent un algorithme permettant de transformer un graphe de mots en graphe de séquences de mots à l’aide de ces automates. 45 Chapitre 2. La traduction de la parole 46 Chapitre 3 Contexte des travaux Sommaire 3.1 3.2 Principes des campagnes d’évaluation . . . . . . . . . . . . . . . . . 48 3.1.1 Définition et but premier . . . . . . . . . . . . . . . . . . . . . . 48 3.1.2 Autres finalités essentielles . . . . . . . . . . . . . . . . . . . . 49 Historique des campagnes récentes . . . . . . . . . . . . . . . . . . . 50 3.2.1 Reconnaissance automatique de la parole . . . . . . . . . . . . . 50 3.2.1.1 En langue anglaise . . . . . . . . . . . . . . . . . . . 50 3.2.1.2 En langue française . . . . . . . . . . . . . . . . . . . 51 Traduction automatique statistique . . . . . . . . . . . . . . . . 52 Les campagnes d’évaluation en traduction de la parole . . . . . . . . 54 3.3.1 Les campagnes TC-STAR . . . . . . . . . . . . . . . . . . . . . 54 3.3.2 Les campagnes IWSLT . . . . . . . . . . . . . . . . . . . . . . 55 3.2.2 3.3 47 Chapitre 3. Contexte des travaux e chapitre de transition a pour objectif de présenter le contexte dans lequel les différentes contributions relatées dans ce manuscrit ont été développées. En effet, la majorité des travaux exposés ici ont été réalisés dans le cadre de campagnes d’évaluation dédiées à la traduction automatique de la parole. Ces campagnes ayant constitué le point de départ et le moteur de nos avancées dans le domaine, il nous a paru important de leur consacrer un chapitre afin de situer le cadre de travail dans lequel nous avons pu évoluer. C Dans un premier temps, nous définirons et présenterons les principes généraux d’une campagne d’évaluation. Ensuite, nous ferons un tour d’horizon des différentes campagnes qui se sont déroulées ces dernières années, aussi bien dans le domaine de la reconnaissance automatique de la parole que dans celui de la traduction automatique statistique. Enfin, nous nous intéresserons plus spécifiquement aux campagnes dédiées au domaine qui nous intéresse, à savoir la traduction automatique de la parole, avec une emphase sur les deux principales ayant été au cœur de nos travaux : d’une part les campagnes menées dans le cadre du projet TC-STAR, ainsi que les campagnes d’évaluation prenant place lors des conférences IWSLT. 3.1 Principes des campagnes d’évaluation À quel point les systèmes de reconnaissance automatique de la parole, de traduction automatique statistique et de traduction automatique de la parole sont-ils efficaces de nos jours ? Comment les techniques et approches répandues évoluent-elles, quelles sont les avancées significatives réalisées à travers le monde ? C’est à ces questions (et à d’autres) que tentent de répondre, de façon globale, les campagnes d’évaluation. 3.1.1 Définition et but premier Une campagne d’évaluation scientifique consiste en une tâche soumise aux chercheurs ou équipes de chercheurs travaillant dans un domaine spécifique et volontaires pour participer à ladite campagne. Dans cette tâche, on demandera aux différentes équipes participantes de produire un système à la hauteur de l’état de l’art dans le domaine considéré, à partir d’un jeu de test commun à tous les participants, comme par exemple traduire un ensemble de phrases donné pour le cas de la traduction automatique statistique. Le système sera généralement construit à partir de données d’apprentissage restreintes, c’est-à-dire fournies par les organisateurs et dont la liste aura été fixée à l’avance, bien que des campagnes « libres » existent également. Cette production, qui devra être achevée dans un temps imparti, devra ensuite être soumise aux organisateurs de la campagne qui centraliseront la production de chaque équipe participante. Par la suite, le résultat de chaque équipe de chercheurs sera mesuré et quantifié à l’aide d’une 48 3.1. Principes des campagnes d’évaluation ou plusieurs métriques inhérentes au domaine considéré. À l’issue de cette évaluation, chaque équipe participante rédigera un article de quelques pages résumant les travaux accomplis (appelé description de système) et mettant en avant les spécificités de chacun par rapport aux standards établis. La comparaison qui en résultera permettra donc d’évaluer le potentiel de chaque méthode ou approche proposée et d’en dégager les approches le plus prometteuses. Cela permet également d’évaluer les performances de l’état de l’art et d’en tirer les enseignements qui permettront d’améliorer les systèmes proposés. 3.1.2 Autres finalités essentielles Par ailleurs, l’organisation de campagnes d’évaluation régulières remplit également un certain nombre de rôles parallèles à l’évaluation pure et simple des performances. En effet, et bien que cela puisse paraître anecdotique, les campagnes d’évaluation permettent de fédérer l’ensemble d’une communauté autour d’un même objectif et de faciliter les échanges entre équipes de recherches et laboratoires. De plus, cela facilite grandement le financement de jeux de données (d’apprentissage et de test) qui sont souvent, hors de ce cadre, relativement difficiles à trouver, car la production de corpus de qualité reste très coûteuse. Cela permet aussi le financement des outils d’évaluation qui, bien que généralement développés pour une seule campagne, sont régulièrement repris par l’ensemble de la communauté scientifique comme référence pour l’évaluation interne de systèmes. Enfin, et ce dernier point concernera plutôt les organismes prenant part au financement des campagnes, cela permet d’opérer une veille technologique du domaine par le biais des différents articles de description de systèmes soumis par les participants ainsi que les articles systématiquement écrits par les organisateurs à l’issue d’une campagne afin d’en faire le tour d’horizon. 49 Chapitre 3. Contexte des travaux 3.2 Historique des campagnes récentes La tradition des campagnes d’évaluation remonte, que ce soit dans le domaine de la reconnaissance de la parole, de la traduction automatique ou plus généralement du traitement du langage naturel, au début des années 1990. Au départ, celles-ci étaient organisées à l’initiative des États-Unis par la DARPA (Defense Advanced Research Projects Agency) et le NIST (National Institute of Standards and Technology). Très vite, d’autres pays dont la France commencèrent à organiser leurs propres campagnes, qu’elles soient d’envergure nationale ou internationale. Nous allons donc dans cette section proposer un tour d’horizon des diverses campagnes significatives ayant pu être organisées dans chacun de ces domaines. 3.2.1 Reconnaissance automatique de la parole 3.2.1.1 En langue anglaise Historiquement, les premières campagnes internationales en reconnaissance automatique de la parole à proprement parler remontent à la fin de l’année 1993, avec les benchmark tests organisés par la DARPA, auxquels ont participé plusieurs universités américaines mais aussi des laboratoires étrangers provenant du Canada, de France, d’Allemagne ou encore du Royaume-Uni [Pallett 1994]. À cette époque, le but de la tâche proposée était d’améliorer les performances de base des systèmes sur des données considérées comme propres. Elle consistait en un décodage de 200 segments issus de 10 locuteurs (20 segments par locuteur) grâce à un système statique (i.e. non-adaptif) à l’aide d’un vocabulaire fermé commun à tous les participants, afin que tous les systèmes soient comparables entre eux. Les résultats (en termes de WER) variaient entre 16.8% et 12.2% pour le meilleur système, ce qui représentent de bons scores pour l’époque, cependant il est nécessaire de considérer la simplicité de la tâche, qui est très différente des campagnes menées de nos jours. Par la suite, au fil des années, ces benchmark tests ont évolué vers de la reconnaissance de la parole « appliquée », à savoir des tâches de reconnaissance sur des journaux radiophoniques (broadcast news), qui constituent toujours aujourd’hui la majorité du contenu des campagnes d’évaluation. Lors de l’évaluation NIST de 1998 [Pallett 1999], les corpus de test consistaient en deux séries de segments extraits de journaux radiophoniques d’une durée respective d’une heure et d’une demi-heure. Pour cette évaluation, les scores (toujours en termes de WER) variaient entre 25.7% et 13.5%. Depuis, à partir de 2002, NIST a organisé des évaluations tendant à produire des transcriptions plus riches (Rich Transcription evaluations, ou RT) et à se focaliser sur des tâches plus ardues telles que la reconnaissance sur de la parole spontanée ou conversationnelle ou encore la 50 3.2. Historique des campagnes récentes transcription de réunions avec de multiples intervenants simultanés. Ces évaluations prennent également en compte le temps de traitement, avec une volonté de se rapprocher du temps réel. Dans ce cadre, lors de l’évaluation de 2003, les meilleurs systèmes proches du temps réel obtenaient un score WER de 14.6%, tandis que le meilleur système sans contrainte de temps parvenait à descendre sous la barre des 10% (9.9% exactement) [Pallett 2003]. Les dernières données datant de 2007 montrent un score WER (sans contrainte) de 7.4% [Fiscus 2008]. 3.2.1.2 En langue française Au niveau national, l’évaluation de la reconnaissance automatique de la parole a connu un premier coup d’essai dès 1997 avec la campagne ARC (B1) organisée par l’Agence Universitaire de la Francophonie 2 (AUF), qui portait sur de la reconnaissance de parole lue (journalistique). Par la suite, une seconde campagne, portant sur la transcription d’émissions radiophoniques, avait été envisagée, sans toutefois aboutir. Malgré cela, les réunions de préparation qui avaient eu lieu avaient clairement montré l’intérêt des différents laboratoires français à travailler sur la transcription enrichie d’émissions en langue française. Les avantages à l’organisation de telles campagnes avaient été parfaitement identifiés : fédérer les efforts de recherche des laboratoires français et francophones dans ce domaine, favoriser le développement du traitement automatique de la langue française et dresser un panorama des acteurs académiques et industriels du domaine ainsi que de l’état de l’art. Ensuite, il fallut attendre l’année 2003 avec l’organisation de la première campagne d’évaluation ESTER (Évaluation des Systèmes de Transcription enrichie d’Émissions Radiophoniques) conjointement par l’Association Francophone de la Communication Parlée (AFCP), la Délégation Générale pour l’Armement (DGA) ainsi que l’Evaluations and Language resources Distribution Agency (ELDA) [Gravier 2004]. Cette campagne reprend le modèle des évaluations NIST américaines. Organisée en deux phases (« tests à blanc » puis campagne d’évaluation), elle avait pour but de mettre en place une certaine dynamique de l’évaluation. Elle visait également à permettre le développement d’un corpus conséquent adapté à la tâche visée ainsi qu’un ensemble de ressources d’évaluation destiné à la communauté scientifique. Les résultats de la première phase montrèrent des scores WER à hauteur de 40% pour la plupart des participants (dont le LIUM). Cela permit de mettre en place une procédure et des conditions d’évaluation clairement définies pour la seconde phase, qui se déroula en janvier 2005 et dont le corpus de test était constitué de dix heures d’audio provenant de six stations de radio. Les résultats à l’issue de cette seconde phase montrèrent des scores très bons, le meilleur système 2. http://www.auf.org 51 Chapitre 3. Contexte des travaux obtenant un WER global de 11.8% sur les six stations évaluées. Le LIUM, quant à lui, obtint une moyenne de 23.2% ce qui en fit le second meilleur système de la campagne [Galliano 2005]. En janvier 2008, les trois mêmes organismes (AFCP, DGA et ELDA) ont organisé une seconde campagne nommée ESTER 2 avec pour finalité la mesure des progrès réalisés dans le domaine de la reconnaissance automatique de la parole depuis ESTER 1 ainsi que le lancement de nouveaux axes de recherche et la production de nouvelles ressources, notamment un corpus annoté de taille conséquente. Organisée de la même manière que son aînée, elle se décomposait à nouveau en deux phases, en revanche ces phases étaient toutes deux des évaluations (il n’y avait pas de “tests à blanc”), la différence se faisant sur les tâches évaluées au sein de chaque phase. La première, qui se déroulait en novembre et décembre 2008, concernait donc l’ensemble des tâches de segmentation et de transcription, tandis que la seconde, qui eut lieu de janvier à mars 2009, se concentrait sur les tâches d’extraction d’informations. Le LIUM participa à la première phase, et se classa troisième sur la tâche de transcription (score WER de 17.8%) et premier sur la tâche de segmentation (score DER, Diarization Error Rate, de 10,8%) [Galliano 2009]. Le meilleur score sur la tâche de transcription était de 12.1%. 3.2.2 Traduction automatique statistique La première campagne d’évaluation en traduction automatique statistique fut organisée par la DARPA en 1992. Cela a permis de déterminer la faisabilité de l’utilisation de certaines métriques et d’en abandonner d’autres, inadaptées à la traduction automatique. Par conséquent, à la suite de cette campagne, il fut décidé lors de deux campagnes en janvier et août 1994 d’évaluer les systèmes de traduction en soumettant à des humains des tests de compréhension portant sur l’adéquation et la fluence des phrases traduites par rapport à des phrases de référence [White 1994]. Ceci marqua le point de départ d’une dynamique d’évaluations qui perdure de nos jours. On peut notamment citer les campagnes Open Machine Translation (OpenMT) de NIST, démarrées en 2001 et dont la dernière s’est déroulée en 2012. Le LIUM a participé en 2012 sur les tâches de traduction arabe-anglais et chinois-anglais, en se classant dans le quatuor de tête pour la traduction de l’arabe vers l’anglais et dans la moyenne des participants pour la traduction du chinois vers l’anglais. Comme leur nom l’indique, ce sont des campagnes très ouvertes, accessibles à tous et qui ambitionnent de diriger les efforts de recherches vers l’amélioration des possibilités techniques dans le domaine. De façon similaire, la série de campagnes GALE 3 (Global Autonomous Language Exploitation), interne à un projet démarré en 2006, porte l’accent sur la traduction de l’arabe et du 3. http://www.itl.nist.gov/iad/mig//tests/gale 52 3.2. Historique des campagnes récentes chinois vers l’anglais, dans un contexte international où la possibilité de traduire automatiquement ces langues demeure un avantage stratégique certain. Le LIUM a régulièrement participé à cette série de campagnes et fait partie des structures obtenant les meilleurs résultats. Enfin, et c’est probablement l’une des séries de campagnes les plus prisées en traduction automatique statistique, il est également indispensable de mentionner les évaluations organisées dans le cadre des workshops WMT en marge des conférences ACL (Association for Computational Linguistics 4 ) ou EMNLP (Empirical Methods in Natural Language Processing). Organisée chaque année depuis 2006, la campagne WMT propose une évaluation sur la traduction de langues européennes, notamment français-anglais, espagnol-anglais et allemand-anglais dans les deux sens. D’autres langues ont pu être ajoutées au fil des ans comme par exemple le tchèque ou encore le hongrois. Le LIUM participe systématiquement à ces campagnes depuis l’édition 2008 et se classe régulièrement parmi les meilleurs systèmes engagés. La dernière campagne WMT en date s’est déroulée cette année en juin, où le LIUM s’est classé dans la moitié haute des participants (respectivement septième et cinquième sur quinze pour les tâches de traduction français-anglais et anglais-français) [Callison-Burch 2012]. 4. http://http://www.aclweb.org/ 53 Chapitre 3. Contexte des travaux 3.3 Les campagnes d’évaluation en traduction de la parole Depuis le milieu des années 2000, avec l’intérêt grandissant de la communauté scientifique pour la traduction de la parole, des campagnes d’évaluation dédiées à ce domaine ont fait leur apparition. L’organisation de campagnes régulières a commencé avec l’apparition du projet européen PF-STAR (Preparatory action on Technology and Corpora for Speech to Speech Translation) soutenu par le consortium international CSTAR (Consortium for Speech Translation Advanced Research) dès 2004 [Federico 2003]. Dans le même temps, un workshop international sur la traduction de la parole (IWSLT, International Workshop on Spoken Language Translation) a été organisé par ce même consortium, comprenant la publication d’articles scientifiques mais aussi une campagne d’évaluation spécifique au domaine. Nous allons dans cette section décrire ces deux séries de campagnes qui nous intéressent tout particulièrement, puisque se situant au cœur du contexte de cette thèse. 3.3.1 Les campagnes TC-STAR TC-STAR (Technologies and Corpus for Speech to Speech Translation) était un projet européen d’une durée de trente-six mois qui se déroula d’avril 2004 à mars 2007. Il est le premier projet conjoint de recherche visant à promouvoir la traduction de parole à parole sans restriction de domaine. L’ambitieux objectif premier était de produire des avancées significatives dans tous les domaines de la traduction parole-à-parole, à savoir la reconnaissance automatique, la traduction de la parole et la synthèse vocale ; ceci afin de réduire l’écart existant entre les traductions automatiques et les traductions humaines. Le projet ciblait des domaines de parole non-contraints comme des discours ou des émissions radiophoniques dans trois langues : l’anglais britannique, l’espagnol européen et le chinois mandarin. La traduction précise de ce genre de domaine se situant bien au-delà des possibilités des systèmes à l’état de l’art, l’organisation d’un tel projet prenait tout son sens. Les buts à atteindre à long terme étaient les suivants : – reconnaissance de la parole efficace et robuste quel que soit le style, les conditions d’enregistrement, le locuteur ; et capable de s’adapter à des conditions particulières de façon transparente, – traduction de la parole efficace sur de la parole conversationnelle non-contrainte dans de larges domaines de discours, – intégration effective de la reconnaissance et de la traduction dans un cadre statistique unifié, – ressemblance entre la synthèse de la parole et la parole humaine réelle. Afin de parvenir à ces résultats, les actions mises en place furent les suivantes : 54 3.3. Les campagnes d’évaluation en traduction de la parole – l’implémentation d’une infrastructure d’évaluation compétitive (campagnes), – la création d’une infrastructure technologique pour favoriser la diffusion des résultats scientifiques, – la récolte et l’acquisition de ressources appropriées, – le support financier de la dissémination des résultats scientifiques au sein du consortium et de la communauté. Au cours de ces trois années, les efforts mis dans les campagnes d’évaluation ont permis de parvenir à des améliorations importantes des performances, bien que beaucoup reste à faire. Mais cela a eu comme effet de lancer une certaine dynamique qui perdure encore aujourd’hui, s’étant établi comme « mètre-étalon » de la discipline. De nombreux laboratoires continuent de se baser sur les avancées et les données qui ont résulté de ce projet. Ce fut la première fois que la problématique de la traduction de la parole fut étudiée dans un cadre réel, et les mesures de progression au cours des trente-six mois ont montré une amélioration de 40 à 60% relatifs dans la qualité de la transcription et de la traduction [Hamon 2007]. 3.3.2 Les campagnes IWSLT Les campagnes IWSLT (International Workshop on Spoken Language Translation), organisées par le consortium CSTAR depuis 2004, sont des campagnes d’évaluation de la traduction de la parole d’envergure internationale. Lors des premières éditions, ces campagnes ne comprenaient pas directement d’évaluation de la reconnaissance automatique de la parole. Historiquement, la tâche de traduction pour l’évaluation est une tâche de type BTEC (Basic Travel Expression Corpus), consistant donc en la traduction d’expression courantes en situation de voyage à l’étranger. Chaque année, en plus de la campagne, un workshop est organisé afin de réunir la communauté autour de la communication des résultats et de présentations des articles scientifiques et des descriptions de systèmes qui y ont été soumis. Lors de la campagne 2007, une nouvelle tâche a été proposée, celle-ci consiste en la traduction de dialogues, toujours dans des situations de voyages à l’étranger. Puis, lors de la campagne 2010, de nouveau une tâche a été ajoutée. Elle consistait en la traduction de l’anglais vers le français de présentations scientifiques issues du site web TED (Technology, Entertainment, Design) 5 , d’abord à partir de transcriptions fournies, puis directement à partir de fichiers audio lors de la campagne 2011, ce qui en fit la première vraie évaluation d’un système complet de traduction de la parole. Le LIUM a participé aux campagnes 2010 [Paul 2010] et 2011 [Federico 2011]. Lors de la campagne 2010, nous nous sommes classés quatorzièmes sur dix-neuf pour la traduction des transcriptions de référence, et onzièmes pour la traduction des sorties de reconnaissance de la 5. http://www.ted.com 55 Chapitre 3. Contexte des travaux parole. Les performances moyennes que nous avons obtenues étaient principalement dues au manque de temps auquel nous avons fait face lors de la construction de notre système, de plus cela était notre première participation à une évaluation de traduction de la parole, il nous a été assez difficile de nous adapter aux nouvelles contraintes, différentes d’une campagne d’évaluation en traduction automatique classique [Rousseau 2010]. Toutefois, nous avons décidé de réitérer notre participation lors de la campagne suivante, en 2011. Cette fois, toujours dans le cadre de la tâche de traduction de présentations scientifiques, il était question de traduire à partir de fichiers audio et non plus à partir de transcriptions. Nous avons donc dû mettre en place un système complet de traduction de la parole anglais vers français (système de reconnaissance en anglais et système de traduction anglais-français adapté). Nos efforts furent payants, puisque nous avons cette année-là finis premiers de l’évaluation avec une marge relativement confortable. De plus, nous avons également eu le plaisir de remporter le « Best system Paper Award », un prix qui était décerné au meilleur article de description de système de la campagne [Rousseau 2011]. C’est donc dans ce contexte que se place l’essentiel de mes travaux de thèse. Les participations aux campagnes IWSLT 2010 mais surtout 2011 furent le point de départ des diverses contributions décrites dans ce manuscrit, notamment la création du corpus TED-LIUM, préalable à la campagne 2011 ; la construction complète du système de traduction de la parole anglais-français du LIUM, mise en place sur les deux années ; mais également les travaux sur la sélection de données et l’optimisation du système, démarrés à l’issue de la campagne 2011. 56 Deuxième partie De la construction d’un système de traduction de la parole soumis à des contraintes applicatives 57 Chapitre 4 De la pertinence et de la cohérence des données d’apprentissage Sommaire 4.1 4.2 4.3 Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 4.1.1 Construction du corpus d’apprentissage . . . . . . . . . . . . . . 60 4.1.1.1 Collection des données . . . . . . . . . . . . . . . . . 61 4.1.1.2 Alignement du texte sur le signal acoustique . . . . . . 63 4.1.2 Construction du corpus de développement . . . . . . . . . . . . 70 4.1.3 Disponibilité et distribution du corpus . . . . . . . . . . . . . . 71 Données pour la traduction automatique statistique . . . . . . . . . . 72 4.2.1 Données d’apprentissage parallèles . . . . . . . . . . . . . . . . 72 4.2.2 Données de développement et de test . . . . . . . . . . . . . . . 73 Données d’apprentissage monolingues pour la reconnaissance et la traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Données pour la modélisation du langage en reconnaissance automatique de la parole . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 4.4 76 76 Données pour la modélisation du langage en traduction automatique statistique . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Harmonisation des données . . . . . . . . . . . . . . . . . . . . . . . 78 4.4.1 Cohérence dans la forme des données . . . . . . . . . . . . . . . 78 4.4.2 Cohérence dans le choix des mots . . . . . . . . . . . . . . . . . 80 59 Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage omme nous l’avons vu au cours des chapitres précédents, il est indispensable, afin de construire un système de traduction de la parole performant et cohérent, de disposer d’un jeu de données d’apprentissage homogène et adapté à l’application sur la reconnaissance automatique de la parole et la traduction automatique statistique. De plus, généralement, les systèmes de traduction de la parole sont construits dans l’optique d’une tâche de traduction dans un domaine bien spécifique, comme par exemple le domaine médical [Rayner 2008], les conversations de voyage [Takezawa 2002] ou encore les présentations scientifiques [Stüker 2012]. C C’est dans ce contexte de présentations scientifiques que nous avons développé notre propre jeu de données destiné à servir de ressource d’entraînement pour notre système de traduction de la parole. Ce corpus a récemment fait l’objet d’une publication à la conférence LREC2012 [Rousseau 2012]. Dans ce chapitre, nous décrirons dans un premier temps le jeu de données réalisé pour la reconnaissance de la parole, de la collection des données aux caractéristiques finales qui le composent, puis nous nous intéresserons au jeu de données utilisé pour la composante traduction de notre système. 4.1 Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM Le corpus TED-LIUM est un corpus dédié à la traduction de la parole. Il a été conçu dans le cadre des campagnes d’évaluation IWSLT (International Workshop on Spoken Language Translation), à la suite de la campagne 2010 en vue d’une utilisation lors de la campagne 2011 (voir à ce sujet la section 3.3.2). Son domaine d’application est volontairement limité : il s’agit ici de transcrire et traduire des présentations scientifiques, de l’anglais au français. Nous allons, dans cette section, décrire le processus de construction du corpus, pour lequel nous sommes partis de zéro et qui nous a par la suite amenés à le mettre à disposition de la communauté scientifique une fois achevé. 4.1.1 Construction du corpus d’apprentissage Le corpus TED-LIUM est basé sur des présentations scientifiques orales en anglais, disponibles sur le site de TED 6 (Technology, Entertainment, Design) et dispensées lors des conférences TED qui sont organisées à travers le monde depuis bientôt trente ans. Sur leur site, des vidéos de ces présentations sont téléchargeables par tout un chacun, accompagnées de leurs 6. http://www.ted.com 60 4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM transcriptions et, pour la plupart, de leurs traductions dans plusieurs langues. Ce travail est assuré par des contributeurs bénévoles, sans qu’une convention d’annotation précise ne soit définie. 4.1.1.1 Collection des données Afin de disposer d’une quantité exploitable de données de départ, nous avons développé un outil écrit avec le langage de script Perl nous permettant de télécharger de façon automatique toutes les vidéos TED de notre choix, en l’espèce celles qui bénéficiaient à la fois d’une transcription en anglais mais aussi d’une traduction en français, dans le but de construire notre système de traduction de la parole de l’anglais vers le français. Toutefois, les expérimentations sur l’extraction ayant été débutées en février 2011, toutes les présentations extraites sont comprises entre février 1984 et cette date. L’outil fonctionne en deux phases, la première ayant pour but de connaître la liste des présentations à extraire, la seconde servant effectivement à récupérer les donnés. La première phase se déroule de la façon suivante : 1. télécharger la liste complète des présentations en anglais et la liste des traductions française sur deux pages spécifiques du site, 2. comparer ces listes afin d’en conserver l’intersection (i.e. la liste des présentations dont les sous-titres ont été traduits en français), 3. extraire du site le code HTML de chaque page retenue dans la liste. Pour la seconde phase, nous procédons de cette manière : 1. à partir du code HTML des pages téléchargées, repérer le nom de la vidéo afin de pouvoir donner un identifiant unique à chaque présentation, 2. extraire le lien de la vidéo et la récupérer localement, 3. extraire le texte de la transcription en anglais et le texte de la traduction en français, 4. grâce à une suite d’outils libres (respectivement mplayer et sox), extraire le flux audio de la vidéo puis le convertir dans le format utilisé pour la construction de systèmes de reconnaissance (format NIST Sphere). À la fin de la collecte des données, celles-ci sont traitées par un script spécifique, dont le but est de transformer les données textuelles télechargées en données ressemblant aux sorties d’un système de reconnaissance automatique de la parole. 61 Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage Cette normalisation est faite en appliquant les modifications suivantes : – recoller les phrases en fusionnant les lignes concernées (on considérera qu’une phrase est constituée de tout le texte contenu entre une majuscule et un point, à quelques exceptions près), – transformer tous les nombres écrits en chiffres en nombres écrits en toutes lettres, – retirer toute la ponctuation et les caractères spéciaux, tout en en transformant certains signes en toutes lettres (% vers « pourcent », par exemple), – passer tout le texte restant en minuscules, – séparer les mots composés (autrement dit, enlever le tiret), – nettoyer le corpus de toutes traces restantes (comme par exemple des espaces multiples). La figure 4.1 illustre la différence entre le texte original tel qu’il a été extrait à partir du site de TED (en haut) et le texte obtenu une fois normalisé pour ressembler aux sorties d’un système de reconnaissance automatique de la parole (en bas). I'm here today to show my photographs of the Lakota. Many of you may have heard of the Lakota, or at least the larger group of tribes called the Sioux. The Lakota are one of many tribes that were moved off their land to prisoner of war camps now called reservations. The Pine Ridge Reservation, the subject of today's slide show, is located about 75 miles southeast of the Black Hills of South Dakota. It is sometimes referred to as Prisoner of War Camp Number 334, and it is where the Lakota now live. i 'm here today to show my photographs of the lakota many of you may have heard of the lakota or at least the larger group of tribes called the sioux the lakota are one of many tribes that were moved off their land to prisoner of war camps now called reservations the pine ridge reservation the subject of today 's slide show is located about seventy five miles southeast of the black hills of south dakota it is sometimes referred to as prisoner of war camp number three hundred and thirty four and it is where the lakota now live F IGURE 4.1 – Normalisation du texte obtenu à partir de l’extraction des transcriptions du site TED. 62 4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM Puis, grâce à l’outil de segmentation automatique et de regroupement en locuteurs du LIUM, LIUM_SpkDiarization [Meignier 2010], nous avons généré un découpage automatique du signal acoustique de chaque présentation en segments de parole, afin d’éliminer les zones du signal ne contenant aucune parole. Le tableau 4.1 décrit l’ensemble des caractéristiques de départ des données ayant été extraites de cette façon. Nombre de shows Avec locuteur masculin Avec locuteur féminin Durée totale de l’audio Moyenne par show Durée totale de parole Dont locuteur masculin Dont locuteur féminin Moyenne par show Nombre de segments de parole Dont locuteur masculin Dont locuteur féminin Durée moyenne d’un segment Nombre de locuteurs uniques Masculins Féminins Shows par locuteur unique Nombre de mots dans les transcriptions Nombre de mots moyen par show 818 555 (67,85%) 263 (32,15%) 215h, 42m, 25s 15m, 49s 193h, 5m, 16s (89,51%) 130h, 18m, 59s (67,49%) 62h, 46m, 17s (32,51%) 14m, 9s 81 853 53 864 (65,80%) 27 989 (34,20%) 8,49 secondes 700 471 (67,28%) 229 (32,72%) 1,17 1 981 388 2 422 TABLE 4.1 – Caractéristiques de départ du corpus TED-LIUM après extraction. La construction du vocabulaire d’apprentissage, commune à la génération des systèmes utilisés pour la réalisation de ce corpus et à l’apprentissage de nos systèmes finaux, sera discutée au cours de la section 5.2.2.1. 4.1.1.2 Alignement du texte sur le signal acoustique Bien qu’une quantité intéressante de données ait pu être extraite, celle-ci n’est pas utilisable directement. En effet, bien que des indications de temps existaient dans les données textuelles extraites, celles-ci n’étaient en aucun cas exploitables du fait de leur manque de précision (à la seconde près, tandis que la reconnaissance de la parole exige une précision à la milliseconde). 63 Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage Il est donc nécessaire, afin de produire un corpus utilisable pour l’apprentissage de systèmes de reconnaissance, d’aligner le texte extrait sur le signal audio. Nous avons réalisé ce travail par une suite d’itérations dont le but était d’obtenir des transcriptions de référence suffisamment précises pour pouvoir servir de corpus d’apprentissage mais également de retirer de l’ensemble des données tous les segments automatiques ne pouvant être alignés convenablement. Ces itérations suivent globalement le même schéma pour raffiner les données : construire à chaque fois un nouveau modèle acoustique servant à décoder l’ensemble des segments, faire correspondre les trames acoustiques aux phonèmes supposés du texte puis filtrer les segments obtenus selon certains critères. En ce qui concerne les disfluences, nous les avons gérées de la façon suivante : les répétitions doivent être transcrites, les hésitations sont associées à un mot filler spécifique et les faux départs sont ignorés. De plus, les mots filler ne sont pas pris en compte dans l’évaluation des alignements. Itération 0 : amorçage (bootstrap) La toute première étape de notre processus d’alignement consistait en l’obtention d’un ensemble d’informations temporelles approximatives dont le but était de servir de base pour les itérations suivantes. Nous avons pour cela utilisé l’ensemble d’outils de décodage CMU Sphinx-3 [Lee 1990] dans sa configuration la plus simple. Les modèles acoustiques employés sont ceux proposés librement par CMU, appris sur les données d’entraînement HUB4. Ces modèles sont estimés avec des vecteurs MFCC composés de 39 paramètres par trame et les MMC comprennent 8 gaussiennes par état. Le modèle de langage quadrigramme utilisé a été estimé sur l’ensemble des données textuelles extraites, grâce à l’ensemble d’outils de création de modèles linguistiques SRILM [Stolcke 2002, Stolcke 2011]. Le décodage à l’aide de CMU Sphinx-3 produit en sortie des fichiers au format NIST CTM 7 . La figure 4.2 montre un exemple de fichier résultant du décodage, reprenant la même présentation que le texte pris en exemple dans la figure 4.1. Dans cette figure nous pouvons voir ce qui a été décodé pour le tout premier segment. Les informations mises en évidence ici représentent le temps du mot reconnu en secondes (troisième colonne, en gras), la durée du mot (quatrième colonne) et le mot ayant été reconnu (cinquième colonne, en italique). À partir de ces fichiers CTM, et à l’aide de l’outil sclite provenant de l’ensemble NIST Scoring Toolkit 8 , qui est l’ensemble d’outils de mesure officiel des campagnes d’évaluation NIST (voir 3.2.1.1), nous avons pu faire correspondre, de façon approximative, les informations temporelles obtenues lors de notre décodage avec les données textuelles non-alignées obtenues 7. Voir ftp://jaguar.ncsl.nist.gov/current_docs/sctk/doc/infmts.htm#ctm_fmt_ name_0 pour une description du format CTM. 8. http://www1.icsi.berkeley.edu/Speech/docs/sctk-1.2/sclite.htm 64 4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM AaronHuey_2010X 1 15.92 AaronHuey_2010X 1 15.93 AaronHuey_2010X 1 16.67 AaronHuey_2010X 1 16.91 AaronHuey_2010X 1 17.05 AaronHuey_2010X 1 17.78 AaronHuey_2010X 1 18.06 AaronHuey_2010X 1 18.17 AaronHuey_2010X 1 18.25 AaronHuey_2010X 1 18.69 AaronHuey_2010X 1 19.37 AaronHuey_2010X 1 19.74 AaronHuey_2010X 1 19.89 AaronHuey_2010X 1 20.10 AaronHuey_2010X 1 20.25 AaronHuey_2010X 1 20.59 AaronHuey_2010X 1 20.77 AaronHuey_2010X 1 20.91 AaronHuey_2010X 1 20.99 AaronHuey_2010X 1 21.43 AaronHuey_2010X 1 21.60 AaronHuey_2010X 1 21.94 AaronHuey_2010X 1 22.05 AaronHuey_2010X 1 22.30 AaronHuey_2010X 1 22.38 AaronHuey_2010X 1 22.70 AaronHuey_2010X 1 22.88 AaronHuey_2010X 1 22.99 AaronHuey_2010X 1 23.53 AaronHuey_2010X 1 23.87 AaronHuey_2010X 1 24.05 AaronHuey_2010X 1 24.13 AaronHuey_2010X 1 24.60 AaronHuey_2010X 1 25.30 0.01 <s> 0.74 {COUGH} 0.24 show 0.14 my 0.73 photographs 0.28 <sil> 0.11 of(2) 0.08 the(2) 0.44 lakota 0.68 <sil> 0.37 {SMACK} 0.15 and(2) 0.21 new 0.15 you 0.34 may 0.18 have 0.14 heard 0.08 the(2) 0.44 lakota 0.17 <sil> 0.34 <sil> 0.11 are 0.25 least 0.08 the(2) 0.32 larger 0.18 group 0.11 of(2) 0.54 tribes 0.34 <sil> 0.18 called 0.08 the(2) 0.47 sioux 0.70 <sil> 0.00 </s> F IGURE 4.2 – Exemple de fichier de sortie de reconnaissance au format CTM. lors de l’extraction. Ceci nous a permis de constituer des transcriptions de référence au format NIST STM 9 . La figure 4.3 montre un extrait d’une de ces transcriptions de référence, pour le même show que les exemples précédents. Les informations mises en évidence en gras représentent les temps de début et de fin de chaque segment. Nous pouvons par exemple voir que les temps du second segment correspondent aux temps indiqués dans le segment montré dans la figure 4.2. Nos transcriptions de référence, bien qu’imparfaites, nous ont permis d’évaluer grossièrement la qualité de la reconnaissance automatique atteinte pour chaque présentation, en termes de WER. Cela nous a aidé à déterminer quelles étaient les présentations les moins bien alignées, parmi celles-ci figuraient une présentation en espagnol, ainsi qu’une présentation uniquement constituée de parole chantée. Les autres présentations retirées étaient quant à elles données par des intervenants d’origine étrangère dont la langue maternelle n’est pas l’anglais et possédant 9. Voir ftp://jaguar.ncsl.nist.gov/current_docs/sctk/doc/infmts.htm#stm_fmt_ name_0 pour une description du format STM. 65 Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage AaronHuey_2010X 1 AaronHuey_2010X 12.27 15.91 <o,f0,male> AaronHuey_2010X 1 AaronHuey_2010X 15.92 25.30 <o,f0,male> i 'm here today to show my photographs of the lakota many of you may have heard of the lakota or at least the larger group of tribes called the sioux AaronHuey_2010X 1 AaronHuey_2010X 25.30 34.53 <o,f0,male> the lakota are one of many tribes that were moved off their land to prisoner of war camps now called reservations the pine ridge reservation AaronHuey_2010X 1 AaronHuey_2010X 34.53 48.10 <o,f0,male> the subject of today 's slide show is located about seventy five miles southeast of the black hills of south dakota it is sometimes referred to as prisoner of war camp number three hundred and thirty four and it is where the lakota now live F IGURE 4.3 – Exemple de transcription de référence au format STM. un fort accent, pour un total de cinq présentations en moins. Nous avons également retiré les présentations qui seront utilisées pour constituer le corpus de développement. À la fin de cette étape d’amorçage, nous avons donc gardé 794 présentations sur les 818 de départ, pour un total d’environ 135 heures de parole : 91 heures de parole masculine et 44 heures de parole féminine. Ces heures de parole conservées seront employées comme base de l’itération suivante de notre processus d’alignement. Le tableau 4.2 détaille les caractéristiques du corpus à l’issue de cette itération d’amorçage. Nombre de shows Avec locuteur masculin Avec locuteur féminin Durée totale de l’audio Moyenne par show Durée totale de parole Dont locuteur masculin Dont locuteur féminin Moyenne par show Nombre de segments de parole Dont locuteur masculin Dont locuteur féminin Durée moyenne d’un segment Nombre de locuteurs uniques Masculins Féminins Shows par locuteur unique Nombre de mots dans les transcriptions Nombre de mots moyen par show 794 536 (67,51%) 258 (32,49%) 210h, 2m, 26s 15m, 52s 135h, 34m, 2s (64,54%) 91h, 06m, 28s (67,20%) 44h, 27m, 34s (32,80%) 10m, 14s 61 833 41 882 (67,73%) 19 951 (32,27%) 7,89 secondes 686 461 (67,20%) 225 (32,80%) 1,16 1 926 034 2 426 TABLE 4.2 – Caractéristiques du corpus TED-LIUM après l’itération d’amorçage. 66 4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM Itération 1 : alignement intermédiaire Grâce aux transcriptions approximatives obtenues lors de l’itération précédente, nous avons pu réaliser un alignement forcé entre notre signal audio et nos transcriptions. L’alignement forcé est un procédé qui permet, à partir de modèles acoustiques préalablement appris (nous supposons que les modèles HUB4, fournis par CMU avec Sphinx-3, sont suffisamment performants), de faire correspondre les trames du signal acoustique aux phonèmes contenus dans la supposée transcription, segment par segment. L’avantage de ce procédé est qu’en cas de problème au niveau de l’alignement d’un segment, l’outil retire purement et simplement le segment incriminé des données d’apprentissage. Un autre avantage est que puisque nous travaillons au niveau du phonème, ce processus d’alignement forcé permet de déterminer l’emploi de variantes de prononciation au niveau d’un mot, et donc de l’étiqueter en tant que tel. Cet alignement nous a donc permis de produire un second jeu de transcriptions, plus précis que le premier. Ensuite, à partir des heures de parole conservées lors de l’itération d’amorçage et de ces nouvelles transcriptions, nous avons construit de nouveaux modèles acoustiques, tout en ajoutant à nos données d’apprentissage le corpus de broadcast news HUB4 afin d’obtenir des modèles acoustiques plus génériques et plus couvrants. Nous avons utilisé ces nouveaux modèles acoustiques pour refaire un décodage complet de nos données de départ, afin d’obtenir une base plus précise pour l’alignement entre les mots reconnus et les transcriptions non-alignées provenant de TED. À la différence de l’itération précédente, nous n’avons conservé (en plus des segments défaussés par l’alignement forcé) que les segments dont les bornes étaient similaires entre le résultat du décodage et le texte présumé de référence (autrement dit, que les premier et dernier mots du segment étaient identiques entre les deux versions). À l’issue de cette première itération, nous avons pu conserver des segments provenant de 779 présentations, pour un total d’environ 152 heures de parole : 106 heures de parole masculine et 46 heures de parole féminine. Comme nous pouvons le constater, nous obtenons au final plus de parole que lors de l’itération précédente, malgré un filtrage plus sévère et un alignement forcé très strict. Ce phénomène peut s’expliquer par la différence en termes de qualité et de couverture entre les modèles acoustiques par défaut de CMU Sphinx-3 et les modèles générés lors de cette itération, qui sont bien adaptés à la tâche. Le tableau 4.3 reprend l’ensemble des caractéristiques de notre corpus après cette itération. Itération 2 : alignement final Pour cette seconde et dernière itération, nous avons de nouveau réalisé un alignement forcé de la même manière que nous l’avons décrit précédemment, mais cette fois-ci à partir des modèles appris sur les données de TED et HUB4 à l’itération précédente. Nous pouvons donc 67 Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage Nombre de shows Avec locuteur masculin Avec locuteur féminin Durée totale de l’audio Moyenne par show Durée totale de parole Dont locuteur masculin Dont locuteur féminin Moyenne par show Nombre de segments de parole Dont locuteur masculin Dont locuteur féminin Durée moyenne d’un segment Nombre de locuteurs uniques Masculins Féminins Shows par locuteur unique Nombre de mots dans les transcriptions Nombre de mots moyen par show 779 526 (67,52%) 253 (32,48%) 207h, 17m, 43s 15m, 58s 152h, 28m, 32s (73,55%) 106h, 31m, 54s (69,87%) 45h, 56m, 38s (30,13%) 11m, 27s 69 217 46 954 (67,83%) 22 263 (32,17%) 7,93 secondes 676 455 (67,30%) 221 (32,70%) 1,15 1 896 086 2 434 TABLE 4.3 – Caractéristiques du corpus TED-LIUM après l’itération intermédiaire. estimer que le jeu de transcriptions de référence qui a été produit en sortie est encore plus précis qu’auparavant, ce qui constitue encore une meilleure base pour notre processus d’alignement. Ensuite, à partir des segments constituant les 152 heures de paroles conservées à la fin de l’itération précédente, nous avons construit de nouveaux modèles acoustiques plus précis, toujours en y ajoutant les données du corpus de broadcast news HUB4. Nous avons, pour la dernière fois, décodé de nouveau l’ensemble des données acoustiques à notre disposition, afin de pouvoir réaliser un dernier alignement dont les informations temporelles proviendraient de sorties produites avec des modèles acoustiques appris sur les mêmes données que celles que nous cherchons à aligner. En revanche, cet alignement a été réalisé en procédant à un filtrage beaucoup plus strict que précédemment, puisque nous n’avons gardé que les segments dont tous les mots étaient cohérents avec les mots reconnus lors du décodage. Cette dernière itération nous a finalement permis de conserver un total d’environ 118 heures de parole, dont 82 heures de parole masculine et 36 heures de parole féminine. La réduction drastique de parole conservée s’explique cette fois par la dureté du filtrage appliqué, afin d’assurer le fait que nos alignements soient cohérents. Le tableau 4.4 détaille les caractéristiques finales du corpus TED-LIUM tel qu’il a été présenté dans notre article lors de la conférence 68 4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM LREC 2012 [Rousseau 2012], et tel qu’il a été distribué et mis à la disposition de la communauté scientifique. Nombre de shows Avec locuteur masculin Avec locuteur féminin Durée totale de l’audio Moyenne par show Durée totale de parole Dont locuteur masculin Dont locuteur féminin Moyenne par show Nombre de segments de parole Dont locuteur masculin Dont locuteur féminin Durée moyenne d’un segment Nombre de locuteurs uniques Masculins Féminins Shows par locuteur unique Nombre de mots dans les transcriptions Nombre de mots moyen par show 774 526 (67,52%) 253 (32,48%) 205h, 49m, 40s 15m, 57s 117h, 45m, 52s (57,21%) 82h, 26m, 48s (70,00%) 35h, 19m, 04s (30,00%) 9m, 07s 56 803 39 389 (69,34%) 17 414 (30,66%) 7,46 secondes 666 452 (67,87%) 214 (32,13%) 1,16 1 690 775 2 184 TABLE 4.4 – Caractéristiques du corpus TED-LIUM après l’itération finale. À l’aide du corpus de développement que nous avons construit séparément (décrit dans la section 4.1.2), il nous a été possible d’évaluer les modèles réalisés au cours de différentes évaluations. Le tableau 4.5 résume le score WER obtenu lors de l’évaluation de chaque modèle. Modèle Sphinx-3 par défaut Itération intermédiaire Itération finale Score WER 22,6% 20,2% 18,4% TABLE 4.5 – Évaluation des modèles acoustiques utilisés lors de l’alignement sur le corpus de développement du LIUM. 69 Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage 4.1.2 Construction du corpus de développement Afin de pouvoir évaluer précisément nos systèmes, que ce soit au cours de la construction du corpus ou bien lors de la préparation de la campagne d’évaluation, nous avons constitué un corpus de développement. Celui-ci est composé de dix-neuf présentations, retirées de l’ensemble de données initial. Celles-ci n’ont pas été choisies au hasard puisqu’elles sont en réalité les présentations retenues par les organisateurs d’IWSLT 2010 pour leurs corpus de développement et de test. Le but de la constitution d’un tel corpus est de pouvoir être utilisé comme échantillon représentatif et constant lors de la phase de mise au point et de réglage des poids d’un système de reconnaissance de la parole. Nous indiquons dans le tableau 4.6 les caractéristiques de ce corpus de développement. Nombre de shows Avec locuteur masculin Avec locuteur féminin Durée totale de l’audio Moyenne par show Durée totale de parole Dont locuteur masculin Dont locuteur féminin Moyenne par show Nombre de segments de parole Dont locuteur masculin Dont locuteur féminin Durée moyenne d’un segment Nombre de mots dans les transcriptions Nombre de mots moyen par show 19 16 (84,21%) 3 (15,79%) 4h, 46m, 07s 15m, 03s 4h, 12m, 55s (88,40%) 3h, 13m, 56s (76,68%) 58m, 59s (23,32%) 13m, 18s 1 662 1 342 (80,75%) 320 (19,25%) 9,13 secondes 46 656 2 456 TABLE 4.6 – Caractéristiques du corpus de développement TED-LIUM. Afin que notre corpus soit le meilleur possible, et puisque la quantité de données était relativement faible, nous avons transcrit manuellement chacune des dix-neuf présentations afin que tous les événements observables au niveau du signal acoustique puissent être pris en compte, notamment l’ensemble des disfluences possibles, qui ne sont pas transcrites dans les sous-titres extraits depuis le site de TED, à quelques rares exceptions près. Par conséquent, la segmentation du signal acoustique et la transcription des mots prononcés étant produites manuellement, nous avons la certitude que notre corpus sera parfaitement adapté à ce à quoi nous le destinons. 70 4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM 4.1.3 Disponibilité et distribution du corpus Nous avons, au début de l’année 2012, distribué librement notre corpus TED-LIUM sur Internet, afin qu’il soit utilisable par l’ensemble de la communauté scientifique. Celui-ci est actuellement téléchargeable gratuitement à l’adresse suivante : http://www-lium.univ-lemans. fr/TED-LIUM sous la forme d’une archive compressée, d’une taille d’environ 20 gigaoctets. Nous prévoyons également de le mettre à disposition sur le site communautaire VoxForge 10 qui est un projet visant à collecter des enregistrement oraux de textes pour la reconnaissance de la parole. L’ensemble des données distribuées est constitué des fichiers audio au format NIST Sphere de toutes les présentations orales conservées lors de l’itération finale, accompagnés de leurs fichiers de transcription alignés au format NIST STM ainsi que du corpus de développement également accompagné de ses transcriptions manuelles et du dictionnaire phonétisé utilisé lors de l’apprentissage. Afin de rester dans le cadre légal, notre corpus est distribué sous la même licence que les présentations TED, à savoir la licence Creative Commons AttributionNonCommercial-NoDerivs 3.0 Unported (CC BY-NC-ND 3.0) 11 . 10. http://www.voxforge.org/fr 11. http://creativecommons.org/licenses/by-nc-nd/3.0 71 Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage 4.2 Données pour la traduction automatique statistique Après avoir décrit les données relatives à la composante reconnaissance automatique de la parole dans la section précédente, nous allons maintenant détailler celles relatives à la composante traduction automatique. En traduction automatique, pour l’apprentissage des systèmes, il est nécessaire de disposer de grandes quantités de données. Ces données sont systématiquement organisées en corpus parallèles, appelés bitexts, dans lesquels chaque phrase de la langue source est alignée à sa traduction dans la langue cible, à raison d’une phrase par ligne. Le plus souvent, ces corpus parallèles sont des données provenant d’organisations mondiales ou gouvernementales (ONU, Parlement Européen, ...). Nous présenterons dans un premier temps les données utilisées pour l’apprentissage des systèmes, puis dans un second temps celles servant au développement, aux réglages et au test des dits systèmes. 4.2.1 Données d’apprentissage parallèles Dans un contexte de traduction automatique statistique, les données qui sont utilisées pour l’apprentissage des systèmes sont avant tout des données textuelles, possédant peu de caractéristiques de la parole transcrite, encore moins de la parole spontanée. Généralement, ce sont des textes d’articles de presse (comme par exemple le corpus News-Commentary), de rapports d’organisations internationales (tel que le corpus un200x provenant de l’ONU), de textes extraits depuis des sites internet multilingues (comme le corpus Gigaword 109 ) ou encore de comptesrendus de sessions parlementaires (à l’instar du corpus Europarl). Ces corpus ne sont donc pas particulièrement adaptés à une tâche de traduction de la parole et bien qu’ils puissent être utilisés à cet effet, il est indispensable de les traiter afin de les adapter. Dans le cadre de la campagne d’IWSLT 2011, nous avons donc dû faire un choix parmi les corpus qui étaient autorisés, puisque nous nous situions dans des conditions d’évaluation contrainte. Parmi ceux-ci, un seul était parfaitement adapté au domaine de la tâche : le corpus TED, fourni par les organisateurs, est composé de transcriptions manuelles des présentations du site, ainsi que de traductions manuelles en français de ces présentations. Néanmoins, ce corpus est de taille assez réduite (environ deux millions de mots) et ne suffit pas à l’élaboration d’un système performant. Nous avons donc sélectionné les corpus en se basant sur leurs domaines respectifs, et les avons tous conservés sauf un : le corpus un200x, dont les données, d’après les expériences que nous avions conduites lors de l’édition précédente de la campagne IWSLT, sont vraiment trop éloignées du domaine et le style d’écriture beaucoup trop formel pour être utilisé en traduction de la parole. À partir de ces corpus, nous avons appliqué notre outil de normalisation textuelle (voir la section 4.1.1.1) afin de tous les transformer en pseudo-transcriptions de parole, ceci dans le 72 4.2. Données pour la traduction automatique statistique but d’assurer la cohérence entre le système de reconnaissance de la parole et le système de traduction automatique. Le tableau 4.7 reprend les caractéristiques de l’ensemble des données disponibles pour notre système. Les données de la colonne « original » représentent les quantités d’origine, tandis que les données de la colonne « traité » représentent les quantités une fois normalisées. Le pourcentage donné est exprimé en nombre de phrases du corpus sur le nombre de phrases totales. Les données en italique représentent les corpus qui n’ont pas été utilisés pour le système. Corpus Phrases TED News-Commentary Europarl UN200x Gigaword 109 TOTAL général TOTAL utilisé 107 268 115 562 1 825 077 12 317 600 22 520 400 36 885 907 24 568 307 Mots anglais (milliers) Original Traité 1 760 1 778 2 521 2 621 45 616 46 555 301 679 331 025 572 407 648 671 923 983 1 030 650 622 304 699 625 Mots français (milliers) Original Traité 1 809 1 918 2 833 3 042 46 632 49 956 329 953 374 947 653 361 747 147 1 034 588 1 177 010 704 635 802 063 % de phrases 0,30 0,31 4,95 33,39 61,05 100,00 66,61 TABLE 4.7 – Caractéristiques des corpus parallèles considérés. Comme nous pouvons le constater, le corpus le plus intéressant pour notre système de traduction de la parole (autrement dit celui qui est parfaitement dans le domaine), TED, ne représente qu’une portion infime de l’ensemble des données (0,30% des phrases totales). Il sera donc nécessaire, au moment de construire le système, de lui donner plus d’importance par rapport aux autres corpus considérés en le pondérant d’une façon ou d’une autre. 4.2.2 Données de développement et de test Pour la mise au point et le réglage de notre système de traduction automatique, nous avons également produit des corpus de développement et de test dédiés au traitement de transcriptions de parole. Nous avons pour cela repris la liste des transcriptions de présentations TED qui composaient les corpus de développement et de test fournis par les organisateurs de la campagne d’évaluation IWSLT de l’année précédente. Originalement, le texte de ces corpus provient des transcriptions et traductions extraites du site TED par les organisateurs. Concernant la partie anglaise (langue source) de ces corpus, nous avons souhaité qu’elle se rapproche le plus possible de l’aspect des sorties produites par un système de RAP. Parallèlement, lors de la mise en place de la campagne d’évaluation IWSLT 2011, il a été demandé aux participants de soumettre, sous forme de graphes de mots, les sorties de leurs systèmes de RAP 73 Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage appliqués aux corpus issus de la campagne précédente. Les graphes de mots qui ont été produits ont par la suite été anonymisés puis rendus publics et mis à la disposition des participants, accompagnés de leurs scores respectifs. Nous avons donc, en plus de nos propres graphes de mots, utilisé l’ensemble de graphes qui obtenait le meilleur score WER sur les trois soumissions que nous avons pu tester. Ces deux ensembles de graphes ont ensuite été fusionnés, sous la forme d’un réseau de confusion, par un méthode qui consiste à normaliser les probabilités a posteriori de chacun des graphes, à les concaténer en largeur puis à les transformer en réseaux de confusion à l’aide d’un outil interne développé au LIUM. Les meilleures hypothèses de ces réseaux de confusion sont extraites par consensus sur les probabilités a posteriori. Concernant la partie française (langue cible) de ces corpus, nous avons repris les parties françaises des corpus d’origine. Toutefois, comme pour les données parallèles d’apprentissage, nous avons appliqué notre outil de normalisation afin d’assurer le plus de cohérence possible entre tous les jeux de données utilisés. À l’origine, les corpus de développement et de test des organisateurs d’IWSLT comprenaient respectivement 934 phrases pour 7 présentations et 1664 phrases pour 11 présentations. Nous avons modifié cette répartition des présentations entre les deux corpus, en réduisant le corpus de test pour augmenter la taille de celui de développement, ceci dans le but de de disposer de plus de données pour le processus de réglage du système. Nous nommons nos jeux de données respectivement LIUM dev2010 pour le corpus de développement et LIUM tst2010 pour le corpus de test. Le tableau 4.8 indique les caractéristiques de ces corpus. Ce tableau reprend également, à titre de comparaison, les caractéristiques des corpus originaux équivalents (identifiés IWSLT), tels qu’ils étaient fournis lors de la campagne 2010 et par conséquent issus des sous-titres originaux de TED. La différence qui existe en termes de quantité totale de mots pour une langue entre les corpus originaux et les corpus identifiés LIUM s’explique : – d’une part pour l’anglais, par le fait que nos corpus LIUM sont issus d’une combinaison de système tandis que les corpus IWSLT correspondent à des références. – d’autre part pour le français, par le fait que notre outil de normalisation est susceptible d’induire ce genre de différence. La figure 4.4 montre un exemple (en anglais) de différences entre le corpus de développement original normalisé (en haut) et notre corpus de développement basé sur le chemin optimal des réseaux de confusion dont nous avons parlé précédemment (en bas). Les tirets marquent les débuts de ligne tandis que les mots en gras marquent les erreurs de transcription. 74 4.2. Données pour la traduction automatique statistique Corpus IWSLT dev2010 IWSLT tst2010 LIUM dev2010 LIUMtst2010 TOTAL Original TOTAL LIUM Phrases 934 1664 2026 572 2 598 2 598 Mots anglais 17 988 27 952 36 165 8 798 45 940 44 963 Mots français 17 967 29 332 38 247 9 502 47 299 47 749 TABLE 4.8 – Caractéristiques des corpus de développement et de test. - you know one of the intense pleasures of travel and one of the delights of ethnographic research is the opportunity to live amongst those who have not forgotten the old ways who still feel their past in the wind touch it in stones polished by rain taste it in the bitter leaves of plants - just to know that jaguar shamans still journey beyond the milky way or the myths of the inuit elders still resonate with meaning or that in the himalaya the buddhists still pursue the breath of the dharma is to really remember the central revelation of anthropology and that is the idea that the world in which we live in does not exist in some absolute sense but is just one model of reality the consequence of one particular set of adaptive choices that our lineage made albeit successfully many generations ago - and of course we all share the same adaptive imperatives - we 're all born we all bring our children into the world - you know one of the intense closures of travel in one of the delights of ethnographic research is the opportunity to live amongst those who have not forgotten the old ways to still feel their pasts in the in touch and stones caused by rain i tasted in the bitter leaves of plants - just another jab were sharman still journey beyond the milky way or if the the myths of the new would elders still resonate with meaning or that in the himalaya the buddha still pursue the breath of the dharma is to really remember the central revelation of anthropology and that is the idea that the world in which we live and does not exist in some absolute sense but is just one model of reality the consequence of one particular set of adaptive choices that our lineage made i 'll be successfully many generations ago - and of course we all share the same adaptive imperatives - we 're all born real bring your children into the world F IGURE 4.4 – Exemple de différences entre le corpus de développement original et celui créé au LIUM. 75 Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage 4.3 Données d’apprentissage monolingues pour la reconnaissance et la traduction Nous avons décrit, au cours de ce chapitre, les diverses données qui ont été créées ou utilisées pour la construction des modèles acoustiques et du modèle de traduction. Néanmoins, ces systèmes ne sauraient fonctionner efficacement sans une modélisation du langage efficace. Généralement, deux types de corpus sont utilisés. Le premier type regroupe les corpus monolingues spécifiques. Ceux-ci, bien que ressemblant fortement aux parties en langue source (ou cible) des corpus parallèles, contiennent habituellement plus de données, du fait que les données ayant rencontré un problème d’alignement pour produire les corpus parallèles sont ici conservées. Le second type correspond justement aux parties des corpus parallèles dont la langue nous intéresse pour la construction du modèle de langage visé. Nous allons donc maintenant évoquer les données monolingues qui ont servi à la construction de ces modèles, que ce soit pour la reconnaissance ou la traduction. 4.3.1 Données pour la modélisation du langage en reconnaissance automatique de la parole Pour construire le modèle de langage accompagnant notre système de reconnaissance automatique de la parole en anglais, nous avons utilisé une certaine quantité de données textuelles dans cette langue. En plus de l’ensemble des données contenues dans les transcriptions originales de TED, de quantité supérieure à la partie anglaise du corpus parallèle, nous avons utilisé plusieurs autres corpus en version monolingue : le corpus Europarl, le corpus NewsCommentary et le corpus News, n’existant qu’en version monolingue, et qui contient un très grand nombre de données extraites d’articles journalistiques glanés sur Internet. Tous ces corpus ont été normalisés à l’aide de notre outil dédié. Le tableau 4.9 résume les caractéristiques des différents corpus utilisés. Corpus TED News-Commentary Europarl News TOTAL Phrases 123 914 180 657 2 015 440 112 905 721 115 225 732 Mots (milliers) 2 076 3 945 50 354 2 448 158 2 504 533 % de phrases 0,11 0,16 1,75 97,98 100,00 TABLE 4.9 – Caractéristiques des corpus monolingues anglais pour la reconnaissance automatique de la parole. 76 4.3. Données d’apprentissage monolingues pour la reconnaissance et la traduction 4.3.2 Données pour la modélisation du langage en traduction automatique statistique Concernant notre modèle de langage en français pour la traduction automatique statistique, nous avons utilisé l’ensemble des corpus mis à notre disposition. Ces corpus ne sont pas les parties françaises des corpus parallèles, mais les versions monolingues de chacun d’entre eux. Nous avons également pris soin de les normaliser grâce à l’outil que nous avons développé. Le tableau 4.10 détaille les caractéristiques de chacun de ces corpus. Le corpus nommé ccb2 correspond à un sous-ensemble du corpus Gigaword 109 qui a été nettoyé et filtré à l’aide de la technique basée sur les coûts lexicaux de chacune des phrases, décrite dans [Schwenk 2011]. Corpus TED News-Commentary Europarl ccb2 UN200x Gigaword 109 News TOTAL Phrases 107 268 115 562 1 825 077 7 473 624 12 317 600 22 520 400 24 963 359 69 322 890 Mots (milliers) 1 970 3 122 51 251 258 402 385 035 763 204 562 756 2 025 740 % de phrases 0,15 0,17 2,63 10,78 17,77 32,49 36,01 100,00 TABLE 4.10 – Caractéristiques des corpus monolingues français pour la traduction automatique statistique. 77 Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage 4.4 Harmonisation des données Un point important est la nécessité d’assurer une certaine harmonie et une certaine cohérence entre toutes les données utilisées pour l’apprentissage et le développement des systèmes de RAP et de TAS. En effet, les différences de normalisation qui existent entre la reconnaissance automatique de la parole et la traduction automatique statistique, tant au niveau de la façon de construire les systèmes qu’au niveau des sorties produites, font qu’il est difficilement envisageable de combiner deux ce ces systèmes sans traitements préalables. De même, la reconnaissance automatique de la parole et la traduction automatique statistique ne s’évaluent pas de la même manière et ces différences sont également visibles jusque dans les corpus de références utilisées. Nous allons donc, dans cette dernière section, résumer les différentes dispositions qui ont été prises afin de parvenir à cet objectif. 4.4.1 Cohérence dans la forme des données Nous avons fait le choix, pour l’ensemble de notre système de traduction automatique de la parole, de conserver le formalisme des transcriptions de reconnaissance, et de n’effectuer la conversion vers le formalisme de la traduction, notamment la remise de la casse et de la ponctuation, qu’à la fin du processus de traduction. La figure 4.5 présente, sous forme de texte brut (les différents marqueurs et balises ayant été retirés) et avec les mêmes phrases, un exemple de transcription de référence et sa traduction de référence associée. Comme nous pouvons le constater sur cet exemple, il existe de nombreuses différences qu’il est nécessaire de normaliser et que nous allons détailler ici : • l’écriture des chiffres et nombres en toutes lettres. En effet, en reconnaissance automatique de la parole, ils s’écrivent systématiquement de cette façon puisqu’ils sont prononcés. En revanche, en traduction, bien qu’il arrive que certains soient également écrits de cette manière, les conventions typographiques autorisent l’usage des chiffres lorsqu’il s’agit par exemple de montants, d’années, de pourcentages, de surfaces, etc. Nous appliquons donc invariablement une conversion en toutes lettres à l’aide de modules dédiés pour l’anglais et le français. • la casse présente en traduction mais absente en reconnaissance. En traduction, les noms propres, les débuts de phrases, les abréviations respectent les conventions pour la casse, les majuscules prenant tout leur sens. En reconnaissance, puisque nous traitons un flux de parole, ces majuscules n’ont pas de raison d’être, c’est pour cela que nous passons systématiquement la totalité du texte en minuscules. 78 4.4. Harmonisation des données RAP they created a one hundred and ten square kilometres fish farm bass mullet shrimp eel and in the process miguel and this company completely reversed the ecological destruction TAS Ils ont créé une ferme piscicole de 110 km ² perche , mulet , crevette , anguille et dans ce processus , Miguel et cette entreprise ont complètement inversé la destruction écologique . but in fact the print date was the early nineteen eighties when i would have been starting primary RAP school and forming an understanding of myself outside the family unit and as related to the other kids and the world around me Mais en fait , la date d' impression était au début des années 80 , au moment où je devais TAS commencer l' école primaire et former une compréhension de moi-même en-dehors de la cellule familiale et en rapport avec les autres enfants et le monde autour de moi . now we have some pilot things that do this at the sixty to eighty percent level but getting up to a RAP hundred percent that will be very tricky and agreeing on where these co two quantities should be put will be hard but the toughest one here is this long term issue Il y a des projets avancés permettant de réaliser cela à 60 à 80 % , mais arriver à 100 % , ça sera TAS très délicat , et ce sera difficile de convenir de l' endroit où tout ce CO2 devrait être mis , mais le plus dur est ici la question du long terme . F IGURE 4.5 – Exemples de différences entre les références de reconnaissance automatique et de traduction statistique. • la ponctuation. Tout comme la casse, la ponctuation ne fait pas réellement sens en reconnaissance, bien que des travaux visent à déduire la ponctuation via la longueur des silences par exemple [Stüker 2006] ou encore à l’aide d’automates à états finis [Shugrina 2010] existent. Elle est donc, dans notre système, totalement retirée de tous les corpus utilisés, puis remise en fin de processus à l’aide d’un système basé sur des tables de traduction, similaire à [Paulik 2008]. Nous avons pour cela repris les travaux que nous avions initiés sur ces aspects dans [Rousseau 2009]. • les abréviations, contractions et mots composés. En traduction, à l’écrit, des abréviations telles que « km » pour kilomètre sont utilisées. En revanche, en reconnaissance, des facilités de langage telles que l’utilisation de la contraction « I’m » pour « I am » sont très fréquemment rencontrées. Afin d’uniformiser toutes ces différences, le formalisme de la parole est systématiquement utilisé, notamment dans la construction des abréviations qui sont épelées à l’oral. De plus, concernant les mots composés, en reconnaissance, les tirets ne sont pas toujours présents afin de maintenir le vocabulaire du système à une taille raisonnable. Ceci évite d’avoir dans le dictionnaire phonétisé de nombreuses fois le même préfixe ou suffixe répété dans de nombreux mots. • les caractères spéciaux. En reconnaissance de la parole, les caractères spéciaux tels que le « pourcent (%) », le « carré (2 ) » ou encore le signe « degré (˚) » sont transcrits en toutes 79 Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage lettres, alors que dans la grande majorité des cas ce seront les symboles qui seront présents en traduction. Nous avons donc, à l’aide d’une liste qui se veut exhaustive (tout au moins pour les cas rencontrés dans nos corpus), converti tous ces symboles dans leur forme écrite, la plus fréquente lorsque plusieurs étaient possibles. 4.4.2 Cohérence dans le choix des mots Un dernier aspect important au niveau de la cohérence des données concerne le vocabulaire qui sera utilisé dans la construction du système. En effet, plusieurs aspects de celle-ci, comme l’apprentissage des modèles acoustiques et l’estimation des modèles de langage, utilisent un vocabulaire bien défini. Pour notre système, nous avons d’un côté fait le choix d’utiliser, de façon générale, une base composée premièrement de l’ensemble des mots rencontrés dans le corpus TED, phonétisés de manière automatique (voir la section 5.2.2.1), afin de former un premier dictionnaire phonétisé. Cette liste a ensuite été enrichie des mots du dictionnaire phonétisé de CMU (CMUdict) dans sa version 0.7a 12 . Nous avons également ajouté les mots des transcriptions du corpus de parole HUB4, décrit précédemment, également phonétisés de façon automatique. Le vocabulaire final, utilisé à la fois dans sa version phonétisée pour l’apprentissage des modèles acoustiques et dans sa version normale pour l’estimation du modèle de langage pour la reconnaissance de la parole comprend un total de 141 297 mots pour 153 399 couples [mot, phonétisation]. Enfin, pour la modélisation du langage en langue française, nous avons considéré l’ensemble des mots du corpus parallèle TED, afin de garder la cohérence avec d’un part la composante reconnaissance automatique de la parole de notre système et d’autre part le domaine inhérent à la tâche de traduction qui nous importe. Nous avons donc exposé, au cours de ce chapitre, les divers jeux de données qui ont été soit créés, soit considérés, pour la construction de nos systèmes. Nous avons également souligné leur importance, ainsi que la nécessité qu’il y a à conserver voire imposer une certaine cohérence dans leur ensemble. Nous allons maintenant, dans le prochain chapitre, décrire de quelle façon nos systèmes ont été construits. 12. http://www.speech.cs.cmu.edu/cgi-bin/cmudict 80 Chapitre 5 De la mise en œuvre d’un système de traduction de la parole anglais - français Sommaire 5.1 Architecture globale . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.2 Système de reconnaissance automatique de la parole en anglais . . . 86 5.2.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.2.2 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.2.2.1 Construction du dictionnaire phonétisé d’apprentissage 88 5.2.2.2 Modélisation acoustique pour l’anglais . . . . . . . . 88 5.2.2.3 Modélisation du langage pour l’anglais . . . . . . . . 90 Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 5.2.3.1 Construction du vocabulaire de décodage . . . . . . . 91 5.2.3.2 Segmentation . . . . . . . . . . . . . . . . . . . . . . 92 5.2.3.3 Transcription multi-passes . . . . . . . . . . . . . . . 93 Système de traduction automatique de la parole anglais - français . . 94 5.3.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5.3.2 Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 5.2.3 5.3 5.3.3 5.3.2.1 Modélisation de la traduction de l’anglais vers le français 94 5.3.2.2 Modélisation du langage pour le français . . . . . . . 97 Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 5.3.3.1 Traitement des graphes de mots de la reconnaissance de la parole . . . . . . . . . . . . . . . . . . . . . . . 5.4 98 Remise de la casse et de la ponctuation . . . . . . . . . . . . . . . . . 100 5.4.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 5.4.2 Modélisation de la traduction . . . . . . . . . . . . . . . . . . . 100 81 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français 5.5 5.4.3 Modélisation du langage . . . . . . . . . . . . . . . . . . . . . . 101 5.4.4 Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 Expérimentations et évaluation des systèmes . . . . . . . . . . . . . . 103 5.5.1 5.5.2 82 Expérimentations et évaluations internes . . . . . . . . . . . . . 103 5.5.1.1 Sur la reconnaissance de la parole . . . . . . . . . . . 103 5.5.1.2 Sur la traduction automatique . . . . . . . . . . . . . 104 5.5.1.3 Sur la remise de la casse et de la ponctuation . . . . . 107 Évaluation officielle : la campagne IWSLT 2011 . . . . . . . . . 108 5.1. Architecture globale a construction de systèmes, qu’ils soient de reconnaissance de la parole, de traduction automatique ou, combinant les deux, de traduction de la parole est un processus souvent long, pouvant parfois nécessiter plusieurs années de mise au point et d’itérations successives afin de parvenir à des résultats satisfaisants. De plus, c’est une entité dynamique, qui peut sans cesse être repensée, enrichie de nouveaux traitements et théories et régulièrement recevoir des évolutions. L Après avoir évoqué les questions de la pertinence et de la cohérence des données, nous allons, au cours de ce chapitre, décrire les procédés mis en œuvre afin de construire notre système de traduction de la parole. Dans un premier temps, nous nous intéresserons à l’architecture globale du système. Ensuite, nous détaillerons plus avant la construction du système de reconnaissance automatique de la parole en anglais. Nous poursuivrons avec la mise en place du système de traduction automatique statistique de l’anglais vers le français, adapté à la traduction de la parole. Puis nous verrons de quelle façon nous avons mis en œuvre le système nous permettant de redonner aux traductions produites une allure plus proche de celles que l’on rencontre en traduction de textes classiques. Enfin, nous présenterons les différents résultats obtenus à l’aide de notre système, que ce soit en évaluation interne ou au cours de la campagne d’évaluation IWSLT 2011 à laquelle nous avons participé. 5.1 Architecture globale Notre système de traduction de la parole anglaise vers le français se décompose en trois éléments majeurs, qui combinés entre eux permettent de constituer le système proprement dit : – le système de reconnaissance automatique de la parole en anglais, basé sur les précédents travaux du LIUM concernant la reconnaissance du français, s’articule autour de la suite d’outils open-source de CMU, Sphinx [Lee 1990], et des modifications qui y ont été apportées par le LIUM [Deléglise 2009], – le système de traduction automatique statistique de l’anglais vers le français, qui lui repose sur les composants logiciels open-source Moses pour la traduction [Koehn 2007] et sur des extensions pour le modèle de langage à espace continu [Schwenk 2007], – et enfin le système de remise de la casse et de la ponctuation, qui se base sur des tables de traduction également créées grâce à Moses. Ces trois composantes peuvent être modulées de plusieurs manières afin d’assurer un couplage plus ou moins étroit. Ce couplage est fortement lié à la quantité d’informations produite en sortie d’un système pour être utilisé en entrée dans un autre. En effet, le couplage le plus simple consiste à ne considérer à chaque fois que la meilleure hypothèse, c’est-à-dire que la meilleure hypothèse de reconnaissance automatique, une fois assemblée sous forme de phrase 83 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français (typiquement il s’agira de mettre bout à bout l’ensemble des mots du segment considéré), sera utilisée en entrée du système de traduction, qui lui-même produira ce qu’il considère être la meilleure hypothèse de traduction. Celle-ci sera ensuite traitée afin de retrouver la casse et la ponctuation manquante. Un autre couplage consiste à considérer une liste de meilleures hypothèses de reconnaissance (de l’ordre de cent ou mille, par exemple), qui peuvent être réévaluées entre chaque composante du système afin d’y appliquer une pondération et fournissent par ailleurs plus de variété dans les choix de traductions possibles, créant par-là même un couplage plus étroit. Il est également possible, grâce aux outils que nous utilisons, de traiter, après une conversion de format, les graphes de mots produits par le système de reconnaissance afin de les traduire et d’en extraire une ou plusieurs hypothèses. Ces graphes peuvent également être réduits en réseaux de confusion et traités sous cette forme. Cela constitue un couplage beaucoup plus étroit, puisque l’on pourra de cette manière conserver une grande partie de l’espace de recherche tout au long des traitements afin de reporter au maximum la décision finale sur la meilleure hypothèse à conserver. La figure 5.1 présente l’architecture globale de notre système, laissant ainsi apparaître les possibilités de couplage qui lui sont possibles. Les flèches noires fines représentent le flux des données à traiter, avec les différentes entrées et sorties possibles. Les flèches grises plus grosses représentent le flux des données utilisées pour la construction des systèmes. Pour chaque composante, il est de plus indiqué la condition du texte utilisé (avec ou sans casse, avec ou sans ponctuation). 84 5.1. Architecture globale Signal acoustique anglais Corpus acoustique anglais Modèles acoustiques Corpus monolingues anglais Meilleure hypothèse Liste de nmeilleures Corpus parallèles anglais / français CMU Sphinx Modèle de langage Graphe de mots Modèle de traduction Corpus monolingues français Corpus parallèles français / français Liste de nmeilleures Traduction - Pas de casse - Pas de ponctuation Modèle de langage + CSLM Graphe de mots Réseau de confusion Remise de la casse et de la ponctuation Modèle de traduction Moses Corpus monolingues français - Pas de casse - Pas de ponctuation Réseau de confusion Moses Meilleure hypothèse Reconnaissance Modèle de langage - Casse et ponctuation du côté cible des corpus parallèles - Corpus monolingues avec casse et ponctués Meilleure hypothèse Liste de nmeilleures F IGURE 5.1 – Représentation de l’architecture globale du système de traduction de la parole du LIUM. 85 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français 5.2 Système de reconnaissance automatique de la parole en anglais Le système que nous avons développé pour la reconnaissance de la parole anglaise se base sur les précédents travaux du LIUM concernant la reconnaissance du français. Tous deux ont été développés à l’aide du décodeur CMU Sphinx que nous avons déjà évoqué lors du chapitre précédent. Celui-ci est distribué sous licence libre depuis 2001, permettant à quiconque de modifier le code source. Le LIUM lui a apporté de nombreuses modifications et améliorations [Deléglise 2005, Deléglise 2009], dont certaines ont par la suite été redistribuées à la communauté scientifique. En outre, grâce aux ajouts apportés, le décodage est réalisé via des passes multiples, améliorant ainsi les performances par rapport à un système à passe unique. 5.2.1 Architecture Nous utilisons deux versions différentes de CMU Sphinx pour construire nos systèmes : – Sphinx-3, cette version a pour but de permettre la meilleure précision possible dans le processus de décodage. Se basant sur les modèles de Markov continus, elle a longtemps été la version de référence du décodeur de CMU et est entièrement codée en langage C [Placeway 1997, Ravishankar 2000]. – Sphinx-4, cette version consiste en une implémentation d’un décodeur en langage Java décrit dans [Walker 2004], avec l’objectif d’être au moins aussi performante que la version précédente. Néanmoins, elle ne constitue pas une copie de Sphinx-3 simplement transposée dans un autre langage de programmation : en effet, en termes de génie logiciel, la conception est très différente et permet d’obtenir un décodeur très modulaire. Toutefois, ces deux versions utilisent les mêmes formats de modèles acoustiques et de modèles de langage. Le système du LIUM pour la transcription d’émissions radiophoniques en français a été développé pour la campagne d’évaluation ESTER 2, qui s’est déroulée en novembre 2008 (voir 3.2.1.2). Celui pour la transcription de présentations scientifiques en anglais a quant à lui été développé sur les mêmes principes de base en vue d’une participation à la campagne d’évaluation IWSLT 2011 qui a eu lieu en septembre 2011 (voir 3.3.2). La figure 5.2 présente de façon globale l’architecture du système du LIUM pour la transcription de présentations scientifiques en anglais, reprise d’après une figure présentant l’architecture du système pour la transcription d’émissions radiophoniques en français extraite de [Estève 2009]. Nous pouvons y voir la création des ressources nécessaires au système (l’apprentissage) ainsi que le processus de transcription (le décodage). 86 5.2. Système de reconnaissance automatique de la parole en anglais Apprentissage Textes (web, articles...) Transcriptions manuelles automatiquement alignées Enregistrements audio de parole Vocabulaire CMUdict 0.7a + Festival SRILM toolkit SphinxTrain + ajouts LIUM Phonétisation Estimation des MA Ressources Estimation des ML Modèles de langage Dictionnaire phonétisé Transcription Segmentation LIUM + Regroupement en locuteurs Adaptation acoustique MFCC Paramétrisation Sphinx + ajouts LIUM Modèles acoustiques PLP Décodeur CMU Sphinx + Ajouts LIUM (système multi-passes) CMLLR LIUM Sorties du système Signal de parole Meilleure hypothèse Graphe de mots Liste de nmeilleures Réseau de confusion F IGURE 5.2 – Architecture globale du système du LIUM pour la transcription de présentations scientifiques en anglais, d’après [Estève 2009]. 87 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français 5.2.2 Apprentissage 5.2.2.1 Construction du dictionnaire phonétisé d’apprentissage La construction d’un dictionnaire phonétisé pour l’apprentissage des modèles acoustiques est une étape essentielle du développement d’un système de reconnaissance de la parole. Il se différencie du dictionnaire phonétisé de décodage (voir 5.2.3.1) par le fait qu’il n’a pas nécessairement besoin de contenir un grand nombre de mots et leurs variantes. En effet, seul l’ensemble des mots utilisés dans les transcriptions accompagnant les données acoustiques d’apprentissage sont requis pour créer les modèles acoustiques. À l’inverse, pour le décodage, il est possible d’utiliser beaucoup plus de mots : une fois le système créé, les phonèmes sont bien appris, et le décodeur, via les modèles acoustiques est plus enclin à les associer pour décoder de nouveaux mots. Pour l’apprentissage de nos systèmes finaux et pour la construction du corpus d’apprentissage TED, nous avons pris comme base de départ l’ensemble des mots contenus dans nos transcriptions extraites du site. Afin de les phonétiser, nous avons utilisé le système de synthèse vocale Festival 13 configuré pour fournir en sortie une liste de phonèmes pour chaque mot en entrée. À cela, nous avons ajouté la totalité des mots contenus dans les transcriptions du corpus de broadcast news HUB4 [Pallett 1997] qui n’étaient pas déjà dans la liste des mots des transcriptions TED et nous les avons phonétisés de la même manière. Nous y avons également ajouté l’ensemble des mots du dictionnaire de CMU CMUdict. Ce dictionnaire est composé de 133 315 couples [mot, phonétisation], phonétisés manuellement. Puisque nous disposions de plusieurs listes phonétisées de manières différentes, nous avons effectué l’union de cellesci en conservant tous les couples [mot, phonétisation] existants. Le dictionnaire ainsi obtenu contenait 141 297 mots pour un total de 153 399 mots couples [mot, phonétisation]. 5.2.2.2 Modélisation acoustique pour l’anglais Les modèles acoustiques utilisés par notre système de reconnaissance en anglais, basés sur des modèles de Markov cachés, emploient un ensemble de 39 phonèmes de l’anglais, ainsi qu’un silence et huit types de fillers, ces éléments sonores qui ne sont pas des phonèmes constituant les mots (un bruit, une inspiration, une toux, ...). Tous ces phonèmes, à l’exception des fillers, se définissent en contexte, c’est-à-dire que leur modélisation se fait en fonction des phonèmes gauche et droit (concept de triphone) ainsi qu’en fonction de leur position dans le mot, qu’ils soient au début, à la fin, au milieu ou encore isolé. À partir du signal audio, un total de trente-neuf paramètres acoustiques par trame sont extraits et traités pour la modélisation : ces descripteurs sont issus d’une analyse de signal 13. http://www.cstr.ed.ac.uk/projects/festival 88 5.2. Système de reconnaissance automatique de la parole en anglais de type MFCC (voir 1.1.2). Il s’agit des douze vecteurs de caractéristiques, d’un descripteur de l’énergie (soit treize descripteurs), ainsi que de leurs dérivées premières et secondes. De plus, différents ensembles de modèles cohabitent au sein de notre système. Chacun de ces ensembles est orienté pour se spécialiser en fonction du genre de bande passante rencontrée : bande large (BL) – également appelée studio – ou bande étroite (BE), également appelée téléphone. La spécialisation s’effectue aussi en fonction du genre du locuteur, homme ou femme. L’adaptation des modèles est faite au moyen de la technique MAP (voir 1.1.3.4) sur les moyennes, les covariances et les poids des gaussiennes. Comme nous l’avons déjà évoqué, notre système se base sur les précédents travaux réalisés au LIUM sur le décodage du français [Deléglise 2009], notamment pour le fonctionnement en passes multiples. Ceci nous permet de distinguer deux grandes familles de modèles en fonction de la passe au cours de laquelle ils sont utilisés : 1. en première passe, nos modèles se composent de 6 500 états partagés, chacun de ces états se modélisant par une mixture de vingt-deux gaussiennes. 2. en seconde passe, ceux-ci se composent de 7 500 états, toujours modélisés par une mixture de vingt-deux gaussiennes. En revanche, ils sont estimés par un apprentissage de type SAT (Speaker Adaptive Training) [Anastasakos 1997] assorti à un apprentissage discriminant de type MPE (Minimum Phone Error) [Povey 2002]. De plus, une matrice de transformation CMLLR (voir 1.1.3.4) est calculée pour chaque locuteur et appliquée sur les paramètres acoustiques de chacun d’entre eux. En plus de cette modélisation, nous utilisons également un perceptron multi-couches (ou MLP, Multi-Layer Perceptron), dont la figure 5.3 est une illustration. Pour l’extraction des paramètres, nous utilisons la technique du goulot de bouteille (Bottle-neck) notamment décrite dans [Grézl 2008]. Pour la phase d’apprentissage de notre système, le MLP que nous utilisons présente deux couches cachées en plus des couches d’entrée et de sortie. La couche d’entrée contient 351 neurones : en effet, nous utilisons en entrée une concaténation de neuf trames comprenant chacune trente-neuf paramètres acoustiques (9 × 39 = 351). La couche de sortie en contient 123 : trois états par phonème, 40 phonèmes plus une classe pour les fillers. Entre les deux, la première couche cachée contient 4 000 neurones et la seconde 40, soit un par phonème. L’apprentissage des paramètres du MLP est réalisé à l’aide des bibliothèques QuickNet de ICSI 14 . Enfin, pour le réglage des poids des modèles au sein de notre système, nous utilisons l’optimiseur mathématique CONDOR (COnstrained, Non-linear, Direct, parallel Optimization using trust Region method for high-computing load function) [Vanden Berghen 2005] afin de 14. http://www.icsi.berkeley.edu/Speech/qn.html 89 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français Couche d'entrée 1ère couche 2ème couche cachée cachée Couche de sortie F IGURE 5.3 – Exemple de perceptron multi-couches. déterminer les poids optimaux concernant le modèle de langage, les fillers, les silences et la pénalité d’insertion de mots. 5.2.2.3 Modélisation du langage pour l’anglais Les modèles de langage de notre système de reconnaissance de la parole sont, comme pour la plupart des systèmes actuels, des modèles n-grammes. Deux sortes de modèles sont employés, selon la passe en cours du système (voir 5.2.3.3) : – pour les trois premières passes, ce sont des modèles trigrammes, – pour les deux dernières passes, ce sont des modèles quadrigrammes. L’estimation de nos modèles se fait au moyen de la technique de lissage de Kneser-Ney modifiée [Chen 1996] avec repli et interpolation des N-Grammes d’ordre inférieur. De plus, aucun cut-off (élagage des N-Grammes très peu fréquents) n’est appliqué. Les données utilisées sont décrites dans la section 4.3.1. Pour générer nos modèles trigrammes ou quadrigrammes finaux, nous estimons en premier lieu un modèle (respectivement trigramme ou quadrigramme) par corpus monolingue considéré. Puis, à l’aide de notre corpus de développement approprié, nous calculons les coefficients d’interpolation optimaux grâce à l’algorithme EM en vue de minimiser la perplexité du modèle final sur ce corpus. Toutes ces manipulations sont réalisées via l’ensemble d’outils pour la modélisation du langage SRILM [Stolcke 2002]. Le tableau 5.1 90 5.2. Système de reconnaissance automatique de la parole en anglais présente les coefficients d’interpolation appliqués aux corpus pour l’estimation des modèles respectivement trigramme et quadrigramme. Il est très intéressant de noter que malgré sa très petite taille (0,11% de l’ensemble des données), le corpus TED reçoit le plus grand coefficient d’interpolation, ce qui montre bien la forte adéquation de ce corpus par rapport à la tâche considérée. La perplexité des modèles finaux est respectivement de 151 pour le modèle trigramme et 139 pour le modèle quadrigramme sur le corpus de développement LIUM dev2010, décrit au chapitre précédent. Corpus TED News-Commentary Europarl News TOTAL Nb mots (milliers) 2 076 3 945 50 354 2 448 158 2 504 533 Trigramme Coefficient Perplexité 0,5984 197 0,0125 451 0,0425 490 0,3466 221 1 151 Quadrigramme Coefficient Perplexité 0,5616 193 0,0124 444 0,0489 471 0,3771 203 1 139 TABLE 5.1 – Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage trigrammes et quadrigrammes pour la RAP. 5.2.3 Décodage 5.2.3.1 Construction du vocabulaire de décodage La constitution du vocabulaire de décodage d’un système s’avère être une étape très importante dans le processus de construction d’un système de reconnaissance automatique de la parole. En effet, le choix des mots et leur phonétisation contribue en grande partie aux performances d’un tel système. Dans notre cas, nous avons choisi une approche similaire à [Allauzen 2004], se décomposant de la façon suivante : 1. estimer autant de modèles de langage unigrammes que le nombre de corpus monolingues dont nous disposons, 2. à partir du corpus de développement choisi, ici celui qui a été décrit dans la section 4.1.2, estimer les coefficients d’interpolation entre ces modèles de langage unigrammes en vue d’obtenir une perplexité minimale sur ce corpus. Ce calcul de coefficients se fait grâce à l’algorithme EM (voir 1.1.3.1). 3. estimer le modèle unigramme global interpolé, 4. après avoir ordonné les mots du modèle unigramme interpolé dans l’ordre décroissant de leur probabilité, en extraire les N mots les plus probables, N étant la taille souhaitée pour le vocabulaire du système. 91 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français La taille fixée pour notre dictionnaire de décodage était de 150 000 mots. Comme pour le dictionnaire phonétisé d’apprentissage, nous y avons ajouté l’ensemble des mots des corpus TED et HUB4. De ce fait, le taux de mots hors-vocabulaire sur notre corpus de développement est de 0 %. Au total, celui-ci contient 157 617 mots. De plus, afin d’assurer la liaison entre le niveau lexical et le niveau acoustique du système, il est indispensable d’associer à chacun de ces mots une séquence d’unités acoustiques de base (phonèmes) [Strik 1999]. Notre système pour l’anglais utilise le jeu standard de 39 phonèmes pour l’anglais, plus un phonème représentant un silence. Afin de phonétiser notre vocabulaire, nous avons procédé ainsi : 1. si le mot existe déjà dans notre dictionnaire phonétisé d’apprentissage, nous le conservons et l’ajoutons, ainsi que ses éventuelles variantes, 2. s’il existe dans le dictionnaire CMUdict dans sa version 0.7a, nous utilisons la ou les phonétisations proposées par celui-ci, 3. enfin, si le mot n’a pu être trouvé lors des deux étapes précédentes, nous produisons une phonétisation automatique à l’aide de l’outil pour la synthèse vocale Festival (voir 5.2.2.1). 5.2.3.2 Segmentation Afin de ne décoder que les zones contenant de la parole, il est nécessaire de définir les frontières de ces segments sur le signal acoustique. De cette façon, il devient possible d’écarter du processus de décodage les zones ne contenant pas du tout de parole, par exemple de la musique, dans le but de limiter au maximum les erreurs de type insertion de mots. Ce processus de segmentation consiste en un découpage du signal en zones homogènes, que ce soit en termes de largeur de bande (étroite ou large), de genre (homme ou femme) ou de locuteur. La précision d’un tel découpage doit être extrêmement importante, notamment en ce qui concerne le genre et la largeur de bande, puisque les modèles acoustiques utilisés par notre système de reconnaissance sont spécialisés en fonction de ces critères. Le système de segmentation en locuteurs développé au sein du LIUM se base sur le Critère d’Information de Bayes (BIC, Bayesian Information Criterion) [Chen 1998] et propose une segmentation en trois étapes : 1. décomposition du signal en petits segments homogènes, 2. regroupement de ces segments en classes de locuteurs (un locuteur par classe) sans modifier les frontières par une classification hiérarchique, 3. ajustement des frontières par un décodage Viterbi. De plus, les segments de parole sont limités à 20 secondes, les segments trop longs étant découpés au moyen d’une détection de silences. Ce système, initialement été développé pour la campagne d’évaluation ESTER 1, est décrit en détails dans [Meignier 2010]. 92 5.2. Système de reconnaissance automatique de la parole en anglais 5.2.3.3 Transcription multi-passes Comme nous l’avons déjà souligné en introduction de cette section, le système de reconnaissance automatique de la parole du LIUM procède au décodage du flux de parole en passes multiples. Nous entendons comme passe le fait d’employer un algorithme de recherche afin de manipuler le produit d’une passe précédente et de proposer une hypothèse de reconnaissance. Elles sont au nombre de cinq : 1. dans la première passe, un traitement utilisant la version 3.7 du décodeur rapide de CMU Sphinx-3 est appliqué sur les paramètres acoustiques PLP du signal acoustique à décoder. Le décodeur utilise ici un modèle de langage trigramme et des modèles acoustiques adaptés en locuteur et en largeur de bande via la méthode MAP. Cela permet d’extraire de ces paramètres la meilleure hypothèse ; 2. dans la seconde passe, une matrice de transformation CMLLR est calculée sur les mêmes paramètres acoustiques afin de les adapter au second jeu de modèles acoustiques, estimés à l’aide des méthodes SAT et MPE. Le traitement est toujours réalisé via le décodeur rapide de CMU Sphinx-3. Le modèle de langage trigramme est quant à lui repris de la première passe. Le système produit alors comme hypothèse de sortie un graphe de mots ; 3. au cours de la troisième passe, nous utilisons le perceptron multi-couches estimé lors de l’apprentissage des modèles acoustiques, amputé de sa dernière couche, la seconde couche cachée de quarante neurones décrite précédemment devenant alors la couche de sortie. Pour le décodage, une transformation par analyse en composantes principales (PCA, Principal Component Analysis) est appliquée sur ces quarante paramètres de sortie puis deux flux sont décodés : le premier se compose de ces quarante paramètres transformés tandis que le second est fait des trente-neuf paramètres PLP standard. Les vraisemblances de ces deux flux sont pondérées afin d’obtenir une dynamique de vraisemblance similaire à celle d’un flux de PLP simple. L’hypothèse de sortie est produite sous la forme d’un graphe de mot ; 4. lors de la quatrième passe, les scores linguistiques des graphes de mots obtenus à l’issue de la passe précédente sont recalculés à l’aide d’un modèle de langage quadrigramme ; 5. enfin, lors de la cinquième et dernière passe, les graphes de mots réévalués pendant la passe précédente sont transformés en réseaux de confusion. Une variante de la méthode de consensus, présentée dans [Mangu 2000], est ensuite appliquée, ce qui permet d’obtenir l’hypothèse finale du système et de disposer pour chaque mot de probabilités a posteriori pouvant être employées comme mesures de confiance. 93 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français 5.3 Système de traduction automatique de la parole anglais français Le système de traduction automatique statistique que nous avons développé au LIUM dans le but de traduire en français les transcriptions de parole produites par notre système de reconnaissance de l’anglais se base sur le décodeur open-source Moses. Nous allons dans cette section décrire notre système, de son architecture générale à la phase d’apprentissage des modèles, puis au décodage. 5.3.1 Architecture Nous utilisons plusieurs outils afin de construire notre système : – pour l’alignement mot-à-mot (voir 1.2.2.1), nous utilisons l’outil GIZA++ dans sa version multi-thread [Gao 2008], – pour l’apprentissage du modèle de traduction et le décodage, nous utilisons l’ensemble d’outils Moses, – enfin pour l’estimation des modèles de langage, tout comme pour la reconnaissance de la parole, nous employons les outils de SRILM. Nous utilisons également en complément l’outil du LIUM 15 pour les modèles de langage à espace continu (CSLM) décrit notamment dans [Schwenk 2010]. Notre système a été spécifiquement développé pour la campagne d’évaluation IWSLT 2011 en parallèle de notre système de transcription, et par conséquent est également fortement orienté vers la traduction de transcriptions de présentations scientifiques, bien qu’il puisse aussi être utilisé comme un système générique. La figure 5.4 présente l’architecture globale de notre système de traduction. 5.3.2 Apprentissage 5.3.2.1 Modélisation de la traduction de l’anglais vers le français La première étape dans la modélisation de la traduction sera de préparer les textes parallèles d’apprentissage dont nous disposons (voir 4.2.1) afin qu’ils soient formatés de façon convenable. Globalement, il s’agira tout d’abord de retirer des corpus les phrases trop longues (généralement, la limite est fixée à cent mots) et de les « tokeniser », c’est-à-dire de bien séparer le flux de texte en unités atomiques, autrement dit en mots. Pour la plupart des langues, cela consistera simplement en la séparation de la ponctuation (insertion d’espaces) et des mots comportant des 15. http://www-lium.univ-lemans.fr/cslm 94 5.3. Système de traduction automatique de la parole anglais - français Corpora parallèles Apprentissage Textes (web, articles...) Langue cible Vocabulaire MGIZA++ Moses (scripts d'apprentissage) SRILM toolkit Alignement Estimation du MT Estimation du ML Ressources Langue source Modèle de langage Paires de séquences Modèle de traduction Optimisation des paramètres Décodeur Moses Tokenisation Traduction MERT Sorties du système Texte à traduire Meilleure hypothèse CSLM Meilleure hypothèse Graphe de mots Liste de nmeilleures Réseau de confusion F IGURE 5.4 – Architecture globale du système du LIUM pour la traduction de transcriptions de parole dans un contexte de présentations scientifiques. 95 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français apostrophes (comme « aujourd’hui » en français qui deviendra « aujourd’ + hui » ou « I’m » en anglais qui deviendra « I + ’m »). Pour d’autres langues n’utilisant pas l’alphabet latin, tel que l’arabe ou le chinois, il sera nécessaire de segmenter le flux de caractères en mots tout en prenant soin d’éviter les ambiguïtés. Dans les deux cas, le but de cette opération est de limiter au maximum la liste des mots du système afin qu’un même mot ne soit pas dépendant de la ponctuation qui l’entoure, par exemple. À partir de ces textes parallèles préparés, nous procédons d’abord à la phase d’alignement mot-à-mot pour chaque paire de phrases dans les corpus à l’aide de l’outil dédié MGIZA++. Afin de pouvoir par la suite en extraire les paires de séquences nécessaires à l’estimation du modèle de traduction, il est nécessaire de réaliser l’alignement dans les deux sens de traduction, à savoir aligner les mots de l’anglais avec ceux du français et vice versa. L’étape suivante consiste en l’extraction des paires de séquences de mots qui constitueront la table de traduction finale. Pour cela, un algorithme d’extraction est utilisé, dont le fonctionnement global est, à partir des alignements bidirectionnels, de passer en revue toutes les séquences en langue source d’une phrase donnée et de déterminer la séquence minimale en langue cible qui correspond à chacune d’entre elles. La correspondance se fait en identifiant tous les points d’alignement de la séquence source puis en trouvant la séquence cible la plus courte qui inclut toutes les traductions des mots de la séquence source. Néanmoins, trois conditions doivent être pris en compte : – si la séquence source ne contient que des mots non-alignés, on ne cherchera pas à la faire correspondre dans la phrase cible, – si la séquence cible minimale correspondante contient des points d’alignements situés en dehors de la séquence source, cette paire de séquences ne peut être extraite, – si la séquence cible est entourée de mots non-alignés avec la séquence source, elle est étendue à ces mots et constitue alors une nouvelle traduction possible de la séquence source. Par conséquent, en regard de ces conditions, il est possible de considérer les points d’alignement comme des contraintes pour l’extraction des séquences : moins il y aura de points d’alignement, plus il sera possible d’extraire de séquences différentes. L’estimation des probabilités de traduction pour chacune de ces paires de séquences est ensuite réalisée. Pour cela, nous utilisons les comptes des fréquences relatives via le formalisme présenté dans l’équation 1.15 exposée au cours du chapitre 1. Les dernières étapes de la modélisation de la traduction consistent en un calcul de la pondération lexicale, de la pénalité de mot et de séquence, puis de l’estimation du modèle de réordonnement (cf. 1.2.3.2). 96 5.3. Système de traduction automatique de la parole anglais - français Au total, notre système et sa modélisation de la traduction utilisent quatorze fonctions caractéristiques (feature functions). Les voici résumées ici : – quatre features pour les probabilités lexicales et de traduction dans les deux sens de direction, – sept features pour le modèle de distorsion lexicalisé, – une feature pour la pénalité de mot, – une feature pour la pénalité de séquence, – une feature pour le modèle de langage. Le réglage et l’optimisation des fonctions caractéristiques du système sont réalisés à l’aide de l’algorithme MERT (voir 1.2.4.1), modifié afin de proposer trois optimisations différentes, ce qui nous permet de prendre la meilleure des trois et ainsi éviter plus facilement le phénomène de maximum local pouvant se produire. Le corpus de développement sur lequel a été faite cette optimisation est le même que celui utilisé pour le système de reconnaissance de la parole, en vue d’assurer la consistance de notre architecture globale. 5.3.2.2 Modélisation du langage pour le français À nouveau, notre modèle de langage en français pour la traduction est un modèle N-Gramme, plus précisément quadrigramme, estimé à l’aide de l’ensemble d’outils SRILM. Le lissage est réalisé au moyen de la technique Kneser-Ney modifiée, et aucun élagage n’est appliqué, tout comme nos modèles pour la reconnaissance de la parole. Concernant le vocabulaire utilisé lors de l’estimation du modèle, puisque la langue change, nous n’avons pas pu reprendre le vocabulaire utilisé dans notre système de transcription. Nous avons néanmoins pu l’utiliser comme base afin de toujours assurer une certaine consistance entre la reconnaissance de la parole et la traduction. Pour ce faire, nous avons donc pris notre dictionnaire de décodage, et nous avons filtré notre table de traduction sur les paires de séquence ne contenant qu’un seul mot, lui-même faisant partie du dictionnaire considéré. Ceci nous a permis d’obtenir la liste des mots en français correspondant à l’ensemble des mots en anglais de notre dictionnaire d’origine. À partir de cela, à l’instar du travail réalisé pour la reconnaissance de la parole, nous avons estimé un modèle quadrigramme par corpus monolingue à notre disposition. Puis, sur la partie française de notre corpus de développement spécifique, nous avons calculé les coefficients d’interpolation afin de créer le modèle final. Nous pouvons remarquer qu’à nouveau, bien qu’il ne représente que 0,15% de l’ensemble de données, c’est le corpus TED qui reçoit le plus gros coefficient lors de l’interpolation. Le tableau 5.2 présente les coefficients appliqués à chaque corpus respectif. La perplexité du modèle quadrigramme final est de 98. 97 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français Corpus TED News-Commentary Europarl ccb2 UN200x Gigaword 109 News TOTAL Nb mots (milliers) 1 938 3 059 50 211 252 835 376 880 747 915 549 655 1 982 493 Coefficient Perplexité 0,5294 0,0208 0,0686 0,0621 0,0146 0,1145 0,1900 1 140,76 275,23 210,69 189,68 322,10 182,17 166,70 98,41 TABLE 5.2 – Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage quadrigrammes pour la traduction. Nous avons également estimé un modèle de langage à espace continu (CSLM, Continuous Space Language Model) 5-grammes, basé sur l’implémentation de [Schwenk 2007]. Celui-ci est appris à partir des mêmes données que le modèle de langage classique. 5.3.3 Décodage 5.3.3.1 Traitement des graphes de mots de la reconnaissance de la parole Dans cette partie, nous allons nous intéresser à la manière dont nous avons traités les graphes de mots en sortie de la reconnaissance de la parole afin qu’ils puissent être décodés par notre système de traduction. En effet, les graphes produits par la reconnaissance sont dans leur grande majorité trop grands pour être directement utilisés dans un système de traduction. L’espace de recherche qu’ils représentent est bien trop vaste pour être traduits dans un temps raisonnable. Nous avons donc utilisé une technique de réduction de ces graphes développée au LIUM, afin qu’ils puissent être acceptés par le décodeur de traduction, que ce soit sous la forme de graphes réduits ou encore sous la forme de réseaux de confusion. Cette technique fonctionne en sept étapes : 1. calculer les probabilités a posteriori des mots du graphe à l’aide de l’algorithme forwardbackward [Rabiner 1989], 2. séparer certains mots (composés notamment) afin de normaliser la « tokenisation » du graphe, 3. fusionner les mots identiques situés dans des zones temporelles proches, 4. retirer les arcs dont les probabilités a posteriori sont inférieures à 0.001 (filtrage doux), puis réitérer l’étape 3, 98 5.3. Système de traduction automatique de la parole anglais - français 5. retirer les arcs dont les probabilités a posteriori sont inférieures à 0.01 (filtrage plus fort), puis réitérer l’étape 3, 6. retirer les fillers et les transitions nulles (mot vide), 7. (optionnel) transformer le graphe en réseau de confusion. La figure 5.5 présente un exemple visuel d’une telle réduction, les flèches numérotées représentant les étapes correspondantes. Le tableau 5.3 présente quant à lui un exemple de statistiques (nœuds, arcs, chemins) d’un graphe au fur et à mesure des réductions qui lui sont appliquées. 3 5&6 4 7 F IGURE 5.5 – Exemple de réduction d’un graphe de mot afin de le rendre exploitable par le décodeur de traduction. 3 Nœuds Arcs Nœuds/arc (moyenne) Chemins 65 104 1.6 55080 4 49 70 1.42 3864 5&6 32 37 1.15 32 TABLE 5.3 – Exemple de statistiques d’un graphe de mots au cours de sa réduction. 99 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français 5.4 Remise de la casse et de la ponctuation Afin de produire des traductions de qualité acceptable, il est nécessaire de retraiter les sorties de notre système. En effet, celles-ci, bien qu’étant composées d’une suite de mots, ne peuvent pas réellement être considérées comme exploitables. Toute la ponctuation est manquante, ainsi que la casse et notamment les majuscules en début de phrase et sur les noms propres ce que dégrade fortement leur lisibilité. Nous allons donc dans cette section nous intéresser au système de remise de la casse et de la ponctuation que nous avons créé et mis en place afin de pallier à cette problématique. 5.4.1 Architecture Notre système de remise de la casse et de la ponctuation (ci-après dénommé système de recasing) se situe en position de post-traitement, après la traduction, et se base également sur les méthodes de la traduction automatique en faisant intervenir le même cadre statistique et en s’appuyant sur le décodeur Moses. Il utilise les mêmes outils que notre système de traduction décrit ci-avant, à savoir MGIZA++ pour l’alignement, Moses pour l’apprentissage du modèle de traduction et le décodage et enfin SRILM pour l’apprentissage du modèle de langage. Néanmoins, à la différence d’un système de traduction « classique », notre système de recasing n’utilise pas de corpus parallèles dans deux langues distinctes mais bien dans la même langue, en l’occurrence ici le français. La figure 5.4 proposée dans la section précédente illustre également cela, à ceci près que dans le cas du recasing, la langue source est le français de style transcriptions de parole et la langue cible est le français de style traduction, où figurent la ponctuation et la casse. 5.4.2 Modélisation de la traduction Pour modéliser notre système, nous avons repris l’ensemble des parties françaises de nos corpus parallèles dans leur condition d’origine (avec ponctuation et casse, notamment) et nous les avons traités avec notre script dédié, décrit dans la section 4.1.1.1. Nous avons donc obtenu des corpus parallèles contenant le même texte, d’un côté possédant toutes les caractéristiques d’un texte syntaxiquement correct et de l’autre se rapprochant le plus possible de la condition des transcriptions produites par un système de reconnaissance. À partir de ces corpus, nous avons appris un modèle de traduction de la même manière que précédemment, avec le même nombre de fonctions caractéristiques (features). Puisque les caractères de ponctuation et autres signes particuliers sont considérés comme des mots à part entière grâce au processus de « tokenisation » préalable à toute construction de système de 100 5.4. Remise de la casse et de la ponctuation traduction, notre modèle devient donc capable de replacer ces caractères aux endroits les plus probables d’une phrase, ainsi que de retrouver la casse aux endroits où elle est nécessaire, comme sur les noms propres ou en début de phrase. Le réglage et l’optimisation des features du modèle ont été effectuées grâce à l’algorithme MERT, à partir du corpus de développement dev2010 de la campagne d’évaluation IWSLT 2010, sans toutefois l’avoir préalablement normalisé. 5.4.3 Modélisation du langage Pour la modélisation du langage, et toujours dans un souci de cohérence de l’ensemble, nous avons employé les mêmes corpus monolingues qu’auparavant. Néanmoins, puisque la langue cible de notre système est le français dans sa forme écrite (et non transcrite de l’oral), nous avons pris les versions d’origine de ces corpus. Toujours à l’aide de l’ensemble d’outils SRILM, nous avons estimé un modèle quadrigramme par corpus monolingue, sans élagage et lissé via la méthode Kneser-Ney modifiée, avec le même vocabulaire que précédemment auquel nous avons ajouté l’ensemble des caractères particuliers tels que la ponctuation qui n’étaient pas présents dans le vocabulaire du système de traduction. Nous avons également ajouté, le cas échéant, les mots comportant une majuscule dans tous les cas, afin de s’assurer de leur bonne probabilité dans les traductions finales. Bien entendu, nous avons par la suite interpolé ces modèles, afin d’obtenir notre modèle de langage final, dont la perplexité est de 78. Le tableau 5.4 présente les coefficients d’interpolation qui ont été appliqués. Corpus TED News-Commentary Europarl ccb2 UN200x Gigaword 109 News TOTAL Coefficient 0.51970 0.02653 0.11550 0.04866 0.00538 0.08244 0.20179 1 Perplexité 109 221 166 209 278 169 124 78 TABLE 5.4 – Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage quadrigrammes pour le recasing. 101 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français 5.4.4 Décodage Le décodage de notre système de recasing s’effectue, globalement, de la même manière que le décodage pour la traduction. Néanmoins, il existe une différence qui bien que d’apparence anodine, conditionne totalement les résultats qui seront obtenus à l’issue du traitement. En effet, afin de ne pas modifier en profondeur la structure des traductions produites, il est indispensable de supprimer la distorsion (autrement dit le réordonnement des N-Grammes) que réalise le décodeur. Sans cela, les N-Grammes de la phrase reponctuée pourraient être déplacés, entraînant par-là une perte de sens importante. La figure 5.6 présente des exemples de traductions reponctuées à l’aide de notre système. Pour chaque exemple, la première phrase représente à la sortie du système de traduction, la seconde à la sortie du système de recasing et la dernière à la traduction de référence leur correspondant. Original vous avez probablement vu le sentiment d' urgence un peu de peur mais intense concentration profonde se concentrer sur la lutte contre un problème très difficile Recase Vous avez probablement vu le sentiment d' urgence , un peu de peur , mais intense concentration profonde , se concentrer sur la lutte contre un problème très difficile . Réf. Vous percevez peut-être le sens de l' urgence , un peu de peur , mais surtout une concentration intense , très très intense pour résoudre un problème vraiment difficile . Original ils ont réussi le processus ils comprennent le processus Recase Ils ont réussi le processus , ils comprennent le processus . Réf. Ils gèrent le processus , ils comprennent le process . Original il y a plusieurs années ici à ted peter skillman a introduit un défi de design appelé le marshmallow défi Recase Il y a plusieurs années , ici à TED , Peter Skillman a introduit un défi de design , appelé le marshmallow défi . Réf. Il y a plusieurs années , ici à TED , Peter Skillman a présenté une épreuve de conception appelée l' épreuve du marshmallow . F IGURE 5.6 – Exemples de traductions dont la ponctuation et la casse a été remise, en comparaison des traductions d’origine et de référence. 102 5.5. Expérimentations et évaluation des systèmes 5.5 Expérimentations et évaluation des systèmes Afin de proposer un système de traduction automatique de la parole performant, il est bien entendu indispensable de réaliser plusieurs expérimentations et évaluations afin de déterminer au mieux les réglages et optimisations idéaux. Ces expérimentations portent notamment sur la forme des entrées appliquées à nos systèmes, sur le choix des corpus d’apprentissage ou encore sur l’application du recasing avant ou après la traduction. Nous allons donc dans cette section dans un premier temps détailler les expériences qui ont été réalisées en interne ainsi que les résultats obtenus, puis nous présenterons les résultats obtenus lors des campagnes d’évaluation IWSLT. 5.5.1 Expérimentations et évaluations internes 5.5.1.1 Sur la reconnaissance de la parole Sur notre système de reconnaissance de la parole, nous avons réalisé plusieurs ensembles de modèles acoustiques différents que nous allons présenter ici. Le premier, surnommé tedhub1, correspond à l’ensemble utilisé comme référence de départ (ou baseline), soit les modèles qui ont été produit lors de l’itération d’amorçage de la construction de notre corpus TED-LIUM (voir 4.1.1.2). Le second, surnommé tedhub2, correspond quant à lui à l’ensemble de modèles qui ont été appris à l’issue de l’itération intermédiaire de la construction de TED-LIUM. Un troisième ensemble, surnommé tedhub2mpe, constitue une amélioration du modèle tedhub2, sur lequel nous avons appliqué un apprentissage discriminant de type MPE (Minimum Phone Error). Cela correspond à l’état du système à l’issue de l’itération finale de TED-LIUM. Enfin, un dernier ensemble, appelé tedhub2mlp correspond à l’évolution de l’ensemble tedhub2mpe auquel nous avons ajouté un perceptron multi-couches (MLP). Le tableau 5.5 présente les résultats internes en termes de WER obtenus pour chaque ensemble de modèles et pour chaque passe lors du décodage de notre corpus de développement LIUM dev2010 par notre système de transcription multi-passes. Ensemble de modèles tedhub1 tedhub2 tedhub2mpe tedhub2mlp Passe 1 29,0 26,7 27,7 26,6 Passe 2 25,3 23,0 21,1 21,3 Passe 3 23,5 21,1 19,4 18,4 Passe 4 22,9 20,4 18,6 17,9 Passe 5 22,6 20,2 18,4 17,8 TABLE 5.5 – Résultats d’évaluations internes des modèles acoustiques par décodage multipasses sur le corpus LIUM dev2010, en termes de WER. 103 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français 5.5.1.2 Sur la traduction automatique Concernant la traduction automatique, nos premières expérimentations ont consisté en la détermination de l’ensemble des corpus qui constitueraient notre base d’apprentissage pour notre système de départ. Nous avons pour cela créé plusieurs systèmes, basés sur des jeux de données différents, et les avons évalués sur nos corpus de développement LIUM dev2010 et de test LIUM test2010. Le tableau 5.6 présente, en termes de score BLEU, les résultats qui ont été obtenus. Ensemble de corpus TED News-commentary + TED Europarl + News-commentary + TED Europarl + News-commentary + TED + ccb2 Nombre de mots anglais filtrés 1.8 M 4.4 M 51.0 M 271.0 M LIUM dev2010 23.69 24.30 23.92 24.34 LIUM test2010 25.09 25.68 25.38 25.32 TABLE 5.6 – Scores BLEU des systèmes de référence en fonction des corpus utilisés. Comme nous pouvons le constater, l’ensemble TED + News-commentary, bien que de taille relativement réduite, obtient des résultats sur le corpus de développement similaires au plus gros ensemble considéré, et supérieurs sur le corpus de test, malgré une taille environ soixante fois inférieure. Ceci nous a également appris que l’introduction du corpus News-commentary aidait beaucoup le système, tandis que l’utilisation du corpus Europarl dégradait les performances. C’est donc naturellement que nous avons fait le choix d’utiliser le couple TED + News-commentary pour l’apprentissage de notre système de base. De plus, l’introduction du corpus ccb2 améliore faiblement les résultats sur le corpus de développement. Il est possible qu’un filtrage de celui-ci puisse permettre de sélectionner les données les plus proches de LIUM dev2010. Afin de réaliser ce filtrage, nous avons tenté une approche basée sur la perplexité des modèles de langage, inspirée de précédents travaux décrits dans [Gao 2002]. Nous avons tout d’abord estimé un modèle de langage quadrigramme sur la partie anglaise du corpus parallèle TED. Puis, à l’aide de ce modèle, nous avons calculé la perplexité de chaque phrase du corpus ccb2 et les avons classées par ordre croissant. Nous avons ensuite appliqué différents seuils sur le corpus trié et les sous-ensembles résultants ont été intégrés à nos données d’apprentissage de départ, afin d’étudier l’impact de la sélection sur les performances de notre système. Le tableau 5.7 présente les résultats de ces expérimentations pour chaque sous-ensemble testé. Le graphique 5.7 compare les résultats obtenus en termes de score BLEU à la quantité de données utilisée par le système. 104 5.5. Expérimentations et évaluation des systèmes Ensemble de corpus nc6 + TED nc6 + TED + ccb2.px50 nc6 + TED + ccb2.px60 nc6 + TED + ccb2.px70 nc6 + TED + ccb2.px80 nc6 + TED + ccb2.px100 nc6 + TED + ccb2.px150 Nombre de mots anglais 4.4 M 4.9 M 5.2 M 5.7 M 6.2 M 7.4 M 11.9 M LIUM dev2010 24.30 24.22 24.20 24.29 24.29 24.28 24.31 LIUM tst2010 25.68 25.98 25.87 26.04 25.29 25.45 25.39 TABLE 5.7 – Scores BLEU des systèmes en fonction de la sélection par la perplexité. Filtrage par perplexite sur ccb2 26.5 13 12 26 11 10 9 25 8 24.5 Millions Score BLEU 25.5 7 6 24 5 23.5 4 60 80 100 120 140 Perplexite Nombre de mots LIUM dev2010 LIUM tst2010 F IGURE 5.7 – Résultats (score BLEU) du filtrage par perplexité comparés à la taille des données d’apprentissage. 105 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français Nous pouvons observer que pour un seuil égal à 70, l’ajout du sous-ensemble de ccb2 n’a finalement pas d’impact sur le score du corpus de développement, mais qu’il améliore le score obtenu sur le corpus de test, qui nous intéresse plus particulièrement. Par conséquent, nous avons fait le choix de conserver le sous-ensemble correspondant au filtrage à 70 de perplexité. À partir de notre système dont les données d’apprentissage ont été fixées, nous avons ensuite tenté de déterminer quel type d’entrée, et donc quel type de sortie de système de reconnaissance, s’appliquait le mieux à notre tâche de traduction de la parole. Nous considérons trois types d’entrées : – la meilleure hypothèse du système de reconnaissance (1-best), – le graphe de mots réduit (voir 5.3.3.1), – et le réseau de confusion. Pour la campagne d’évaluation IWSLT, et à titre de comparaison dans cette section, nous avons de plus pris en compte un autre type d’entrée, à savoir la meilleure hypothèse d’une combinaison de systèmes basée sur la méthode BONG développée au LIUM [Bougares 2011], en utilisant les graphes de mots de notre système de reconnaissance et ceux fournis par les organisateurs de la campagne. Nous avons également considéré une méthode de pondération de corpus dérivée des coefficients d’interpolation linéaire calculés lors de l’estimation du modèle de langage utilisé. En effet, en dupliquant plusieurs fois les corpus TED et nc6 (selon leurs coefficients d’interpolation du ML) dans les données d’apprentissage, nous pouvons ainsi augmenter leur importance relative. D’autres travaux ultérieurs menés au LIUM [Shah 2012] ainsi que dans la littérature récente [Matsoukas 2009] présentent des méthodes de pondération de corpus plus avancées. Le tableau 5.8 présente les résultats obtenus en fonction du type d’entrée considéré et des poids relatifs appliqués à certains corpus. Ensemble de corpus ccb2.px70-nc6-TED ccb2.px70-2xnc6-7xTED ccb2.px70-2xnc6-8xTED 1-Best (18.2% WER) dev test 23.63 24.62 23.96 24.90 23.97 25.01 Sorties LIUM Graphe réduit dev test 24.20 25.64 24.15 25.80 24.19 25.92 Réseau de confusion dev test 24.20 25.86 24.24 25.72 24.29 26.04 Combinaison BONG (17.0% WER) dev test 24.65 26.34 24.82 26.50 24.67 26.78 TABLE 5.8 – Résultats en termes de score BLEU selon l’ensemble de corpus et le type d’entrée considéré sur les corpus LIUM dev2010 et LIUM test2010. À la lecture de celui-ci, nous pouvons remarquer deux choses. D’un côté, la pondération des corpus par duplication des données améliore les résultats pour tous les types d’entrée, sauf 106 5.5. Expérimentations et évaluation des systèmes sur les graphes où les scores sur le corpus de développement restent similaires. De l’autre côté, outre le fait que la meilleure hypothèse issue de la combinaison de systèmes surpasse les autres types d’entrée que ce soit sur le corpus de développement ou le corpus de test (presque 1,8 point BLEU de gain), nous pouvons observer que les entrées de type graphe ou réseau de confusion, en plus de proposer un couplage plus étroit entre les systèmes, permettent d’obtenir de meilleurs résultats qu’un simple enchaînement de la reconnaissance et de la traduction notamment sur le corpus de test : de 25.01 à 25.92 points BLEU pour les graphes et 25.01 à 26.04 pour les réseaux de confusion, ce qui représente un gain de plus de un point. Enfin, nous avons également appliqué un modèle de langage à espace continu (CSLM) sur notre système, ce qui a permis d’obtenir de nouveau un gain supplémentaire sur les corpus de développement et de test, comme le montre le tableau 5.9, tant sur le décodage de la meilleure hypothèse (+ 0,66 point sur le test) que sur le décodage de la combinaison issue de BONG (+ 0,27 point sur le test également). Système Baseline + CSLM LIUM 1-best dev test 23.97 25.01 24.30 25.67 BONG dev test 24.67 26.78 24.97 27.05 TABLE 5.9 – Scores BLEU obtenus après ajout du modèle de langage à espace continu. 5.5.1.3 Sur la remise de la casse et de la ponctuation En ce qui concerne la remise de la casse et de la ponctuation, nous avons souhaité valider notre hypothèse consistant à préférer pratiquer le processus de recasing en aval du processus de traduction, plutôt qu’en amont. Nous avons pour cela développé deux systèmes de traduction complets et distincts tels que nous l’avons présenté dans les sections 5.3 et 5.4, un pour le recasing sur l’anglais, dont le traitement s’effectuerait sur la langue source et entre la reconnaissance de la parole et la traduction ; et un autre pour le recasing sur le français, dont le traitement serait lui réalisé sur la langue cible, après le processus de traduction. Position du recasing Aucun (baseline) Amont de la traduction (anglais) Aval de la traduction (français) dev2010 23,97 22,98 23,17 test2010 25,01 24,12 24,41 TABLE 5.10 – Évaluation et validation des approches pour le recasing. 107 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français Le tableau 5.10 présente les scores obtenus sur notre système de référence ou baseline (ccb2.px70-2xnc6-8xTED), pour chacune des deux approches, validant par-là même l’approche en aval. 5.5.2 Évaluation officielle : la campagne IWSLT 2011 Comme nous l’avons déjà évoqué tout au long de ce manuscrit, les contributions apportées par cette thèse prennent principalement place dans notre participation à la campagne d’évaluation IWSLT 2011. Lors de cette campagne, nous avons participé à trois tâches : – reconnaissance automatique de la parole en anglais, – combinaison de systèmes de reconnaissance (que nous ne développerons pas ici), – et reconnaissance automatique suivie de traduction automatique de la parole. Concernant la tâche de reconnaissance automatique de la parole, il s’agissait, en plus de fournir des transcriptions sur les corpus de développement et de test de la campagne précédente, de transcrire un ensemble de présentations scientifiques, au nombre de vingt, pour une durée totale de 3 heures, 59 minutes et 10 secondes. Cinq laboratoire ont participé à cette tâche, deux d’entre eux ayant de plus proposés une soumission contrastive. Lors de la campagne, le LIUM s’est classé en troisième position. Le tableau 5.11 présente les résultats que nous avons obtenus sur cette tâche. Corpus Dev 2010 Test 2010 Test 2011 Système du LIUM (WER) 19.2% 18.2% 17.4% Meilleur système (WER) 17.8% 15.8% 15.3% TABLE 5.11 – Résultats officiels du système de transcription du LIUM, en termes de WER. Pour la tâche de reconnaissance automatique suivie de traduction de la parole, il s’agissait d’effectuer une reconnaissance de la parole sur huit des vingt présentations proposées, pour une durée totale d’une heure et vingt minutes, puis de traduire les transcriptions obtenues vers le français. Également cinq laboratoires ont participé à cette tâche, dont quatre ont aussi participé à la tâche de reconnaissance. Cette fois, le LIUM s’est classé premier de l’ensemble des participants, que ce soit sur l’évaluation avec casse et ponctuation ou sans. Notre soumission était basée sur la meilleure hypothèse obtenue en combinaison de systèmes, puisque comme nous l’avons évoqué précédemment, c’est ce type d’entrée qui nous permettait d’obtenir les meilleurs résultats en interne. Nous avons également proposé une soumission contrastive, basée 108 5.5. Expérimentations et évaluation des systèmes sur des sorties 100% LIUM, afin dévaluer la qualité de notre système seul. Le tableau 5.12 détaille les résultats que nous avons obtenus grâce à notre système. Soumission Primaire Contrastif 2nd meilleur système casse + ponctuation 28.23 26.96 26.78 tst2011 sans casse + sans ponctuation 29.40 28.16 28.26 TABLE 5.12 – Résultats officiels du système de traduction automatique de la parole du LIUM, en termes de score BLEU. Nous pouvons observer que sur la tâche comprenant la casse et la ponctuation, notre système contrastif « 100% LIUM » a également été meilleur que le second système, ce qui nous confirme les bonnes performances de l’ensemble. Nous avons donc exposé, au long de ce chapitre, les méthodes que nous avons mises en œuvre pour concevoir et réaliser notre système de traduction automatique de la parole. Nous avons également discuté les diverses expérimentations effectuées pour parvenir à ce résultat, et présenté les performances obtenues lors d’une évaluation officielle. Pour conclure, nous souhaiterions ajouter que nous avons eu l’honneur de recevoir, en complément de ces bons résultats, le prix du meilleur article dans la catégorie « description de système » lors de la conférence qui concluait la campagne d’évaluation IWSLT 2011. 109 Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français 110 Chapitre 6 De l’amélioration des systèmes par la sélection de données Sommaire 6.1 6.2 6.3 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 6.1.1 Sélection de données monolingues . . . . . . . . . . . . . . . . 113 6.1.2 Sélection de données parallèles . . . . . . . . . . . . . . . . . . 114 XenC : outil pour la sélection de données par l’entropie croisée . . . 116 6.2.1 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 6.2.2 Disponibilité de l’outil . . . . . . . . . . . . . . . . . . . . . . . 117 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 6.3.1 6.3.2 Sur le système IWSLT 2011 . . . . . . . . . . . . . . . . . . . . 118 6.3.1.1 Modélisation du langage . . . . . . . . . . . . . . . . 118 6.3.1.2 Sélection sur les corpus parallèles . . . . . . . . . . . 122 6.3.1.3 Expérimentations sur le système complet de traduction 125 Autres expérimentations . . . . . . . . . . . . . . . . . . . . . . 127 6.3.2.1 Sélection de données pour WMT12 . . . . . . . . . . 128 6.3.2.2 Sélection pour NIST OpenMT 2012 . . . . . . . . . . 129 111 Chapitre 6. De l’amélioration des systèmes par la sélection de données ous avons déjà évoqué, au long de ce manuscrit, le fait qu’un système de traduction automatique de la parole est une entité dynamique et évolutive, dont les performances de référence peuvent être améliorées par diverses méthodes. L’une de ces méthodes consiste à sélectionner, de façon supervisée ou non, les données qui viendront constituer ou s’ajouter à l’ensemble de départ destiné à l’apprentissage du système. Cette sélection peut être réalisée à deux niveaux : N – sur les données monolingues destinées à la modélisation du langage, – sur les données parallèles destinées au modèle de traduction. Partant du principe que l’on souhaite viser un domaine précis pour lequel notre système sera plus adapté (comme les présentations scientifiques, orales par exemple), le but principal est d’extraire d’un corpus identifié comme hors du domaine (out-of-domain corpus) les phrases ou paires de phrases s’approchant du dit domaine. Cela suppose de posséder d’un corpus de taille suffisante faisant partie du domaine (in-domain corpus) que l’on utilisera pour la comparaison. Dans le cadre de ce manuscrit, nous avons travaillé sur un des aspects de l’amélioration des systèmes : la sélection de données par l’entropie croisée. Dans un premier temps, nous décrirons les principes de cette sélection, aussi bien pour les données monolingues que parallèles. Puis, nous présenterons l’outil que nous avons développé à cet effet, ainsi que son architecture. Enfin, nous détaillerons les expérimentations que nous avons réalisées à ce sujet, tant pour la modélisation du langage que pour le modèle de traduction ; nous évoquerons également les autres expérimentations qui ont été faites au sein du laboratoire à l’aide de cette approche. 6.1 Principes Il est communément admis qu’il n’y a pas de meilleures données qu’encore plus de données (« There is no data like more data » selon Mercer, [Jelinek 2004]). Cette affirmation, bien que correcte, n’est vraie que lorsque les données considérées sont suffisamment proches de la tâche de traduction envisagée. Néanmoins, pour pratiquement n’importe quel domaine, les quantités de données disponibles et réellement adaptées sont généralement limitées. La pratique habituelle consiste en l’utilisation de données supplémentaires hors du domaine, généralement en leur appliquant une pondération au niveau du corpus afin mettre l’emphase sur les données faisant partie du domaine. Toutefois, il est certain que ce faisant, des données inutiles voire néfastes au système sont aussi prises en compte, et induiront du bruit qu’il serait intéressant de pouvoir limiter au maximum. Nous allons dans cette section détailler une approche permettant de contourner ce problème, afin de ne garder, dans les grands ensembles de données, que ce qui semble intéressant pour la tâche de traduction envisagée. 112 6.1. Principes 6.1.1 Sélection de données monolingues La sélection de données par l’entropie croisée pour la modélisation du langage se base sur une approche introduite dans [Moore 2010]. Fondamentalement, il s’agit, pour le modèle de langage que l’on souhaite construire, de sélectionner au sein de l’ensemble de données ne faisant pas partie du domaine considéré un sous-ensemble de phrases s’approchant au mieux du texte d’un corpus faisant partie de ce domaine. Cela se fait en comparant l’entropie croisée de chacune des phrases du corpus hors du domaine par rapport à deux modèles de langage préalablement construits : – le premier est estimé à partir de l’ensemble des données considérées comme faisant partie du domaine, – le second est quant à lui estimé sur un sous-ensemble aléatoire des données desquelles on souhaite extraire les phrases les plus intéressantes, de taille similaire à l’ensemble de données faisant partie du domaine. Formellement, supposons que nous ayons un corpus du domaine I et un corpus hors du domaine N . De là, HI (s) sera l’entropie croisée selon un modèle de langage estimé sur I de la phrase s extraite de N . De façon similaire, HN (s) sera l’entropie croisée selon un modèle de langage estimé sur un extrait de N de taille similaire à I de cette même phrase s. Chaque phrase s1 , · · · , sN sera évaluée selon HI (s) − HN (s) et sélectionnée si son score se situe au-dessous d’un seuil T . Dans une justification plus statistique, nous pouvons postuler que notre corpus hors du domaine N contient un sous-ensemble NI de phrases similaires à notre corpus du domaine I. Par l’application du théorème de Bayes, nous pouvons écrire la probabilité P (NI |s, N ) que la phrase s extraite de N soit comprise dans NI de la façon suivante : P (NI |s, N ) = P (s|NI , N )p(NI |N ) P (s|N ) (6.1) Puisque NI est compris dans N , P (s|NI , N ) = P (s|NI ) et puisque nous croyons NI proche de I, P (s|NI ) ' P (s|I). L’estimation de P (NI |N ) n’est pas pertinente dans ce cadre, puisqu’elle ne pourra nous fournir aucune indication sur la valeur à donner au seuil T . L’équation deviendra alors : P (NI |s, N ) ' P (s|I) P (s|N ) (6.2) 113 Chapitre 6. De l’amélioration des systèmes par la sélection de données où P (s|I) et P (s|N ) s’estimeront en apprenant des modèles de langage sur I et un extrait aléatoire de N , respectivement. Dans le domaine logarithmique, nous chercherons donc à évaluer la quantité log (P (s|I)) − log (P (s|N )), ce qui nous rapproche beaucoup de la différence entre les entropies croisées que nous calculons, puisque HI (s)−HN (s) est en réalité une version normalisée par la longueur de log (P (s|I)) − log (P (s|N )) avec une inversion de signe. Cette normalisation est nécessaire car la valeur de log (P (s|I)) − log (P (s|N )) tend à être fortement corrélée à la longueur de la phrase. Cette approche présente alors deux avantages majeurs pour la modélisation du langage qui s’en suivra : – tout d’abord, nous pouvons raisonnablement espérer améliorer la cohérence d’un modèle, sa perplexité, ainsi que son impact sur les performances finales d’un système ; – de plus, les ressources de calcul nécessaires non seulement à l’estimation des modèles mais également à leur utilisation en situation de décodage seront moindres, notamment en termes d’empreinte mémoire. 6.1.2 Sélection de données parallèles La sélection par l’entropie croisée pour le modèle de traduction sur des données parallèles peut également s’opérer de façon relativement similaire. À ce sujet, dans [Axelrod 2011], il est décrit un cadre formel semblable à celui présenté dans [Moore 2010]. Néanmoins, la nature bilingue du problème nécessite de prendre en compte les deux langages inclus dans les données parallèles. Formellement, à partir des corpus du domaine respectivement en langue source et cible IS et IT et des corpus hors du domaine respectivement en langue source et cible NS et NT , nous pourrons calculer, pour une phrase source sS extraite de NS , l’entropie croisée HIS (sS ) selon un modèle de langage estimé sur IS et l’entropie croisée HNS (sS ) selon un modèle de langage estimé sur un extrait de NS de taille similaire à IS . De même, pour la même phrase cible sT extraite de NT , nous pourrons calculer HIT (sT ) l’entropie croisée selon un modèle de langage estimé sur IT et HNT (sT ) l’entropie croisée selon un modèle de langage estimé sur un extrait de NT de taille similaire à IT . L’estimation finale sera quant à elle réalisée en effectuant la somme entre les différences des entropies croisées de chaque côté des corpus parallèles, source et cible, comme le montre l’équation suivante : [HIS (sS ) − HNS (sS )] + [HIT (sT ) − HNT (sT )] 114 (6.3) 6.1. Principes Comme pour la sélection monolingue, cette approche présente le double avantage de renforcer les hypothèses de traduction inhérentes au domaine par l’ajout de données complémentaires et de réduire le besoin en ressources, tant au niveau de la puissance de calcul que de la mémoire requise pour charger les modèles. 115 Chapitre 6. De l’amélioration des systèmes par la sélection de données 6.2 XenC : outil pour la sélection de données par l’entropie croisée Afin de pouvoir réaliser des expériences sur la sélection, tant sur les données monolingues que sur les données parallèles, nous avons crée un outil spécifique, surnommé XenC (pour Cross-entropy en C++). 6.2.1 Architecture Cet outil possède trois modes, chacun basé sur une approche particulière : – le premier permet de pratiquer un filtrage simple basé sur la perplexité, tel que décrit dans [Gao 2002], – le second permet d’effectuer un filtrage par l’entropie croisée basé sur un langage unique (filtrage monolingue), comme nous l’avons détaillé au cours de la section précédente et tel qu’exposé dans [Moore 2010], – enfin le dernier permet de réaliser un filtrage par l’entropie croisée mais basé sur une paire de langages (filtrage bilingue), tel que nous l’avons présenté ci-avant et qu’introduit dans [Axelrod 2011]. Écrit avec le langage C++, XenC est orienté objet et réutilise les bibliothèques de SRILM pour tous les traitements liés aux modèles de langage : chargement des modèles compressés ou binaires ou calcul des scores de perplexité. À partir de deux corpus, le premier faisant partie du domaine et le second plus générique, XenC : 1. générera tous les modèles de langage requis si nécessaire, 2. calculera, selon le mode choisi, le score final de chaque phrase du corpus générique, 3. puis écrira deux fichiers : le premier, appelé scored, contient les phrases du corpus dans l’ordre d’origine accompagnées de leurs scores respectifs ; tandis que le second, appelé sorted, contient les phrases du corpus triées selon ces scores. Une fois le fichier trié généré, il est également possible de demander une évaluation du filtrage. Concrètement, puisque le fichier est trié du meilleur score au plus mauvais, l’on souhaitera évaluer des sous-ensembles de celui-ci en prenant un certain pourcentage de mots depuis le début du fichier, par exemple par pas de 10%. Puis, chaque sous-ensemble sera utilisé pour estimer un modèle de langage, qui sera ensuite évalué en termes de perplexité soit sur un corpus de développement spécifié, soit sur l’ensemble de données faisant partie du domaine lorsque 116 6.2. XenC : outil pour la sélection de données par l’entropie croisée l’on ne dispose pas d’un tel corpus. Enfin, à partir de la distribution des perplexités selon le pas que l’on aura pris soin de fixer (généralement de 10% en 10%), l’on pourra également pratiquer une évaluation plus précise, par une recherche dichotomique, permettant de repérer le point où se situe le meilleur sous-ensemble. 6.2.2 Disponibilité de l’outil Depuis le début de son développement, XenC est utilisé de manière assez répandue au sein de l’équipe LST (Language and Speech Technologies) du LIUM, tant en reconnaissance automatique de la parole pour l’estimation des modèles de langage qu’en traduction automatique statistique, également pour l’estimation des modèles de langage mais aussi pour le modèle de traduction [Servan 2012, Schwenk 2012]. De plus, celui-ci a déjà été distribué de façon restreinte à d’autres membres de la communauté scientifique de traduction automatique, et nous envisageons ultérieurement de mettre l’outil et son code source à la disposition de toute la communauté, sur un site de distribution de logiciels libres tel que SourceForge 16 , par exemple. 16. http://sourceforge.net 117 Chapitre 6. De l’amélioration des systèmes par la sélection de données 6.3 6.3.1 Expérimentations Sur le système IWSLT 2011 Nous avons réalisé une série d’expériences basées sur la sélection de données à partir de notre système de traduction automatique de la parole pour IWSLT 2011. Nous avons d’abord étudié la sélection pour la modélisation du langage, puis nous avons réalisé un comparatif des méthodes de sélection appliquées aux données d’apprentissage parallèles pour le modèle de traduction. Enfin, nous présentons les expériences réalisées en combinant les deux sélections. 6.3.1.1 Modélisation du langage Nous avons donc réalisé une série d’expériences sur la modélisation du langage. En effet, puisque nous disposons déjà d’un ensemble de résultats récents d’un système dédié à une tâche relativement spécifique et que le corpus TED, qui était au centre de cette campagne, constitue un très bon exemple d’ensemble de données faisant partie d’un domaine. Le modèle de langage que nous avions estimé pour la campagne avait été appris selon la pratique courante consistant à estimer un modèle quadrigramme par source de données, puis à les interpoler linéairement afin de produire le modèle quadrigramme final. Nous avons souhaité connaître l’impact qu’une sélection par entropie croisée monolingue pourrait produire sur les textes d’apprentissage de ces modèles. Nous avons donc considéré comme étant : – notre corpus du domaine I ; le corpus TED, adapté à la tâche de traduction de présentations scientifiques, – nos corpus hors du domaine N ; l’ensemble des autres corpus utilisés pour estimer le modèle de langage du système pour IWSLT 2011. Puis nous avons pratiqué une sélection par entropie croisée sur chacun des corpus N , l’évaluation a ensuite été faite à l’aide d’une recherche du meilleur point par dichotomie. Pour ce faire, le corpus de développement utilisé pour l’évaluation des modèles de langage estimés à partir des sous-ensembles était le même que pour la campagne IWSLT. Le graphique 6.1 représente la courbe obtenue pour chaque corpus, en termes de perplexité calculée comparée au pourcentage du corpus trié utilisé. Par conséquent, 100% du corpus équivalent au corpus non-trié. Il se dessine un comportement général des courbes dans lequel plus le sous-ensemble est petit, plus la perplexité est basse jusqu’à un certain point, où elle commence à remonter : le sous-ensemble devient alors trop petit. Nous remarquons aussi que les points optimaux, où la perplexité est la plus basse, se situent pour la plupart aux alentours de 10%, voire un peu 118 6.3. Expérimentations IWSLT11 LM Corpora 300 Perplexite 250 200 150 0 10 20 ccb2 Europarl 30 40 50 % Corpus Gigaword 109 News-Commentary 60 70 80 90 100 News UN200x F IGURE 6.1 – Perplexité comparée à la taille des corpus N triés selon leur entropie croisée, évaluation sur le corpus LIUM dev2010. moins. Néanmoins, nous pouvons également observer qu’une courbe ne suit absolument pas cette tendance, celle du corpus News-Commentary. Celle-ci est plutôt fluctuante, et sa perplexité la plus basse se situe à 100%, soit l’intégralité du corpus. Nous expliquons ce phénomène d’une part par la taille très réduite de ce corpus, qui ne lui permet à notre avis pas d’être suffisamment représentatif par rapport au corpus faisant partie du domaine ; et d’autre part par l’apparente adéquation de ce corpus avec la tâche considérée, comme nous l’avons déjà démontré au chapitre précédent lors des expérimentations réalisés pour la construction de notre système de traduction. Au vu de ce graphique, nous avons donc fait le choix de remplacer nos corpus originaux par des sous-ensemble de ceux-ci d’une taille proche de celle atteignant la perplexité la moins élevée. Nous faisons également le choix, lorsque la variation de perplexité entre plusieurs points contigus demeure très faible, de toujours prendre le plus de données possible sans toutefois sacrifier le bénéfice de la faible perplexité. Le tableau 6.1 présente les statistiques en termes de 119 Chapitre 6. De l’amélioration des systèmes par la sélection de données nombre de phrases, de mots et de mots par phrases dans les corpus du domaine I et hors du domaine N et leurs sous-ensembles. Corpus TED News-Comm. Europarl ccb2 UN200x Gigaword 109 News Total / moyenne Nb de phrases Nb de mots (milliers) original réduit original réduit Corpus du domaine I 107 268 N/A 1 970 N/A Corpus hors du domaine N 115 562 115 562 3 122 3 122 1 825 077 243 567 51 251 5 125 7 473 624 780 847 258 402 20 672 12 317 600 374 135 385 035 7 701 22 520 400 1 953 441 763 204 45 791 24 963 359 4 352 116 562 756 84 413 69 215 622 7 819 668 2 023 770 166 824 Mots / phrase orig. réduit 18,36 N/A 27,01 28,08 34,57 31,25 33,89 22,54 29,56 27,01 21,04 26,47 20,58 23,44 19,40 22,99 TABLE 6.1 – Statistiques des corpus du domaine I et hors du domaine N et de leurs sousensembles. Nous pouvons remarquer la forte réduction du taux moyen de mots par phrase dans les corpus de l’ensemble N entre les versions originales et filtrées de ceux-ci. Nous expliquons ce phénomène par deux facteurs : – le faible taux de mots par phrase du corpus du domaine I, constitué de transcriptions de parole aux segments relativement courts, – la nature même du filtrage (log (P (s|I)) − log (P (s|N ))), qui bien que normalisée par la longueur, tend à favoriser les phrases courtes [Moore 2010]. Le tableau 6.2 présente quant à lui les perplexités originales et réduites de ces mêmes corpus ainsi que les tailles de leurs sous-ensembles. Il reprend également les coefficients d’interpolation qui avaient été appliqués sur les modèles estimés sur les corpus originaux, ainsi que ceux appliqués sur les modèles des sous-ensembles. La dernière ligne indique les perplexités finales obtenues sur le même corpus de développement (LIUM dev2010) pour chacun des modèles ayant été crées. Nous pouvons remarquer une forte baisse de la perplexité pour chacun des modèles hors du domaine N , et par conséquent une baisse intéressante de la perplexité du modèle quadrigramme final, soit 93 contre 98 précédemment. De plus, la répartition des modèles au sein de l’interpolation linéaire s’est retrouvée modifiée, réduisant quelque peu l’importance du corpus du domaine TED et augmentant celle de la majorité des corpus hors du domaine N , ce qui nous permet de croire en la meilleure adéquation des données extraites de ces corpus, et, en conséquence, en l’utilité du filtrage opéré. 120 6.3. Expérimentations Corpus TED NC Europarl ccb2 UN200x Gigaword 109 News Total Perplexité Coefficient originale réduite original réduit Corpus du domaine I 140.76 N/A 0.52943 0.37202 Corpus hors du domaine N 275.23 275.23 0.02085 0.00327 210.69 172.56 0.06855 0.05203 189.68 135.93 0.06205 0.12225 322.10 194.55 0.01458 0.02158 182.17 126.89 0.11453 0.19190 166.70 133.69 0.19002 0.23696 98.41 93.17 1 1 Sous ensemble 100% 100% 10% 8% 2% 6% 15% N/A TABLE 6.2 – Perplexités originales et réduites des corpus du domaine I et hors du domaine N et tailles de leurs sous-ensembles. Pour confirmer ces résultats, nous avons remplacé notre ancien modèle de langage du système de traduction de la parole par le nouveau que nous avons estimé. Nous prenons comme référence le système final de la campagne, avant l’intégration du CSLM, et nous utilisons comme entrée pour la traduction la sortie LIUM 1-best, à des fins de rapidité de traitement et de simplification de l’expérimentation. Les corpus de développement et de test sont respectivement les corpus LIUM dev2010 et LIUM tst2010. Le tableau 6.3 présente trois jeux de résultats sous la forme de scores BLEU : – le premier, nommé IWSLT11 original est le résultat de référence qui a été publié dans [Rousseau 2011] et repris dans le chapitre précédent, – le second, surnommé IWSLT11 retune, correspond au résultat du même système pour lequel nous avons refait l’optimisation, en utilisant la méthode décrite dans [Clark 2011] qui consiste à réaliser toute la séquence d’optimisation un nombre arbitraire de fois, en l’occurrence dix, puis de faire la moyenne des scores, afin d’éviter les minima ou maxima locaux, – enfin le troisième, appelé IWSLT11 XenC_ML correspond au résultat de notre système utilisant le nouveau modèle de langage, pour lequel nous avons également réalisé l’optimisation selon la même méthode. Pour chacun, le tableau indique également l’écart-type des valeurs obtenues pour le calcul de la moyenne des scores, ainsi que la taille des modèles de langage sur disque et en mémoire. Nous pouvons observer dans ce tableau que les résultats obtenus sont intéressants. En effet, outre une augmentation du score BLEU de traduction de plus de 0,4 points sur le corpus de test, avec un écart-type de 0,07 points, nous pouvons observer que la taille du modèle de langage a été fortement réduite. Sur disque et en mémoire, le nouveau modèle est plus de quatre fois plus petit, 121 Chapitre 6. De l’amélioration des systèmes par la sélection de données Système IWSLT11 original IWSLT11 retune IWSLT11 XenC_ML dev2010 BLEU E.-type 23.97 N/A 23.84 0.12 24.01 0.06 tst2010 BLEU E.-type 25.01 N/A 24.94 0.06 25.35 0.07 Taille du ML disque mémoire 7.9G 22.1G 7.9G 22.1G 1.7G 5.2G TABLE 6.3 – Résultats en termes de score BLEU et tailles des ML de l’expérimentation sur la sélection par entropie croisée monolingue. ce qui non seulement consomme moins de ressources, mais permet aussi des décodages plus rapides. Il serait par conséquent intéressant de recréer un modèle de langage à espace continu à partir de ces mêmes données afin d’étudier l’impact qu’une telle sélection pourrait avoir sur ses performances, puisque cela a déjà été réalisé avec succès sur d’autres tâches [Schwenk 2012]. De plus, il serait également intéressant de pratiquer le même genre de sélection sur les modèles de langage utilisés en reconnaissance automatique de la parole, non seulement pour le gain de ressources procuré, mais également pour étudier l’impact d’une telle sélection sur le score WER d’un système. 6.3.1.2 Sélection sur les corpus parallèles Comme nous l’avons évoqué dans la section 6.1.2, il est également possible de pratiquer une sélection de données pour les corpus parallèles. Nous avons donc, à la suite des expérimentations sur la sélection monolingue, réalisé une série d’expériences sur les modèles de traduction. Pour cela, nous avons repris le même système de référence, que nous avons mis en concurrence avec le système possédant le modèle de langage refait. L’idée est d’étudier l’impact que peut avoir la sélection par entropie croisée sur le modèle de traduction, qu’elle soit monolingue ou bilingue. En effet, pour un corpus parallèle donné, il est possible de réaliser dessus soit une sélection monolingue (préférablement du côté source, mais il est intéressant d’évaluer les deux côtés), soit une sélection bilingue des deux côtés [Axelrod 2011]. Puisque le système de référence n’utilise que le corpus supplémentaire ccb2 (hormis le corpus News-Commentary, pour lequel pratiquer une sélection n’est pas pertinent), nous comparons, dans le graphique 6.2, les courbes obtenues pour chaque sélection (monolingue côté source et cible puis bilingue), toujours en termes de perplexité comparée au pourcentage du corpus trié. Le corpus de développement utilisé est toujours le corpus LIUM dev2010. Pour le filtrage côté cible, nous utilisons la version française du corpus de développement, mais nous évaluons les perplexités de toutes les sélections sur la version anglaise de ce même corpus, afin de pouvoir les comparer entre eux. Nous pouvons remarquer, au regard de ces courbes, que la sélection bilingue et la sélection monolingue côté source décrivent une courbe presque identique, avec toutefois un léger 122 6.3. Expérimentations Selection sur le corpus ccb2 340 320 Perplexite 300 280 260 240 220 200 0 10 20 Mono. cote source 30 40 50 % Corpus Mono. cote cible 60 70 80 90 100 Bilingue F IGURE 6.2 – Perplexité comparée à la taille du corpus parallèle ccb2 trié selon son entropie croisée monolingue et bilingue. avantage pour cette dernière. En revanche, la sélection monolingue côté cible semble un peu moins bonne, tel qu’annoncé dans [Axelrod 2011]. Afin de confirmer ces constatations, nous avons appris plusieurs systèmes de traduction, de la même manière que nous l’avons décrit précédemment (voir section 5.3). Nous souhaitons que leurs résultats puissent être comparés à ceux obtenus par notre système de référence : c’est pourquoi nous avons pris soin d’utiliser les mêmes corpus pour l’apprentissage (TED, nc6, ccb2). Concernant le corpus ccb2, nous avons utilisé un nombre de mots (6,6 millions, soit 3 %) correspondant à la perplexité minimale observée sur les courbes, puisque la taille du sous-ensemble choisi est totalement dépendante de cette perplexité minimale et fait partie intégrante de la méthode de sélection. Ces systèmes expérimentaux sont au nombre de trois et chacun est basé sur une des sélections que nous avons réalisées auparavant. Nous les identifions de la manière suivante : – IWSLT11 XenC_monoEN correspond au système appris sur des données parallèles dont la sélection a été faite de façon monolingue sur le langage source, ici l’anglais ; 123 Chapitre 6. De l’amélioration des systèmes par la sélection de données – IWSLT11 XenC_monoFR correspond également à une sélection monolingue, mais sur le langage cible de traduction, à savoir le français ; – IWSLT11 XenC_biENFR correspond au système dont la sélection des données d’apprentissage est bilingue. Pour ces systèmes, afin de ne mesurer que l’impact sur le modèle de traduction, nous avons utilisé le même modèle de langage que lors de la campagne IWSLT 2011. Système IWSLT11 retune (référence) IWSLT11 XenC_monoEN IWSLT11 XenC_monoFR IWSLT11 XenC_biENFR dev2010 BLEU E.-type 23.84 0.12 24.11 0.05 24.01 0.05 24.10 0.04 tst2010 BLEU E.-type 24.94 0.06 25.12 0.08 24.87 0.11 25.13 0.14 TABLE 6.4 – Résultats en termes de score BLEU des systèmes expérimentaux selon la sélection pratiquée. Le tableau 6.4 présente les résultats de chacun de ces systèmes, en termes de score de traduction BLEU sur les corpus de développement LIUM dev2010 et de test LIUM tst2010. Il reprend également les résultats du système original (IWSLT11 original) et du système réoptimisé (IWSLT11 retune). Afin de conserver une cohérence dans la comparaison des scores, la phase d’optimisation a également été réalisée dix fois. À la lumière de ces résultats, nous pouvons observer que les systèmes basés sur les sélections monolingue en langue source et bilingue obtiennent des performances similaires, qui sont meilleures que le système de référence, d’environ 0,3 point BLEU sur le corpus de développement et 0,2 point BLEU sur le corpus de test. Néanmoins, bien qu’elles soient toutes deux utiles au système, il paraît difficile de conclure à une plus grande efficacité de l’une ou l’autre : en effet, l’écart-type plus important de la sélection bilingue sur le corpus de test semble indiquer un manque de stabilité dans les résultats. Il apparaît en revanche clairement que l’approche par sélection monolingue sur le côté cible de traduction présente moins d’intérêt car moins performante, comme le laissait pressentir les courbes de perplexité du graphique 6.2 : elle dégrade même le score BLEU de presque 0,1 point sur le corpus de test par rapport au système de référence. Nous pensons qu’il serait réellement intéressant de conduire d’autres expérimentations sur le sujet, notamment en tentant de sélectionner des données parmi les corpus les plus éloignés du domaine, tel que le corpus UN200x par exemple. De plus, nous envisageons également la sélection et l’utilisation de données recueillies de façon non-supervisée, comme par exemple des transcriptions automatiques de parole qui seraient ensuite traduites via un système automatisé afin de produire un corpus parallèle de données entièrement non-supervisées. Au sujet de cet 124 6.3. Expérimentations apprentissage non-supervisé, les expériences menées dans de précédents travaux, notamment au LIUM [Lambert 2011], ont montré qu’il est préférable de le pratiquer dans le sens inverse de traduction considéré. Dans le cas qui nous intéresse ici, nous pourrions donc utiliser le système de reconnaissance automatique de la parole française du LIUM, très performant [Deléglise 2009] pour produire des transcriptions en français, puis les traduire à l’aide de notre système de traduction de la parole pour lequel il serait assez aisé de changer le sens de traduction. Ces nouvelles données parallèles pourraient alors nous permettre de pratiquer d’autres expériences de sélection par entropie croisée, tant sur la modélisation du langage que sur le modèle de traduction. 6.3.1.3 Expérimentations sur le système complet de traduction Puisque les expériences concernant les systèmes créés à partir de la sélection monolingue sur la langue source et la sélection bilingue semblent concluantes, en particulier sur le corpus de développement, nous avons choisi d’appliquer à ces deux systèmes le modèle de langage estimé lors de expériences relatées dans la section 6.3.1.1. Celui-ci ayant produit de bons résultats en comparaison du modèle de langage d’origine lorsqu’il a été appliqué sur notre système de référence, notamment sur le corpus de test, nous avons souhaité connaître l’impact global que peut avoir la sélection par entropie croisée lorsqu’on l’applique sur les deux composantes principales d’un système de traduction. Caractéristique Séquences source uniques Séquences source totales Moyenne de traductions / séquence source Taille moyenne des séquences source Taille de la table de traduction (en Mo) IWSLT11 retune 34 767 1 356 443 39.015 1.616 130 XenC monoEN 39 536 2 569 592 64.994 1.618 238 XenC biENFR 39 588 2 649 434 66.925 1.652 255 TABLE 6.5 – Caractéristiques des tables de traduction des systèmes expérimentaux. Le tableau 6.5 détaille les caractéristiques des tables de traduction, d’abord du système de référence mais aussi des systèmes considérés pour les expérimentations complètes. Ces caractéristiques ont été compilées à partir de versions filtrées des tables de traduction sur le corpus de développement LIUM dev2010, ce qui nous permet de n’étudier que les séquences utiles à la tâche de traduction considérée. Nous y faisons figurer, pour la langue source, le nombre de séquences de mots (phrases) uniques, le nombre de séquences de mots totales, le nombre moyen de traductions en langue cible par séquence de mots et enfin la longueur moyenne des séquences de mots. 125 Chapitre 6. De l’amélioration des systèmes par la sélection de données Nous constatons sur ce tableau deux choses : – malgré un nombre de séquences uniques relativement similaire entre le système de référence et les systèmes expérimentaux, le nombre de séquences totales et par conséquent la moyenne de traductions par séquence sont presque doublés. Ce phénomène s’explique simplement par la plus grande taille des données d’apprentissage des systèmes expérimentaux, cinq fois supérieure pour le corpus ccb2. Néanmoins, cela montre que l’ajout des données sélectionnées produit plus de paires de séquences utiles à la traduction du corpus de développement que le système de référence et augmente la variété des traductions possibles ; – la sélection bilingue produit des séquences de mots qui sont en moyenne plus longues que les autres systèmes, ce qui est intéressant dans le cadre de la traduction par séquences de mots : comme nous l’avons évoqué dans la section 1.2.3.3, nous cherchons à maximiser le nombre de mots par séquence tout en minimisant le nombre de séquences utilisées dans la traduction. dev2010 tst2010 BLEU E.-type BLEU E.-type Système de référence IWSLT11 retune 23.84 0.12 24.94 0.06 Sélection pour modèle de langage IWSLT11 XenC_ML 24.01 0.06 25.35 0.07 Sélection pour modèle de traduction IWSLT11 XenC_monoEN 24.11 0.05 25.12 0.08 IWSLT11 XenC_biENFR 24.10 0.04 25.12 0.15 Sélection pour modèles de langage et de traduction IWSLT11 XenC monoEN + ML 24.12 0.07 25.18 0.03 IWSLT11 XenC biENFR + ML 24.18 0.07 25.40 0.05 Système TABLE 6.6 – Résultats en termes de score BLEU des systèmes expérimentaux complets. Nous présentons dans le tableau 6.6 les moyennes des scores BLEU, accompagnées des écarts-types, que nous avons obtenus sur les systèmes IWSLT11 XenC_monoEN et IWSLT11 XenC_biENFR en leur ajoutant le modèle de langage utilisé pour le système IWSLT11 XenC_ML. Les évaluations ont été réalisés sur les mêmes corpus de développement et de test qu’auparavant, et l’optimisation a été effectuée dix fois. Ces résultats nous permettent de faire les constatations suivantes : – l’ajout du modèle de langage au système IWSLT11 XenC_monoEN procure des résultats similaires au même système sans ce ML : 0.01 et 0.06 point BLEU en plus respectivement sur le corpus de développement et de test ; 126 6.3. Expérimentations – en revanche, l’ajout du ML au système IWSLT11 XenC biENFR permet d’obtenir un nouveau gain : que ce soit comparé aux scores du même système sans le modèle de langage (0.08 et 0.28 point BLEU en plus respectivement sur le corpus de développement et de test) ou aux scores du système utilisant uniquement le modèle de langage estimé sur les données filtrées (0.17 point BLEU de plus sur le corpus de développement et 0.05 de plus sur le corpus de test). Au regard des tableaux 6.5 et 6.6, nous pouvons conclure qu’il semble préférable d’employer la sélection par entropie croisée bilingue des données d’apprentissage pour les modèles de traduction. Nous voyons également que sur les scores finaux, la sélection monolingue sur le modèle de langage paraît être plus porteuse de gains que la sélection pour le modèle de traduction. En effet, par rapport au système de référence, le modèle de langage seul produit un gain de 0.41 point BLEU tandis que le modèle de traduction seul fait gagner 0.18 point BLEU. La combinaison des deux modèles produit alors un gain de 0.46 point BLEU, toujours en comparaison du système de référence, soit seulement 0.05 point de plus que le modèle de langage seul. Le peu de gain procuré par la sélection des données parallèles s’explique par le fait que notre système de référence utilisait déjà des données filtrées, par la méthode de [Gao 2002] basée sur la perplexité. Nous pensons également qu’il est certainement possible d’envisager d’autres méthodes pour évaluer cette sélection de données. En effet, nous croyons que l’utilisation de la perplexité pour mesurer la qualité de la sélection, notamment lorsqu’il s’agit de choisir des données pour le modèle de traduction, pose la question de la pertinence de cette métrique. Nous souhaitons de plus poursuivre ces expérimentations avec plus de données, notamment en pratiquant cette sélection sur les corpus hors du domaine qui avaient été mis de côté durant la campagne IWSLT 2011 et, comme nous l’avons déjà évoqué plus haut, en expérimentant l’apprentissage nonsupervisé, seul ou en combinaison avec cette sélection par entropie croisée. 6.3.2 Autres expérimentations En plus des expériences relatives à la campagne d’évaluation IWSLT 2011, que nous venons de décrire, d’autres expérimentations reprenant cette méthode de filtrage ont été conduites au sein du LIUM à l’aide de l’outil XenC. Nous allons ici résumer ces expérimentations et les résultats qui en découlent. 127 Chapitre 6. De l’amélioration des systèmes par la sélection de données 6.3.2.1 Sélection de données pour WMT12 Le LIUM a participé, comme chaque année, à la campagne d’évaluation WMT12. La tâche qui a été considérée est la traduction de l’anglais au français et inversement. Au niveau monolingue, la sélection par entropie croisée a été réalisée sur les données d’apprentissage du modèle de langage cible dans le sens de traduction anglais vers français. Au niveau des données parallèles, dans chaque sens de traduction, le corpus ccb2 a été filtré de façon monolingue sur la langue source et ajouté au données d’apprentissage du système (noté ccb2f ). Pour constituer le corpus faisant partie du domaine, trois corpus de test tirés des éditions 2008 et 2009 de la campagne WMT ont été utilisés. Le tableau 6.7 reprend les résultats présentés dans [Servan 2012]. Le système de référence utilise les corpus Europarl, News-Commentary et ntsXX. À titre de comparaison, nous présentons également les résultats du système de référence auquel nous avons ajouté le corpus ccb2 non-filtré. Système Europarl+NC+ntsXX Europarl+NC+ntsXX+ccb2 Europarl+NC+ntsXX+ccb2f Europarl+NC+ntsXX Europarl+NC+ntsXX+ccb2 Europarl+NC+ntsXX+ccb2f Mots source BLEU Corpus de (millions) développement Traduction EN → FR 58 31.12 291 31.34 107 31.67 Traduction FR → EN 64 29.59 329 30.37 120 30.69 BLEU Corpus de test 28.49 28.98 29.38 28.32 28.52 28.95 TABLE 6.7 – Résultats de la sélection de données pratiquée pour la campagne WMT12. Nous pouvons observer dans ce tableau que la sélection pratiquée sur le corpus ccb2 permet d’obtenir des gains intéressants sur cette tâche. En effet, dans le sens de traduction anglais - français, les gains observés sont de 0.55 point BLEU sur le corpus de développement et de 0.89 point BLEU sur le corpus de test. Dans le sens de traduction français - anglais, les gains sont de 1.1 point BLEU sur le corpus de développement et de 0.63 point BLEU sur le corpus de test. Les scores obtenus avec la version non-filtré du corpus ccb2 montrent bien l’intérêt qu’il y a à employer cette technique de sélection de données : pour une quantité de données d’apprentissage presque trois fois supérieure, les scores sont inférieurs d’environ 0.3 point BLEU sur le corpus de développement et d’environ 0.4 point BLEU sur le corpus de test, dans les deux sens de traduction. 128 6.3. Expérimentations 6.3.2.2 Sélection pour NIST OpenMT 2012 La sélection par entropie croisée a également été réalisée pour la campagne NIST OpenMT 2012 à laquelle le LIUM a participé sur les tâches de traduction arabe vers anglais et chinois mandarin vers anglais. Notre outil XenC a permis au LIUM de très bien se classer (4e place sur 12 participants) sur la tâche de traduction arabe - anglais. En revanche, les résultats obtenus sur la tâche de traduction du chinois mandarin vers l’anglais (9e sur 12 participants) ne sont pas représentatifs de ce que le LIUM sait faire : en effet, pour cette tâche, un système minimaliste avait été soumis. Dans ce cadre, et notamment dans les travaux sur le CSLM décrits dans [Schwenk 2012], notre outil s’est également montré efficace, avec une réduction importante de la taille des ML utilisés et un gain de 0.3 point BLEU. Nous avons présenté, dans ce chapitre, une méthode de sélection de données efficace et peu coûteuse, basé sur le critère de l’entropie croisée. Cette méthode peut aussi bien être appliquée sur des corpus monolingues, pour l’estimation des modèles de langage, que sur des corpus parallèles, pour l’estimation des modèles de traduction. Nous avons décrit un outil que nous avons développé, XenC, qui est à même de réaliser ces sélections, et qui depuis fait partie intégrante du processus de construction de systèmes de traduction au sein du laboratoire. Cet outil sera ultérieurement distribué à la communauté scientifique. Enfin, nous avons exposé les diverses expérimentations que nous avons réalisé grâce à ces sélections, qui nous ont permis de confirmer l’efficacité de cette méthode. 129 Chapitre 6. De l’amélioration des systèmes par la sélection de données 130 Conclusion et perspectives 131 Conclusion et perspectives Conclusion e travail de thèse présenté dans ce manuscrit s’inscrit dans le cadre des recherches menées au Laboratoire d’Informatique de l’Université du Maine (LIUM), dans l’équipe LST (Language and Speech Technologies, Technologies pour le langage et la parole), sur la traduction automatique de la parole qui combine les deux domaines majeurs situés au cœur des travaux de cette équipe : la reconnaissance automatique de la parole et la traduction automatique statistique. Le but de cette thèse était d’étudier les différentes stratégies possibles afin d’intégrer les deux modalités que sont la parole et le texte dans un cadre unifié de traduction automatique. Les travaux décrits ici se placent au centre de la participation du LIUM aux campagnes d’évaluation IWSLT 2010 et 2011, qui constituent le contexte privilégié de nos diverses contributions. L Dans la première partie de ce manuscrit, nous avons tout d’abord exposé les fondamentaux des deux domaines à l’origine de la traduction de la parole que sont la reconnaissance automatique de la parole et la traduction automatique. Nous présentons plus particulièrement les approches statistiques de ces domaines, qui rencontrent actuellement une forte popularité auprès de la communauté et sont très utilisées de nos jours. Nous avons ensuite décrit les spécificités inhérentes à la traduction automatique de la parole à proprement parler, et nous avons présenté les différentes stratégies permettant d’opérer un couplage des systèmes plus étroit qu’un simple enchaînement séquentiel. Enfin, nous nous sommes intéressés au contexte des travaux relatés ici, les campagnes d’évaluation et plus particulièrement la traduction de présentations scientifiques dans le cadre de la campagne IWSLT 2011, pour lequel nous avons retracé un historique des campagnes récentes, en reconnaissance de la parole et en traduction automatique mais aussi en traduction de la parole. Dans la seconde partie de ce manuscrit, nous proposons plusieurs contributions au domaine que nous traitons. Dans un premier temps, nous portons l’accent sur l’importance de disposer de données pertinentes et cohérentes pour la construction de systèmes efficaces et performants. Pour cela, nous décrivons notamment le corpus TED-LIUM, que nous avons développé dans le but de transcrire des présentations scientifiques orales en anglais. Ce corpus, composé de 118 heures de parole accompagnées de leurs transcriptions alignées automatiquement, d’un corpus de développement de 5 heures de paroles transcrites manuellement et d’un dictionnaire 132 phonétisé, a été gratuitement mis à la disposition de la communauté scientifique et a fait l’objet d’une publication à l’édition 2012 de la conférence LREC [Rousseau 2012]. Dans un second temps, nous décrivons le système complet de traduction automatique de la parole anglaise vers le français que nous avons développé sur une durée de deux ans consécutifs. Ce système, qui a été évalué lors des campagnes internationales d’évaluation IWSLT 2010 [Rousseau 2010] et IWSLT 2011 [Rousseau 2011], a permis au LIUM, lors de cette dernière édition, de se classer premier sur les cinq laboratoires participants à la tâche considérée, que ce soit sur la traduction des transcriptions issues d’une combinaison de systèmes de reconnaissance réalisée via la méthode BONG [Bougares 2011] ou sur la traduction des transcriptions directement issues de notre système de reconnaissance de la parole anglaise. Nous avons également à cette occasion reçu le prix du meilleur article de la catégorie « description de système ». Au sujet de la combinaison des systèmes de reconnaissance de la parole et de traduction statistique, nous avons montré l’importance du couplage étroit entre les systèmes au niveau des performances observées, par la traduction d’hypothèses de reconnaissance de la parole représentées sous formes de graphes de mots ou de réseaux de confusion. Enfin, nous présentons dans le dernier chapitre un outil que nous avons développé, reprenant une méthode de sélection de données basée sur le critère de l’entropie croisée. Grâce aux expériences que nous avons réalisées, nous avons pu démontrer son efficacité et son intérêt, tant sur le besoin en ressources de calcul que sur l’amélioration des résultats produits. Cet outil a aussi été employé avec succès dans d’autres contextes ayant fait l’objet de publications récentes [Schwenk 2012, Servan 2012]. L’utilisation systématique de la sélection de données a permis au LIUM d’obtenir des améliorations importantes dans notre système de traduction arabe - anglais, nous classant parmi les meilleurs systèmes de la campagne d’évaluation OpenMT 2012. Nous envisageons également prochainement de mettre cet outil à la disposition de l’ensemble de la communauté scientifique. Perspectives À partir des contributions exposées ici et des axes de recherches définis en introduction, plusieurs perspectives de recherche peuvent être envisagées. Tout d’abord, le système de traduction automatique de la parole que nous avons développé, soumis à de fortes contraintes applicatives, pourrait être étendu à des applications plus générales. Pour cela, il serait nécessaire d’agir sur les deux composantes du système (reconnaissance et traduction) selon deux facteurs : 133 Conclusion et perspectives – l’acquisition et la sélection de ressources supplémentaires pour les deux modalités, qui soient adaptées à un contexte plus général ; – l’étude de nouvelles stratégies de couplage et de l’intégration d’informations et de metainformations supplémentaires au processus de traduction, comme les mesures de confiance issues de la reconnaissance automatique ou encore les caractéristiques des locuteurs, afin de faciliter par exemple les choix de terminaisons pour les accords en genre et en nombre. Ces informations pourraient également être issues d’une méthode de combinaison de systèmes telle que BONG. À terme, une extension possible d’un système de traduction de la parole plus généraliste serait la création d’un prototype de traduction interactive orale. Cela implique de fournir un effort important vers la notion de temps réel, justifiant l’étude de ces nouvelles stratégies de couplage afin de réduire au maximum la latence qui reste, en règle générale, trop importante. Cette notion pourrait également être étudiée en restant dans le cadre des contraintes applicatives que nous avons définies : une application possible serait par exemple la traduction de cours universitaires du français à l’anglais afin d’aider les étudiants étrangers. Une autre perspective intéressante serait d’étudier des méthodes d’adaptation rapide d’un système de traduction automatique de la parole au locuteur et au sujet ou domaine traité, qui concernerait donc tous les aspects et modèles statistiques du domaine : les modèles acoustiques, les modèles de langage et les modèles de traduction. Les techniques d’adaptation sont déjà très utilisées en reconnaissance automatique de la parole et de plus en plus employées également en traduction statistique. Une extension de ces méthodes à une adaptation globale mérite d’être explorée. Cela recoupe également la poursuite des recherches que nous désirons réaliser dans le cadre de la sélection de données basée sur l’entropie croisée ainsi que dans le cadre de l’acquisition de ces données via l’apprentissage non-supervisé. Enfin, nous avons constaté qu’il était souvent coûteux, sinon difficile, de se procurer de nouveaux corpus, notamment de parole, de taille suffisante pour permettre de construire des systèmes de façon fiable. Nous pensons donc qu’il serait intéressant de poursuivre les travaux que nous avons débutés avec la construction du corpus TED-LIUM et la mise en place d’outils d’acquisition, d’extraction et d’alignement automatique de données, pour la reconnaissance automatique de la parole et la traduction statistique. 134 Acronymes 135 Acronymes ACL Association for Computational Linguistics AFCP Association Francophone de la Communication Parlée BE Bande étroite BL Bande large BTEC Basic Travel Expression Corpus CE Entropie Croisée (Cross-Entropy) CMLLR Constrained Maximum Likelihood Linear Regression 136 CSLM Modèle de langage à représentation continue (Continuous Space Language Model) DARPA Defense Advanced Research Projects Agency DGA Délégation Générale pour l’Armement ELDA Evaluations and Language resources Distribution Agency EM Expectation-Maximisation EMNLP Empirical Methods in Natural Language Processing ESTER Evaluation des Systèmes de Transcription enrichie d’Émissions Radiophoniques GALE Global Autonomous Language Exploitation IWSLT International Workshop on Spoken Language Translation MA Modèle(s) acoustique(s) MAP Maximum A Posteriori MERT Minimum Error Rate Training MFCC Mel-scale Frequency Cepstral Coefficients MIRA Margin Infused Relaxed Algorithm ML Modèle(s) de langage MLLR Maximum Likelihood Linear Regression MLP Perceptron multi-couches (Multi-Layer Perceptron) MMC Modèle de Markov Caché MPE Minimum Phone Error NCE Entropie Croisée Normalisée (Normalized Cross-Entropy) NIST National Institute of Standards and Technology PLP Perceptual Linear Prediction RAP Reconnaissance Automatique de la Parole SAT Speaker Adaptive Training TALN Traitement Automatique des Langues Naturelles TAS Traduction Automatique Statistique TER Translation Edit Rate WER Taux d’Erreur/Mot (Word Error Rate) WFSM Automate à États Finis Pondérés (Weighted Finite State Machine) WMT Workshop on statistical Machine Translation 137 Acronymes 138 Bibliographie [Allauzen 2004] Allauzen A. et Gauvain J.-L., Construction automatique du vocabulaire d’un système de transcription, dans Proceedings of Journées d’Étude de la Parole (JEP), 2004. [Anastasakos 1997] Anastasakos T., McDonough J. et Makhoul J., Speaker adaptive training : A maximum likelihood approach to speaker normalization, dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, volume 2, pages 1043–1046, Avril 1997. [Axelrod 2011] Axelrod A., He X. et Gao J., Domain adaptation via pseudo in-domain data selection, dans Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 355–362, Juillet 2011. [Baum 1972] Baum L. E., An inequality and associated maximization technique in statistical estimation for probabilistic functions on markov processes, dans Inequalities III, volume 3, pages 1–8, 1972. [Béchet 2001] Béchet F., LIA–PHON : Un système complet de phonétisation de textes, dans Revue Traitement Automatique des Langues (TAL), volume 42, pages 47–67, 2001. [Bengio 2003] Bengio Y., Ducharme R., Vincent P. et Jauvin C., A neural probabilistic language model, dans Journal of Machine Learning Research, volume 3, pages 1137–1155, Février 2003. [Bertoldi 2006] Bertoldi N., Cettolo M., Cattoni R., Chen B. et Federico M., ITC-IRST at the 2006 TC-STAR SLT evaluation campaign, dans TC-STAR Workshop on Speech-toSpeech Translation, pages 19–24, 2006. [Bertoldi 2005] Bertoldi N. et Federico M., A new decoder for spoken language translation based on confusion networks, dans Proceedings of the Automatic Speech Recognition and Understanding Workshop (ASRU), pages 86–91, Décembre 2005. [Bertoldi 2007] Bertoldi N., Zens R. et Federico M., Speech translation by confusion network decoding, dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, pages 1297–1300, Avril 2007. [Bougares 2011] Bougares F., Estève Y., Deléglise P. et Linarès G., Bag of n-gram driven decoding for LVCSR system harnessing, dans Proceedings of Automatic Speech Recognition and Understanding, pages 278–282, Décembre 2011. [Brown 1990] Brown P. F., Cocke J., Pietra S. A. D., Pietra V. J. D., Jelinek F., Lafferty J. D., Mercer R. L. et Roossin P. S., A statistical approach to machine translation, dans Computational Linguistics, volume 16, pages 79–85, Juin 1990. 139 Bibliographie [Brown 1993] Brown P. F., Pietra S. A. D., Pietra V. J. D. et Mercer R. L., The mathematics of statistical machine translation, dans Computational Linguistics, volume 19, pages 263– 311, Juin 1993. [Callison-Burch 2012] Callison-Burch C., Koehn P., Monz C., Post M., Soricut R. et Specia L., Findings of the 2012 workshop on statistical machine translation, dans Proceedings of the 7th Workshop on Statistical Machine Translation, pages 10–51, Juin 2012. [Cattoni 2007] Cattoni R., Bertoldi N. et Federico M., Punctuating confusion net- works for speech translation, dans Proceedings of Interspeech, pages 2453–2456, Août 2007. [Cettolo 1998] Cettolo M., Gretter R. et De Mori R., Recognition as search, dans Spoken Dialogues with Computers, pages 257–309, Avril 1998. [Chen 1996] Chen S. F. et Goodman J. T., An empirical study of smoothing techniques for language modeling, dans Proceedings of the 34th Annual Meeting of the Association for Computational Linguistics, pages 310–318, Juin 1996. [Chen 1998] Chen S. S. et Gopalakrishnan P., Speaker, environment and channel change detection and clustering via the Bayesian Information Criterion, dans DARPA Broadcast News Transcription and Understanding Workshop, pages 127–132, Février 1998. [Chiang 2005] Chiang D., A hierarchical phrase-based model for statistical machine translation, dans Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, pages 263–270, 2005. [Clark 2011] Clark J. H., Dyer C., Lavie A. et Smith N. A., Better hypothesis testing for statistical machine translation : Controlling for optimizer instability, dans Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics : Human Language Technologies, pages 176–181, Juin 2011. [Crammer 2003] Crammer K. et Singer Y., Ultraconservative online algorithms for multiclass problems, dans Journal of Machine Learning Research, volume 3, pages 951–991, Janvier 2003. [Davis 1980] Davis S. B. et Mermelstein P., Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences, dans IEEE Transactions on Acoustics, Speech, and Signal Processing, volume 28, pages 357–366, Août 1980. [Déchelotte 2007] Déchelotte D., Schwenk H., Adda G. et Gauvain J.-L., Improved machine translation of speech-to-text outputs, dans INTERSPEECH’07, pages 2441–2444, Août 2007. [Deléglise 2005] Deléglise P., Estève Y., Meignier S. et Merlin T., The LIUM speech transcription system : a CMU Sphinx iii-based system for french broadcast news, dans Proceedings of Interspeech, pages 1653–1656, Septembre 2005. [Deléglise 2009] Deléglise P., Estève Y., Meignier S. et Merlin T., Improvements to the LIUM french ASR system based on CMU Sphinx : what helps to significantly reduce the word error rate ?, dans Proceedings of Interspeech, pages 2123–2126, Septembre 2009. [Dempster 1977] Dempster A. P., Laird N. M. et Rubin D. B., Maximum likelihood from incomplete data via the EM algorithm, dans Maximum likelihood from incomplete data via the EM algorithm, volume 39, pages 1–38, Janvier 1977. 140 [Denkowski 2011] Denkowski M. et Lavie A., Meteor 1.3 : Automatic metric for reliable optimization and evaluation of machine translation systems, dans Proceedings of the Sixth Workshop on Statistical Machine Translation, pages 85–91, Juillet 2011. [Digalakis 1995] Digalakis V., Rtischev D. et Neumeyer L., Speaker adaptation using constrained reestimation of gaussian mixtures, dans Transactions Speech and Audio Processing, volume 3, pages 357–366, Septembre 1995. [Doddington 2002] Doddington G., Automatic evaluation of machine translation quality using n-gram co-occurrence statistics, dans roceedings of the second international conference on Human Language Technology Research, pages 138–145, 2002. [Estève 2009] Estève Y., Traitement automatique de la parole : contributions, dans Habilitation à diriger des recherches (HDR), LIUM, Université du Maine, 2009. [Estève 2004] Estève Y., Deléglise P. et Jacob B., Système de transcription automatique de la parole et logiciels libres, dans Revue Traitement Automatique des Langues (TAL), volume 45, pages 15–39, 2004. [Federico 2003] Federico M., Evaluation frameworks for speech translation technologies, dans Proceedings of Eurospeech, pages 377–380, Septembre 2003. [Federico 2011] Federico M., Bentivogli L., Paul M. et Stüker S., Overview of the IWSLT 2011 evaluation campaign, dans Proceedings of International Workshop on Spoken Language Translation, pages 11–27, Décembre 2011. [Federico 1998] Federico M. et De Mori R., Language modelling, dans Spoken Dialogues with Computers, pages 204–210, Avril 1998. [Fiscus 2008] Fiscus J. G., Ajot J. et Garofolo J. S., The rich transcription 2007 meeting recognition evaluation, dans Multimodal Technologies for Perception of Humans, pages 373–389, Août 2008. [Galliano 2005] Galliano S., Geoffrois E., Mostefa D., Choukri K., Bonastre J.-F. et Gravier G., The ESTER phase II evaluation campaign for the rich transcription of french broadcast news, dans Proceedings of Interspeech, Septembre 2005. [Galliano 2009] Galliano S., Gravier G. et Chaubard L., The ESTER 2 evaluation campaign for the rich transcription of french radio broadcast, dans Proceedings of Interspeech, pages 2583–2586, Septembre 2009. [Gao 2002] Gao J., Goodman J. T., Li M. et Lee K.-F., Toward a unified approach to statistical language modeling for chinese, dans ACM Transactions on Asian Language Information Processing (TALIP), volume 1, pages 3–33, Mars 2002. [Gao 2008] Gao Q. et Vogel S., Parallel implementations of word alignment tool, dans Proceedings of Software Engineering, Testing, and Quality Assurance for Natural Language Processing, pages 49–57, Juin 2008. [Gauvain 1994] Gauvain J.-L. et Lee C.-H., Maximum a posteriori estimation for multivariate gaussian mixture observations of markov chains, dans Transactions on Speech and Audio Processing, volume 2, pages 291–298, Avril 1994. [Gravier 2004] Gravier G., Bonastre J.-F., Geoffrois E., Galliano S., McTait K. et Choukri K., ESTER, une campagne d’évaluation des systèmes d’indexation automatique d’émissions 141 Bibliographie radiophoniques en français, dans Proceedings of Journées d’Étude de la Parole (JEP), Avril 2004. [Grézl 2008] Grézl F. et Fousek P., Optimizing bottle-neck features for LVCSR, dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, pages 4729–4732, Avril 2008. [Hamon 2007] Hamon O., Mostefa D. et Choukri K., End-to-end evaluation of a speech-tospeech translation system in TC-STAR, dans Proceedings of MT-SUMMIT, pages 223– 230, Septembre 2007. [Hasler 2011] Hasler E., Haddow B. et Koehn P., Margin infused relaxed algorithm for moses, dans The Prague Bulletin of Mathematical Linguistics, numéro 96, pages 69–78, Octobre 2011. [Hermansky 1990] Hermansky H., Perceptual linear predictive (PLP) analysis of speech, dans Journal of Acoustical Society of America, volume 87, pages 1738–1752, Avril 1990. [Jelinek 1976] Jelinek F., Continuous speech recognition by statistical methods, dans Proceedings of the IEEE, volume 64, pages 532–556, Avril 1976. [Jelinek 2004] Jelinek F., Some of my best friends are linguists, dans Proceedings of LREC 2004, http ://www.lrec-conf.org/lrec2004/doc/jelinek.pdf, Mai 2004. [Jelinek 1977] Jelinek F., Mercer R. L., Bahl L. R. et Baker J. K., Perplexity – a measure of difficulty of speech recognition tasks, dans 94th meeting of the Acoustical Society of America, volume 62, page S63, Décembre 1977. [Jiang 2005] Jiang H., Confidence measures for speech recognition : A survey, dans Speech Communication, volume 45, pages 455–470, Mars 2005. [Justo 2010] Justo R., Pérez A., Torres M. I. et Casacuberta F., Hierarchical finite-state models for speech translation using categorization of phrases, dans CICLING 2010 : 11th International Conference on Intelligent Text Processing and Computational Linguistics, pages 484–493, Mars 2010. [Katz 1987] Katz S. M., Estimation of probabilities from sparse data for the language model component of a speech recognizer, dans IEEE Transactions on Acoustics, Speech and Signal Processing, volume 35, pages 400–401, Avril 1987. [Koehn 2007] Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M., Bertoldi N., Cowan B., Shen W., Moran C., Zens R., Dyer C., Bojar O., Constantin A. et Herbst E., Moses : Open source toolkit for statistical machine translation, dans Meet- ing of the Association for Computational Linguistics, pages 177–180, 2007. [Koehn 2003] Koehn P., Och F. J. et Marcu D., Statistical phrase-based translation, dans Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, volume 1, pages 48–54, Mai 2003. [Kumar 2006] Kumar S., Deng Y. et Byrne W., A weighted finite state transdu- cer translation template model for statistical machine translation, dans Natural Language Engineering, volume 12, pages 35–75, 2006. 142 [Lambert 2011] Lambert P., Schwenk H., Servan C. et Adbul-Rauf S., Investigations on translation model adaptation using monolingual data, dans Proceedings of the Sixth Workshop on Statistical Machine Translation, pages 284–293, Juillet 2011. [Lavie 2007] Lavie A. et Agarwal A., Meteor : an automatic metric for mt evaluation with high levels of correlation with human judgments, dans Proceedings of the Second Workshop on Statistical Machine Translation, pages 228–231, Juillet 2007. [Lee 1990] Lee K.-F., Hon H.-W. et Reddy R., An overview of the SPHINX speech recognition system, dans IEEE Transactions on Acoustics, Speech and Signal Processing, volume 38, pages 35–45, Janvier 1990. [Leggetter 1995] Leggetter C. J. et Woodland P. C., Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models, dans Computer Speech and Language, volume 9, pages 171–185, Avril 1995. [Mangu 1999] Mangu L., Brill E. et Stolcke A., Finding consensus among words : Latticebased word error minimization, dans Proceedings of Eurospeech, pages 495–498, Septembre 1999. [Mangu 2000] Mangu L., Brill E. et Stolcke A., Finding consensus in speech recognition : Word error minimization and other applications of confusion networks, dans Computer Speech and Language, volume 14, pages 373–400, Octobre 2000. [Marcu 2002] Marcu D. et Wong W., A phrase-based, joint probability model for statistical machine translation, dans Proceedings of the ACL-02 conference on Empirical methods in natural language processing, volume 10, pages 133–139, Juillet 2002. [Mathias 2006] Mathias L. et Byrne W., Statistical phrase-based speech translation, dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, pages 561–564, Mai 2006. [Matsoukas 2009] Matsoukas S., Rosti A.-V. I. et Zhang B., Discriminative corpus weight estimation for machine translation, dans Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, pages 708–717, Août 2009. [Matusov 2009] Matusov E., Combining Natural Language Processing Systems to Improve Machine Translation of Speech, Thèse de doctorat, Fakultät für Mathematik, Informatik und Naturwissenschaften der Rheinisch-Westfälischen Technischen Hochschule Aachen, Décembre 2009. [Matusov 2007] Matusov E., Hillard D., Magimai-Doss M., Hakkani-Tur D., Ostendorf M. et Ney H., Improving speech translation with automatic boundary prediction, dans INTERSPEECH’07, pages 2449–2452, Août 2007. [Matusov 2006a] Matusov E., Mauser A. et Ney H., Automatic sentence segmentation and punctuation prediction for spoken language translation, dans Proceedings of International Workshop on Spoken Language Translation, pages 158–165, Décembre 2006a. [Matusov 2005] Matusov E., Ney H. et Schlüter R., Phrase-based translation of speech recognizer word lattices using loglinear model combination, dans Proceedings of the Automatic Speech Recognition and Understanding Workshop (ASRU), pages 110–115, Novembre 2005. 143 Bibliographie [Matusov 2006b] Matusov E., Zens R., Vilar D., Mauser A., Popovic M., Hasan S. et Ney H., The RWTH machine translation system, dans TC-STAR Workshop on Speech-to-Speech Translation, pages 31–36, 2006b. [Mauclair 2006] Mauclair J., Mesures de confiance en traitement automatique de la parole et applications, Thèse de doctorat, LIUM, Université du Maine, Le Mans, France, Décembre 2006. [Meignier 2010] Meignier S. et Merlin T., LIUM SpkDiarization : an open source toolkit for diarization, dans Proceedings of the CMU SPUD Workshop, Mars 2010. [Mohri 2004] Mohri M., Weighted finite-state transducer algorithms : An overview, dans Formal Languages and Applications, 2004. [Mohri 2002] Mohri M., Pereira F. et Riley M., Weighted finite-state transducers in speech recognition, dans Computer Speech and Language, volume 16, pages 69–88, Janvier 2002. [Moore 2010] Moore R. C. et Lewis W., Intelligent selection of language model training data, dans Proceedings of the ACL Conference Short Papers, pages 220–224, Juillet 2010. [Ney 1999] Ney H., Speech translation : coupling recognition and translation, dans Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, pages 1149–1152, Mai 1999. [Ney 1992] Ney H., Mergel D., Noll A. et Paeseler A., Data driven search organization for continuous speech recognition, dans IEEE Transactions on Signal Processing, volume 40, pages 272–281, Février 1992. [Och 2003a] Och F. J., Minimum error rate training in statistical machine translation, dans Proceedings of the 41st Annual Meeting on Association for Computational Linguistics, volume 1, pages 160–167, Juillet 2003a. [Och 2003b] Och F. J. et Ney H., A systematic comparison of various statistical alignment models, dans Computational Linguistics, volume 29, pages 19–51, Mars 2003b. [Och 1999] Och F. J., Tillmann C. et Ney H., Improved alignment models for statistical machine translation, dans University of Maryland, College Park, MD, pages 20–28, 1999. [Pallett 2003] Pallett D. S., A look at NIST’s benchmark ASR tests : Past, present, and future, dans Proceedings of the 2003 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), pages 483–488, Décembre 2003. [Pallett 1997] Pallett D. S., Fiscus J. G., Fisher W. M. et Garofolo J. S., Use of broadcast news materials for speech recognition benchmark tests, dans Proceedings of Eurospeech, pages 1903–1906, Septembre 1997. [Pallett 1994] Pallett D. S., Fiscus J. G., Fisher W. M., Garofolo J. S., Lund B. A. et Przybocki M. A., 1993 benchmark tests for the ARPA spoken language program, dans HLT ’94 Proceedings of the workshop on Human Language Technology, pages 49–74, Mars 1994. [Pallett 1999] Pallett D. S., Fiscus J. G., Garofolo J. S., Martin A. et Przybocki M. A., 1998 broadcast news benchmark test results : English and non-english word error rate performance measures, dans Proceedings of the DARPA Broadcast News Workshop, pages 5–12, Février 1999. 144 [Papineni 2002] Papineni K., Roukos S., Ward T. et Zhu W.-J., BLEU : a method for automatic evaluation of machine translation, dans Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pages 311–318, Juillet 2002. [Paul 2010] Paul M., Federico M. et Stüker S., Overview of the IWSLT 2010 evaluation campaign, dans Proceedings of International Workshop on Spoken Language Translation, pages 3–27, Décembre 2010. [Paulik 2008] Paulik M., Rao S., Lane I., Vogel S. et Schultz T., Sentence segmentation and punctuation recovery for spoken language translation, dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, pages 5105–5108, Avril 2008. [Placeway 1997] Placeway P., Chen S., Eskenazi M., Jain U., Parikh V., Raj B., Ravishankar M., Rosenfeld R., Seymore K., Siegler M., Stern R. et Thayer E., The 1996 Hub-4 Sphinx-3 system, dans Proceedings of the DARPA Speech Recognition Workshop, pages 85–89, Février 1997. [Povey 2002] Povey D. et Woodland P. C., Minimum phone error and i-smoothing for improved discriminative training, dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, pages 105–108, Mai 2002. [Quan 2005] Quan V. H., Federico M. et Cettolo M., Integrated nbest re-ranking for spoken language translation, dans Proceedings of Interspeech, pages 3181–3184, Septembre 2005. [Rabiner 1989] Rabiner L. R., A tutorial on hidden markov models and selected applications in speech recognition, dans Proceedings of the IEEE, volume 77, pages 257–286, Février 1989. [Ravishankar 2000] Ravishankar M., Singh R., Raj B. et Stern R. M., The 1999 CMU 10x real time broadcast news transcription system, dans Proceedings of DARPA Workshop on Automatic Transcription of Broadcast News, Mai 2000. [Rayner 2008] Rayner M., Bouillon P., Brotanek J., Flores G., Halimi S., Hockey B. A., Isahara H., Kanzaki K., Kron E., Nakao Y., Santaholma M., Starlander M. et Tsourakis N., The 2008 medslt system, dans Proceedings of Coling 2008, pages 32–35, Août 2008. [Rousseau 2009] Rousseau A., La traduction automatique de la parole – approches pour de meilleures performances, Juillet 2009, mémoire de Master Recherche en Informatique, Université du Maine, Le Mans. [Rousseau 2010] Rousseau A., Barrault L., Deléglise P. et Estève Y., LIUM’s statistical machine translation system for IWSLT 2010, dans Proceedings of International Workshop on Spoken Language Translation, pages 113–117, Décembre 2010. [Rousseau 2011] Rousseau A., Bougares F., Deléglise P., Schwenk H. et Estève Y., LIUM’s systems for the IWSLT 2011 speech translation tasks, dans Proceedings of International Workshop on Spoken Language Translation, pages 79–85, Décembre 2011. [Rousseau 2012] Rousseau A., Deléglise P. et Estève Y., TED-LIUM : an automatic speech recognition dedicated corpus, dans Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12), pages 125–129, Mai 2012. 145 Bibliographie [Saleem 2004] Saleem S., Jou S.-C., Vogel S. et Schultz T., Using word lattice information for a tighter coupling in speech translation systems, dans INTERSPEECH’04, pages 41–44, Octobre 2004. [Schwenk 2007] Schwenk H., Continuous space language models, dans Computer Speech and Language, volume 21, pages 492–518, Janvier 2007. [Schwenk 2010] Schwenk H., Continuous space language models for statistical machine translation, dans The Prague Bulletin of Mathematical Linguistics, numéro 93, pages 137– 146, Janvier 2010. [Schwenk 2006] Schwenk H., Costa-Jussà M. R. et Fonollosa J. A. R., Continuous space language models for the iwslt 2006 task, dans Proceedings of International Workshop on Spoken Language Translation, pages 166–173, Novembre 2006. [Schwenk 2002] Schwenk H. et Gauvain J.-L., Connectionist language modeling for large vocabulary continuous speech recognition, dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, pages 765–768, Mai 2002. [Schwenk 2005] Schwenk H. et Gauvain J.-L., Training neural network language models on very large corpora, dans Proceedings of the Conference on Empirical Methods in Natural Language Processing, pages 201–208, Octobre 2005. [Schwenk 2011] Schwenk H., Lambert P., Barrault L., Servan C., Adbul-Rauf S., Afli H. et Shah K., LIUM’s SMT machine translation systems for WMT 2011, dans Proceedings of the Sixth Workshop on Statistical Machine Translation, pages 464–469, Juillet 2011. [Schwenk 2012] Schwenk H., Rousseau A. et Attik M., Large, pruned or continuous space language models on a GPU for statistical machine translation, dans NAACL Workshop on the Future of Language Modeling, pages 11–19, Juin 2012. [Servan 2012] Servan C., Lambert P., Rousseau A., Schwenk H. et Barrault L., LIUM’s SMT machine translation systems for WMT 2012, dans Proceedings of the Seventh Workshop on Statistical Machine Translation, pages 369–373, Mai 2012. [Shah 2012] Shah K., Model adaptation techniques in machine translation, Thèse de doctorat, LIUM, Université du Maine, Le Mans, France, Juin 2012. [Shugrina 2010] Shugrina M., Formatting time-aligned ASR transcripts for readability, dans Proceedings of the 2010 Conference of the North American Chapter of the Association for Computational Linguistics, pages 198–206, Juin 2010. [Siu 1999] Siu M. et Gish H., Evaluation of word confidence for speech recognition systems, dans Computer Speech and Language, volume 13, pages 299–319, Octobre 1999. [Snover 2006] Snover M., Dorr B., Schwartz R., Micciulla L. et Makhoul J., A study of translation edit rate with targeted human annotation, dans Proceedings of the 7th Conference of the Association for Machine Translation in the Americas (AMTA), pages 223–231, 2006. [Snover 2009] Snover M., Madnani N., Dorr B. et Schwartz R., Fluency, adequacy, or HTER ? exploring different human judgments with a tunable MT metric, dans Proceedings of the Fourth Workshop on Statistical Machine Translation, pages 259–268, Mars 2009. [Stolcke 2002] Stolcke A., SRILM - an extensible language modeling toolkit, dans Proceedings of Interspeech, pages 901–904, Septembre 2002. 146 [Stolcke 2011] Stolcke A., Zheng J., Wang W. et Abrash V., SRILM at sixteen : Update and outlook, dans Proceedings of the Automatic Speech Recognition and Understanding Workshop (ASRU), Décembre 2011. [Strik 1999] Strik H. et Cucchiarini C., Modeling pronunciation variation for ASR : A survey of the literature, dans Speech Communication, volume 29, pages 225–246, Novembre 1999. [Stüker 2006] Stüker S., Fügen C., Hsiao R., Ikbal S., Jin Q., Kraft F., Paulik M., Raab M., Tam Y.-C. et Wölfel M., The ISL TC-STAR spring 2006 ASR evaluation systems, dans Proceedings of the TC-STAR Workshop on Speech-to-Speech Translation, pages 139– 144, Juin 2006. [Stüker 2012] Stüker S., Kraft F., Mohr C., Herrmann T., Cho E. et Waibel A., The kit lecture corpus for speech translation, dans Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC’12), pages 3409–3414, Mai 2012. [Takezawa 2002] Takezawa T., Sumita E., Sugaya F., Yamamoto H. et Yamamoto S., Toward a broad-coverage bilingual corpus for speech translation of travel conversations in the real world, dans Proceedings of LREC 2002, pages 147–152, Mai 2002. [Vanden Berghen 2005] Vanden Berghen F. et Bersini H., CONDOR, a new parallel, constrained extension of powell’s UOBYQA algorithm : experimental results and comparison with the DFO algorithm, dans Journal of Computational and Applied Mathematics, volume 181, pages 157–175, Septembre 2005. [Viterbi 1967] Viterbi A. J., Error bounds for convolutional codes and an asymptotically optimal decoding algorithm, dans IEEE Transactions on Information Theory, volume 13, pages 260–269, Avril 1967. [Wahlster 2000] Wahlster W., Verbmobil : Foundations of Speech-to-Speech Translation, Springer, Juillet 2000. [Walker 2004] Walker W., Lamere P., Kwok P., Raj B., Singh R., Gouvea E., Wolf P. et Woelfel J., Sphinx-4 : A flexible open source framework for speech recognition, dans Sun Microsystems Technical Report, Novembre 2004. [White 1994] White J. S., The ARPA MT evaluation methodologies : Evolution, lessons, and further approaches, dans Proceedings of the 1994 Conference of the Association for Machine Translation in the Americas, pages 193–205, 1994. [Witten 1991] Witten I. H. et Bell T. C., The zero-frequency problem : estimating the probabilities of novel events in adaptive text compression, dans IEEE Transactions on Information Theory, volume 37, pages 1085–1094, Juillet 1991. [Yamada 2001] Yamada K. et Knight K., A syntax-based statistical translation model, dans Proceedings of the 39th Annual Meeting on Association for Computational Linguistics, pages 523–530, Juillet 2001. [Zhang 2006] Zhang R. et Kikui G., Integration of speech recognition and machine translation : Speech recognition word lattice translation, dans Speech Communication, volume 48, pages 321–334, Mars 2006. 147 Bibliographie [Zhang 2004] Zhang R., Kikui G., Yamamoto H., Soong F. K., Watanabe T., Sumita E. et Lo W.-K., Improved spoken language translation using n-best speech recognition hypotheses, dans INTERSPEECH’04, pages 1629–1632, Octobre 2004. 148 Annexes 149 Annexe A Liste des publications 151 Annexe A. Liste des publications – Yannick Estève, Paul Deléglise, Sylvain Meignier, Simon Petit-Renaud, Holger Schwenk, Loïc Barrault, Fethi Bougares, Richard Dufour, Vincent Jousse, Antoine Laurent et Anthony Rousseau. « Some recent research work at LIUM based on the use of CMU Sphinx », CMU SPUD Workshop, Mars 2010. – Anthony Rousseau, Loïc Barrault, Yannick Estève et Paul Deléglise. « LIUM’s Statistical Machine Translation System for IWSLT 2010 », Proceedings of the International Workshop on Spoken Language Translation 2010, pp. 113–117, Décembre 2010. – Anthony Rousseau, Fethi Bougares, Paul Deléglise, Holger Schwenk et Yannick Estève. « LIUM’s systems for the IWSLT 2011 Speech Translation Tasks », Proceedings of the International Workshop on Spoken Language Translation 2011, pp. 79–85, Décembre 2011. – Anthony Rousseau, Paul Deléglise et Yannick Estève. « TED-LIUM : an Automatic Speech Recognition dedicated corpus », Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC’12), Mai 2012. – Christophe Servan, Patrik Lambert, Anthony Rousseau et Holger Schwenk. « LIUM’s SMT Machine Translation Systems for WMT 2012 », Proceedings of the Seventh Workshop on Statistical Machine Translation, pp. 369–373, Mai 2012. – Holger Schwenk, Anthony Rousseau et Mohammed Attik. « Large, Pruned or Continuous Space Language Models on a GPU for Statistical Machine Translation », Proceedings of the NAACL workshop on the Future of Language Modeling, Juin 2012. 152