Document - Laboratoire d`Informatique de l`Université du Maine

Transcription

Document - Laboratoire d`Informatique de l`Université du Maine
Université
du Maine
Université du Maine
L A TRADUCTION AUTOMATIQUE
DE LA PAROLE
THÈSE
présentée et soutenue publiquement le 07 décembre 2012
pour l’obtention du
Doctorat de l’Université du Maine
(spécialité informatique)
par
A NTHONY ROUSSEAU
Composition du jury
Rapporteurs :
M. Laurent Besacier
M. Gilles Adda
Professeur des Universités
Docteur HDR
LIG, Université J. Fourier
LIMSI CNRS
Examinateurs :
M. Samir Bennacef
M. Patrik Lambert
Docteur
Docteur
Vecsys
Barcelona Media
Directeurs de thèse :
M. Holger Schwenk
M. Yannick Estève
Professeur des Universités
Professeur des Universités
LIUM, Université du Maine
LIUM, Université du Maine
Laboratoire d’Informatique de l’Université du Maine
lium
i
Résumé
Dans cette thèse, nous abordons la traduction automatique de la parole dans son ensemble.
Cette étude se concentre principalement sur la mise en œuvre d’un système de traduction de
la parole complet et sur les méthodes qui permettent de proposer un couplage étroit entre
les domaines qui le composent : la reconnaissance automatique de la parole et la traduction
automatique statistique.
En effet, outre un simple enchaînement linéaire des systèmes, il est possible d’employer
différentes représentations de données d’un système à l’autre afin d’atteindre de meilleures
performances. De plus, il est essentiel pour un système de traduction de la parole de proposer
une continuité et une cohérence importante entre ses diverses composantes afin de limiter au
maximum les perturbations et le bruit qui apparaissent généralement dans les formalismes
statistiques tel que ceux que nous employons. Cela nécessite tout d’abord de s’assurer de la
pertinence et de l’homogénéité des données utilisées au sein de chaque système. Puis, à partir
de ces données, il sera possible de réaliser conjointement l’apprentissage et l’optimisation des
systèmes de façon à proposer un couplage étroit et robuste.
Le cadre de développement, tel que nous l’entendons, se situe principalement dans la participation du LIUM aux campagnes d’évaluation de la traduction de la parole IWSLT (International
Workshop on Spoken Language Translation) 2010 et 2011. Ces campagnes proposent des tâches
de traduction de la parole soumises à des contraintes fortes, notamment au niveau de l’ensemble
des données utilisables pour l’apprentissage des systèmes ou de la tâche proposée.
Notre contribution dans le cadre de cette thèse s’articule autour de trois axes ayant pour
objectif la traduction automatique vers le français de présentations scientifiques prononcées
en anglais. D’une part, nous décrivons un ensemble de données que nous avons construit,
adapté à la traduction automatique de transcriptions issues d’un système de reconnaissance de
la parole anglaise. Ce corpus, TED-LIUM, est aujourd’hui distribué gratuitement à l’ensemble
de la communauté scientifique. D’autre part, nous proposons une implémentation complète
d’un système de traduction automatique de la parole de l’anglais vers le français. Ce système a
obtenu la meilleure place lors de l’évaluation proposée dans le cadre d’IWSLT 2011. Enfin, nous
présentons l’étude d’une méthode pour la sélection efficace de données, basée sur le critère de
l’entropie croisée, dans le but d’augmenter de façon significative les performances d’un système
de traduction automatique statistique. Nous proposons à cet effet un outil ayant démontré son
efficacité dans plusieurs contextes, qu’ils soient liés à la parole ou non.
Mots-clés: Reconnaissance de la parole, Traduction automatique statistique, Traduction de la
parole, Couplage de systèmes, Construction de corpus, Sélection de données
ii
Abstract
In this thesis, we address spoken language translation in its entirety. This study focuses
mainly on methods allowing a tight coupling between the two underlying research domains,
namely automatic speech recognition and statistical machine translation.
Indeed, beyond a simple pipelining of systems, it is possible to use various data representations from one system to another to achieve better performance. Moreover, it is essential for
a spoken language translation system to ensure continuity and consistency between its various
components in order to limit the noise and disfluencies which can occur in statistical frameworks
like the ones we use. This process begins with ensuring the pertinence and homogeneity of the
data we use during the development of our systems. Then, from this data, it becomes possible
to jointly perform the development and optimisation of the systems in order to propose a tight
and robust coupling.
This development framework, as we define it, mainly relates to LIUM’s participation to
the 2010 and 2011 spoken language translation evaluation campaigns IWSLT (International
Workshop on Spoken Language Translation). These campaigns propose speech translation tasks
with strong constraints, such as allowed data sets for system development or the proposed task.
Our thesis contributions concern three axis aimed at the automatic translation of English
scientific presentations into French. First, we describe a corpus we built, adapted to automatic
translation of transcriptions from an English automatic speech recognition system. This corpus, TED-LIUM, is now freely distributed to the scientific community. Second, we propose
a complete implementation of an English to French spoken language translation system. This
system was ranked best at the evaluation proposed at IWSLT 2011. Finally, we present a study
of an efficient data selection method based on cross-entropy criterion, in order to significantly
enhance a statistical machine translation system. Concerning this method, we propose a tool
which has demonstrated its efficiency in various contexts, related to speech or not.
Keywords: Speech recognition, Statistical machine translation, Spoken language translation,
System coupling, Corpus creation, Data selection
iii
iv
Table des matières
Résumé
ii
Abstract
iii
Table des figures
xi
Liste des tableaux
xiii
Introduction
Partie I
1
État de l’art et contexte
5
Chapitre 1
Domaines fondateurs
1.1
7
Reconnaissance automatique de la parole . . . . . . . . . . . . . . . . . .
9
1.1.1
Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.1.2
Extraction des paramètres . . . . . . . . . . . . . . . . . . . . . .
10
1.1.3
Modélisation acoustique . . . . . . . . . . . . . . . . . . . . . . .
10
1.1.3.1
Algorithme d’expectation-maximisation (EM) . . . . . .
12
1.1.3.2
Dictionnaire phonétisé . . . . . . . . . . . . . . . . . .
13
1.1.3.3
Alignement des phonèmes avec le signal . . . . . . . . .
13
1.1.3.4
Adaptation . . . . . . . . . . . . . . . . . . . . . . . . .
14
v
Table des matières
1.2
1.1.4
Espace de recherche et graphes de mots . . . . . . . . . . . . . . .
15
1.1.5
Mesures de confiance . . . . . . . . . . . . . . . . . . . . . . . .
15
1.1.6
Évaluation des systèmes de RAP . . . . . . . . . . . . . . . . . .
16
Traduction automatique statistique . . . . . . . . . . . . . . . . . . . . . .
18
1.2.1
Principes de base . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
1.2.2
Modélisation de la traduction . . . . . . . . . . . . . . . . . . . .
19
1.2.2.1
Notion d’alignement . . . . . . . . . . . . . . . . . . .
20
1.2.2.2
Modèles IBM . . . . . . . . . . . . . . . . . . . . . . .
21
1.2.2.3
Modèles basés sur les séquences de mots (phrase-based
models) . . . . . . . . . . . . . . . . . . . . . . . . . .
23
Modélisation log-linéaire . . . . . . . . . . . . . . . . . . . . . .
25
1.2.3.1
Pondération lexicale . . . . . . . . . . . . . . . . . . . .
27
1.2.3.2
Modèle de réordonnement lexicalisé . . . . . . . . . . .
27
1.2.3.3
Pénalités de mot et de séquence . . . . . . . . . . . . . .
28
Optimisation des systèmes de TAS . . . . . . . . . . . . . . . . .
28
1.2.4.1
Minimum Error Rate Training (MERT) . . . . . . . . . .
29
1.2.4.2
Margin Infused Relaxed Algorithm (MIRA) . . . . . . .
29
Évaluation des systèmes de TAS . . . . . . . . . . . . . . . . . . .
30
Modélisation du langage . . . . . . . . . . . . . . . . . . . . . . . . . . .
32
1.3.1
Modèles N-Gramme . . . . . . . . . . . . . . . . . . . . . . . . .
32
1.3.2
Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
1.3.3
Modèles de langage à représentation continue (CSLM) . . . . . . .
33
1.3.4
Optimisation et évaluation des modèles de langage . . . . . . . . .
34
1.3.4.1
34
1.2.3
1.2.4
1.2.5
1.3
Perplexité . . . . . . . . . . . . . . . . . . . . . . . . .
Chapitre 2
La traduction de la parole
2.1
2.2
vi
35
Spécificités de la traduction de la parole . . . . . . . . . . . . . . . . . . .
36
2.1.1
Disfluences et registres de langue . . . . . . . . . . . . . . . . . .
36
2.1.2
Ponctuation, casse et segmentation . . . . . . . . . . . . . . . . .
38
Techniques de couplage . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
2.2.1
Justification théorique . . . . . . . . . . . . . . . . . . . . . . . .
41
2.2.2
Traduction de listes de N-meilleures hypothèses (n-best lists) . . .
42
2.2.3
Traduction de graphes de mots . . . . . . . . . . . . . . . . . . . .
43
2.2.4
Traduction de réseaux de confusion . . . . . . . . . . . . . . . . .
43
2.2.5
Couplage formalisé par des automates à états finis . . . . . . . . .
45
Chapitre 3
Contexte des travaux
3.1
3.2
Principes des campagnes d’évaluation . . . . . . . . . . . . . . . . . . . .
48
3.1.1
Définition et but premier . . . . . . . . . . . . . . . . . . . . . . .
48
3.1.2
Autres finalités essentielles . . . . . . . . . . . . . . . . . . . . .
49
Historique des campagnes récentes . . . . . . . . . . . . . . . . . . . . . .
50
3.2.1
Reconnaissance automatique de la parole . . . . . . . . . . . . . .
50
3.2.1.1
En langue anglaise . . . . . . . . . . . . . . . . . . . .
50
3.2.1.2
En langue française . . . . . . . . . . . . . . . . . . . .
51
Traduction automatique statistique . . . . . . . . . . . . . . . . .
52
Les campagnes d’évaluation en traduction de la parole . . . . . . . . . . .
54
3.3.1
Les campagnes TC-STAR . . . . . . . . . . . . . . . . . . . . . .
54
3.3.2
Les campagnes IWSLT . . . . . . . . . . . . . . . . . . . . . . .
55
3.2.2
3.3
Partie II
47
De la construction d’un système de traduction de la parole sou-
mis à des contraintes applicatives
57
Chapitre 4
De la pertinence et de la cohérence des données d’apprentissage
4.1
59
Données pour la reconnaissance automatique de la parole : le corpus TEDLIUM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.1.1
Construction du corpus d’apprentissage . . . . . . . . . . . . . . .
60
4.1.1.1
Collection des données . . . . . . . . . . . . . . . . . .
61
4.1.1.2
Alignement du texte sur le signal acoustique . . . . . . .
63
vii
Table des matières
4.2
4.3
4.1.2
Construction du corpus de développement . . . . . . . . . . . . .
70
4.1.3
Disponibilité et distribution du corpus . . . . . . . . . . . . . . . .
71
Données pour la traduction automatique statistique . . . . . . . . . . . . .
72
4.2.1
Données d’apprentissage parallèles . . . . . . . . . . . . . . . . .
72
4.2.2
Données de développement et de test . . . . . . . . . . . . . . . .
73
Données d’apprentissage monolingues pour la reconnaissance et la traduction 76
4.3.1
Données pour la modélisation du langage en reconnaissance automatique de la parole . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.2
4.4
76
Données pour la modélisation du langage en traduction automatique statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . .
77
Harmonisation des données . . . . . . . . . . . . . . . . . . . . . . . . .
78
4.4.1
Cohérence dans la forme des données . . . . . . . . . . . . . . . .
78
4.4.2
Cohérence dans le choix des mots . . . . . . . . . . . . . . . . . .
80
Chapitre 5
De la mise en œuvre d’un système de traduction de la parole anglais - français 81
5.1
Architecture globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
5.2
Système de reconnaissance automatique de la parole en anglais . . . . . . .
86
5.2.1
Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
5.2.2
Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
5.2.2.1
Construction du dictionnaire phonétisé d’apprentissage .
88
5.2.2.2
Modélisation acoustique pour l’anglais . . . . . . . . . .
88
5.2.2.3
Modélisation du langage pour l’anglais . . . . . . . . . .
90
Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
5.2.3.1
Construction du vocabulaire de décodage . . . . . . . .
91
5.2.3.2
Segmentation . . . . . . . . . . . . . . . . . . . . . . .
92
5.2.3.3
Transcription multi-passes . . . . . . . . . . . . . . . .
93
Système de traduction automatique de la parole anglais - français . . . . .
94
5.3.1
Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
5.3.2
Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
5.3.2.1
Modélisation de la traduction de l’anglais vers le français
94
5.3.2.2
Modélisation du langage pour le français . . . . . . . . .
97
Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
5.2.3
5.3
5.3.3
5.3.3.1
Traitement des graphes de mots de la reconnaissance de
la parole . . . . . . . . . . . . . . . . . . . . . . . . . .
viii
98
5.4
5.5
Remise de la casse et de la ponctuation . . . . . . . . . . . . . . . . . . . 100
5.4.1
Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4.2
Modélisation de la traduction . . . . . . . . . . . . . . . . . . . . 100
5.4.3
Modélisation du langage . . . . . . . . . . . . . . . . . . . . . . . 101
5.4.4
Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Expérimentations et évaluation des systèmes . . . . . . . . . . . . . . . . 103
5.5.1
5.5.2
Expérimentations et évaluations internes . . . . . . . . . . . . . . 103
5.5.1.1
Sur la reconnaissance de la parole . . . . . . . . . . . . 103
5.5.1.2
Sur la traduction automatique . . . . . . . . . . . . . . . 104
5.5.1.3
Sur la remise de la casse et de la ponctuation . . . . . . . 107
Évaluation officielle : la campagne IWSLT 2011 . . . . . . . . . . 108
Chapitre 6
De l’amélioration des systèmes par la sélection de données
6.1
6.2
6.3
111
Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.1.1
Sélection de données monolingues . . . . . . . . . . . . . . . . . 113
6.1.2
Sélection de données parallèles . . . . . . . . . . . . . . . . . . . 114
XenC : outil pour la sélection de données par l’entropie croisée . . . . . . . 116
6.2.1
Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.2.2
Disponibilité de l’outil . . . . . . . . . . . . . . . . . . . . . . . . 117
Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.3.1
6.3.2
Sur le système IWSLT 2011 . . . . . . . . . . . . . . . . . . . . . 118
6.3.1.1
Modélisation du langage . . . . . . . . . . . . . . . . . 118
6.3.1.2
Sélection sur les corpus parallèles . . . . . . . . . . . . 122
6.3.1.3
Expérimentations sur le système complet de traduction . 125
Autres expérimentations . . . . . . . . . . . . . . . . . . . . . . . 127
6.3.2.1
Sélection de données pour WMT12 . . . . . . . . . . . . 128
6.3.2.2
Sélection pour NIST OpenMT 2012 . . . . . . . . . . . 129
Conclusion et perspectives
131
Acronymes
135
Bibliographie
139
ix
Table des matières
Annexes
Annexe A
Liste des publications
x
151
Table des figures
1.1
1.2
1.3
1.4
1.5
1.6
1.7
Représentation générale du fonctionnement d’un système de RAP. . . . .
Représentation d’un modèle de Markov caché à cinq états. . . . . . . . .
Schéma de la traduction automatique statistique. . . . . . . . . . . . . . .
Exemple d’alignement des mots dans une phrase. . . . . . . . . . . . . .
Traduction automatique statistique basée sur les séquences de mots. . . .
Paires de séquences consistantes avec l’alignement symétrique mot à mot.
Les trois types d’orientation : (m) monotone, (s) échange, (d) discontinu. .
.
.
.
.
.
.
.
11
12
19
20
24
25
28
2.1
2.2
Exemples de traduction de parole avec un système de TAS inadapté. . . . . . .
Représentation d’un graphe de mots et sa transformation en réseau de confusion
(extrait de [Mangu 1999]). . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
4.1
4.2
4.3
4.4
4.5
5.1
5.2
5.3
5.4
5.5
5.6
5.7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Normalisation du texte obtenu à partir de l’extraction des transcriptions du site
TED. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemple de fichier de sortie de reconnaissance au format CTM. . . . . . . . .
Exemple de transcription de référence au format STM. . . . . . . . . . . . . .
Exemple de différences entre le corpus de développement original et celui créé
au LIUM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Exemples de différences entre les références de reconnaissance automatique et
de traduction statistique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
62
65
66
75
79
Représentation de l’architecture globale du système de traduction de la parole
du LIUM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
Architecture globale du système du LIUM pour la transcription de présentations
scientifiques en anglais, d’après [Estève 2009]. . . . . . . . . . . . . . . . . . 87
Exemple de perceptron multi-couches. . . . . . . . . . . . . . . . . . . . . . . 90
Architecture globale du système du LIUM pour la traduction de transcriptions
de parole dans un contexte de présentations scientifiques. . . . . . . . . . . . . 95
Exemple de réduction d’un graphe de mot afin de le rendre exploitable par le
décodeur de traduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Exemples de traductions dont la ponctuation et la casse a été remise, en comparaison des traductions d’origine et de référence. . . . . . . . . . . . . . . . . . 102
Résultats (score BLEU) du filtrage par perplexité comparés à la taille des données d’apprentissage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
xi
Table des figures
6.1
6.2
xii
Perplexité comparée à la taille des corpus N triés selon leur entropie croisée,
évaluation sur le corpus LIUM dev2010. . . . . . . . . . . . . . . . . . . . . . 119
Perplexité comparée à la taille du corpus parallèle ccb2 trié selon son entropie
croisée monolingue et bilingue. . . . . . . . . . . . . . . . . . . . . . . . . . . 123
Liste des tableaux
2.1
2.2
Principales caractéristiques des différents registres de langue. . . . . . . . . . . 37
Exemples de disfluences rencontrées en reconnaissance automatique de la parole. 37
4.1
4.2
4.3
4.4
4.5
63
66
68
69
Caractéristiques de départ du corpus TED-LIUM après extraction. . . . . . . .
Caractéristiques du corpus TED-LIUM après l’itération d’amorçage. . . . . . .
Caractéristiques du corpus TED-LIUM après l’itération intermédiaire. . . . . .
Caractéristiques du corpus TED-LIUM après l’itération finale. . . . . . . . . .
Évaluation des modèles acoustiques utilisés lors de l’alignement sur le corpus
de développement du LIUM. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6 Caractéristiques du corpus de développement TED-LIUM. . . . . . . . . . . .
4.7 Caractéristiques des corpus parallèles considérés. . . . . . . . . . . . . . . . .
4.8 Caractéristiques des corpus de développement et de test. . . . . . . . . . . . .
4.9 Caractéristiques des corpus monolingues anglais pour la reconnaissance automatique de la parole. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.10 Caractéristiques des corpus monolingues français pour la traduction automatique statistique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage trigrammes et quadrigrammes pour la RAP. . . . . . . . . . . . . . . . .
5.2 Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage quadrigrammes pour la traduction. . . . . . . . . . . . . . . . . . . . . .
5.3 Exemple de statistiques d’un graphe de mots au cours de sa réduction. . . . . .
5.4 Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage quadrigrammes pour le recasing. . . . . . . . . . . . . . . . . . . . . . .
5.5 Résultats d’évaluations internes des modèles acoustiques par décodage multipasses sur le corpus LIUM dev2010, en termes de WER. . . . . . . . . . . . .
5.6 Scores BLEU des systèmes de référence en fonction des corpus utilisés. . . . .
5.7 Scores BLEU des systèmes en fonction de la sélection par la perplexité. . . . .
5.8 Résultats en termes de score BLEU selon l’ensemble de corpus et le type d’entrée considéré sur les corpus LIUM dev2010 et LIUM test2010. . . . . . . . . .
5.9 Scores BLEU obtenus après ajout du modèle de langage à espace continu. . . .
5.10 Évaluation et validation des approches pour le recasing. . . . . . . . . . . . . .
5.11 Résultats officiels du système de transcription du LIUM, en termes de WER. . .
5.12 Résultats officiels du système de traduction automatique de la parole du LIUM,
en termes de score BLEU. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
70
73
75
76
77
5.1
xiii
91
98
99
101
103
104
105
106
107
107
108
109
Liste des tableaux
6.1
6.2
6.3
6.4
6.5
6.6
6.7
xiv
Statistiques des corpus du domaine I et hors du domaine N et de leurs sousensembles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Perplexités originales et réduites des corpus du domaine I et hors du domaine
N et tailles de leurs sous-ensembles. . . . . . . . . . . . . . . . . . . . . . . .
Résultats en termes de score BLEU et tailles des ML de l’expérimentation sur
la sélection par entropie croisée monolingue. . . . . . . . . . . . . . . . . . . .
Résultats en termes de score BLEU des systèmes expérimentaux selon la sélection pratiquée. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Caractéristiques des tables de traduction des systèmes expérimentaux. . . . . .
Résultats en termes de score BLEU des systèmes expérimentaux complets. . . .
Résultats de la sélection de données pratiquée pour la campagne WMT12. . . .
120
121
122
124
125
126
128
Introduction
1
Introduction
l est frappant de constater aujourd’hui la place qu’occupent le langage et la communication
dans tous les aspects de la société moderne. En effet, moins d’un siècle sépare l’émergence
de la linguistique moderne de l’apparition de systèmes complexes de traitement automatisé de
l’information. Le rêve d’un langage universel de l’homme, popularisé avec le mythe de la Tour
de Babel, semble aujourd’hui plus vivant que jamais. Et même si ce rêve de pouvoir échanger
librement avec n’importe quelle personne reste de nos jours inaccessible, nous pouvons réellement observer un intérêt croissant pour la recherche scientifique en traitement automatique
des langues naturelles. À ce titre, la traduction automatique de la parole occupe une place
grandissante depuis le début du XXIe siècle, laissant imaginer un grand nombre d’applications.
Nous pouvons notamment songer à la facilitation des échanges diplomatiques ou commerciaux,
par exemple, ou encore à une utilisation dans un cadre touristique. Des applications militaires
sont aussi étudiées : lors de missions à l’étranger, pouvoir communiquer plus facilement avec la
population locale facilite les activités de renseignement et procure un avantage. D’autres besoins
existent également : citons par exemple le nombre croissant de langues officielles au Parlement
Européen, qui crée une nécessité de faire appel à plus d’interprètes mais aussi de traducteurs.
I
Par sa nature, la traduction automatique de la parole cherche à réunir deux domaines ayant
fait l’objet de recherches de façon indépendante pendant plus de cinquante ans. D’un côté, il
s’agit de reconnaître de la parole, c’est-à-dire de produire, à l’aide d’un système automatisé, une
transcription de ce qu’un locuteur aura prononcé, soit un signal acoustique. Cela fait appel à une
modélisation acoustique, notamment liée au genre du locuteur et aux conditions d’enregistrement de la parole, ainsi qu’à une modélisation linguistique, afin que les mots reconnus puissent
former une phrase correcte. De nos jours, la totalité des systèmes de reconnaissance automatique
de la parole se basent sur des méthodes statistiques, conjuguant des modèles estimés sur des
corpus de parole et de texte. De l’autre côté, la traduction automatique cherche elle à modéliser
les caractéristiques essentielles de deux langues dans le but de passer de l’une à l’autre, toujours
à l’aide d’un système automatisé. Au fil du temps, plusieurs approches de la traduction automatique ont été décrites : parmi celles-ci, les approches statistiques sont devenues très populaires.
Dans cette optique, qui nous intéresse particulièrement ici, les modèles statistiques de traduction sont estimés à partir de corpus de texte bilingues, tandis que la modélisation linguistique
s’estime sur des corpus de texte monolingues.
Réunir les deux domaines que sont la reconnaissance de la parole et la traduction automatique statistique suppose que l’on devra composer avec les difficultés liées à chacun, c’est
ce qui constitue une des spécificités de la traduction automatique de la parole. Par exemple,
le style de langage employé, les mots répétés ou encore les erreurs de reconnaissance sont
2
des phénomènes à prendre en compte dans l’élaboration d’un système automatisé qui se veut
robuste. Nous pouvons aussi citer le problème de la casse et de la ponctuation, qui sont souvent
absentes ou produites de façon incorrecte par le système de reconnaissance de la parole mais
essentielles à la production d’une traduction faisant sens. De plus, outre le simple enchaînement
séquentiel de systèmes, il est possible d’envisager des techniques pouvant produire un couplage
plus étroit entre ceux-ci. Dans ce cadre, notre travail se concentre sur la traduction de la parole
reconnue automatiquement en tenant compte de contraintes applicatives liées à la participation
à des campagnes d’évaluation. Cette thèse s’articule autour de trois axes :
1. l’acquisition de ressources spécifiques à la reconnaissance et la traduction de la parole ;
2. le développement et le couplage des systèmes de reconnaissance et de traduction ;
3. l’amélioration des performances des dits systèmes par la sélection appropriée des données.
Plus précisément, ce manuscrit est organisé comme suit :
– Le chapitre 1 propose un état de l’art des deux domaines fondateurs de la traduction
automatique de la parole que nous venons d’évoquer. Il présente également un troisième
domaine, formant un des points communs existant entre la reconnaissance de la parole et
la traduction automatique : la modélisation du langage.
– Le chapitre 2 décrit de façon plus approfondie les spécificités inhérentes à la traduction
de parole reconnue automatiquement et le cadre théorique qui l’accompagne. Il propose
aussi un tour d’horizon des techniques de couplage envisageables entre les systèmes.
– Le chapitre 3 traite quant à lui du contexte dans lequel prennent place nos travaux. Il
introduit les principes attachés aux campagnes d’évaluation et présente un historique des
campagnes récentes en reconnaissance de la parole et en traduction automatique. Une
emphase est portée sur les campagnes dédiées à la traduction de la parole, qui définissent
les contraintes applicatives telles que nous les entendons.
– Le chapitre 4 s’attache à montrer l’importance de la pertinence et de la cohérence des
données d’apprentissage comme socle du couplage des systèmes. Nous présentons notamment ici TED-LIUM, le corpus dédié à la transcription automatique de présentations
scientifiques en anglais que nous avons créé. Nous évoquons également l’ensemble des
données nécessaires au développement de nos systèmes et traitons de leur harmonisation.
– Le chapitre 5 décrit l’implémentation et la mise en œuvre complète de notre système
de traduction de la parole anglais - français. Il présente également les choix que nous
avons faits pour notre système de remise de la casse et de la ponctuation, et retrace les
expérimentations et évaluations réalisées.
3
Introduction
– Le chapitre 6 traite de l’amélioration des performances initiales par une technique de
sélection de données. Il en présente tout d’abord les principes, puis l’outil que nous avons
créé, et décrit finalement les expériences que nous avons tentées afin de rendre notre
système plus performant.
Pour finir, ce manuscrit se conclut par un développement sur un ensemble de perspectives
envisagées.
4
Première partie
État de l’art et contexte
5
Chapitre 1
Domaines fondateurs
Sommaire
1.1
1.2
Reconnaissance automatique de la parole . . . . . . . . . . . . . . . .
9
1.1.1
Principes de base . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.1.2
Extraction des paramètres . . . . . . . . . . . . . . . . . . . . .
10
1.1.3
Modélisation acoustique . . . . . . . . . . . . . . . . . . . . . .
10
1.1.3.1
Algorithme d’expectation-maximisation (EM) . . . . .
12
1.1.3.2
Dictionnaire phonétisé . . . . . . . . . . . . . . . . .
13
1.1.3.3
Alignement des phonèmes avec le signal . . . . . . . .
13
1.1.3.4
Adaptation . . . . . . . . . . . . . . . . . . . . . . .
14
1.1.4
Espace de recherche et graphes de mots . . . . . . . . . . . . . .
15
1.1.5
Mesures de confiance . . . . . . . . . . . . . . . . . . . . . . .
15
1.1.6
Évaluation des systèmes de RAP . . . . . . . . . . . . . . . . .
16
Traduction automatique statistique . . . . . . . . . . . . . . . . . . .
18
1.2.1
Principes de base . . . . . . . . . . . . . . . . . . . . . . . . .
18
1.2.2
Modélisation de la traduction . . . . . . . . . . . . . . . . . . .
19
1.2.2.1
Notion d’alignement . . . . . . . . . . . . . . . . . .
20
1.2.2.2
Modèles IBM . . . . . . . . . . . . . . . . . . . . . .
21
1.2.2.3
Modèles basés sur les séquences de mots (phrase-based
1.2.3
1.2.4
models) . . . . . . . . . . . . . . . . . . . . . . . . .
23
Modélisation log-linéaire . . . . . . . . . . . . . . . . . . . . .
25
1.2.3.1
Pondération lexicale . . . . . . . . . . . . . . . . . .
27
1.2.3.2
Modèle de réordonnement lexicalisé . . . . . . . . . .
27
1.2.3.3
Pénalités de mot et de séquence . . . . . . . . . . . .
28
Optimisation des systèmes de TAS . . . . . . . . . . . . . . . .
28
1.2.4.1
29
Minimum Error Rate Training (MERT) . . . . . . . .
7
Chapitre 1. Domaines fondateurs
1.2.4.2
Margin Infused Relaxed Algorithm (MIRA) . . . . . .
29
Évaluation des systèmes de TAS . . . . . . . . . . . . . . . . .
30
Modélisation du langage . . . . . . . . . . . . . . . . . . . . . . . . .
32
1.3.1
Modèles N-Gramme . . . . . . . . . . . . . . . . . . . . . . . .
32
1.3.2
Lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
1.3.3
Modèles de langage à représentation continue (CSLM) . . . . . .
33
1.3.4
Optimisation et évaluation des modèles de langage . . . . . . . .
34
1.3.4.1
34
1.2.5
1.3
8
Perplexité . . . . . . . . . . . . . . . . . . . . . . . .
1.1. Reconnaissance automatique de la parole
l paraît difficile de décrire convenablement la traduction automatique de la parole sans avoir
préalablement décrit les deux domaines concernés, à savoir la reconnaissance automatique de
la parole et la traduction automatique statistique. Ces deux domaines, déjà extrêmement vastes,
peuvent se rencontrer pour former le domaine de la traduction automatique de la parole.
I
Ce chapitre, divisé en trois sections, se concentre sur chacun des aspects fondateurs et indispensables à la traduction de la parole. Dans une première partie seront exposés les concepts
et principes inhérents à la reconnaissance automatique de la parole. Dans un second temps,
nous nous attacherons à décrire également ceux relatifs à la traduction automatique statistique.
Enfin, dans une troisième section, nous aborderons le domaine de la modélisation du langage,
qui constitue une composante commune des systèmes de reconnaissance de la parole et de
traduction automatique.
1.1
Reconnaissance automatique de la parole
La reconnaissance automatique de la parole (RAP) est un domaine qui s’inscrit dans un
ensemble de recherches menées depuis le début des années 50 que l’on regroupe sous le nom
de « Traitement Automatique des Langues Naturelles » (TALN).
Les avancées technologiques réalisées dans ce domaine permettent de nos jours de concevoir des systèmes de reconnaissance très performants, bien que l’obtention d’une transcription
automatique parfaite reste toujours un but à atteindre. Cela s’explique par le fait qu’il est difficile
de gérer les spécificités de la parole en elle-même. Les problèmes couramment rencontrés
proviennent notamment des fortes disparités entre locuteurs (homme/femme, âge, accent. . . )
qui font fortement varier la manière dont les mots vont être prononcés. On peut également
mentionner au registre des difficultés courantes les conditions d’enregistrement ainsi que les
bruits extérieurs qui viennent parasiter le signal. De plus, il est important de s’assurer que le
flux continu de parole puisse être correctement découpé en segments.
Nous allons dans cette section nous intéresser aux principes généraux de la reconnaissance
de la parole, de la théorie aux éléments concrets présents dans un système de RAP.
1.1.1
Principes de base
Les systèmes de reconnaissance automatique de la parole utilisent de nos jours le formalisme
introduit dans [Jelinek 1976]. Le but premier d’un tel système est d’associer une séquence de
mots à une séquence d’observations acoustiques. De fait, à partir de la séquence d’observations
acoustiques X = x1 x2 · · · xm , un système de RAP recherchera la séquence de mots Ŵ =
9
Chapitre 1. Domaines fondateurs
w1 w2 · · · wk qui maximise la probabilité P (W |X) (probabilité d’émission de W sachant X).
Cette séquence de mots devra par conséquent maximiser l’équation suivante :
Ŵ = arg max P (W |X)
W
(1.1)
En appliquant le théorème de Bayes sur cette équation, on obtient :
Ŵ = arg max
W
P (X|W )P (W )
P (X)
(1.2)
L’observation acoustique X n’influençant pas arg max, la probabilité P (X) peut être élimiW
née de l’équation 1.2. On obtient alors :
Ŵ = arg max P (X|W )P (W )
W
(1.3)
Dans la RAP, deux types de modèles statistiques sont utilisés afin de déterminer la séquence
de mots la plus probable : le modèle acoustique fournit la valeur de la probabilité P (X|W ) et le
modèle de langage fournit la valeur de la probabilité P (W ). P (X|W ) peut être vue comme la
probabilité d’observer la séquence X lorsque la séquence W est prononcée, tandis que P (W )
peut être vue comme la probabilité que la séquence W soit prononcée dans le langage reconnu.
La figure 1.1 présente de façon générale le fonctionnement d’un système de RAP.
1.1.2
Extraction des paramètres
Comme nous pouvons le voir dans la figure 1.1, le signal de parole ne peut pas être utilisé
tel quel, il est nécessaire d’en retirer les caractéristiques essentielles. Pour cela, le signal est
découpé en trames et un vecteur de paramètres acoustiques est ensuite extrait pour chacune de
ces trames. Les méthodes les plus couramment utilisées de nos jours font appel à l’analyse cepstrale, telles que la méthode Mel-scale Frequency Cepstral Coefficients (MFCC) [Davis 1980]
ou la méthode Perceptual Linear Prediction (PLP) [Hermansky 1990]. Cette extraction permet
d’obtenir une séquence d’observations acoustiques X, où X = x1 x2 · · · xm , c’est-à-dire un
vecteur de paramètres associé à une trame.
1.1.3
Modélisation acoustique
Les modèles acoustiques utilisés en RAP sont essentiellement basés sur les modèles de Markov cachés (MMC, ou en anglais Hidden Markov Models, HMM) [Jelinek 1976, Rabiner 1989].
Ces MMC sont des automates à états finis dont le rôle est de calculer la probabilité d’émission
10
1.1. Reconnaissance automatique de la parole
SIGNAL
Extraction des
paramètres
Modèle
acoustique
Modèle
de langage
P(X|W)
P(W)
Observation
acoustique X
Ŵ = arg max P(X|W)P(W)
w
Séquence de mots
Ŵ
F IGURE 1.1 – Représentation générale du fonctionnement d’un système de RAP.
d’une séquence d’observations donnée, observations représentées par les vecteurs de caractéristiques du signal composés des coefficients PLP ou MFCC. Le comportement des MMC
correspond à l’hypothèse markovienne d’ordre 1 : on ne connaît du passé que le dernier état
occupé. Afin de prendre en considération certaines évolutions du signal dans le temps, les
dérivées premières et secondes sont intégrées dans les vecteurs de caractéristiques. La figure
1.2 représente un exemple de modèle de Markov caché avec saut d’état possible.
Pour chaque intervalle, le MMC passe d’un état i à un état j (mais j ≥ i, c’est-à-dire qu’un
état peut transiter vers lui-même) avec une probabilité aij . Pour chaque trame t un état j est
atteint, générant ainsi une émission ot ayant une densité de probabilité bj associée.
Par conséquent, apprendre un modèle acoustique revient en réalité à estimer les paramètres
suivants :
– les probabilités d’émission bi (oj ) pour chaque état (généralement des vecteurs de moyennes,
des matrices de covariance et des coefficients de mixture d’un ensemble de gaussiennes),
– les probabilités aij liées au MMC en indiquant la probabilité de transition d’un état à un
autre.
11
Chapitre 1. Domaines fondateurs
a11
1
a22
a12
a33
a23
2
o1
b2(o2)
o2
a34
3
b2(o3)
o3
b3(o4)
o4
a55
a45
4
a24
a13
b1(o1)
a44
5
a35
b5(o5)
o5
b5(o6)
o6
F IGURE 1.2 – Représentation d’un modèle de Markov caché à cinq états.
Le plus souvent, l’unité atomique de modélisation utilisée est le phonème. La modélisation
d’un mot se fait donc en concaténant les modèles de phonèmes composant ce mot. Afin de
prendre en compte les variations pouvant survenir dans la prononciation d’un phonème, un
MMC est construit pour un phonème particulier associé à un contexte gauche et droit spécifiques. Le contexte gauche (respectivement droit) est le phonème qui précède (respectivement
succède à) ce phonème particulier. Un phonème associé à ses contextes est appelé triphone.
1.1.3.1
Algorithme d’expectation-maximisation (EM)
L’apprentissage des modèles acoustiques, qui consiste à estimer les matrices de covariances,
les vecteurs de moyennes et les coefficients de mixtures d’un ensemble de gaussiennes tel
qu’exposé ci-dessus, se fait presque systématiquement à l’aide de l’algorithme EM tel que
décrit dans [Dempster 1977]. L’objectif est de trouver le maximum de vraisemblance dans
les paramètres des modèles probabilistes a posteriori lorsque le modèle dépend de variables
latentes inobservables. L’algorithme EM se compose de deux étapes :
1. Évaluer l’espérance mathématique (E) de la vraisemblance calculée en fonction des variables observées.
2. Maximiser (M) la vraisemblance des paramètres à l’aide de la vraisemblance évaluée à
l’étape précédente.
12
1.1. Reconnaissance automatique de la parole
Ces deux étapes constituent une itération de l’algorithme EM : l’apprentissage est terminé à
l’obtention d’une convergence.
1.1.3.2
Dictionnaire phonétisé
Le dictionnaire phonétisé est un élément central de l’apprentissage des modèles acoustiques.
Puisqu’un système de RAP est basé sur les phonèmes, il est nécessaire d’associer chaque entrée
du dictionnaire (i.e. chaque mot) à une suite de phonèmes qui lui est propre. Un phonème peut
correspondre à plusieurs graphèmes 1 différents, ce qui implique qu’il est nécessaire de disposer
de toutes les séquences de phonèmes (variantes de prononciations) correspondant à un mot dans
le dictionnaire.
Afin de créer ce dictionnaire phonétisé, l’approche la plus efficace serait de le composer
manuellement. Ainsi, les prononciations crées peuvent être considérées comme fiables car vérifiées par un humain. Néanmoins, générer un tel lexique manuellement est très coûteux en
temps et en ressources. Pour cette raison, l’approche généralement utilisée (parfois complétée
de l’approche manuelle) est la construction du dictionnaire de façon automatique, comme par
exemple via le système proposé par [Béchet 2001] à base de règles de phonétisation transformant automatiquement les graphèmes en phonèmes.
Ce dictionnaire se doit de comprendre tous les mots qui seront utilisés durant la phase
d’apprentissage du modèle acoustique. Mais il est également possible de constituer un second
dictionnaire, différent du premier, qui pourra être utilisé durant la phase de décodage du système
afin de couvrir plus de mots.
1.1.3.3
Alignement des phonèmes avec le signal
Pour estimer les modèles acoustiques, il est nécessaire de passer par une phase d’alignement
entre les phonèmes et le signal acoustique afin que la phonétisation de la transcription soit la plus
proche possible de la prononciation réelle. Le plus souvent, cet alignement est obtenu à l’aide de
l’algorithme Viterbi [Viterbi 1967] ou de l’algorithme Baum-Welch [Baum 1972]. Néanmoins,
lorsque des variantes de prononciation existent pour une entrée du dictionnaire, il est préférable
de pouvoir déterminer la bonne prononciation mais il est impossible de vérifier manuellement
chaque prononciation lorsqu’un corpus d’apprentissage se compose de centaines d’heures de
parole. Pour répondre à cette problématique, il est possible d’estimer rapidement un premier
modèle acoustique approximatif, puis de l’utiliser pour préciser la phonétisation réellement employée en forçant l’alignement. Dans [Estève 2004], les meilleures prononciations sont extraites
1. Un graphème se définit comme l’écriture associée à un phonème donné. Ce graphème peut être constitué
d’une ou plusieurs lettres.
13
Chapitre 1. Domaines fondateurs
en choisissant la phonétisation la plus courte pour l’estimation du premier modèle acoustique
lorsque des variantes de prononciation existent pour une entrée du dictionnaire donnée.
1.1.3.4
Adaptation
Un système de RAP doit composer avec de nombreuses contraintes. Dans ce registre, nous
pouvons citer par exemple la grande variabilité des locuteurs, les diverses conditions d’enregistrement du signal audio ou encore les différences vocales qui apparaissent selon que le locuteur
sera un homme ou une femme. Pour ces raisons, il est nécessaire de pratiquer une adaptation
des modèles acoustiques afin de gérer de la meilleure façon possible ces contraintes, ce qui aura
pour effet de rendre le système plus robuste, notamment face à des locuteurs inconnus ne faisant
pas partie des données d’apprentissage.
Diverses techniques d’adaptation existent et sont régulièrement utilisées, citons parmi cellesci les trois plus courantes :
• Maximum Likelihood Linear Regression (MLLR) [Leggetter 1995] :
l’adaptation des modèles acoustiques se fait par régression linéaire et est particulièrement
efficace lorsque peu de données sont disponibles. Elle permet d’adapter à un locuteur
précis les modèles indépendants du locuteur appris sur un grand nombre de données. Cela
se fait par des transformations linéaires permettant d’adapter les paramètres des MMC.
Toutefois, les transformations sur les moyennes et les variances des gaussiennes ne sont
pas liées.
• Constrained Maximum Likelihood Linear Regression (CMLLR) [Digalakis 1995] :
à l’inverse de [Leggetter 1995], la méthode CMLLR relie entre elles les transformations
réalisées sur les moyennes et les variances. À l’aide de l’algorithme EM, les paramètres
sont optimisés selon le maximum de vraisemblance sur les données disponibles pour
l’adaptation. Si des transformations identiques ont été utilisées pour apprendre les modèles indépendants du locuteur, il sera possible d’estimer conjointement les MMC et
les transformations propres à chacun des locuteurs de ce corpus. Les modèles qui en
découleront seront par la suite plus facilement adaptables à un nouveau locuteur.
• Maximum A Posteriori (MAP) [Gauvain 1994] :
14
1.1. Reconnaissance automatique de la parole
cette méthode bayésienne permet d’introduire des contraintes probabilistes dans l’estimation des paramètres des modèles. Elle permet de prendre en compte une distribution de
probabilités a priori dans l’estimation des MMC. Grâce à l’algorithme EM, on cherchera
à maximiser la vraisemblance a posteriori, Cela permet de rapprocher les modèles génériques des données de test, afin de créer des modèles spécifiques au genre du locuteur
ou encore à des conditions d’enregistrement particulières, par exemple. Néanmoins, cette
méthode nécessite de disposer d’une quantité de données d’adaptation assez importante.
1.1.4
Espace de recherche et graphes de mots
À partir de l’observation des événements acoustiques, un système de RAP génère un ensemble d’hypothèses de séquences de mots reconnus. On appelle cet ensemble un espace de
recherche, le but du système de RAP étant d’extraire l’hypothèse qui satisfait au mieux l’équation 1.3. Cet espace de recherche est représenté sous la forme d’un graphe, appelé graphe de
recherche et intègre certaines informations utilisées pour générer les hypothèses telles que les
informations temporelles ou encore les unités acoustiques (phonèmes) associées à leurs scores
acoustiques.
La recherche de l’hypothèse de probabilité maximale au sein du graphe est analogue au
problème de la recherche du chemin de poids minimal et de nombreux algorithmes existent
afin de résoudre ce problème [Cettolo 1998]. Néanmoins, l’espace de recherche est, de façon
générale, d’une taille trop importante pour être traité directement sans compromettre la rapidité
d’exécution. Afin d’obtenir une ou plusieurs hypothèses dans un délai raisonnable, on utilise
une recherche en faisceau (en anglais, beam search) qui restreint le graphe de recherche en
supprimant localement les hypothèses les moins probables [Ney 1992].
Grâce à cet espace de recherche, il est donc possible de produire en sortie du système
plusieurs représentations. La plus courante est l’hypothèse unique, ou 1-best, qui sera donc
l’hypothèse la plus probable trouvée par le système. Mais il est également possible de fournir
plusieurs hypothèses, sous deux formes : soit une liste des N-meilleures hypothèses (ou N-best
list), soit un graphe de mots, directement issu du graphe de recherche.
1.1.5
Mesures de confiance
Une mesure de confiance est un score essayant d’indiquer à quel point une décision prise par
un système est fiable. On les retrouve dans de nombreuses applications, telles que les systèmes
de dialogue ou encore l’identification des langues. Concernant la reconnaissance automatique
15
Chapitre 1. Domaines fondateurs
de la parole, [Jiang 2005] expose plusieurs avancées et utilisations de ces mesures. Dans ce
cadre, une mesure de confiance notée CM et relative à un mot w se place dans l’intervalle
[0, 1]. Plus le score se rapprochera de 1, plus les décisions que le système aura prises quant à
l’exactitude du mot considéré seront fiables. La moyenne des mesures pour une suite de K mots
avec K = w1 , w2 , · · · , wK se formalise de la façon suivante :
K
1 X
µ(CM ) =
CM (wi )
K i=1
(1.4)
où µ(CM ) sera une approximation du taux de mots correctement reconnus. Il existe plusieurs manières d’estimer les mesures de confiance en reconnaissance de la parole, les plus
répandues étant exposées dans [Mauclair 2006]. Celles-ci peuvent prendre en compte diverses
informations provenant du système, tant sur le plan linguistique que sur le plan acoustique.
L’évaluation des mesures de confiance peut être réalisée grâce à une métrique nommée
entropie croisée normalisée (en anglais Normalized Cross Entropy, NCE) [Siu 1999]. Elle représente une estimation de l’information supplémentaire (entropie) portée par la mesure de
confiance sur l’hypothèse de reconnaissance considérée et est notamment employée lors des
évaluations NIST. Plus la NCE sera proche de 1, plus une mesure de confiance donnée saura
prédire l’exactitude du mot considéré dans l’hypothèse. Elle se formalise par :
N CE =
Hmax +
P
W corrects
log2 (m(W )) +
Hmax
P
W erronés
log2 (1 − m(W ))
(1.5)
où Hmax = −n log2 (pe ) − (N − n) log2 (1 − pe ) avec :
n le nombre de mots correctement reconnus,
N le nombre total de mots,
pe la probabilité moyenne qu’un mot reconnu soit exact (n/N ),
m(W ) la mesure de confiance portée par le mot W .
1.1.6
Évaluation des systèmes de RAP
Afin de pouvoir comparer entre eux différents systèmes de RAP de façon significative, il est
nécessaire de les évaluer sur les mêmes données de test accompagnées d’une transcription de
référence. Systématiquement, les systèmes de RAP sont évalués en terme de taux d’erreur/mot
(en anglais Word Error Rate, WER).
Le WER considère trois types d’erreurs :
– Insertion : mot supplémentaire dans l’hypothèse par rapport à la transcription de référence,
16
1.1. Reconnaissance automatique de la parole
– Suppression : mot non reconnu dans l’hypothèse du système de RAP par rapport à la
référence,
– Substitution : mot mal reconnu dans l’hypothèse par rapport à la transcription de référence.
Le WER se calcule grâce à la formule :
W ER =
N b Insertions + N b Suppressions + N b Substitutions
N b M ots de la réf érence
(1.6)
Pour chaque type d’erreur, le nombre pris en compte est le nombre minimal permettant de
retrouver la référence.
17
Chapitre 1. Domaines fondateurs
1.2
Traduction automatique statistique
La traduction automatique est un domaine qui lui aussi s’inscrit dans l’ensemble de recherches TALN. Elle peut se définir comme la traduction d’un texte source t1 écrit en langue
L1 vers un texte cible t2 écrit en langue L2 à l’aide d’un système informatique, sans qu’une
intervention humaine ne soit nécessaire.
La traduction automatique statistique (TAS), qui est une branche de ce domaine, tente de
parvenir à ce but grâce à l’utilisation de modèles statistiques, à la différence de la traduction
automatique à base de règles, par exemple. Parmi ces systèmes à base de modèles statistiques,
il convient de différencier les modèles basés sur les séquences de mots (Phrase-based models,
tels que décrits dans [Marcu 2002, Koehn 2003]), qui nous intéressent particulièrement ici, des
modèles basés sur les mots eux-mêmes (Word-based models) qui sont à la base des approches
développées de nos jours.
Nous allons donc dans cette section présenter les concepts et idées inhérents à ce domaine,
de la théorie aux différentes parties composant un système de TAS.
1.2.1
Principes de base
La traduction automatique statistique se base sur l’apprentissage automatique de modèles
statistiques à partir de textes accompagnés de leurs traductions, alignés phrase à phrase et
appelés corpus parallèles. Formellement, il s’agit de traduire une phrase f exprimée dans une
langue source vers une phrase e exprimée dans une langue cible. Ces phrases, qui sont une suite
de mots, peuvent être définies comme f = f1 , . . . , fI et e = e1 , . . . , eJ . Afin de parvenir à ce
résultat, la traduction automatique statistique emploie un modèle de traduction, noté P (e|f ),
permettant de connaître la probabilité qu’une phrase cible e soit la traduction d’une phrase
source f et un modèle de langage noté P (e) indiquant la probabilité que e soit une phrase.
Tout comme la reconnaissance de la parole, pour son formalisme mathématique, la traduction
automatique statistique applique le théorème de Bayes :
ê = arg max P (e|f ) =
e
P (f |e)P (e)
P (f )
(1.7)
La probabilité de la phrase source étant connue a priori, nous pouvons l’éliminer de l’équation afin d’obtenir la formule suivante :
ê = arg max P (f |e)P (e)
e
(1.8)
Il est important de noter ici qu’en raison de l’application du théorème de Bayes, le sens de
traduction dans le modèle de traduction se trouve changé, de P (e|f ) à P (f |e). Cela est dû au
18
1.2. Traduction automatique statistique
fait que ce qui sera considéré comme la langue source diffère entre la théorie mathématique du
modèle et son application réelle. Dans ce manuscrit, nous tenterons d’éviter la confusion que
cette différence pourrait induire en conservant le formalisme P (e|f ) lorsque nous évoquerons
le modèle de traduction.
Ce modèle, dont le rôle sera de fournir la traduction la plus probable, est appris à partir
d’un ou plusieurs corpus parallèles. Le modèle de langage, quant à lui, est appris à partir de
données monolingues en langue cible et son rôle sera de s’assurer que la traduction générée soit
la plus correcte possible, grammaticalement parlant. Le décodeur recherchera alors la meilleure
traduction ê dans son espace de recherche, basé sur les probabilités des modèles de traduction
et de langage. La figure 1.3 illustre ce principe.
Modèle de langage
Modèle de traduction
P(e)
P(e|f)
Phrase source f
Décodeur
Hypothèse ê
ê = arg max P(e|f)P(e)
e
F IGURE 1.3 – Schéma de la traduction automatique statistique.
1.2.2
Modélisation de la traduction
Il existe plusieurs techniques d’apprentissage des modèles de traduction, qui se différencient
notamment au niveau de l’unité atomique de traduction. Auparavant, les modèles utilisés se
basaient sur le mot, tant pour les alignements que pour l’estimation des probabilités. De nos
jours, les systèmes les plus performants se basent sur des séquences de mots, on parle alors
de phrase-based systems. Une séquence (ou phrase, en anglais) est une suite de mots contigus
19
Chapitre 1. Domaines fondateurs
tandis qu’une paire de séquences (phrase pair, en anglais) représente une équivalence de sens
supposée entre deux séquences dans deux langages donnés. Ces paires de séquences sont stockées dans le modèle de traduction accompagnées de leur fréquence et sont utilisées comme
briques élémentaires du système afin de produire de nouvelles traductions.
1.2.2.1
Notion d’alignement
Il apparaît clair que l’intérêt de modéliser des phrases entières dans un modèle de traduction
est très fortement limité. En effet, l’écrasante majorité des phrases n’apparaît que très peu de
fois (voire une seule fois) dans un corpus d’apprentissage, même de très grande taille. De
plus, rien ne nous garantirait qu’une phrase extraite d’un corpus de test ait déjà été observée, à
moins de modéliser l’ensemble des phrases existantes d’un langage, ce qui serait techniquement
impossible compte tenu de l’explosion combinatoire. Pour cette raison, la décision de diviser
les phrases en unités plus petites s’est très vite imposée d’elle-même afin de s’assurer qu’une
quantité suffisante de statistiques pourrait être collectée. Les modèles basés sur les mots (wordbased models) proposés dès les années 90 par [Brown 1990, Brown 1993] ont ouvert la porte
à de nombreuses recherches. Néanmoins, afin d’estimer les probabilités de traduction, il est
nécessaire d’établir des correspondances entre les mots de la langue source et de la langue cible,
autrement dit d’aligner les mots de la langue cible sur les mots de la langue source, comme le
montre la figure 1.4.
1
2
3
4
5
6
Je
possède
une
maison
très
petite
I
have
a
very
small
house
1
2
3
4
5
6
F IGURE 1.4 – Exemple d’alignement des mots dans une phrase.
Ceci nous permet d’établir une fonction d’alignement a en associant un mot de la langue
cible à la position i à un mot de la langue source à la position j tel que :
a:j→i
20
(1.9)
1.2. Traduction automatique statistique
Dans notre exemple, la fonction d’alignement a serait telle que :
a : {1 → 1, 2 → 2, 3 → 3, 4 → 6, 5 → 4, 6 → 5}
(1.10)
Par conséquent, en introduisant cette fonction d’alignement a, notre modélisation de la
traduction devient :
P (e|f ) =
X
P (e, a|f )
(1.11)
a
Les mots en langue cible qui ne s’alignent à aucun mot en langue source sont alignés à un
mot spécial vide (NULL), afin que tous les mots de la phrase cible possèdent un alignement.
Ces alignements sont produits à l’aide de l’algorithme EM en maximisant la vraisemblance du
corpus parallèle.
1.2.2.2
Modèles IBM
Il existe cinq modèles de traduction proposés par [Brown 1993], connus sous le nom d’IBM1
à IBM5 et utilisant les mots en tant qu’unité atomique de traduction. Leurs performances sont
comparées dans [Och 2003b]. Nous allons ici décrire succinctement les spécificités de chacun
de ces modèles.
Modèle 1
Le modèle 1 se base uniquement sur les probabilités de traduction lexicales. Pour chaque
mot e produit à partir d’un mot f par celui-ci, nous utiliserons la probabilité de traduction et
rien d’autre. Cette probabilité entre une phrase source f = (f1 , f2 , . . . , flf ) de taille lf et une
phrase cible e = (e1 , e2 , . . . , ele ) de longueur le , avec un alignement de chaque mot cible ej vers
un mot source fi selon la fonction d’alignement a, se formalise comme suit :
le
Y
t(ej |fa(j) )
P (e, a|f ) =
(lf + 1)le j=1
(1.12)
Cette équation est un produit des probabilités lexicales des mots générés ej pour la taille le . est une constante de normalisation permettant que la somme de toutes les probabilités lexicales
de traduction soit égale à 1.
Leur apprentissage itératif via l’algorithme EM se fait de la façon suivante :
1. initialisation du modèle avec une distribution uniforme,
2. application du modèle aux données (expectation),
3. apprentissage du modèle à partir des données (maximisation),
21
Chapitre 1. Domaines fondateurs
4. répétition des étapes 2 et 3 jusqu’à convergence.
La convergence est généralement déterminée en calculant la perplexité du modèle à chaque
itération.
Modèle 2
Le modèle 2 tente de pallier au principal défaut du modèle 1, à savoir l’incapacité à prendre
en compte le réordonnement des mots. Pour cela, on ajoute explicitement un modèle d’alignement. Par conséquent, la traduction à l’aide d’un modèle IBM 2 peut être vue comme un
processus à deux étapes (alignement puis traduction). Mathématiquement, ce modèle se formule
comme suit :
P (e, a|f ) = le
Y
j=1
t(ej |fa(j) )a(a(j)|j, le , lf )
(1.13)
Bien que le modèle 2 soit parfaitement capable de traiter le problème du réordonnement, il
subsiste tout de même des difficultés concernant le fait que les mots d’une langue peuvent se
traduire en zéro, un ou plusieurs mots dans une autre langue.
Modèle 3
Le modèle 3 introduit deux étapes supplémentaires, à savoir la fertilité et l’insertion vide
(NULL). La fertilité indique combien de mots cibles seront produit à partir d’un mot source
donné. L’insertion vide permet quant à elle d’abandonner certains mots sources qui ne doivent
pas ou ne peuvent pas être traduits dans la phrase cible.
Modèle 4
Le modèle 4 introduit le concept de distorsion relative et de groupes de mots, afin de pallier
au problème d’alignement des longues phrases. Dans ce modèle, le placement de la traduction
d’un mot source sera typiquement basé sur le placement du mot qui le précède. L’on utilisera
dès lors des positions relatives en lieu et place des positions absolues.
Modèle 5
Dans les modèles 3 et 4, il existe un problème : il est théoriquement possible que plusieurs
mots cibles soient placés à la même position, bien que cela soit totalement impossible en pratique. Cette difficulté est appelée déficience. Le modèle 5 résout ce problème, en gardant une
trace du nombre de positions vacantes dans la phrase cible durant l’alignement et en n’autorisant
le placement d’un mot que dans une de ces positions.
22
1.2. Traduction automatique statistique
Comme nous venons de le voir, ces modèles permettent de construire des alignements mot à
mot entre les paires de phrases. Malgré cela, il reste une difficulté : cet alignement asymétrique
des mots de la langue cible sur les mots de la langue source n’autorise pas l’alignement de
plusieurs mots de la langue source vers un seul et même mot de la langue cible. Afin d’y pallier,
les alignements à l’aide des modèles IBM sont réalisés dans les deux directions de traduction
(source vers cible et cible vers source). Les alignements sont ensuite symétrisés en prenant
l’intersection ou l’union des points d’alignement [Och 2003b].
1.2.2.3
Modèles basés sur les séquences de mots (phrase-based models)
Nous venons de présenter les différents modèles IBM existants basés sur les mots. Mais
il semble raisonnable de penser que le mot en tant qu’unité atomique de traduction n’est pas
nécessairement la meilleure des approches. En effet, un mot d’une langue source donnée peut
tout à fait se traduire en une suite de plusieurs mots dans une langue cible, à l’inverse une suite
de mots d’une langue source peut très bien être traduire en un seul mot dans une langue cible.
Il est dès lors parfaitement concevable d’utiliser en tant qu’unité atomique de traduction des
séquences de mots, appelées phrases en anglais, à différencier du mot phrase en français qui
lui se traduira en anglais par sentence. Ce concept de modèle basé sur les séquences de mots a
été pour la première fois proposé dans [Koehn 2003]. Depuis, la TAS basé sur les séquences de
mots s’est révélée être une des approches les plus performantes. Elle est emploie des séquences
de mots de longueur variable qui peuvent être réordonnées (à la fois entre elles et en leur sein)
et ne sont pas nécessairement significatives linguistiquement parlant, comme le montre la figure
1.5, représentant des paires de séquences avec, sous forme de flèches, leurs alignements mot-àmot.
Cette figure illustre bien l’intérêt que peut avoir la traduction à base de phrases par rapport
à celle basée sur les mots. Par exemple, l’expression « Comme par hasard » doit être considérée
dans son ensemble pour avoir un sens en français, mais se traduira en anglais par un seul mot,
« Coincidentally ». Cette approche permet donc de résoudre certaines ambiguïtés qui peuvent
apparaître, et se présente formellement de la façon suivante :
P (e|f ) =
I
Y
i=1
φ(ēi |f¯i )d(starti − endi−1 − 1)
(1.14)
La phrase f en langue source est décomposée en I séquences de mots f¯i . L’équation 1.14
comprend deux parties : la première indique que chaque séquence source f¯i se traduit en une
séquence cible ēi par la probabilité de traduction φ(ēi |f¯i ). Le terme d(starti − endi−1 − 1)
23
Chapitre 1. Domaines fondateurs
Comme
par
hasard
,
j'
ai
entendu
une
histoire
incroyable
.
NULL
Coincidentally
,
I
have
heard
an
amazing
story
.
F IGURE 1.5 – Traduction automatique statistique basée sur les séquences de mots.
représente le modèle de réordonnement basé sur la distance relative. Selon ce modèle, le réordonnement d’une séquence est relatif à la séquence précédente : starti et endi représentent
respectivement les mots de départ et de fin de la ième séquence source qui se traduira en la ième
séquence cible.
Extraction des séquences et scores
Les séquences de mots bilingues (également appelées paires de séquences ou en anglais
phrase pairs) sont extraites des alignements mot à mot à l’aide d’un ensemble d’heuristiques.
Le critère de génération d’une séquence est qu’une suite de mots consécutifs en langue source
doit être alignée à une suite de mots consécutifs en langue cible.
La figure 1.6 montre un exemple de création de séquence. Dans l’exemple de gauche, le
mot cible 1 camion est aligné au mot source 2 truck et les mots cible 2 de et 3 pompiers sont
alignés au mot source 1 fire, c’est donc une paire de séquences valide. Dans l’exemple du
centre, un des points d’alignement (le mot cible 3 pompiers) se trouve en dehors de la paire
de séquences, celle-ci n’est donc pas possible. Dans l’exemple de droite, le mot source 3 is,
qui ne possède pas d’alignement par ailleurs, est inclus dans la paire de séquences, ce qui est
également parfaitement valide.
Les probabilités de traduction φ(ē|f¯) sont estimées à partir de toutes les séquences bilingues
grâce à la fréquence relative de la séquence cible étant donné la séquence source. Cela se fait
24
the
noirgive
etircdetails
eht fo of
slia
tedcriterion.
.envoigiretirc eht fo sliated evig
give details of .the
criterion.
All
words
in
the
target
language
are
aligned
to
the
the
laniru
laosereahtegnaiusgdnraolwt-en
g
r
a
t
e
h
t
n
i
s
d
r
o
w
l
l
A
the
eh
awugenhatlin
gdreanttarget
eilhat ewords
nra
i sedgraoin
llaare
A
alt eoctrudoesngeihla
t neiraAll
sdergowords
ottethe
gAll
uwgn
l ttarget
ealigned
g-rnaatlwords
eelanguage
hctrto
rwords
w
llsaligned
A
language
the
source
lanunoithe
sinsedh
toare
nisource
din
row
ehto
t othe
t dewords
ngila ein
ra th
guage
and
otherwise.
There
must
be
at
least
one
word
in
the
target
language
bt tesh
um
e
r
e
h
T
.
e
s
i
w
r
e
h
t
o
d
n
a
e
g
a
u
g
eal taegera
There
must
at
word
t ni dergoawugennaol tsa
l tguage
taehetbnand
tisu
hoTguage
ilwtand
raehetbmust
ootherwise.
nm
abe
eegrat
aeu
gera
dm
rootherwise.
weren
ts.aeesThere
td
su
hg
T
esgione
rleh
aehthe
etleast
ga
gdrone
eleast
ga.u
nwa
tword
etgorbe
adtnin
nu
itarget
ow language
eno tsin
aelthe
ta etar
b
phrase
which
is
aligned
to
at
least
one
word
in
the
source
language
phrase.
Possit
s
a
e
l
t
a
o
t
d
e
n
g
i
l
a
s
i
h
c
i
h
w
e
s
a
r
h
p
d
r
o
w
e
n
o
is
one
word
.esarhp egaugnal e-cisrsuooPs e.ehst rnhi pdrephrase
ogw
tisas aligned
tphrase
gto
irloawhich
sieleast
h
auegnnoawhich
ltseacerluo
eoh
tdneind
w
ncoih
tsw
aaligned
eelstaword
arhopt-to
nP
gileast
l.aesource
cpihelanguage
w
at
one
the
id
sin
seoat
ssairh
g
aeusganrin
ahlpthe
ephrase.
crusource
os ehPossit language
ni drow e p
ble
unaligned
words
at
the
boundaries
of
the
phrases
are
taken
into
account
by
a
hot cfcoasoetirnaidnneukoabt earha
t
t
a
s
d
r
o
w
d
e
n
g
i
l
a
n
u
e
l
b
ble
unaligned
words
at
the
boundaries
of
the
phrases
are
taken
u
s
e
s
a
r
h
p
e
h
t
f
o
s
e
i
r
a
d
n
u
o
b
e
h
t
t
a
s
d
r
o
w
d
e
n
g
i
l
a
n
u
e
l
b
yb tnuocca otble
i nunaligned
kat era swords
esarhpat
ehthe
t foboundaries
seiradnuobof hthe
stdnruoowccdare
ealtberaccount
at tyabphrases
aen
otgtaken
nilianeukinto
a sesarhby
p eaht fointo
se
extraction
algorithm.
Formally,
an
alignment
a
having
words
f
,
...,
f
in
a s,ydlrla
Fiv.am
tiphrase
r
o
g
l
a
n
o
i
t
c
a
r
t
x
e
e
s
a
r
h
p
1.2.
Traduction
automatique
statistique
1
n
phrase
extraction
algorithm.
Formally,
an
alignment
a
having
word
.a. ,n1f
om
w rgon
hnhia
t
n
e
m
n
g
i
l
a
n
a
,
y
l
l
a
m
r
o
F
.
m
h
t
i
r
o
g
l
a
n
o
i
t
c
a
r
t
x
e
e
s
a
r
h
p
f
,
.
.
.
,
f
s
d
r
o
w
g
n
i
v
a
h
a
t
n
e
m
n
g
i
l
a
n
a
,
y
l
l
m
r
o
F
.
m
t
i
r
o
g
l
a
n
o
i
t
c
a
r
t
x
e
e
s
a
r
h
p
phrase extraction algorithm. Formally, annalignment
i nf ,... , 1f asdhaving
row gniwords
vah a ft1n,e...,
mnfgnilin
a na ,yll
n
1
¯f
¯
¯
¯
¯
points
with
words
e
,
...,
e
in
ē
creates
a
consistent
phrase
.t,n1e tssdisrnoowc hatisw
phē contains
tn
a
s
n
i
a
t
n
o
c
1
n
f
contains
alignment
points
with
words
e
,
...,
e
in
ē
creates
a scons
etasteenrsciaofr¯
n
i tennm
ee,tn.s.gi.si,lnalignment
e
s
d
r
o
w
h
t
i
w
s
t
n
i
o
p
t
n
e
m
n
g
i
l
a
s
n
i
a
t
n
o
c
f
p
o
c
a
s
e
t
a
e
r
c
ē
n
i
e
,
.
.
.
,
e
s
d
r
o
w
h
t
i
w
s
t
n
i
o
p
t
n
e
m
n
g
i
l
a
s
n
i
a
t
n
o
c
f
f
contains
alignment
points
with
words
e
,
...,
e
in
ē
creates
a
consistent
phrase
dr
nc ē ni ne ,... , 1e
1
n
1
1esarhp
n tnetsisnoc a1 seta r
¯
¯
¯,s ē)
2.7.
.7.2 pair
ni nw(ofh,s ē)
sa as
) ē shown
, f( (f¯,riē)
ain
pas
fh
.7
.2 pair
ni ninw(o2.7.
sa as
) ē shown
,¯f ( .r7i.ain
2pn2.7.
i nwohs sa ) ē ,¯f ( riap
pair
shown
fire truck
TTSNIS
AN
TO
SIC
SN
NIOC
fire truck
fire truck
camion
camion
camion
de
de
de
pompiers
pompiers
pompiers
is
INCONSISTANT
TNATN
SCONSISTANT
IA
STNSOISCNOC
CONSISTANT
INCONSISTANT
CONSISTANT
TIN
AT
TNCONSIST
ATSISN
CONSISTANT
INCONSISTANT
NI
IS
O
TT
NN
AA
TT
SS
IS
NN
O
CC
NI
TNCONSISTANT
ATS
SN
OS
CISNOC
CONSISTANT
INCONSISTANT
CONSISTANT
2.7:
The
Phrase
consistent
alignment.
pbeing
y
ePhalignment.
T:The
laword
drgrey
owalignment.
hpart
tiw tnetsisT
c egmnniegbitlarsarFigure
iarP
PtFigure
:.7
u
FnPhrase
Figure
2.7:
Pairs
rgtneehtsTisn.otn
d
o
n
etn
t.2seim
senrno
cgilia
g
bwsrh
iatPairs
rthsP
:owith
7consistent
eriword
gisFtrriwith
p
yw
eregshat2.7:
erihwT
gPairs
dierbeing
o
iP
w etsnaebeing
isnPhrase
c.2gn
eub
aP
eseword
arg
rhconsistent
7..2tneegrey
rm
uwith
gnigFipart
the
probable
phrases
[Koehn,
2010].
.]0102
phrases
[Koehn,
2010].
.]0102 ,nhe oK[ sesashows
rhp elbthe
aboprobable
r.]pshows
e
h
t
s
w
o
h
s
0102 ,nhe oK[ sesashows
rhp e.l]b
r,p
oehsas rhp e[Koehn,
0the
1a0b2oprobable
nheehotKs[wsphrases
lbaborp 2010].
eht swohs
F IGURE 1.6 – Paires de séquences consistantes avec l’alignement symétrique mot à mot.
tootrAll
align
with
each
other
isin
tlauthe
bowhich
eow
ncase
i lelA
sain
cwhich
hbut
t si ishcthe
i1
hwbut
rehtoinhex
c
to
each
which
case
1eexample
rlephm
toaxhecanei h
iw
lasi1ohtAll
awords
h
dn
weAll
lcA
each
other
case
esta
c enh
w
troihave
hsclaa
ewords
nhgcwith
iilhaw
scdareohave
w
lAto
tgutib
ecliephvm
arxeseh
ehhtalign
tiw
sihave
eehvtawords
ohother
h
h
tilw
ngisialign
t1with
eevlaphm
sathe
dxrexample
vraisemblance
pour
where
alignment
column
dpoint
is2second
tu
opin
si athe
ncolumn
usecond
c edtisn
s ehin
t isn
ioutside
tnsecond
io p tnecolu
mn
violated
in
one
alignment
outside
p
axuestimation
en
i dd
osedu
iwhere
em
violated
in
where
alignment
the
stinn
mnugloilca dennooceàrseel’aide
ehh
noied’une
tsln
p
texample
nnegotica
lael2in
nexample
enrieh
w
etlde
pem
anone
xgexample
eilnapoint
i edneotaein
l2
d
iw
sttu2
i im
nom
lviolated
oencm
ev
hotmaximum
tn
io22p
n
m
roeithe
hve(MLE,
w
elone
m
xm
eMaximum
nliod
ao
lpoint
ocievLikelihood
the
Example
3
unaligned
consistent.
.tincludes
ne.tword
nconsistent.
oewhich
can
denwhich
gilanu is
naco
pair.
aentusisnnaocsesdiuhlcn
elrpthe
xeE
.sirlniaase
rcExample
h
pdwu
eh
Estimation)
formalise
suivante
the
pair.
3which
word
ihi w3
d
om
w.tan
dphrase
sieh
ldde
ctpair.
m
xnE
.nraiincludes
aunaligned
han
h
tnsgiet
onp
cu
sen
isahphrase
rnoila
w33manière
deincludes
elp
n
gilaaphrase
u an
sp
ede:sualcrExample
n
ip3eword
eltpma
x
E
rsiiis
asp
sasri unaligned
hhpciis
ehhw
t drow
results
into
target
seitssource
gsraresults
arsource
thtarget
dneahT
eand
cphrases
ruopairs
s fo sof
rphrases
iasource
p otni and
stlust
The
extraction
nti esgtrlu
xeegophrase
stai rdshn
into
atsedr nsaseeccorrupossn
sa
rp
irattp
tp
lauThe
seeehcrT
sescfoorpsprocess
n
ti xsetprocess
esaeinto
ecpairs
hoT
esofaoitrch
retan
rusphrase
o
rextraction
iaopitoctaThe
nrresults
lphrase
u
rhspseextraction
rp nof
o
caprocess
arpairs
rhtpxeteand
eof
p
¯
which
words
consistent
the
matrix.
rtitaword
ialh
ad
oimatrix.
t htiw
tneword
tsisnalign
oc e
words
and
are
consistent
the
sitsnneom
c negra
eavtm
tutctnhave
eesem
n
cd
ih
w
consecutive
words
are
consistent
the
iladn
da
roswdre.oh
iw
n
tsonicsgconsecutive
nielov
atconsecutive
shdtriowwtwhich
ev
eosP
crand
hafh
cē)
irhow.x
xwitrwhich
th
acadherrohahave
w
enh
n
e¯
scnhave
cnoecount(
aev
danare
s,with
d
eiv
umwith
cand
etsnnealignment
om
c negvword
hrcalignment
hwwehwith
(1.15)
φ(ē|
ftit)sui=
¯
alignments
directions
is easymmetric,
teerm
aboth
snalignment
igtiasymmetric,
n
em
giT
la
csince
nis snalignment
oitcerid htois
count(
are
is
eryidsahstiotbnn
i dnegciu
es rsm
anysoalignments
tsin
im
ltaoneb
sienlh
T
alignments
inesm
m
em
lad
eircThese
neim
tacesem
d
cu
rThese
reboth
arisd
tnhetdirections
m
nin
gniilboth
adeeare
su
e,since
h
T
,co
tp
iriThese
tndngeh
g
aiproduced
ecen
isdsonare
opiin
tecproduced
cf
dēproduced
oi,)rcpiralignment
a sm
tsince
ny
ladirections
esneh
ēoi b
and/or
alignment
methods)
these
-nunion
w
sceehstreftotwo
sedh
othtemtwo
tnealignmngilaofrethe
ht
and/or
union
other
methods)
these
alignlat reesh
tot froo()sndooin
u
riloa/tdo
n
oeilh
tacthe
ersfeorh
eintersection
(or
alignment
methods)
oiw
eh
h-n
tegthe
m
nintersection
ea
m
n
odi roeohh(ttenm
oin
r(or
on/gdintersection
n
a rneohitalignment
c(or
ersor(other
eand/or
tnnoi in
eh
w
tjours,
esg
tde
)tsn
tnu
ethe
m
ide
launion
u
og/ildanoade
ntof
oeitother
nof
i)par
De
nos
nombreux
systèmes
TAStosont
appris
àt rpartir
l’approche
séquences
ments
is
then
used.
ments
.deis
suthen
nehtused.
si stnem
ments
.deis
suthen
nehtused.
si stnem
.desu neht si stnem
de mots [Bertoldi 2006,
Matusov
2006b], mais
il existe également
d’autres
approches
The
phrase
translation
probabilities
are
estimated
all
phrases
s
e
s
a
r
h
g
la
rbilingual
eestimated
vo dreconetam
iover
tse erall
a sbilin
eiti
The
probabilities
are
erla usgenitiilliibballbaorp
tearth
lasp
nailta
rstuephrase
hspellitranslation
etihlriT
are
evn
oseod
m
esa
rilarib
oitsaelsThe
eohrT
sia
gen
a
ebvaobodreptanm
enraartsphrase
eeista
ilrih
bp
aestimated
btranslation
p noitaover
lsnprobabilities
aprall
tlaeusbilingual
an
rover
hilpibelh
Tphrases
nues.
Nousepouvons
par
citer
les modèles
de
traduction
factorisés
[Koehn
the
relative
target
given
n
on
s ies2007],
husequence.
tThe
negiven
vil’apg ecthe
nThe
euqsource
es tegrs
frequency
the
the
sequence.
gteexemple
n
su
target
sequence
cqneesutqeegsraetcreuhotsfeohytech
nnT
eeusing
vui.qgeecerncfthe
qaseleusing
scrtreughortsa
t efo
uequeqtarget
refthe
arsequence
letreeh
httfrequency
gngiven
ueehuTq
enuevquiterelative
heith
n
viy
gcof
enfrequency
ceusing
n
setveiof
gtrelative
athe
fo
yicssequence
n
e.of
refcsource
ethe
veiutaq
leesthe
r eechrsource
tu
g
12
proche hiérarchique [Chiang 2005] ou encore l’approche basée sur la syntaxe [Yamada 2001].
Toutefois, ces approches ne rentrant pas dans le cadre de ce manuscrit, nous ne les évoquerons
pas ici.
1.2.3
21
12 21
12
21
Modélisation log-linéaire
Dans un système classique de TAS basé sur les séquences de mots, tous les modèles sont
combinés ensemble par un produit. L’équation 1.8 s’ajoute à l’équation 1.14 pour produire
l’équation suivante :
ê = arg max
e
I
Y
i=1
φ(ēi |f¯i )d(starti − endi−1 − 1)PLM (e)
(1.16)
Nous pouvons factoriser cette équation pour obtenir l’équation suivante :
ê = arg max
e
I
Y
hi (x)
(1.17)
i=1
25
12
Chapitre 1. Domaines fondateurs
où
x = variable (e, f, start, end)
h1 = log φ
h2 = log d
h3 = log PLM
Bien entendu, la traduction qui en résultera sera différente en fonction de chacun de ces
modèles. Par conséquent, il peut s’avérer utile que certains modèles puissent avoir un poids
supérieur aux autres, afin de favoriser leur distribution de probabilités. Formellement, cela se
fait par l’introduction des poids λφ , λd et λLM qui viennent pondérer l’impact de chacun des
modèles, selon l’équation :
ê = arg max
e
I
Y
hi (x)λi
(1.18)
i=1
Lorsque nous passons dans le domaine logarithmique, les modèles sont considérés comme
des caractéristiques, des paramètres (en anglais, des features) et sont pondérés de la façon
suivante :
ê = exp
n
X
λi hi (x)
(1.19)
i=1
Par conséquent, l’équation 1.20 est une reformulation de l’équation 1.16 dans le domaine
logarithmique :
ê = exp[λφ
I
X
i=1
+ λd
I
X
i=1
+ λLM
log φ(ēi |f¯i )
log d(starti − endi−1 − 1)
I
X
log PLM (e)]
(1.20)
i=1
En pratique, on ajoutera diverses fonctions caractéristiques (feature functions) supplémentaires tant que cela améliore le système, comme par exemple la probabilité inversée de traduction φ(f¯i |ēi ). Toutefois, ce cadre formel est très fréquemment utilisé car il est extrêmement
26
1.2. Traduction automatique statistique
flexible et permet justement d’inclure facilement de nombreuses modélisations supplémentaires,
comme nous allons le voir dans les sous-parties suivantes.
1.2.3.1
Pondération lexicale
Il a été observé expérimentalement qu’ajouter une fonction caractéristique mesurant la qualité de traduction entre deux mots isolés améliore la performance des modèles log-linéaires
[Koehn 2003]. Cette pondération lexicale se calcule via le produit des mots individuels pour
chaque séquence d’une paire de phrases, comme le montre cette équation :
n(ē)
lex(ē|f¯, a) =
Y
i=1
X
1
w(ei |fj )
|{j|(i, j) ∈ a}|
(1.21)
∀(i,j)∈a
où a correspond à la fonction d’alignement (voir 1.2.2.1) et w(ei |fj ) correspond à la probabilité lexicale de traduction et s’estime par la fréquence relative. Ces probabilités lexicales de
traduction s’utilisent, au même titre que les probabilités de traduction des séquences, pour les
deux sens de traduction.
1.2.3.2
Modèle de réordonnement lexicalisé
Le modèle de distorsion utilisé en TAS basée sur les séquences ne prend en compte que
la distance (absolue ou relative), ce qui est considéré comme insuffisant, car naturellement,
certaines séquences auront tendance à être plus réordonnées que d’autres. Par conséquent, il
existe un modèle de réordonnement lexical basé sur trois orientations possibles dans la matrice
d’alignement comme le montre la figure 1.7 :
– monotone : lorsqu’un point d’alignement entre deux mots existe dans le coin supérieur
gauche,
– échange (swap) : lorsqu’un point d’alignement existe dans le coin supérieur droit,
– discontinu (discontinuous) : ni monotone, ni échange.
Chaque orientation dans chaque paire de séquences extraite est comptée et la distribution de
probabilités po est calculée sur la base du maximum de vraisemblance :
count(orientation, ē, f¯)
P
po (orientation|ē, f¯) =
¯
o count(o, ē, f )
(1.22)
De plus, à cause de la dispersion des données nécessaires au calcul de chaque orientation,
les comptes sont lissés grâce à un facteur σ :
po (orientation) =
P P
count(orientation, ē, f¯)
P ēP P
¯
o
f¯
ē count(o, ē, f )
f¯
(1.23)
27
Chapitre 1. Domaines fondateurs
Figure 2.8: Three orientations types: (m) monotone, (s) swap, (d) discontinuous
(taken from [Koehn, 2010]).
F IGURE 1.7 – Les trois types d’orientation : (m) monotone, (s) échange, (d) discontinu.
puis
:
2.4.3
Lexicalized reordering model
Standard phrase-based statistical
machine translation
is only based on
¯)
σ po (orientation)
+ count(orientation,
ē, fmovement
¯
P
p
(orientation|ē,
f
)
=
o
distance distortion model which is considered
weak. Itē,isf¯)obvious to note that (1.24)
σ + o count(o,
some phrases are more frequently reordered than others. Therefore, lexicalized
reordering model is proposed based on three orientations as shown in figure 2.8 :
1.2.3.3 Pénalités de mot et de séquence
• monotone : if a word alignment point to the top left exists
Ces fonctions caractéristiques tentent de modéliser la longueur de la traduction produite en
termes de• mots
deaséquences.
De façon
générale,
à l’aide
la pénalité de séquence ρ, on
swapet: if
word alignment
point
to the top
rightde
exists
cherchera à favoriser les hypothèses avec un faible nombre de séquences de mots (ρ > 1), pour
• discontinuous : neither monotone nor swap
limiter la complexité. En introduisant la pénalité de mot ω, on cherche à maximiser le nombre
de mots par
séquence
(ω phrase
> 1), afin
différencier
de la of
traduction
sur les types
mots.
Each
extracted
pairdeisse
counted
with each
the threebasée
orientation
and probability distribution po is calculated based on the maximum likelihood:
1.2.4
ē, f¯)
Optimisation
des systèmes decount(orientation,
TAS
p (orientation|f¯, ē) =
(2.16)
count(o, ē, f¯)
La modélisation log-linéaire utilisée en TAS est une combinaison de plusieurs fonctions
Due to the sparseness in the data to calculate the statistics of the each oriencaractéristiques pondérées grâce à un paramètre λi comme le montre l’équation 1.19. Il est donc
tation type; the counts are smoothed with a factor ⌥ :
important de bien déterminer et optimiser ce paramètre λi pour chaque fonction caractéristique
o
o
hi afin d’obtenir de bonnes performances au niveau du système de TAS. Cela est généralement
fait en minimisant les erreurs de traduction sur un corpus de développement pour lequel on
dispose d’une ou plusieurs références traduites manuellement. Cette minimisation à dimensions
multiples est un problème relativement complexe, pouvant receler de nombreux minima locaux,
24
et possédant un coût important en termes de temps de calcul.
28
1.2. Traduction automatique statistique
1.2.4.1
Minimum Error Rate Training (MERT)
[Och 2003a] propose un algorithme supervisé efficace appelé Minimum Error Rate Training
(MERT) afin de déterminer les poids optimaux des paramètres λi pour les fonctions caractéristiques hi , à partir d’un corpus de développement. Pendant l’optimisation MERT, le meilleur
modèle sera celui qui produira le moins d’erreurs de traduction. En résumé, l’algorithme fonctionne de la manière suivante :
– initialisation : les paramètres λi sont initialisés aléatoirement selon des heuristiques,
– traduction : une liste de N-meilleures traductions sur le corpus de développement est
produite,
– comparaison : le score objectif (tel que BLEU, voir 1.2.5) de la liste est comparé au score
de l’itération précédente,
– ré-estimation : les paramètres λi sont estimés à nouveau,
– itération : reproduire les étapes précédentes jusqu’à atteindre une convergence des poids.
1.2.4.2
Margin Infused Relaxed Algorithm (MIRA)
Plus récemment, [Hasler 2011] a proposé une implémentation de l’algorithme Margin Infused Relaxed Algorithm (MIRA) [Crammer 2003] pour la TAS. Celui-ci tente de résoudre
certains problèmes inhérents à l’optimisation avec MERT, comme le fait que les poids finaux
sont totalement dépendants des poids de départ mais également que la part d’aléatoire pourra
provoquer des résultats très différents entre plusieurs optimisations.
MIRA est un algorithme en-ligne ultra-conservateur (ultra-conservative online algorithm),
ce qui signifie qu’il traite son entrée pièce par pièce, de façon sérialisée et que les poids ne
sont mis à jour que lorsque l’algorithme se trompe avec une marge qui peut être associée à une
fonction de perte telle que le score BLEU. Par conséquent, tout au long du processus, cela force
l’algorithme à prendre des décisions qui peuvent à l’issue ne pas s’avérer optimales, pour cette
raison l’accent est mis sur la qualité du critère de décision.
Concrètement, MIRA apprend et optimise un vecteur de poids w. Après que chaque nouvelle
phrase fi ∈ {f1 , . . . , fn } a été traduite par le décodeur, MIRA recherche la plus petite mise à jour
des poids courants selon la contrainte suivante : la différence en termes de scores du modèle,
∆hj ·w = (h(e∗i )−h(eij ))·w, entre une traduction de référence e∗i et une hypothèse de traduction
eij ∈ {ei1 , . . . , eim } doit être au moins aussi importante que la perte L(e∗i , eij ) = lj entre elles.
Dans le cas présent, la perte L est définie comme la différence en termes de score BLEU.
Cet algorithme d’optimisation gagne à l’heure actuelle beaucoup de popularité au sein de la
communauté scientifique et est en passe de supplanter l’algorithme MERT pour l’optimisation
des systèmes de TAS.
29
Chapitre 1. Domaines fondateurs
1.2.5
Évaluation des systèmes de TAS
L’évaluation de la traduction automatique statistique est un vaste domaine de recherche à
part entière, dont le but est de juger de la qualité d’une traduction automatique. Plusieurs critères
peuvent servir à la mesurer, tels que la fidélité, la cohérence, l’adéquation, l’intelligibilité ou
encore l’utilisabilité. Aux prémices de la traduction automatique, il n’existait aucune métrique
automatique et cette qualité de traduction était évaluée humainement, ce qui bien sûr représente
un coût important en termes de moyens et de temps. L’accent était mis sur l’évaluation de
l’adéquation et de la fluence selon une certaine échelle [White 1994]. La fluence exprime la
propension d’une hypothèse à sembler naturelle à un natif de la langue considérée, tandis que
l’adéquation représente la quantité d’information de la traduction de référence contenue dans
l’hypothèse.
Mais le coût important de l’évaluation humaine rend difficile son usage dans le développement itératif de systèmes de TAS, où des évaluations régulières sont nécessaires pour connaître
la performance du système. Pour cette raison, de nos jours, l’accent est mis sur la comparaison
des systèmes entre eux et sur les méthodes automatiques d’évaluation de la traduction. Ce besoin
a vu naître plusieurs métriques différentes, toutefois, à ce jour, aucun consensus n’est apparu
quant à l’utilisation unifiée d’une seule métrique.
Les métriques automatiques usent d’un ensemble de phrases de test (également appelé corpus de test) pour lequel des traductions manuelles sont disponibles, appelées traductions de
référence. L’idée derrière ces métriques est qu’une traduction automatique d’une phrase serait
correcte si elle ressemble à une traduction manuelle de cette même phrase [Papineni 2002]. Les
métriques fonctionnent en effectuant des comparaisons partielles de chaînes de caractères entre
les hypothèses et les références. Toutefois, le fait de ne disposer que d’une seule référence peut
introduire un biais favorisant un style de traduction particulier, pour cette raison il est préférable
de disposer de plusieurs références lorsque cela est possible. Nous allons donc exposer ici un
aperçu des métriques les plus populaires :
– le Word Error Rate (WER) [Och 1999] évalue les hypothèses en se basant sur le nombre
d’insertions, suppressions et substitutions requises pour transformer l’hypothèse en la
phrase de référence, et est très utilisé en reconnaissance de la parole (voir 1.1.6). Ce
WER est considéré comme relativement inadapté à la TAS puisqu’un mot correctement
traduit mais à la mauvaise place sera pénalisé à la fois comme une suppression (à l’endroit
où il devrait être) et une insertion (à l’endroit où il se trouve réellement). Cela a conduit
à l’utilisation du Position-independent word Error Rate (PER) qui considère l’hypothèse
et la référence comme des « sacs de mots » non-ordonnés [Och 1999].
30
1.2. Traduction automatique statistique
– Le Translation Edit Rate (TER), extension du WER, est une métrique qui autorise le
mouvement de blocs de mots dans la phrase et par conséquent prend en compte le réordonnement les mots et séquences de mots dans l’hypothèse [Snover 2006]. Il quantifie le
montant d’opérations d’édition nécessaire à l’obtention de la référence exacte à partir de
l’hypothèse.
– Le Translation Edit Rate plus (TERp), qui est une extension du TER. Il utilise toutes
les opérations d’édition du TER tout en introduisant trois nouvelles opérations : l’accord
sur la racine du mot (stem match), l’accord sur les synonymes (synonym match) et la
substitution de séquences. À la différence du TER, le TERp assigne un coût variable à la
substitution de telle sorte qu’un coût faible est utilisé si les deux mots sont synonymes,
partagent la même racine ou sont des paraphrases l’un de l’autre [Snover 2009].
– Le BLEU (bilingual evaluation under study) [Papineni 2002], qui est la métrique la plus
couramment utilisée en TAS. Elle fonctionne en mesurant la co-occurrence des N-Grammes
entre une hypothèse et un ensemble de traductions de référence puis en calculant la
moyenne géométrique. BLEU est une métrique mettant l’accent sur la précision.
– Le score NIST [Doddington 2002], qui est une variante du score BLEU, calcule l’informativité d’un N-Gramme donné : plus un N-Gramme correct est rare, plus il aura un poids
important.
– Le score METEOR [Denkowski 2011] a été développé afin d’éviter certains inconvénients
du score BLEU. Il est basé sur la moyenne harmonique pondérée de la précision et du
rappel des unigrammes, d’après des recherches réalisées dans [Lavie 2007], où il a été
démontré que les métriques basées sur le rappel sont plus proches de l’évaluation humaine
que celles basées uniquement sur la précision, telles que BLEU ou NIST.
31
Chapitre 1. Domaines fondateurs
1.3
Modélisation du langage
Dans un système de RAP ou de TAS, le rôle du modèle de langage est de restituer des
contraintes linguistiques en guidant le décodage. Il permet donc d’éliminer des hypothèses les
suites de mots ayant une probabilité très faible et tente de garantir le fait qu’une suite de mots
choisie sera aussi grammaticalement correcte que possible. Pour modéliser les contraintes d’une
langue, les modèles de langage statistiques les plus souvent utilisés attribuent une probabilité à
chaque séquence de mots W de longueur k, exprimée par :
P (W ) = P (w1 )
= P (w1 )
k
Y
i=1
k
Y
i=1
P (wi |w1 , · · · , wi−1 )
P (wi |hi )
(1.25)
où hi représente l’historique du mot wi . Par conséquent, hi = w1 , · · · , wi−1 . La représentation de la probabilité P (W ) du modèle de langage utilisée ici est celle de la reconnaissance
automatique de la parole. Pour la traduction automatique statistique, cette probabilité serait
représentée par P (e).
1.3.1
Modèles N-Gramme
Les modèles de langage de type N-Gramme sont les modèles statistiques les plus utilisés
lorsqu’il s’agit de construire un système de RAP ou de TAS. Dans ce genre de modèle, l’historique d’un mot est composé des n − 1 mots qui le précèdent, n étant l’ordre du modèle,
généralement d’une valeur de trois ou quatre, bien que des modèles d’ordre cinq voire sept
soient parfois utilisés pour des tâches spécifiques. Cette limitation à un ordre de trois ou quatre
s’explique principalement par les contraintes techniques et un manque de données d’apprentissage, empêchant de prendre en compte un large historique. Pour des ordres allant de un à
quatre, on parlera alors de modèle unigramme (n = 1), bigramme (n = 2), trigramme (n = 3)
et quadrigramme (n = 4). Pour un ordre supérieur à 1, l’équation 1.25 peut s’écrire :
P (W ) ' P (w1 )
k
Y
i=n
P (wi |wi−n+1 , · · · , wi−1 )
(1.26)
Ce type de modèle permet de couvrir aisément la totalité des phrases exprimables dans
un langage donné. Lors de la construction d’un tel modèle, l’apprentissage consiste à estimer
un ensemble de probabilités à partir d’un corpus de données textuelles. Plusieurs techniques
32
1.3. Modélisation du langage
existent afin de réaliser cet apprentissage [Federico 1998], la plus courante étant l’estimation par
maximum de vraisemblance : la distribution des probabilités du modèle est celle qui maximise
la vraisemblance du corpus d’apprentissage. L’équation 1.27 exprime cette estimation :
PM V (wi |wi−n+1 , · · · , wi−1 ) =
c(wi−n+1 , · · · , wi )
c(wi−n+1 , · · · , wi−1 )
(1.27)
où c(wi−n+1 , · · · , wi−1 ) représente la fréquence d’apparition du N-Gramme wi−n+1 , · · · , wi−1
dans le corpus d’apprentissage.
1.3.2
Lissage
Comme nous venons de l’exposer, la qualité d’un modèle de langage N-Gramme dépend
fortement de la quantité de données textuelles à notre disposition. L’insuffisance de données
reste toujours un des problèmes principaux rencontrés, même avec de très grands corpus, de fait
certains N-Grammes n’apparaîtront jamais dans le modèle. Il est même possible que certains
mots du lexique qui sera utilisé pour le décodage soient absents du corpus d’apprentissage et
par conséquent du modèle généré. Pour ces raisons, il existe diverses techniques de lissage
[Chen 1996] qui tentent de compenser ce manque. Elles permettent de généraliser le modèle en
attribuant une probabilité non-nulle à un événement inobservé dans le corpus d’apprentissage.
Le lissage par repli (en anglais back-off ) est un de ces mécanismes permettant de compenser
le manque de données pour certains N-Grammes [Katz 1987]. Dans cette technique, on utilisera
une probabilité issue d’un N-Gramme d’ordre inférieur n − 1, n − 2, . . . lorsque le N-Gramme
d’ordre n pour un mot et un historique donné n’a pas été observé. À chaque repli sur un ordre
inférieur, l’historique se retrouve diminué, ainsi les chances d’obtenir une probabilité réellement estimée sur le corpus d’apprentissage augmentent. En revanche, afin de conserver une
distribution cohérente, un coefficient de normalisation est affectée à ce N-Gramme, modifiant
ainsi la valeur finale de sa probabilité. D’autres techniques de lissage existent, telles que le
lissage Witten-Bell [Witten 1991], basé sur l’interpolation (le modèle lissé d’ordre n est basé
sur l’interpolation linéaire entre le modèle non-lissé d’ordre n et le modèle lissé d’ordre n−1) ou
encore le lissage Kneser-Ney modifié [Chen 1996] très utilisé de nos jours, qui est une variante
du lissage par repli de [Katz 1987].
1.3.3
Modèles de langage à représentation continue (CSLM)
Dans un modèle de langage classique utilisant un lissage par repli, les mots sont représentés
dans un espace discret : le vocabulaire. Pour des systèmes à large vocabulaire, il s’avère difficile
de généraliser un modèle à des événements inobservés préalablement puisqu’une modification
33
Chapitre 1. Domaines fondateurs
d’un mot dans un N-Gramme entraîne la modification de la probabilité de ce N-Gramme. Une
approche alternative à cela se base sur une représentation des mots dans un espace continu
[Bengio 2003, Schwenk 2007]. Cette technique est utilisée avec succès depuis quelques années,
que ce soit en reconnaissance automatique de la parole [Schwenk 2002, Schwenk 2005] ou en
traduction automatique statistique [Schwenk 2006, Schwenk 2007].
1.3.4
Optimisation et évaluation des modèles de langage
Les modèles de langage peuvent différer de plusieurs manières : la quantité de données
d’apprentissage, l’ordre, la technique de lissage... Afin de guider les décisions prises lors de
l’apprentissage d’un modèle, il faut pouvoir mesurer sa qualité. Nous souhaitons que notre
modèle favorise les phrases correctes d’une langue, plutôt que les tournures erronées. Si nous
disposons d’un corpus de développement, considéré comme composé de phrases correctes, nous
pouvons pour chaque phrase calculer la probabilité que notre modèle lui assigne. Un modèle
de langage sera considéré comme meilleur s’il assigne une meilleure probabilité qu’un autre à
notre corpus.
1.3.4.1
Perplexité
La métrique la plus courante pour mesurer la qualité subjective d’un modèle de langage, la
perplexité [Jelinek 1977]. Plus la perplexité sera basse, moins le modèle hésitera sur le choix
d’un N-Gramme donné. Elle se base sur l’entropie croisée, qui se définit comme :
n
1X
log PLM (wi |w1 , · · · , wi−1 )
H(PLM ) = −
n i=1
(1.28)
P P L(W ) = 2H(PLM )
(1.29)
où PLM est la probabilité du modèle de langage pour une séquence de mots W et w1 , · · · , wk−1
représente l’historique du mot wi . Par une simple transformation, la perplexité se calcule comme :
Nous avons présenté, au cours de ce chapitre, les deux domaines proches que sont la reconnaissance automatique de la parole et la traduction automatique statistique. Nous avons
également évoqué le domaine de la modélisation du langage, commun aux deux autres. Nous
allons maintenant, dans le chapitre suivant, décrire les spécificités inhérentes à la réunion des
deux domaines pour former la traduction de la parole.
34
Chapitre 2
La traduction de la parole
Sommaire
2.1
2.2
Spécificités de la traduction de la parole . . . . . . . . . . . . . . . .
36
2.1.1
Disfluences et registres de langue . . . . . . . . . . . . . . . . .
36
2.1.2
Ponctuation, casse et segmentation . . . . . . . . . . . . . . . .
38
Techniques de couplage . . . . . . . . . . . . . . . . . . . . . . . . . .
40
2.2.1
Justification théorique . . . . . . . . . . . . . . . . . . . . . . .
41
2.2.2
Traduction de listes de N-meilleures hypothèses (n-best lists) . .
42
2.2.3
Traduction de graphes de mots . . . . . . . . . . . . . . . . . .
43
2.2.4
Traduction de réseaux de confusion . . . . . . . . . . . . . . . .
43
2.2.5
Couplage formalisé par des automates à états finis . . . . . . . .
45
35
Chapitre 2. La traduction de la parole
es différentes approches développées pour la traduction automatique statistique sont toutes
orientées vers la traduction du langage écrit : articles de presse, rapports parlementaires,
sites web, modes d’emploi, forums Internet... Pour la plupart des tâches considérées, le postulat
de départ sera que l’on souhaite traduire un ou plusieurs documents qui auront été pensés et
produits dans l’optique d’être lus. Néanmoins, le fait de traduire de la parole transcrite automatiquement amène de nouvelles perspectives et représente aujourd’hui un domaine de recherche
à part entière dont la popularité auprès de la communauté scientifique ne cesse de croître.
L
En effet, plusieurs projets et prototypes ont vu le jour au cours des vingts dernières années.
Nous pouvons notamment citer le projet Verbmobil [Wahlster 2000] dont le but était le développement d’un système mobile de traduction de la parole spontanée ou encore le récent projet
européen TC-STAR dont l’objectif était d’améliorer les performances de la traduction parole à
parole (en anglais Speech-to-speech translation, ou STS).
Dans ce chapitre, dans un premier temps, nous tenterons de montrer les spécificités inhérentes au problème de la traduction automatique de la parole, à la différence de la traduction
automatique statistique de textes. La parole, qu’elle soit transcrite manuellement ou automatiquement, présente des particularités et des difficultés qu’il convient d’identifier afin d’être à
même de les prendre en considération. Ensuite, nous nous attacherons à décrire les différentes
méthodes de couplage entre un système de reconnaissance et un système de traduction, selon le
type d’entrée considérée.
2.1
2.1.1
Spécificités de la traduction de la parole
Disfluences et registres de langue
Qu’il soit écrit ou oral, chaque document se place dans un registre bien particulier. En effet,
à l’écrit, le style sera très différent selon que l’on considère un article de presse, une page sur un
site web ou encore une communication officielle. À l’oral, un journaliste qui lit son prompteur
ou un homme politique qui prononce son discours présenteront moins de disfluences qu’une
conversation téléphonique banale ou encore qu’une interview d’un passant dans la rue.
Le registre de langue, à l’oral comme à l’écrit, se définit comme l’adaptation du mode
d’expression à une situation ou un auditoire particulier. Il conditionne les choix de vocabulaire,
de syntaxe ou encore de style que l’on emploiera en fonction de l’interlocuteur. Celui-ci connaît
trois niveaux :
– le registre soutenu, principalement employé à l’écrit dans des communications officielles
ou la littérature, qui utilise un vocabulaire recherché et où les règles de grammaire normative sont censées être parfaitement respectées,
36
2.1. Spécificités de la traduction de la parole
– le registre courant, employé tant à l’oral qu’à l’écrit typiquement avec un interlocuteur
que l’on ne connaît pas intimement, qui utilise un vocabulaire usuel et respecte généralement les règles de grammaire,
– et le registre familier, employé principalement à l’oral avec des proches, qui utilise un
vocabulaire relâché et ne respecte pas nécessairement les règles de grammaire.
Le tableau 2.1 présente les principales caractéristiques de chaque registre.
Vocabulaire
Syntaxe
Style
Registre familier
Termes de la vie quotidienne, familiers, voire
argotiques.
Registre courant
Vocabulaire usuel, sans
termes recherchés ou
spécialisés.
Ruptures,
ellipses.
Utilisation de temps
simples de l’indicatif.
Constructions
complexes et concordance
des temps.
Ton neutre, pas d’effets
de style.
Figures de style, effets
recherchés.
répétitions,
Hyperboles,
périphrases,
expressions
toutes faites.
Registre soutenu
Termes riches, recherchés, voire rares.
TABLE 2.1 – Principales caractéristiques des différents registres de langue.
De plus, la parole (et a fortiori la parole spontanée) contient de très nombreuses disfluences
qui surviennent naturellement, telles que les hésitations, les répétitions, les faux départs mais
aussi les pauses insonores, les marques de discours, les apartés mais aussi les inachèvements
et révisions. La plupart de ces disfluences sont transcrites par un système de reconnaissance
automatique de la parole, que ce soit littéralement ou sous la forme de fillers. Un système de
traduction de la parole doit donc prendre en compte, d’une façon ou d’une autre, toutes ces
marques qui font de la parole transcrite un type d’écrit très spécifique [Déchelotte 2007]. Le
tableau 2.2 présente des exemples de chacune de ces disfluences.
Hésitation
Répétition
Faux départ
Pause (insonore)
Marque de discours
Aparté
Inachèvement
Révision
euuuh..., mmmh..., allongement syllabique
Nous allons voir maintenant la la la fusion des des matériaux...
il est il serait de bon ton...
Silence de respiration
bon, alors, hein, voilà, enfin, et bien, tu sais...
par rapport à la mort de comment il s’appelle déjà Mitterand...
c’est la moby- le scooter de Martin...
la situation est problématique sur le plan du de la diplomatie...
TABLE 2.2 – Exemples de disfluences rencontrées en reconnaissance automatique de la parole.
37
Chapitre 2. La traduction de la parole
La figure 2.1 présente des exemples de transcriptions manuelles de parole traduites à l’aide
d’un système de traduction automatique statistique conçu et optimisé pour la traduction de
textes classiques et par conséquent absolument pas adapté à la traduction de transcriptions de
parole.
Extrait de TED - Aimee Mullins 2009P
i n' ont aucune idée de qui il est et dit i monsieur' i
i have no idea who he is and i said i 'm sorry sir i
don 't have we met i i don 't remember meeting you sorry syr i contractez entretenons-nous recontrées i
he said well you wouldn 't remember meeting me i i contractez remember rencontre-là vous précise-il
mean when we met i was delivering you from your
vous déchiffrent remember reunion monsieur' i
mother 's womb
signifierait-elle lorsque nous avons rencontré i a
delivering vous de votre ventre de la mère
Extrait de TED - Michael Specter 2010
i don 't know i 'm i 'm convinced that there 's some i Revêtir Ignore i monsieur' i suis convaincue qu' il y
sort of pull to nostalgia to wishful thinking and i
a une sorte de extirpez à nostalgia à un voeu pieux
et i comprendre que i ne fais pas partie de cette
understand that i 'm not part of that crowd
crowd
Extrait de TED - James Cameron 2010
and you know i i thought wow i 'm i 'm like living in a
science fiction movie this is really cool and so i i
really got bitten by the bug of deep ocean
exploration
et vous savez i i PENSÉE wow i monsieur' i
monsieur' comme vivre dans une science fiction
movie c' est vraiment cool et si i i reellement
adonnions mordue par la insecte-assasin de l'
exploration des océans
F IGURE 2.1 – Exemples de traduction de parole avec un système de TAS inadapté.
Nous pouvons voir que le système, en plus de produire des traductions n’ayant pas de sens,
bute sur des difficultés inhérentes à la parole telles que les répétitions et les faux départs. Les
différences de vocabulaire qui peuvent également exister entre le système de RAP et celui
de TAS produiront des résultats inattendus, comme des mots non-traduits par exemple. Les
différences de normalisation au niveau de la ponctuation, de la casse et de la segmentation font
l’objet de la section suivante.
2.1.2
Ponctuation, casse et segmentation
En plus des problèmes dus aux disfluences et aux registres de langue, la traduction automatique de la parole rencontre d’autres difficultés qui la rendent bien différente de la traduction automatique de textes. En effet, de par sa nature, la parole est un flux continu, et sa
transcription automatique ne produira donc en sortie qu’une suite de mots, sans segmentation
explicite en phrases. Les transcriptions ne contiennent aucune ponctuation ni aucune casse et
38
2.1. Spécificités de la traduction de la parole
ne permettent pas de délimiter correctement les phrases entre elles. Bien que le signal de parole
contienne quelques informations concernant la prosodie, un système de reconnaissance n’en
tient généralement pas compte. Et même lorsque les transcriptions de référence contiennent
la casse et la ponctuation, il n’existe pas de règles de placement clairement définies selon les
langues, et l’évaluation standard des systèmes de RAP à l’aide du WER se fait sans prendre en
considération la ponctuation ni la segmentation, de plus le WER est insensible à la casse, sauf
lorsque cela est explicitement demandé.
De fait, traduire de la parole dans une langue source vers un texte dans une langue cible
demandera de retrouver la ponctuation manquante et de remettre la casse correctement. Dans
[Matusov 2006a, Matusov 2009] deux approches pouvant permettre de retrouver celles-ci dans
le but de traduire sont proposées :
– ponctuer et remettre la casse sur la transcription source, puis la traduire à l’aide d’un
système de TAS classique. Cette approche peut toutefois introduire un biais de par les
erreurs qui seront commises par le système qui sera utilisé pour remettre la casse et la
ponctuation. De plus, selon la technique de couplage utilisée (voir 2.2), réaliser ce prétraitement peut s’avérer coûteux en temps et en ressources.
– ponctuer et remettre la casse sur le texte cible, une fois que celui-ci a été traduit par un
système de TAS adapté à la parole. Cela peut notamment se faire via une approche à base
de table de traduction basée sur les séquences de mots. Néanmoins, ce post-traitement est
généralement rendu plus difficile du fait qu’il s’effectue sur un texte contenant a priori
plus d’erreurs que le transcription originale ayant été reconnue.
Selon les travaux de [Matusov 2006a, Déchelotte 2007], l’approche par pré-traitement est
systématiquement plus performante que l’approche par post-traitement. Cependant, les performances que nous avons obtenues dans [Rousseau 2011] au sein de la campagne d’évaluation
IWSLT 2011 montrent une bonne efficacité du système de reponctuation et de remise de la
casse par post-traitement.
Dans [Matusov 2007, Matusov 2009], il est également décrit un algorithme de segmentation
automatique d’une transcription produite par un système de RAP, basé sur la détection d’extrémités et sur une modélisation de la longueur des phrases. D’autres approches sont également
proposées, telle que celle basée sur un arbre de décision dans [Paulik 2008].
39
Chapitre 2. La traduction de la parole
2.2
Techniques de couplage
Lorsque l’on souhaite traduire de la parole, il est nécessaire, afin de construire un système
performant, de disposer de données adaptées à cette tâche. Ces données doivent par ailleurs
être disponibles en quantité suffisante, ce qui est rarement le cas pour des données issues de la
reconnaissance de la parole. En effet, la plupart des corpus parallèles usuels sont des ensembles
de textes issus d’articles d’agences de presse (news), de rapports parlementaires européens (par
exemple le corpus europarl), de sites web aspirés (par exemple le corpus ccb)...
Partant de ce constat, deux approches opposées sont possibles :
– les données d’apprentissage peuvent être transformées afin de ressembler le plus possible aux données que l’on souhaite traduire, à savoir transformer le texte en pseudotranscriptions de parole. Cela peut se faire en passant tout le texte en bas de casse,
en retirant la ponctuation, en écrivant les nombres en toutes lettres et en reformant les
contractions qui apparaissent à l’oral (par exemple, « I am » deviendra « I’m », « do not »
deviendra « don’t »...). De cette façon, le système de TAS sera au plus proche du système
de RAP, et c’est une méthode qui à notre connaissance est relativement souvent employée
mais rarement décrite dans la littérature.
– À l’inverse, les transcriptions que l’on souhaite traduire peuvent être transformées pour
ressembler le plus possible aux données d’apprentissage du système de TAS [Déchelotte 2007].
Mais un tel pré-traitement, à notre sens, est plus coûteux en termes d’effort à fournir, puisqu’il est nécessaire de retrouver la ponctuation manquante ainsi que la casse, d’enlever
toutes les disfluences, de normaliser les contractions et autres acronymes ainsi que de
réunir les mots composés.
Une autre possibilité, plus intéressante, sera de combiner ces deux approches, bien qu’elles
soient opposées, en transformant les données d’apprentissage du système de TAS tel que nous
venons de le décrire, tout en retirant le bruit des transcriptions automatiques à traduire, tel que
l’ensemble des disfluences. Ainsi, il est possible d’obtenir une condition de texte « hybride »,
sans pour autant ralentir de façon considérable le processus de traduction. De plus, il sera indispensable d’optimiser le système de TAS résultant sur des données de développement adaptées
à la tâche, comme par exemple des transcriptions manuelles proches des données à traduire.
40
2.2. Techniques de couplage
2.2.1
Justification théorique
Comme nous l’avons vu dans la section 1.1.1, le formalisme employé en reconnaissance
automatique de la parole, par le biais du théorème de Bayes, est le suivant :
fˆ = arg max P (f |X) = arg max P (X|f )P (f )
f
f
(2.1)
Au cœur de cette équation, P (X|f ) représente le modèle acoustique et P (f ) le modèle de
langage.
En TAS, la modélisation statistique se fait selon le formalisme suivant :
ê = arg max P (e|f ) = arg max P (f |e)P (e)
e
e
(2.2)
où P (f |e) est le modèle de traduction et P (e) le modèle de langage.
Il est donc possible, selon [Ney 1999], de regrouper la reconnaissance automatique de la
parole et la traduction automatique statistique dans un cadre théorique (framework) unifié :
ê = arg max P (e|X)
e
= arg max P (X|e)P (e)
e
= arg max P (e)
e
X
f
= arg max P (e)
e
X
f
≈ arg max P (e)
e
X
f
!
P (X, f |e)
P (f |e)P (X|f, e)
!
P (f |e)P (X|f )
≈ arg max P (e) max P (f |e)P (X|f )
e
f
!
(2.3)
(2.4)
L’approximation contenue dans l’équation 2.3 revient à dire que connaître la traduction e
d’une phrase source f ne permet pas d’obtenir plus d’informations sur le signal acoustique X.
En revanche, l’approximation de l’équation 2.4 remplace la somme de toutes les transcriptions possibles par le maximum obtenu sur une seule transcription, ce qui revient à désigner
la phrase source reconnue par le système de RAP. Cependant, cela n’est pas strictement exact,
puisque la reconnaissance automatique de la parole utilise un modèle de langage source P (f ),
alors que l’équation 2.4 utilise le produit P (e)P (f |e) (donc le modèle de traduction mais surtout
41
Chapitre 2. La traduction de la parole
le modèle de langage cible). Cette approximation justifie à elle seule les diverses expérimentations menées sur l’unification des deux domaines que sont la reconnaissance automatique
de la parole et la traduction automatique statistique en un seul domaine. Cela pose également
une problématique importante : si l’on suppose qu’un modèle de langage en langue source ne
permet pas de lever l’ambiguïté entre plusieurs hypothèses de reconnaissance, ne serait-il pas
préférable de conserver ces diverses hypothèses et de les traduire, afin de prendre la décision de
la meilleure hypothèse en fin de processus, en maximisant P (e)P (f |e), plutôt que de ne tenir
compte que de f .
Néanmoins, à travers cette justification, nous venons de décrire la technique de couplage
la plus simple possible : enchaîner de façon basique et relativement indépendante les deux
systèmes (RAP puis TAS) afin de ne traduire que la meilleure hypothèse de reconnaissance (ce
que l’on appelle traduction de la 1-best).
Nous allons décrire dans les sous-parties suivantes d’autres techniques pouvant permettre
un couplage un peu plus étroit.
2.2.2
Traduction de listes de N-meilleures hypothèses (n-best lists)
La traduction de listes de N-meilleures hypothèses est a priori la technique de couplage
la plus simple entre la RAP et la TAS (hormis la traduction classique de meilleure hypothèse
1-best). Le décodeur de reconnaissance automatique de la parole peut, en sortie, produire un
ensemble de N-meilleures hypothèses, classées par leurs scores respectifs, à savoir le score du
modèle acoustique, le score du modèle de langage ainsi que d’éventuels scores supplémentaires.
Partant de là, chaque hypothèse sera traduite, et la traduction la plus probable sera extraite parmi
les N-meilleures hypothèses grâce à une combinaison et pondération des scores de la RAP et
des scores obtenus lors de la TAS en un seul score global. Pour cette technique de couplage,
il ne sera pas nécessaire de modifier le décodeur de TAS, mais le coût en temps augmentera
proportionnellement au nombre d’hypothèses à traduire.
L’approche la plus souvent utilisée dans ce cadre est celle exposée dans [Quan 2005], où l’on
demandera au décodeur de TAS m hypothèses de traduction pour chacune des n hypothèses de
reconnaissance, produisant un total de n×m traductions possibles pour chaque phrase originale.
Dans leur approche, les poids de chaque système sont appris séparément, puis sont optimisés
conjointement et combinés afin d’extraire l’hypothèse finale. [Quan 2005] rapportent une progression du score BLEU de 1,2 points par rapport à la traduction classique de la meilleure
hypothèse de RAP (1-best). Par une approche similaire, [Zhang 2004] propose d’intégrer plusieurs fonctions caractéristiques de la parole et de la traduction dans un modèle log-linéaire
afin de réévaluer les scores des hypothèses tout en ajoutant certaines fonctions caractéristiques
42
2.2. Techniques de couplage
telles qu’un modèle de langage part-of-speech ou encore une modélisation de la longueur des
hypothèses.
2.2.3
Traduction de graphes de mots
Un meilleur couplage peut être réalisé en demandant au décodeur de RAP de produire directement en sortie tout ou partie de son espace de recherche sous la forme d’un graphe de mots
(voir section 1.1.4), à la condition d’accepter une augmentation importante de la complexité
lors de la traduction ainsi que la perte de la possibilité de connaître la meilleure hypothèse de
transcription qui serait obtenue via un décodage par consensus [Mangu 1999]. De plus, il est
souvent rapporté une certaine inconsistance des gains obtenus lors de la traduction de graphes
de mots.
Selon [Saleem 2004], cela est causé par le manque de scores linguistiques dans le graphe de
mots, qui, s’ils étaient incorporés dans le graphe, provoqueraient une explosion combinatoire
extrêmement importante, du fait que dans un modèle de langage, un mot peut avoir un grand
nombre d’historiques différents. Dans [Matusov 2005], il est décrit une intégration des scores
acoustiques et linguistiques source dans un modèle log-linéaire, mais qui nécessite un élagage
important du graphe avant la traduction proprement dite. Le gain obtenu sur une tâche de
traduction d’expressions en situation de tourisme (BTEC, Basic Travel Expression Corpus),
de l’ordre de deux points BLEU, semble assez important, néanmoins ce gain ne se retrouve pas
sur l’évaluation d’une tâche de traduction de discours parlementaire (TC-STAR). Enfin, dans
[Zhang 2006], il est exposé un algorithme à deux passes visant à traduire des graphes de mots.
Au cours de la première passe, le graphe de mots en langue source est traduit en un graphe
de mots en langue cible, en utilisant uniquement les probabilités lexicales d’un modèle de la
forme IBM-1 (voir section 1.2.2.2). Puis, lors d’une seconde passe, le graphe de mots cible est
réévalué grâce à un modèle IBM-4 et la meilleure hypothèse de traduction est extraite. Les gains
rapportés, encore une fois sur une tâche BTEC, sont de l’ordre d’un point BLEU.
2.2.4
Traduction de réseaux de confusion
La traduction de listes de N-meilleures hypothèses, ainsi que la traduction de graphes de
mots, est une opération coûteuse en temps, comme nous l’avons vu. Néanmoins, les listes et
les graphes sont des représentations de données très redondantes, généralement les différentes
hypothèses ne diffèrent que d’un ou quelques mots. Afin de pallier ce problème, il existe une
représentation plus compacte qui permet de factoriser les redondances : le réseau de confusion.
Celui-ci est construit à partir d’un graphe de mots produit par le système de reconnaissance,
grâce à un décodage par consensus [Mangu 1999].
43
Chapitre 2. La traduction de la parole
F IGURE 2.2 – Représentation d’un graphe de mots et sa transformation en réseau de confusion
(extrait de [Mangu 1999]).
La figure 2.2 représente un exemple de graphe de mots et sa transformation en réseau de
confusion. Nous pouvons, sur cet exemple, observer facilement la compacité d’un réseau de
confusion par rapport au graphe équivalent. De plus, un avantage des réseaux de confusion est
qu’ils peuvent potentiellement apporter de nouveaux chemins qui n’existaient pas auparavant
dans le graphe. Les arcs du réseau ne portant pas de mots (marqués par un tiret « - ») indiquent
un saut direct à l’arc suivant. De plus, les arcs portent également des scores permettant d’en
extraire le meilleur chemin, non-représentés sur cette figure.
Depuis quelques années, la traduction de réseaux de confusion est devenue une approche
très populaire. [Bertoldi 2005, Bertoldi 2007] exposent les travaux ayant initié cette tendance.
Ils y décrivent une adaptation de l’algorithme de traduction afin de pouvoir gérer des réseaux en
entrée, bien qu’en réalité l’algorithme s’en retrouve très peu modifié. La seule réelle différence
réside dans la recherche au sein de la table de traduction pour un intervalle [i, j] donné : dans
le cas d’une phrase classique, on recherchera l’ensemble des traductions possibles pour la séquence de mots fi , . . . , fj tandis que dans le cas d’un réseau de confusion l’on recherchera l’ensemble des traductions possibles pour toutes les séquences de mots qu’il est possible de former
dans l’intervalle [i, j] considéré. Dans [Bertoldi 2007], il est rapporté de meilleurs résultats que
la traduction de listes de N-meilleures hypothèses, pour un coût en temps seulement deux fois
supérieur à la traduction simple de la meilleure hypothèse. Il est également intéressant de noter
les travaux de [Cattoni 2007], où est proposé une technique permettant de rajouter, directement
dans le réseau de confusion, des propositions de ponctuation entre chaque mot (classiquement,
trois arcs sont ajoutés entre chaque mot, proposant un saut, un point ainsi qu’une virgule). Bien
44
2.2. Techniques de couplage
entendu, cela n’est valable que lorsque l’on souhaite gérer la ponctuation en pré-traitement à
la traduction. De plus, cela ne permet pas de gérer la casse, hormis les majuscules de début de
phrase qui seront automatiquement ajoutées par le décodeur de TAS.
2.2.5
Couplage formalisé par des automates à états finis
Enfin, il est une technique qui, bien que située en marge des techniques plus reconnues
et dont les performances sont pour l’instant en retrait par rapport aux réseaux de confusion,
reste toutefois très élégante par son approche : l’usage du formalisme des automates à états
finis pondérés (Weighted Finite State Machine, WFSM) afin de représenter le processus de
traduction automatique de la parole [Mohri 2002, Mohri 2004, Kumar 2006, Justo 2010]. Par
cette méthode, chaque automate caractérisera une partie du processus de reconnaissance et de
traduction, par exemple un transducteur pour proposer différentes segmentations des séquences
de mots en prenant le flux de mots de la reconnaissance en entrée ou encore un accepteur pour
servir de modèle de langage. [Mathias 2006] proposent également une implémentation via des
automates à états finis pondérés, où ils exposent un algorithme permettant de transformer un
graphe de mots en graphe de séquences de mots à l’aide de ces automates.
45
Chapitre 2. La traduction de la parole
46
Chapitre 3
Contexte des travaux
Sommaire
3.1
3.2
Principes des campagnes d’évaluation . . . . . . . . . . . . . . . . .
48
3.1.1
Définition et but premier . . . . . . . . . . . . . . . . . . . . . .
48
3.1.2
Autres finalités essentielles . . . . . . . . . . . . . . . . . . . .
49
Historique des campagnes récentes . . . . . . . . . . . . . . . . . . .
50
3.2.1
Reconnaissance automatique de la parole . . . . . . . . . . . . .
50
3.2.1.1
En langue anglaise . . . . . . . . . . . . . . . . . . .
50
3.2.1.2
En langue française . . . . . . . . . . . . . . . . . . .
51
Traduction automatique statistique . . . . . . . . . . . . . . . .
52
Les campagnes d’évaluation en traduction de la parole . . . . . . . .
54
3.3.1
Les campagnes TC-STAR . . . . . . . . . . . . . . . . . . . . .
54
3.3.2
Les campagnes IWSLT . . . . . . . . . . . . . . . . . . . . . .
55
3.2.2
3.3
47
Chapitre 3. Contexte des travaux
e chapitre de transition a pour objectif de présenter le contexte dans lequel les différentes
contributions relatées dans ce manuscrit ont été développées. En effet, la majorité des travaux exposés ici ont été réalisés dans le cadre de campagnes d’évaluation dédiées à la traduction
automatique de la parole. Ces campagnes ayant constitué le point de départ et le moteur de nos
avancées dans le domaine, il nous a paru important de leur consacrer un chapitre afin de situer
le cadre de travail dans lequel nous avons pu évoluer.
C
Dans un premier temps, nous définirons et présenterons les principes généraux d’une campagne d’évaluation. Ensuite, nous ferons un tour d’horizon des différentes campagnes qui se
sont déroulées ces dernières années, aussi bien dans le domaine de la reconnaissance automatique de la parole que dans celui de la traduction automatique statistique. Enfin, nous nous
intéresserons plus spécifiquement aux campagnes dédiées au domaine qui nous intéresse, à
savoir la traduction automatique de la parole, avec une emphase sur les deux principales ayant
été au cœur de nos travaux : d’une part les campagnes menées dans le cadre du projet TC-STAR,
ainsi que les campagnes d’évaluation prenant place lors des conférences IWSLT.
3.1
Principes des campagnes d’évaluation
À quel point les systèmes de reconnaissance automatique de la parole, de traduction automatique statistique et de traduction automatique de la parole sont-ils efficaces de nos jours ?
Comment les techniques et approches répandues évoluent-elles, quelles sont les avancées significatives réalisées à travers le monde ? C’est à ces questions (et à d’autres) que tentent de
répondre, de façon globale, les campagnes d’évaluation.
3.1.1
Définition et but premier
Une campagne d’évaluation scientifique consiste en une tâche soumise aux chercheurs ou
équipes de chercheurs travaillant dans un domaine spécifique et volontaires pour participer
à ladite campagne. Dans cette tâche, on demandera aux différentes équipes participantes de
produire un système à la hauteur de l’état de l’art dans le domaine considéré, à partir d’un jeu de
test commun à tous les participants, comme par exemple traduire un ensemble de phrases donné
pour le cas de la traduction automatique statistique. Le système sera généralement construit
à partir de données d’apprentissage restreintes, c’est-à-dire fournies par les organisateurs et
dont la liste aura été fixée à l’avance, bien que des campagnes « libres » existent également.
Cette production, qui devra être achevée dans un temps imparti, devra ensuite être soumise aux
organisateurs de la campagne qui centraliseront la production de chaque équipe participante.
Par la suite, le résultat de chaque équipe de chercheurs sera mesuré et quantifié à l’aide d’une
48
3.1. Principes des campagnes d’évaluation
ou plusieurs métriques inhérentes au domaine considéré. À l’issue de cette évaluation, chaque
équipe participante rédigera un article de quelques pages résumant les travaux accomplis (appelé description de système) et mettant en avant les spécificités de chacun par rapport aux
standards établis. La comparaison qui en résultera permettra donc d’évaluer le potentiel de
chaque méthode ou approche proposée et d’en dégager les approches le plus prometteuses. Cela
permet également d’évaluer les performances de l’état de l’art et d’en tirer les enseignements
qui permettront d’améliorer les systèmes proposés.
3.1.2
Autres finalités essentielles
Par ailleurs, l’organisation de campagnes d’évaluation régulières remplit également un certain nombre de rôles parallèles à l’évaluation pure et simple des performances. En effet, et
bien que cela puisse paraître anecdotique, les campagnes d’évaluation permettent de fédérer
l’ensemble d’une communauté autour d’un même objectif et de faciliter les échanges entre
équipes de recherches et laboratoires. De plus, cela facilite grandement le financement de jeux
de données (d’apprentissage et de test) qui sont souvent, hors de ce cadre, relativement difficiles
à trouver, car la production de corpus de qualité reste très coûteuse. Cela permet aussi le financement des outils d’évaluation qui, bien que généralement développés pour une seule campagne,
sont régulièrement repris par l’ensemble de la communauté scientifique comme référence pour
l’évaluation interne de systèmes. Enfin, et ce dernier point concernera plutôt les organismes
prenant part au financement des campagnes, cela permet d’opérer une veille technologique du
domaine par le biais des différents articles de description de systèmes soumis par les participants
ainsi que les articles systématiquement écrits par les organisateurs à l’issue d’une campagne afin
d’en faire le tour d’horizon.
49
Chapitre 3. Contexte des travaux
3.2
Historique des campagnes récentes
La tradition des campagnes d’évaluation remonte, que ce soit dans le domaine de la reconnaissance de la parole, de la traduction automatique ou plus généralement du traitement du langage naturel, au début des années 1990. Au départ, celles-ci étaient organisées à l’initiative des
États-Unis par la DARPA (Defense Advanced Research Projects Agency) et le NIST (National
Institute of Standards and Technology). Très vite, d’autres pays dont la France commencèrent
à organiser leurs propres campagnes, qu’elles soient d’envergure nationale ou internationale.
Nous allons donc dans cette section proposer un tour d’horizon des diverses campagnes significatives ayant pu être organisées dans chacun de ces domaines.
3.2.1
Reconnaissance automatique de la parole
3.2.1.1
En langue anglaise
Historiquement, les premières campagnes internationales en reconnaissance automatique de
la parole à proprement parler remontent à la fin de l’année 1993, avec les benchmark tests organisés par la DARPA, auxquels ont participé plusieurs universités américaines mais aussi des laboratoires étrangers provenant du Canada, de France, d’Allemagne ou encore du Royaume-Uni
[Pallett 1994]. À cette époque, le but de la tâche proposée était d’améliorer les performances de
base des systèmes sur des données considérées comme propres. Elle consistait en un décodage
de 200 segments issus de 10 locuteurs (20 segments par locuteur) grâce à un système statique
(i.e. non-adaptif) à l’aide d’un vocabulaire fermé commun à tous les participants, afin que tous
les systèmes soient comparables entre eux. Les résultats (en termes de WER) variaient entre
16.8% et 12.2% pour le meilleur système, ce qui représentent de bons scores pour l’époque,
cependant il est nécessaire de considérer la simplicité de la tâche, qui est très différente des
campagnes menées de nos jours.
Par la suite, au fil des années, ces benchmark tests ont évolué vers de la reconnaissance de
la parole « appliquée », à savoir des tâches de reconnaissance sur des journaux radiophoniques
(broadcast news), qui constituent toujours aujourd’hui la majorité du contenu des campagnes
d’évaluation. Lors de l’évaluation NIST de 1998 [Pallett 1999], les corpus de test consistaient en
deux séries de segments extraits de journaux radiophoniques d’une durée respective d’une heure
et d’une demi-heure. Pour cette évaluation, les scores (toujours en termes de WER) variaient
entre 25.7% et 13.5%.
Depuis, à partir de 2002, NIST a organisé des évaluations tendant à produire des transcriptions plus riches (Rich Transcription evaluations, ou RT) et à se focaliser sur des tâches plus
ardues telles que la reconnaissance sur de la parole spontanée ou conversationnelle ou encore la
50
3.2. Historique des campagnes récentes
transcription de réunions avec de multiples intervenants simultanés. Ces évaluations prennent
également en compte le temps de traitement, avec une volonté de se rapprocher du temps réel.
Dans ce cadre, lors de l’évaluation de 2003, les meilleurs systèmes proches du temps réel
obtenaient un score WER de 14.6%, tandis que le meilleur système sans contrainte de temps
parvenait à descendre sous la barre des 10% (9.9% exactement) [Pallett 2003]. Les dernières
données datant de 2007 montrent un score WER (sans contrainte) de 7.4% [Fiscus 2008].
3.2.1.2
En langue française
Au niveau national, l’évaluation de la reconnaissance automatique de la parole a connu un
premier coup d’essai dès 1997 avec la campagne ARC (B1) organisée par l’Agence Universitaire de la Francophonie 2 (AUF), qui portait sur de la reconnaissance de parole lue (journalistique). Par la suite, une seconde campagne, portant sur la transcription d’émissions radiophoniques, avait été envisagée, sans toutefois aboutir. Malgré cela, les réunions de préparation qui
avaient eu lieu avaient clairement montré l’intérêt des différents laboratoires français à travailler
sur la transcription enrichie d’émissions en langue française. Les avantages à l’organisation
de telles campagnes avaient été parfaitement identifiés : fédérer les efforts de recherche des
laboratoires français et francophones dans ce domaine, favoriser le développement du traitement automatique de la langue française et dresser un panorama des acteurs académiques et
industriels du domaine ainsi que de l’état de l’art.
Ensuite, il fallut attendre l’année 2003 avec l’organisation de la première campagne d’évaluation ESTER (Évaluation des Systèmes de Transcription enrichie d’Émissions Radiophoniques) conjointement par l’Association Francophone de la Communication Parlée (AFCP),
la Délégation Générale pour l’Armement (DGA) ainsi que l’Evaluations and Language resources Distribution Agency (ELDA) [Gravier 2004]. Cette campagne reprend le modèle des
évaluations NIST américaines. Organisée en deux phases (« tests à blanc » puis campagne
d’évaluation), elle avait pour but de mettre en place une certaine dynamique de l’évaluation.
Elle visait également à permettre le développement d’un corpus conséquent adapté à la tâche
visée ainsi qu’un ensemble de ressources d’évaluation destiné à la communauté scientifique.
Les résultats de la première phase montrèrent des scores WER à hauteur de 40% pour la plupart
des participants (dont le LIUM). Cela permit de mettre en place une procédure et des conditions
d’évaluation clairement définies pour la seconde phase, qui se déroula en janvier 2005 et dont
le corpus de test était constitué de dix heures d’audio provenant de six stations de radio. Les
résultats à l’issue de cette seconde phase montrèrent des scores très bons, le meilleur système
2. http://www.auf.org
51
Chapitre 3. Contexte des travaux
obtenant un WER global de 11.8% sur les six stations évaluées. Le LIUM, quant à lui, obtint une
moyenne de 23.2% ce qui en fit le second meilleur système de la campagne [Galliano 2005].
En janvier 2008, les trois mêmes organismes (AFCP, DGA et ELDA) ont organisé une
seconde campagne nommée ESTER 2 avec pour finalité la mesure des progrès réalisés dans le
domaine de la reconnaissance automatique de la parole depuis ESTER 1 ainsi que le lancement
de nouveaux axes de recherche et la production de nouvelles ressources, notamment un corpus
annoté de taille conséquente. Organisée de la même manière que son aînée, elle se décomposait à nouveau en deux phases, en revanche ces phases étaient toutes deux des évaluations
(il n’y avait pas de “tests à blanc”), la différence se faisant sur les tâches évaluées au sein de
chaque phase. La première, qui se déroulait en novembre et décembre 2008, concernait donc
l’ensemble des tâches de segmentation et de transcription, tandis que la seconde, qui eut lieu
de janvier à mars 2009, se concentrait sur les tâches d’extraction d’informations. Le LIUM
participa à la première phase, et se classa troisième sur la tâche de transcription (score WER de
17.8%) et premier sur la tâche de segmentation (score DER, Diarization Error Rate, de 10,8%)
[Galliano 2009]. Le meilleur score sur la tâche de transcription était de 12.1%.
3.2.2
Traduction automatique statistique
La première campagne d’évaluation en traduction automatique statistique fut organisée par
la DARPA en 1992. Cela a permis de déterminer la faisabilité de l’utilisation de certaines
métriques et d’en abandonner d’autres, inadaptées à la traduction automatique. Par conséquent,
à la suite de cette campagne, il fut décidé lors de deux campagnes en janvier et août 1994
d’évaluer les systèmes de traduction en soumettant à des humains des tests de compréhension
portant sur l’adéquation et la fluence des phrases traduites par rapport à des phrases de référence
[White 1994].
Ceci marqua le point de départ d’une dynamique d’évaluations qui perdure de nos jours. On
peut notamment citer les campagnes Open Machine Translation (OpenMT) de NIST, démarrées
en 2001 et dont la dernière s’est déroulée en 2012. Le LIUM a participé en 2012 sur les tâches
de traduction arabe-anglais et chinois-anglais, en se classant dans le quatuor de tête pour la
traduction de l’arabe vers l’anglais et dans la moyenne des participants pour la traduction
du chinois vers l’anglais. Comme leur nom l’indique, ce sont des campagnes très ouvertes,
accessibles à tous et qui ambitionnent de diriger les efforts de recherches vers l’amélioration
des possibilités techniques dans le domaine.
De façon similaire, la série de campagnes GALE 3 (Global Autonomous Language Exploitation), interne à un projet démarré en 2006, porte l’accent sur la traduction de l’arabe et du
3. http://www.itl.nist.gov/iad/mig//tests/gale
52
3.2. Historique des campagnes récentes
chinois vers l’anglais, dans un contexte international où la possibilité de traduire automatiquement ces langues demeure un avantage stratégique certain. Le LIUM a régulièrement participé
à cette série de campagnes et fait partie des structures obtenant les meilleurs résultats.
Enfin, et c’est probablement l’une des séries de campagnes les plus prisées en traduction
automatique statistique, il est également indispensable de mentionner les évaluations organisées
dans le cadre des workshops WMT en marge des conférences ACL (Association for Computational Linguistics 4 ) ou EMNLP (Empirical Methods in Natural Language Processing). Organisée chaque année depuis 2006, la campagne WMT propose une évaluation sur la traduction de
langues européennes, notamment français-anglais, espagnol-anglais et allemand-anglais dans
les deux sens. D’autres langues ont pu être ajoutées au fil des ans comme par exemple le tchèque
ou encore le hongrois. Le LIUM participe systématiquement à ces campagnes depuis l’édition
2008 et se classe régulièrement parmi les meilleurs systèmes engagés. La dernière campagne
WMT en date s’est déroulée cette année en juin, où le LIUM s’est classé dans la moitié haute
des participants (respectivement septième et cinquième sur quinze pour les tâches de traduction
français-anglais et anglais-français) [Callison-Burch 2012].
4. http://http://www.aclweb.org/
53
Chapitre 3. Contexte des travaux
3.3
Les campagnes d’évaluation en traduction de la parole
Depuis le milieu des années 2000, avec l’intérêt grandissant de la communauté scientifique
pour la traduction de la parole, des campagnes d’évaluation dédiées à ce domaine ont fait leur
apparition. L’organisation de campagnes régulières a commencé avec l’apparition du projet européen PF-STAR (Preparatory action on Technology and Corpora for Speech to Speech Translation) soutenu par le consortium international CSTAR (Consortium for Speech Translation
Advanced Research) dès 2004 [Federico 2003]. Dans le même temps, un workshop international
sur la traduction de la parole (IWSLT, International Workshop on Spoken Language Translation) a été organisé par ce même consortium, comprenant la publication d’articles scientifiques
mais aussi une campagne d’évaluation spécifique au domaine.
Nous allons dans cette section décrire ces deux séries de campagnes qui nous intéressent
tout particulièrement, puisque se situant au cœur du contexte de cette thèse.
3.3.1
Les campagnes TC-STAR
TC-STAR (Technologies and Corpus for Speech to Speech Translation) était un projet européen d’une durée de trente-six mois qui se déroula d’avril 2004 à mars 2007. Il est le premier
projet conjoint de recherche visant à promouvoir la traduction de parole à parole sans restriction
de domaine. L’ambitieux objectif premier était de produire des avancées significatives dans
tous les domaines de la traduction parole-à-parole, à savoir la reconnaissance automatique,
la traduction de la parole et la synthèse vocale ; ceci afin de réduire l’écart existant entre les
traductions automatiques et les traductions humaines. Le projet ciblait des domaines de parole
non-contraints comme des discours ou des émissions radiophoniques dans trois langues : l’anglais britannique, l’espagnol européen et le chinois mandarin. La traduction précise de ce genre
de domaine se situant bien au-delà des possibilités des systèmes à l’état de l’art, l’organisation
d’un tel projet prenait tout son sens.
Les buts à atteindre à long terme étaient les suivants :
– reconnaissance de la parole efficace et robuste quel que soit le style, les conditions d’enregistrement, le locuteur ; et capable de s’adapter à des conditions particulières de façon
transparente,
– traduction de la parole efficace sur de la parole conversationnelle non-contrainte dans de
larges domaines de discours,
– intégration effective de la reconnaissance et de la traduction dans un cadre statistique
unifié,
– ressemblance entre la synthèse de la parole et la parole humaine réelle.
Afin de parvenir à ces résultats, les actions mises en place furent les suivantes :
54
3.3. Les campagnes d’évaluation en traduction de la parole
– l’implémentation d’une infrastructure d’évaluation compétitive (campagnes),
– la création d’une infrastructure technologique pour favoriser la diffusion des résultats
scientifiques,
– la récolte et l’acquisition de ressources appropriées,
– le support financier de la dissémination des résultats scientifiques au sein du consortium
et de la communauté.
Au cours de ces trois années, les efforts mis dans les campagnes d’évaluation ont permis
de parvenir à des améliorations importantes des performances, bien que beaucoup reste à faire.
Mais cela a eu comme effet de lancer une certaine dynamique qui perdure encore aujourd’hui,
s’étant établi comme « mètre-étalon » de la discipline. De nombreux laboratoires continuent de
se baser sur les avancées et les données qui ont résulté de ce projet. Ce fut la première fois que
la problématique de la traduction de la parole fut étudiée dans un cadre réel, et les mesures de
progression au cours des trente-six mois ont montré une amélioration de 40 à 60% relatifs dans
la qualité de la transcription et de la traduction [Hamon 2007].
3.3.2
Les campagnes IWSLT
Les campagnes IWSLT (International Workshop on Spoken Language Translation), organisées par le consortium CSTAR depuis 2004, sont des campagnes d’évaluation de la traduction de la parole d’envergure internationale. Lors des premières éditions, ces campagnes
ne comprenaient pas directement d’évaluation de la reconnaissance automatique de la parole.
Historiquement, la tâche de traduction pour l’évaluation est une tâche de type BTEC (Basic
Travel Expression Corpus), consistant donc en la traduction d’expression courantes en situation
de voyage à l’étranger. Chaque année, en plus de la campagne, un workshop est organisé afin de
réunir la communauté autour de la communication des résultats et de présentations des articles
scientifiques et des descriptions de systèmes qui y ont été soumis. Lors de la campagne 2007,
une nouvelle tâche a été proposée, celle-ci consiste en la traduction de dialogues, toujours
dans des situations de voyages à l’étranger. Puis, lors de la campagne 2010, de nouveau une
tâche a été ajoutée. Elle consistait en la traduction de l’anglais vers le français de présentations
scientifiques issues du site web TED (Technology, Entertainment, Design) 5 , d’abord à partir de
transcriptions fournies, puis directement à partir de fichiers audio lors de la campagne 2011, ce
qui en fit la première vraie évaluation d’un système complet de traduction de la parole.
Le LIUM a participé aux campagnes 2010 [Paul 2010] et 2011 [Federico 2011]. Lors de la
campagne 2010, nous nous sommes classés quatorzièmes sur dix-neuf pour la traduction des
transcriptions de référence, et onzièmes pour la traduction des sorties de reconnaissance de la
5. http://www.ted.com
55
Chapitre 3. Contexte des travaux
parole. Les performances moyennes que nous avons obtenues étaient principalement dues au
manque de temps auquel nous avons fait face lors de la construction de notre système, de plus
cela était notre première participation à une évaluation de traduction de la parole, il nous a été assez difficile de nous adapter aux nouvelles contraintes, différentes d’une campagne d’évaluation
en traduction automatique classique [Rousseau 2010]. Toutefois, nous avons décidé de réitérer
notre participation lors de la campagne suivante, en 2011. Cette fois, toujours dans le cadre de la
tâche de traduction de présentations scientifiques, il était question de traduire à partir de fichiers
audio et non plus à partir de transcriptions. Nous avons donc dû mettre en place un système
complet de traduction de la parole anglais vers français (système de reconnaissance en anglais
et système de traduction anglais-français adapté). Nos efforts furent payants, puisque nous avons
cette année-là finis premiers de l’évaluation avec une marge relativement confortable. De plus,
nous avons également eu le plaisir de remporter le « Best system Paper Award », un prix qui
était décerné au meilleur article de description de système de la campagne [Rousseau 2011].
C’est donc dans ce contexte que se place l’essentiel de mes travaux de thèse. Les participations aux campagnes IWSLT 2010 mais surtout 2011 furent le point de départ des diverses
contributions décrites dans ce manuscrit, notamment la création du corpus TED-LIUM, préalable à la campagne 2011 ; la construction complète du système de traduction de la parole
anglais-français du LIUM, mise en place sur les deux années ; mais également les travaux sur
la sélection de données et l’optimisation du système, démarrés à l’issue de la campagne 2011.
56
Deuxième partie
De la construction d’un système de
traduction de la parole soumis à des
contraintes applicatives
57
Chapitre 4
De la pertinence et de la cohérence des
données d’apprentissage
Sommaire
4.1
4.2
4.3
Données pour la reconnaissance automatique de la parole : le corpus
TED-LIUM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
60
4.1.1
Construction du corpus d’apprentissage . . . . . . . . . . . . . .
60
4.1.1.1
Collection des données . . . . . . . . . . . . . . . . .
61
4.1.1.2
Alignement du texte sur le signal acoustique . . . . . .
63
4.1.2
Construction du corpus de développement . . . . . . . . . . . .
70
4.1.3
Disponibilité et distribution du corpus . . . . . . . . . . . . . .
71
Données pour la traduction automatique statistique . . . . . . . . . .
72
4.2.1
Données d’apprentissage parallèles . . . . . . . . . . . . . . . .
72
4.2.2
Données de développement et de test . . . . . . . . . . . . . . .
73
Données d’apprentissage monolingues pour la reconnaissance et la
traduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3.1
Données pour la modélisation du langage en reconnaissance automatique de la parole . . . . . . . . . . . . . . . . . . . . . . .
4.3.2
4.4
76
76
Données pour la modélisation du langage en traduction automatique statistique . . . . . . . . . . . . . . . . . . . . . . . . . .
77
Harmonisation des données . . . . . . . . . . . . . . . . . . . . . . .
78
4.4.1
Cohérence dans la forme des données . . . . . . . . . . . . . . .
78
4.4.2
Cohérence dans le choix des mots . . . . . . . . . . . . . . . . .
80
59
Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage
omme nous l’avons vu au cours des chapitres précédents, il est indispensable, afin de
construire un système de traduction de la parole performant et cohérent, de disposer
d’un jeu de données d’apprentissage homogène et adapté à l’application sur la reconnaissance
automatique de la parole et la traduction automatique statistique. De plus, généralement, les
systèmes de traduction de la parole sont construits dans l’optique d’une tâche de traduction dans
un domaine bien spécifique, comme par exemple le domaine médical [Rayner 2008], les conversations de voyage [Takezawa 2002] ou encore les présentations scientifiques [Stüker 2012].
C
C’est dans ce contexte de présentations scientifiques que nous avons développé notre propre
jeu de données destiné à servir de ressource d’entraînement pour notre système de traduction
de la parole. Ce corpus a récemment fait l’objet d’une publication à la conférence LREC2012
[Rousseau 2012].
Dans ce chapitre, nous décrirons dans un premier temps le jeu de données réalisé pour la
reconnaissance de la parole, de la collection des données aux caractéristiques finales qui le composent, puis nous nous intéresserons au jeu de données utilisé pour la composante traduction de
notre système.
4.1
Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM
Le corpus TED-LIUM est un corpus dédié à la traduction de la parole. Il a été conçu dans
le cadre des campagnes d’évaluation IWSLT (International Workshop on Spoken Language
Translation), à la suite de la campagne 2010 en vue d’une utilisation lors de la campagne 2011
(voir à ce sujet la section 3.3.2). Son domaine d’application est volontairement limité : il s’agit
ici de transcrire et traduire des présentations scientifiques, de l’anglais au français.
Nous allons, dans cette section, décrire le processus de construction du corpus, pour lequel
nous sommes partis de zéro et qui nous a par la suite amenés à le mettre à disposition de la
communauté scientifique une fois achevé.
4.1.1
Construction du corpus d’apprentissage
Le corpus TED-LIUM est basé sur des présentations scientifiques orales en anglais, disponibles sur le site de TED 6 (Technology, Entertainment, Design) et dispensées lors des conférences TED qui sont organisées à travers le monde depuis bientôt trente ans. Sur leur site, des
vidéos de ces présentations sont téléchargeables par tout un chacun, accompagnées de leurs
6. http://www.ted.com
60
4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM
transcriptions et, pour la plupart, de leurs traductions dans plusieurs langues. Ce travail est
assuré par des contributeurs bénévoles, sans qu’une convention d’annotation précise ne soit
définie.
4.1.1.1
Collection des données
Afin de disposer d’une quantité exploitable de données de départ, nous avons développé
un outil écrit avec le langage de script Perl nous permettant de télécharger de façon automatique toutes les vidéos TED de notre choix, en l’espèce celles qui bénéficiaient à la fois d’une
transcription en anglais mais aussi d’une traduction en français, dans le but de construire notre
système de traduction de la parole de l’anglais vers le français. Toutefois, les expérimentations
sur l’extraction ayant été débutées en février 2011, toutes les présentations extraites sont comprises entre février 1984 et cette date. L’outil fonctionne en deux phases, la première ayant pour
but de connaître la liste des présentations à extraire, la seconde servant effectivement à récupérer
les donnés.
La première phase se déroule de la façon suivante :
1. télécharger la liste complète des présentations en anglais et la liste des traductions française sur deux pages spécifiques du site,
2. comparer ces listes afin d’en conserver l’intersection (i.e. la liste des présentations dont
les sous-titres ont été traduits en français),
3. extraire du site le code HTML de chaque page retenue dans la liste.
Pour la seconde phase, nous procédons de cette manière :
1. à partir du code HTML des pages téléchargées, repérer le nom de la vidéo afin de pouvoir
donner un identifiant unique à chaque présentation,
2. extraire le lien de la vidéo et la récupérer localement,
3. extraire le texte de la transcription en anglais et le texte de la traduction en français,
4. grâce à une suite d’outils libres (respectivement mplayer et sox), extraire le flux audio
de la vidéo puis le convertir dans le format utilisé pour la construction de systèmes de
reconnaissance (format NIST Sphere).
À la fin de la collecte des données, celles-ci sont traitées par un script spécifique, dont le but
est de transformer les données textuelles télechargées en données ressemblant aux sorties d’un
système de reconnaissance automatique de la parole.
61
Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage
Cette normalisation est faite en appliquant les modifications suivantes :
– recoller les phrases en fusionnant les lignes concernées (on considérera qu’une phrase est
constituée de tout le texte contenu entre une majuscule et un point, à quelques exceptions
près),
– transformer tous les nombres écrits en chiffres en nombres écrits en toutes lettres,
– retirer toute la ponctuation et les caractères spéciaux, tout en en transformant certains
signes en toutes lettres (% vers « pourcent », par exemple),
– passer tout le texte restant en minuscules,
– séparer les mots composés (autrement dit, enlever le tiret),
– nettoyer le corpus de toutes traces restantes (comme par exemple des espaces multiples).
La figure 4.1 illustre la différence entre le texte original tel qu’il a été extrait à partir du site
de TED (en haut) et le texte obtenu une fois normalisé pour ressembler aux sorties d’un système
de reconnaissance automatique de la parole (en bas).
I'm here today to show my photographs of the Lakota.
Many of you may have heard of the Lakota,
or at least the larger group of tribes
called the Sioux.
The Lakota are one of many tribes that were moved off their land
to prisoner of war camps
now called reservations.
The Pine Ridge Reservation,
the subject of today's slide show,
is located about 75 miles southeast
of the Black Hills of South Dakota.
It is sometimes referred to
as Prisoner of War Camp Number 334,
and it is where the Lakota now live.
i 'm here today to show my photographs of the lakota
many of you may have heard of the lakota or at least the larger group of tribes called the sioux
the lakota are one of many tribes that were moved off their land to prisoner of war camps now called
reservations
the pine ridge reservation the subject of today 's slide show is located about seventy five miles southeast
of the black hills of south dakota
it is sometimes referred to as prisoner of war camp number three hundred and thirty four and it is where
the lakota now live
F IGURE 4.1 – Normalisation du texte obtenu à partir de l’extraction des transcriptions du site
TED.
62
4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM
Puis, grâce à l’outil de segmentation automatique et de regroupement en locuteurs du LIUM,
LIUM_SpkDiarization [Meignier 2010], nous avons généré un découpage automatique du signal acoustique de chaque présentation en segments de parole, afin d’éliminer les zones du
signal ne contenant aucune parole.
Le tableau 4.1 décrit l’ensemble des caractéristiques de départ des données ayant été extraites de cette façon.
Nombre de shows
Avec locuteur masculin
Avec locuteur féminin
Durée totale de l’audio
Moyenne par show
Durée totale de parole
Dont locuteur masculin
Dont locuteur féminin
Moyenne par show
Nombre de segments de parole
Dont locuteur masculin
Dont locuteur féminin
Durée moyenne d’un segment
Nombre de locuteurs uniques
Masculins
Féminins
Shows par locuteur unique
Nombre de mots dans les transcriptions
Nombre de mots moyen par show
818
555 (67,85%)
263 (32,15%)
215h, 42m, 25s
15m, 49s
193h, 5m, 16s (89,51%)
130h, 18m, 59s (67,49%)
62h, 46m, 17s (32,51%)
14m, 9s
81 853
53 864 (65,80%)
27 989 (34,20%)
8,49 secondes
700
471 (67,28%)
229 (32,72%)
1,17
1 981 388
2 422
TABLE 4.1 – Caractéristiques de départ du corpus TED-LIUM après extraction.
La construction du vocabulaire d’apprentissage, commune à la génération des systèmes
utilisés pour la réalisation de ce corpus et à l’apprentissage de nos systèmes finaux, sera discutée
au cours de la section 5.2.2.1.
4.1.1.2
Alignement du texte sur le signal acoustique
Bien qu’une quantité intéressante de données ait pu être extraite, celle-ci n’est pas utilisable
directement. En effet, bien que des indications de temps existaient dans les données textuelles
extraites, celles-ci n’étaient en aucun cas exploitables du fait de leur manque de précision (à la
seconde près, tandis que la reconnaissance de la parole exige une précision à la milliseconde).
63
Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage
Il est donc nécessaire, afin de produire un corpus utilisable pour l’apprentissage de systèmes de
reconnaissance, d’aligner le texte extrait sur le signal audio.
Nous avons réalisé ce travail par une suite d’itérations dont le but était d’obtenir des transcriptions de référence suffisamment précises pour pouvoir servir de corpus d’apprentissage mais
également de retirer de l’ensemble des données tous les segments automatiques ne pouvant être
alignés convenablement. Ces itérations suivent globalement le même schéma pour raffiner les
données : construire à chaque fois un nouveau modèle acoustique servant à décoder l’ensemble
des segments, faire correspondre les trames acoustiques aux phonèmes supposés du texte puis
filtrer les segments obtenus selon certains critères. En ce qui concerne les disfluences, nous les
avons gérées de la façon suivante : les répétitions doivent être transcrites, les hésitations sont
associées à un mot filler spécifique et les faux départs sont ignorés. De plus, les mots filler ne
sont pas pris en compte dans l’évaluation des alignements.
Itération 0 : amorçage (bootstrap)
La toute première étape de notre processus d’alignement consistait en l’obtention d’un
ensemble d’informations temporelles approximatives dont le but était de servir de base pour
les itérations suivantes. Nous avons pour cela utilisé l’ensemble d’outils de décodage CMU
Sphinx-3 [Lee 1990] dans sa configuration la plus simple. Les modèles acoustiques employés
sont ceux proposés librement par CMU, appris sur les données d’entraînement HUB4. Ces
modèles sont estimés avec des vecteurs MFCC composés de 39 paramètres par trame et les
MMC comprennent 8 gaussiennes par état. Le modèle de langage quadrigramme utilisé a été
estimé sur l’ensemble des données textuelles extraites, grâce à l’ensemble d’outils de création
de modèles linguistiques SRILM [Stolcke 2002, Stolcke 2011]. Le décodage à l’aide de CMU
Sphinx-3 produit en sortie des fichiers au format NIST CTM 7 . La figure 4.2 montre un exemple
de fichier résultant du décodage, reprenant la même présentation que le texte pris en exemple
dans la figure 4.1. Dans cette figure nous pouvons voir ce qui a été décodé pour le tout premier
segment. Les informations mises en évidence ici représentent le temps du mot reconnu en
secondes (troisième colonne, en gras), la durée du mot (quatrième colonne) et le mot ayant
été reconnu (cinquième colonne, en italique).
À partir de ces fichiers CTM, et à l’aide de l’outil sclite provenant de l’ensemble NIST
Scoring Toolkit 8 , qui est l’ensemble d’outils de mesure officiel des campagnes d’évaluation
NIST (voir 3.2.1.1), nous avons pu faire correspondre, de façon approximative, les informations
temporelles obtenues lors de notre décodage avec les données textuelles non-alignées obtenues
7. Voir ftp://jaguar.ncsl.nist.gov/current_docs/sctk/doc/infmts.htm#ctm_fmt_
name_0 pour une description du format CTM.
8. http://www1.icsi.berkeley.edu/Speech/docs/sctk-1.2/sclite.htm
64
4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM
AaronHuey_2010X 1 15.92
AaronHuey_2010X 1 15.93
AaronHuey_2010X 1 16.67
AaronHuey_2010X 1 16.91
AaronHuey_2010X 1 17.05
AaronHuey_2010X 1 17.78
AaronHuey_2010X 1 18.06
AaronHuey_2010X 1 18.17
AaronHuey_2010X 1 18.25
AaronHuey_2010X 1 18.69
AaronHuey_2010X 1 19.37
AaronHuey_2010X 1 19.74
AaronHuey_2010X 1 19.89
AaronHuey_2010X 1 20.10
AaronHuey_2010X 1 20.25
AaronHuey_2010X 1 20.59
AaronHuey_2010X 1 20.77
AaronHuey_2010X 1 20.91
AaronHuey_2010X 1 20.99
AaronHuey_2010X 1 21.43
AaronHuey_2010X 1 21.60
AaronHuey_2010X 1 21.94
AaronHuey_2010X 1 22.05
AaronHuey_2010X 1 22.30
AaronHuey_2010X 1 22.38
AaronHuey_2010X 1 22.70
AaronHuey_2010X 1 22.88
AaronHuey_2010X 1 22.99
AaronHuey_2010X 1 23.53
AaronHuey_2010X 1 23.87
AaronHuey_2010X 1 24.05
AaronHuey_2010X 1 24.13
AaronHuey_2010X 1 24.60
AaronHuey_2010X 1 25.30
0.01 <s>
0.74 {COUGH}
0.24 show
0.14 my
0.73 photographs
0.28 <sil>
0.11 of(2)
0.08 the(2)
0.44 lakota
0.68 <sil>
0.37 {SMACK}
0.15 and(2)
0.21 new
0.15 you
0.34 may
0.18 have
0.14 heard
0.08 the(2)
0.44 lakota
0.17 <sil>
0.34 <sil>
0.11 are
0.25 least
0.08 the(2)
0.32 larger
0.18 group
0.11 of(2)
0.54 tribes
0.34 <sil>
0.18 called
0.08 the(2)
0.47 sioux
0.70 <sil>
0.00 </s>
F IGURE 4.2 – Exemple de fichier de sortie de reconnaissance au format CTM.
lors de l’extraction. Ceci nous a permis de constituer des transcriptions de référence au format
NIST STM 9 . La figure 4.3 montre un extrait d’une de ces transcriptions de référence, pour le
même show que les exemples précédents. Les informations mises en évidence en gras représentent les temps de début et de fin de chaque segment. Nous pouvons par exemple voir que
les temps du second segment correspondent aux temps indiqués dans le segment montré dans
la figure 4.2.
Nos transcriptions de référence, bien qu’imparfaites, nous ont permis d’évaluer grossièrement la qualité de la reconnaissance automatique atteinte pour chaque présentation, en termes
de WER. Cela nous a aidé à déterminer quelles étaient les présentations les moins bien alignées,
parmi celles-ci figuraient une présentation en espagnol, ainsi qu’une présentation uniquement
constituée de parole chantée. Les autres présentations retirées étaient quant à elles données par
des intervenants d’origine étrangère dont la langue maternelle n’est pas l’anglais et possédant
9. Voir ftp://jaguar.ncsl.nist.gov/current_docs/sctk/doc/infmts.htm#stm_fmt_
name_0 pour une description du format STM.
65
Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage
AaronHuey_2010X 1 AaronHuey_2010X 12.27 15.91 <o,f0,male>
AaronHuey_2010X 1 AaronHuey_2010X 15.92 25.30 <o,f0,male> i 'm here today to show my photographs of the
lakota many of you may have heard of the lakota or at least the larger group of tribes called the sioux
AaronHuey_2010X 1 AaronHuey_2010X 25.30 34.53 <o,f0,male> the lakota are one of many tribes that were
moved off their land to prisoner of war camps now called reservations the pine ridge reservation
AaronHuey_2010X 1 AaronHuey_2010X 34.53 48.10 <o,f0,male> the subject of today 's slide show is located
about seventy five miles southeast of the black hills of south dakota it is sometimes referred to as prisoner of war
camp number three hundred and thirty four and it is where the lakota now live
F IGURE 4.3 – Exemple de transcription de référence au format STM.
un fort accent, pour un total de cinq présentations en moins. Nous avons également retiré les
présentations qui seront utilisées pour constituer le corpus de développement.
À la fin de cette étape d’amorçage, nous avons donc gardé 794 présentations sur les 818
de départ, pour un total d’environ 135 heures de parole : 91 heures de parole masculine et 44
heures de parole féminine. Ces heures de parole conservées seront employées comme base de
l’itération suivante de notre processus d’alignement. Le tableau 4.2 détaille les caractéristiques
du corpus à l’issue de cette itération d’amorçage.
Nombre de shows
Avec locuteur masculin
Avec locuteur féminin
Durée totale de l’audio
Moyenne par show
Durée totale de parole
Dont locuteur masculin
Dont locuteur féminin
Moyenne par show
Nombre de segments de parole
Dont locuteur masculin
Dont locuteur féminin
Durée moyenne d’un segment
Nombre de locuteurs uniques
Masculins
Féminins
Shows par locuteur unique
Nombre de mots dans les transcriptions
Nombre de mots moyen par show
794
536 (67,51%)
258 (32,49%)
210h, 2m, 26s
15m, 52s
135h, 34m, 2s (64,54%)
91h, 06m, 28s (67,20%)
44h, 27m, 34s (32,80%)
10m, 14s
61 833
41 882 (67,73%)
19 951 (32,27%)
7,89 secondes
686
461 (67,20%)
225 (32,80%)
1,16
1 926 034
2 426
TABLE 4.2 – Caractéristiques du corpus TED-LIUM après l’itération d’amorçage.
66
4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM
Itération 1 : alignement intermédiaire
Grâce aux transcriptions approximatives obtenues lors de l’itération précédente, nous avons
pu réaliser un alignement forcé entre notre signal audio et nos transcriptions. L’alignement forcé
est un procédé qui permet, à partir de modèles acoustiques préalablement appris (nous supposons que les modèles HUB4, fournis par CMU avec Sphinx-3, sont suffisamment performants),
de faire correspondre les trames du signal acoustique aux phonèmes contenus dans la supposée
transcription, segment par segment. L’avantage de ce procédé est qu’en cas de problème au
niveau de l’alignement d’un segment, l’outil retire purement et simplement le segment incriminé
des données d’apprentissage. Un autre avantage est que puisque nous travaillons au niveau
du phonème, ce processus d’alignement forcé permet de déterminer l’emploi de variantes de
prononciation au niveau d’un mot, et donc de l’étiqueter en tant que tel. Cet alignement nous a
donc permis de produire un second jeu de transcriptions, plus précis que le premier.
Ensuite, à partir des heures de parole conservées lors de l’itération d’amorçage et de ces nouvelles transcriptions, nous avons construit de nouveaux modèles acoustiques, tout en ajoutant
à nos données d’apprentissage le corpus de broadcast news HUB4 afin d’obtenir des modèles
acoustiques plus génériques et plus couvrants. Nous avons utilisé ces nouveaux modèles acoustiques pour refaire un décodage complet de nos données de départ, afin d’obtenir une base plus
précise pour l’alignement entre les mots reconnus et les transcriptions non-alignées provenant
de TED. À la différence de l’itération précédente, nous n’avons conservé (en plus des segments
défaussés par l’alignement forcé) que les segments dont les bornes étaient similaires entre le
résultat du décodage et le texte présumé de référence (autrement dit, que les premier et dernier
mots du segment étaient identiques entre les deux versions).
À l’issue de cette première itération, nous avons pu conserver des segments provenant de
779 présentations, pour un total d’environ 152 heures de parole : 106 heures de parole masculine
et 46 heures de parole féminine. Comme nous pouvons le constater, nous obtenons au final plus
de parole que lors de l’itération précédente, malgré un filtrage plus sévère et un alignement
forcé très strict. Ce phénomène peut s’expliquer par la différence en termes de qualité et de
couverture entre les modèles acoustiques par défaut de CMU Sphinx-3 et les modèles générés
lors de cette itération, qui sont bien adaptés à la tâche. Le tableau 4.3 reprend l’ensemble des
caractéristiques de notre corpus après cette itération.
Itération 2 : alignement final
Pour cette seconde et dernière itération, nous avons de nouveau réalisé un alignement forcé
de la même manière que nous l’avons décrit précédemment, mais cette fois-ci à partir des
modèles appris sur les données de TED et HUB4 à l’itération précédente. Nous pouvons donc
67
Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage
Nombre de shows
Avec locuteur masculin
Avec locuteur féminin
Durée totale de l’audio
Moyenne par show
Durée totale de parole
Dont locuteur masculin
Dont locuteur féminin
Moyenne par show
Nombre de segments de parole
Dont locuteur masculin
Dont locuteur féminin
Durée moyenne d’un segment
Nombre de locuteurs uniques
Masculins
Féminins
Shows par locuteur unique
Nombre de mots dans les transcriptions
Nombre de mots moyen par show
779
526 (67,52%)
253 (32,48%)
207h, 17m, 43s
15m, 58s
152h, 28m, 32s (73,55%)
106h, 31m, 54s (69,87%)
45h, 56m, 38s (30,13%)
11m, 27s
69 217
46 954 (67,83%)
22 263 (32,17%)
7,93 secondes
676
455 (67,30%)
221 (32,70%)
1,15
1 896 086
2 434
TABLE 4.3 – Caractéristiques du corpus TED-LIUM après l’itération intermédiaire.
estimer que le jeu de transcriptions de référence qui a été produit en sortie est encore plus précis
qu’auparavant, ce qui constitue encore une meilleure base pour notre processus d’alignement.
Ensuite, à partir des segments constituant les 152 heures de paroles conservées à la fin
de l’itération précédente, nous avons construit de nouveaux modèles acoustiques plus précis,
toujours en y ajoutant les données du corpus de broadcast news HUB4. Nous avons, pour la
dernière fois, décodé de nouveau l’ensemble des données acoustiques à notre disposition, afin
de pouvoir réaliser un dernier alignement dont les informations temporelles proviendraient de
sorties produites avec des modèles acoustiques appris sur les mêmes données que celles que
nous cherchons à aligner. En revanche, cet alignement a été réalisé en procédant à un filtrage
beaucoup plus strict que précédemment, puisque nous n’avons gardé que les segments dont tous
les mots étaient cohérents avec les mots reconnus lors du décodage.
Cette dernière itération nous a finalement permis de conserver un total d’environ 118 heures
de parole, dont 82 heures de parole masculine et 36 heures de parole féminine. La réduction
drastique de parole conservée s’explique cette fois par la dureté du filtrage appliqué, afin d’assurer le fait que nos alignements soient cohérents. Le tableau 4.4 détaille les caractéristiques
finales du corpus TED-LIUM tel qu’il a été présenté dans notre article lors de la conférence
68
4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM
LREC 2012 [Rousseau 2012], et tel qu’il a été distribué et mis à la disposition de la communauté
scientifique.
Nombre de shows
Avec locuteur masculin
Avec locuteur féminin
Durée totale de l’audio
Moyenne par show
Durée totale de parole
Dont locuteur masculin
Dont locuteur féminin
Moyenne par show
Nombre de segments de parole
Dont locuteur masculin
Dont locuteur féminin
Durée moyenne d’un segment
Nombre de locuteurs uniques
Masculins
Féminins
Shows par locuteur unique
Nombre de mots dans les transcriptions
Nombre de mots moyen par show
774
526 (67,52%)
253 (32,48%)
205h, 49m, 40s
15m, 57s
117h, 45m, 52s (57,21%)
82h, 26m, 48s (70,00%)
35h, 19m, 04s (30,00%)
9m, 07s
56 803
39 389 (69,34%)
17 414 (30,66%)
7,46 secondes
666
452 (67,87%)
214 (32,13%)
1,16
1 690 775
2 184
TABLE 4.4 – Caractéristiques du corpus TED-LIUM après l’itération finale.
À l’aide du corpus de développement que nous avons construit séparément (décrit dans
la section 4.1.2), il nous a été possible d’évaluer les modèles réalisés au cours de différentes
évaluations. Le tableau 4.5 résume le score WER obtenu lors de l’évaluation de chaque modèle.
Modèle
Sphinx-3 par défaut
Itération intermédiaire
Itération finale
Score WER
22,6%
20,2%
18,4%
TABLE 4.5 – Évaluation des modèles acoustiques utilisés lors de l’alignement sur le corpus de
développement du LIUM.
69
Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage
4.1.2
Construction du corpus de développement
Afin de pouvoir évaluer précisément nos systèmes, que ce soit au cours de la construction du
corpus ou bien lors de la préparation de la campagne d’évaluation, nous avons constitué un corpus de développement. Celui-ci est composé de dix-neuf présentations, retirées de l’ensemble
de données initial. Celles-ci n’ont pas été choisies au hasard puisqu’elles sont en réalité les
présentations retenues par les organisateurs d’IWSLT 2010 pour leurs corpus de développement
et de test. Le but de la constitution d’un tel corpus est de pouvoir être utilisé comme échantillon
représentatif et constant lors de la phase de mise au point et de réglage des poids d’un système
de reconnaissance de la parole. Nous indiquons dans le tableau 4.6 les caractéristiques de ce
corpus de développement.
Nombre de shows
Avec locuteur masculin
Avec locuteur féminin
Durée totale de l’audio
Moyenne par show
Durée totale de parole
Dont locuteur masculin
Dont locuteur féminin
Moyenne par show
Nombre de segments de parole
Dont locuteur masculin
Dont locuteur féminin
Durée moyenne d’un segment
Nombre de mots dans les transcriptions
Nombre de mots moyen par show
19
16 (84,21%)
3 (15,79%)
4h, 46m, 07s
15m, 03s
4h, 12m, 55s (88,40%)
3h, 13m, 56s (76,68%)
58m, 59s (23,32%)
13m, 18s
1 662
1 342 (80,75%)
320 (19,25%)
9,13 secondes
46 656
2 456
TABLE 4.6 – Caractéristiques du corpus de développement TED-LIUM.
Afin que notre corpus soit le meilleur possible, et puisque la quantité de données était relativement faible, nous avons transcrit manuellement chacune des dix-neuf présentations afin que
tous les événements observables au niveau du signal acoustique puissent être pris en compte,
notamment l’ensemble des disfluences possibles, qui ne sont pas transcrites dans les sous-titres
extraits depuis le site de TED, à quelques rares exceptions près. Par conséquent, la segmentation
du signal acoustique et la transcription des mots prononcés étant produites manuellement, nous
avons la certitude que notre corpus sera parfaitement adapté à ce à quoi nous le destinons.
70
4.1. Données pour la reconnaissance automatique de la parole : le corpus TED-LIUM
4.1.3
Disponibilité et distribution du corpus
Nous avons, au début de l’année 2012, distribué librement notre corpus TED-LIUM sur Internet, afin qu’il soit utilisable par l’ensemble de la communauté scientifique. Celui-ci est actuellement téléchargeable gratuitement à l’adresse suivante : http://www-lium.univ-lemans.
fr/TED-LIUM sous la forme d’une archive compressée, d’une taille d’environ 20 gigaoctets.
Nous prévoyons également de le mettre à disposition sur le site communautaire VoxForge 10 qui
est un projet visant à collecter des enregistrement oraux de textes pour la reconnaissance de
la parole. L’ensemble des données distribuées est constitué des fichiers audio au format NIST
Sphere de toutes les présentations orales conservées lors de l’itération finale, accompagnés de
leurs fichiers de transcription alignés au format NIST STM ainsi que du corpus de développement également accompagné de ses transcriptions manuelles et du dictionnaire phonétisé
utilisé lors de l’apprentissage. Afin de rester dans le cadre légal, notre corpus est distribué sous
la même licence que les présentations TED, à savoir la licence Creative Commons AttributionNonCommercial-NoDerivs 3.0 Unported (CC BY-NC-ND 3.0) 11 .
10. http://www.voxforge.org/fr
11. http://creativecommons.org/licenses/by-nc-nd/3.0
71
Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage
4.2
Données pour la traduction automatique statistique
Après avoir décrit les données relatives à la composante reconnaissance automatique de la
parole dans la section précédente, nous allons maintenant détailler celles relatives à la composante traduction automatique. En traduction automatique, pour l’apprentissage des systèmes,
il est nécessaire de disposer de grandes quantités de données. Ces données sont systématiquement organisées en corpus parallèles, appelés bitexts, dans lesquels chaque phrase de la langue
source est alignée à sa traduction dans la langue cible, à raison d’une phrase par ligne. Le plus
souvent, ces corpus parallèles sont des données provenant d’organisations mondiales ou gouvernementales (ONU, Parlement Européen, ...). Nous présenterons dans un premier temps les
données utilisées pour l’apprentissage des systèmes, puis dans un second temps celles servant
au développement, aux réglages et au test des dits systèmes.
4.2.1
Données d’apprentissage parallèles
Dans un contexte de traduction automatique statistique, les données qui sont utilisées pour
l’apprentissage des systèmes sont avant tout des données textuelles, possédant peu de caractéristiques de la parole transcrite, encore moins de la parole spontanée. Généralement, ce sont
des textes d’articles de presse (comme par exemple le corpus News-Commentary), de rapports
d’organisations internationales (tel que le corpus un200x provenant de l’ONU), de textes extraits
depuis des sites internet multilingues (comme le corpus Gigaword 109 ) ou encore de comptesrendus de sessions parlementaires (à l’instar du corpus Europarl). Ces corpus ne sont donc
pas particulièrement adaptés à une tâche de traduction de la parole et bien qu’ils puissent être
utilisés à cet effet, il est indispensable de les traiter afin de les adapter.
Dans le cadre de la campagne d’IWSLT 2011, nous avons donc dû faire un choix parmi
les corpus qui étaient autorisés, puisque nous nous situions dans des conditions d’évaluation
contrainte. Parmi ceux-ci, un seul était parfaitement adapté au domaine de la tâche : le corpus
TED, fourni par les organisateurs, est composé de transcriptions manuelles des présentations du
site, ainsi que de traductions manuelles en français de ces présentations. Néanmoins, ce corpus
est de taille assez réduite (environ deux millions de mots) et ne suffit pas à l’élaboration d’un
système performant. Nous avons donc sélectionné les corpus en se basant sur leurs domaines
respectifs, et les avons tous conservés sauf un : le corpus un200x, dont les données, d’après les
expériences que nous avions conduites lors de l’édition précédente de la campagne IWSLT, sont
vraiment trop éloignées du domaine et le style d’écriture beaucoup trop formel pour être utilisé
en traduction de la parole.
À partir de ces corpus, nous avons appliqué notre outil de normalisation textuelle (voir la
section 4.1.1.1) afin de tous les transformer en pseudo-transcriptions de parole, ceci dans le
72
4.2. Données pour la traduction automatique statistique
but d’assurer la cohérence entre le système de reconnaissance de la parole et le système de
traduction automatique. Le tableau 4.7 reprend les caractéristiques de l’ensemble des données
disponibles pour notre système. Les données de la colonne « original » représentent les quantités
d’origine, tandis que les données de la colonne « traité » représentent les quantités une fois
normalisées. Le pourcentage donné est exprimé en nombre de phrases du corpus sur le nombre
de phrases totales. Les données en italique représentent les corpus qui n’ont pas été utilisés pour
le système.
Corpus
Phrases
TED
News-Commentary
Europarl
UN200x
Gigaword 109
TOTAL général
TOTAL utilisé
107 268
115 562
1 825 077
12 317 600
22 520 400
36 885 907
24 568 307
Mots anglais
(milliers)
Original
Traité
1 760
1 778
2 521
2 621
45 616
46 555
301 679
331 025
572 407
648 671
923 983 1 030 650
622 304
699 625
Mots français
(milliers)
Original
Traité
1 809
1 918
2 833
3 042
46 632
49 956
329 953
374 947
653 361
747 147
1 034 588 1 177 010
704 635
802 063
% de
phrases
0,30
0,31
4,95
33,39
61,05
100,00
66,61
TABLE 4.7 – Caractéristiques des corpus parallèles considérés.
Comme nous pouvons le constater, le corpus le plus intéressant pour notre système de
traduction de la parole (autrement dit celui qui est parfaitement dans le domaine), TED, ne
représente qu’une portion infime de l’ensemble des données (0,30% des phrases totales). Il
sera donc nécessaire, au moment de construire le système, de lui donner plus d’importance par
rapport aux autres corpus considérés en le pondérant d’une façon ou d’une autre.
4.2.2
Données de développement et de test
Pour la mise au point et le réglage de notre système de traduction automatique, nous avons
également produit des corpus de développement et de test dédiés au traitement de transcriptions
de parole. Nous avons pour cela repris la liste des transcriptions de présentations TED qui
composaient les corpus de développement et de test fournis par les organisateurs de la campagne
d’évaluation IWSLT de l’année précédente. Originalement, le texte de ces corpus provient des
transcriptions et traductions extraites du site TED par les organisateurs.
Concernant la partie anglaise (langue source) de ces corpus, nous avons souhaité qu’elle se
rapproche le plus possible de l’aspect des sorties produites par un système de RAP. Parallèlement, lors de la mise en place de la campagne d’évaluation IWSLT 2011, il a été demandé aux
participants de soumettre, sous forme de graphes de mots, les sorties de leurs systèmes de RAP
73
Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage
appliqués aux corpus issus de la campagne précédente. Les graphes de mots qui ont été produits
ont par la suite été anonymisés puis rendus publics et mis à la disposition des participants,
accompagnés de leurs scores respectifs. Nous avons donc, en plus de nos propres graphes de
mots, utilisé l’ensemble de graphes qui obtenait le meilleur score WER sur les trois soumissions
que nous avons pu tester.
Ces deux ensembles de graphes ont ensuite été fusionnés, sous la forme d’un réseau de
confusion, par un méthode qui consiste à normaliser les probabilités a posteriori de chacun des
graphes, à les concaténer en largeur puis à les transformer en réseaux de confusion à l’aide d’un
outil interne développé au LIUM. Les meilleures hypothèses de ces réseaux de confusion sont
extraites par consensus sur les probabilités a posteriori.
Concernant la partie française (langue cible) de ces corpus, nous avons repris les parties
françaises des corpus d’origine. Toutefois, comme pour les données parallèles d’apprentissage,
nous avons appliqué notre outil de normalisation afin d’assurer le plus de cohérence possible
entre tous les jeux de données utilisés.
À l’origine, les corpus de développement et de test des organisateurs d’IWSLT comprenaient
respectivement 934 phrases pour 7 présentations et 1664 phrases pour 11 présentations. Nous
avons modifié cette répartition des présentations entre les deux corpus, en réduisant le corpus
de test pour augmenter la taille de celui de développement, ceci dans le but de de disposer de
plus de données pour le processus de réglage du système. Nous nommons nos jeux de données
respectivement LIUM dev2010 pour le corpus de développement et LIUM tst2010 pour le corpus
de test.
Le tableau 4.8 indique les caractéristiques de ces corpus. Ce tableau reprend également, à
titre de comparaison, les caractéristiques des corpus originaux équivalents (identifiés IWSLT),
tels qu’ils étaient fournis lors de la campagne 2010 et par conséquent issus des sous-titres
originaux de TED. La différence qui existe en termes de quantité totale de mots pour une langue
entre les corpus originaux et les corpus identifiés LIUM s’explique :
– d’une part pour l’anglais, par le fait que nos corpus LIUM sont issus d’une combinaison
de système tandis que les corpus IWSLT correspondent à des références.
– d’autre part pour le français, par le fait que notre outil de normalisation est susceptible
d’induire ce genre de différence.
La figure 4.4 montre un exemple (en anglais) de différences entre le corpus de développement original normalisé (en haut) et notre corpus de développement basé sur le chemin optimal
des réseaux de confusion dont nous avons parlé précédemment (en bas). Les tirets marquent les
débuts de ligne tandis que les mots en gras marquent les erreurs de transcription.
74
4.2. Données pour la traduction automatique statistique
Corpus
IWSLT dev2010
IWSLT tst2010
LIUM dev2010
LIUMtst2010
TOTAL Original
TOTAL LIUM
Phrases
934
1664
2026
572
2 598
2 598
Mots anglais
17 988
27 952
36 165
8 798
45 940
44 963
Mots français
17 967
29 332
38 247
9 502
47 299
47 749
TABLE 4.8 – Caractéristiques des corpus de développement et de test.
- you know one of the intense pleasures of travel and one of the delights of ethnographic research is the
opportunity to live amongst those who have not forgotten the old ways who still feel their past in the wind
touch it in stones polished by rain taste it in the bitter leaves of plants
- just to know that jaguar shamans still journey beyond the milky way or the myths of the inuit elders still
resonate with meaning or that in the himalaya the buddhists still pursue the breath of the dharma is to
really remember the central revelation of anthropology and that is the idea that the world in which we live
in does not exist in some absolute sense but is just one model of reality the consequence of one
particular set of adaptive choices that our lineage made albeit successfully many generations ago
- and of course we all share the same adaptive imperatives
- we 're all born we all bring our children into the world
- you know one of the intense closures of travel in one of the delights of ethnographic research is the
opportunity to live amongst those who have not forgotten the old ways to still feel their pasts in the in
touch and stones caused by rain i tasted in the bitter leaves of plants
- just another jab were sharman still journey beyond the milky way or if the the myths of the new
would elders still resonate with meaning or that in the himalaya the buddha still pursue the breath of the
dharma is to really remember the central revelation of anthropology and that is the idea that the world in
which we live and does not exist in some absolute sense but is just one model of reality the
consequence of one particular set of adaptive choices that our lineage made i 'll be successfully many
generations ago
- and of course we all share the same adaptive imperatives
- we 're all born real bring your children into the world
F IGURE 4.4 – Exemple de différences entre le corpus de développement original et celui créé
au LIUM.
75
Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage
4.3
Données d’apprentissage monolingues pour la reconnaissance et la traduction
Nous avons décrit, au cours de ce chapitre, les diverses données qui ont été créées ou utilisées pour la construction des modèles acoustiques et du modèle de traduction. Néanmoins, ces
systèmes ne sauraient fonctionner efficacement sans une modélisation du langage efficace.
Généralement, deux types de corpus sont utilisés. Le premier type regroupe les corpus
monolingues spécifiques. Ceux-ci, bien que ressemblant fortement aux parties en langue source
(ou cible) des corpus parallèles, contiennent habituellement plus de données, du fait que les
données ayant rencontré un problème d’alignement pour produire les corpus parallèles sont
ici conservées. Le second type correspond justement aux parties des corpus parallèles dont la
langue nous intéresse pour la construction du modèle de langage visé.
Nous allons donc maintenant évoquer les données monolingues qui ont servi à la construction de ces modèles, que ce soit pour la reconnaissance ou la traduction.
4.3.1
Données pour la modélisation du langage en reconnaissance automatique de la parole
Pour construire le modèle de langage accompagnant notre système de reconnaissance automatique de la parole en anglais, nous avons utilisé une certaine quantité de données textuelles
dans cette langue. En plus de l’ensemble des données contenues dans les transcriptions originales de TED, de quantité supérieure à la partie anglaise du corpus parallèle, nous avons
utilisé plusieurs autres corpus en version monolingue : le corpus Europarl, le corpus NewsCommentary et le corpus News, n’existant qu’en version monolingue, et qui contient un très
grand nombre de données extraites d’articles journalistiques glanés sur Internet. Tous ces corpus
ont été normalisés à l’aide de notre outil dédié.
Le tableau 4.9 résume les caractéristiques des différents corpus utilisés.
Corpus
TED
News-Commentary
Europarl
News
TOTAL
Phrases
123 914
180 657
2 015 440
112 905 721
115 225 732
Mots
(milliers)
2 076
3 945
50 354
2 448 158
2 504 533
% de
phrases
0,11
0,16
1,75
97,98
100,00
TABLE 4.9 – Caractéristiques des corpus monolingues anglais pour la reconnaissance automatique de la parole.
76
4.3. Données d’apprentissage monolingues pour la reconnaissance et la traduction
4.3.2
Données pour la modélisation du langage en traduction automatique statistique
Concernant notre modèle de langage en français pour la traduction automatique statistique,
nous avons utilisé l’ensemble des corpus mis à notre disposition. Ces corpus ne sont pas les
parties françaises des corpus parallèles, mais les versions monolingues de chacun d’entre eux.
Nous avons également pris soin de les normaliser grâce à l’outil que nous avons développé.
Le tableau 4.10 détaille les caractéristiques de chacun de ces corpus. Le corpus nommé ccb2
correspond à un sous-ensemble du corpus Gigaword 109 qui a été nettoyé et filtré à l’aide de la
technique basée sur les coûts lexicaux de chacune des phrases, décrite dans [Schwenk 2011].
Corpus
TED
News-Commentary
Europarl
ccb2
UN200x
Gigaword 109
News
TOTAL
Phrases
107 268
115 562
1 825 077
7 473 624
12 317 600
22 520 400
24 963 359
69 322 890
Mots
(milliers)
1 970
3 122
51 251
258 402
385 035
763 204
562 756
2 025 740
% de
phrases
0,15
0,17
2,63
10,78
17,77
32,49
36,01
100,00
TABLE 4.10 – Caractéristiques des corpus monolingues français pour la traduction automatique
statistique.
77
Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage
4.4
Harmonisation des données
Un point important est la nécessité d’assurer une certaine harmonie et une certaine cohérence entre toutes les données utilisées pour l’apprentissage et le développement des systèmes
de RAP et de TAS. En effet, les différences de normalisation qui existent entre la reconnaissance automatique de la parole et la traduction automatique statistique, tant au niveau de la
façon de construire les systèmes qu’au niveau des sorties produites, font qu’il est difficilement
envisageable de combiner deux ce ces systèmes sans traitements préalables. De même, la reconnaissance automatique de la parole et la traduction automatique statistique ne s’évaluent pas de
la même manière et ces différences sont également visibles jusque dans les corpus de références
utilisées. Nous allons donc, dans cette dernière section, résumer les différentes dispositions qui
ont été prises afin de parvenir à cet objectif.
4.4.1
Cohérence dans la forme des données
Nous avons fait le choix, pour l’ensemble de notre système de traduction automatique de
la parole, de conserver le formalisme des transcriptions de reconnaissance, et de n’effectuer
la conversion vers le formalisme de la traduction, notamment la remise de la casse et de la
ponctuation, qu’à la fin du processus de traduction. La figure 4.5 présente, sous forme de texte
brut (les différents marqueurs et balises ayant été retirés) et avec les mêmes phrases, un exemple
de transcription de référence et sa traduction de référence associée.
Comme nous pouvons le constater sur cet exemple, il existe de nombreuses différences qu’il
est nécessaire de normaliser et que nous allons détailler ici :
• l’écriture des chiffres et nombres en toutes lettres. En effet, en reconnaissance automatique
de la parole, ils s’écrivent systématiquement de cette façon puisqu’ils sont prononcés. En
revanche, en traduction, bien qu’il arrive que certains soient également écrits de cette
manière, les conventions typographiques autorisent l’usage des chiffres lorsqu’il s’agit
par exemple de montants, d’années, de pourcentages, de surfaces, etc. Nous appliquons
donc invariablement une conversion en toutes lettres à l’aide de modules dédiés pour
l’anglais et le français.
• la casse présente en traduction mais absente en reconnaissance. En traduction, les noms
propres, les débuts de phrases, les abréviations respectent les conventions pour la casse,
les majuscules prenant tout leur sens. En reconnaissance, puisque nous traitons un flux
de parole, ces majuscules n’ont pas de raison d’être, c’est pour cela que nous passons
systématiquement la totalité du texte en minuscules.
78
4.4. Harmonisation des données
RAP
they created a one hundred and ten square kilometres fish farm bass mullet shrimp eel and in the
process miguel and this company completely reversed the ecological destruction
TAS
Ils ont créé une ferme piscicole de 110 km ² perche , mulet , crevette , anguille et dans ce
processus , Miguel et cette entreprise ont complètement inversé la destruction écologique .
but in fact the print date was the early nineteen eighties when i would have been starting primary
RAP school and forming an understanding of myself outside the family unit and as related to the other
kids and the world around me
Mais en fait , la date d' impression était au début des années 80 , au moment où je devais
TAS commencer l' école primaire et former une compréhension de moi-même en-dehors de la cellule
familiale et en rapport avec les autres enfants et le monde autour de moi .
now we have some pilot things that do this at the sixty to eighty percent level but getting up to a
RAP hundred percent that will be very tricky and agreeing on where these co two quantities should be
put will be hard but the toughest one here is this long term issue
Il y a des projets avancés permettant de réaliser cela à 60 à 80 % , mais arriver à 100 % , ça sera
TAS très délicat , et ce sera difficile de convenir de l' endroit où tout ce CO2 devrait être mis , mais le
plus dur est ici la question du long terme .
F IGURE 4.5 – Exemples de différences entre les références de reconnaissance automatique et
de traduction statistique.
• la ponctuation. Tout comme la casse, la ponctuation ne fait pas réellement sens en reconnaissance, bien que des travaux visent à déduire la ponctuation via la longueur des silences
par exemple [Stüker 2006] ou encore à l’aide d’automates à états finis [Shugrina 2010]
existent. Elle est donc, dans notre système, totalement retirée de tous les corpus utilisés,
puis remise en fin de processus à l’aide d’un système basé sur des tables de traduction,
similaire à [Paulik 2008]. Nous avons pour cela repris les travaux que nous avions initiés
sur ces aspects dans [Rousseau 2009].
• les abréviations, contractions et mots composés. En traduction, à l’écrit, des abréviations
telles que « km » pour kilomètre sont utilisées. En revanche, en reconnaissance, des facilités de langage telles que l’utilisation de la contraction « I’m » pour « I am » sont très
fréquemment rencontrées. Afin d’uniformiser toutes ces différences, le formalisme de
la parole est systématiquement utilisé, notamment dans la construction des abréviations
qui sont épelées à l’oral. De plus, concernant les mots composés, en reconnaissance, les
tirets ne sont pas toujours présents afin de maintenir le vocabulaire du système à une taille
raisonnable. Ceci évite d’avoir dans le dictionnaire phonétisé de nombreuses fois le même
préfixe ou suffixe répété dans de nombreux mots.
• les caractères spéciaux. En reconnaissance de la parole, les caractères spéciaux tels que le
« pourcent (%) », le « carré (2 ) » ou encore le signe « degré (˚) » sont transcrits en toutes
79
Chapitre 4. De la pertinence et de la cohérence des données d’apprentissage
lettres, alors que dans la grande majorité des cas ce seront les symboles qui seront présents
en traduction. Nous avons donc, à l’aide d’une liste qui se veut exhaustive (tout au moins
pour les cas rencontrés dans nos corpus), converti tous ces symboles dans leur forme
écrite, la plus fréquente lorsque plusieurs étaient possibles.
4.4.2
Cohérence dans le choix des mots
Un dernier aspect important au niveau de la cohérence des données concerne le vocabulaire
qui sera utilisé dans la construction du système. En effet, plusieurs aspects de celle-ci, comme
l’apprentissage des modèles acoustiques et l’estimation des modèles de langage, utilisent un
vocabulaire bien défini.
Pour notre système, nous avons d’un côté fait le choix d’utiliser, de façon générale, une base
composée premièrement de l’ensemble des mots rencontrés dans le corpus TED, phonétisés de
manière automatique (voir la section 5.2.2.1), afin de former un premier dictionnaire phonétisé.
Cette liste a ensuite été enrichie des mots du dictionnaire phonétisé de CMU (CMUdict) dans
sa version 0.7a 12 . Nous avons également ajouté les mots des transcriptions du corpus de parole
HUB4, décrit précédemment, également phonétisés de façon automatique.
Le vocabulaire final, utilisé à la fois dans sa version phonétisée pour l’apprentissage des
modèles acoustiques et dans sa version normale pour l’estimation du modèle de langage pour
la reconnaissance de la parole comprend un total de 141 297 mots pour 153 399 couples
[mot, phonétisation].
Enfin, pour la modélisation du langage en langue française, nous avons considéré l’ensemble
des mots du corpus parallèle TED, afin de garder la cohérence avec d’un part la composante
reconnaissance automatique de la parole de notre système et d’autre part le domaine inhérent à
la tâche de traduction qui nous importe.
Nous avons donc exposé, au cours de ce chapitre, les divers jeux de données qui ont été soit
créés, soit considérés, pour la construction de nos systèmes. Nous avons également souligné leur
importance, ainsi que la nécessité qu’il y a à conserver voire imposer une certaine cohérence
dans leur ensemble. Nous allons maintenant, dans le prochain chapitre, décrire de quelle façon
nos systèmes ont été construits.
12. http://www.speech.cs.cmu.edu/cgi-bin/cmudict
80
Chapitre 5
De la mise en œuvre d’un système de
traduction de la parole anglais - français
Sommaire
5.1
Architecture globale . . . . . . . . . . . . . . . . . . . . . . . . . . .
83
5.2
Système de reconnaissance automatique de la parole en anglais . . .
86
5.2.1
Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . .
86
5.2.2
Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . .
88
5.2.2.1
Construction du dictionnaire phonétisé d’apprentissage
88
5.2.2.2
Modélisation acoustique pour l’anglais . . . . . . . .
88
5.2.2.3
Modélisation du langage pour l’anglais . . . . . . . .
90
Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
91
5.2.3.1
Construction du vocabulaire de décodage . . . . . . .
91
5.2.3.2
Segmentation . . . . . . . . . . . . . . . . . . . . . .
92
5.2.3.3
Transcription multi-passes . . . . . . . . . . . . . . .
93
Système de traduction automatique de la parole anglais - français . .
94
5.3.1
Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
5.3.2
Apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . . .
94
5.2.3
5.3
5.3.3
5.3.2.1
Modélisation de la traduction de l’anglais vers le français 94
5.3.2.2
Modélisation du langage pour le français . . . . . . .
97
Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
98
5.3.3.1
Traitement des graphes de mots de la reconnaissance
de la parole . . . . . . . . . . . . . . . . . . . . . . .
5.4
98
Remise de la casse et de la ponctuation . . . . . . . . . . . . . . . . . 100
5.4.1
Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4.2
Modélisation de la traduction . . . . . . . . . . . . . . . . . . . 100
81
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
5.5
5.4.3
Modélisation du langage . . . . . . . . . . . . . . . . . . . . . . 101
5.4.4
Décodage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Expérimentations et évaluation des systèmes . . . . . . . . . . . . . . 103
5.5.1
5.5.2
82
Expérimentations et évaluations internes . . . . . . . . . . . . . 103
5.5.1.1
Sur la reconnaissance de la parole . . . . . . . . . . . 103
5.5.1.2
Sur la traduction automatique . . . . . . . . . . . . . 104
5.5.1.3
Sur la remise de la casse et de la ponctuation . . . . . 107
Évaluation officielle : la campagne IWSLT 2011 . . . . . . . . . 108
5.1. Architecture globale
a construction de systèmes, qu’ils soient de reconnaissance de la parole, de traduction
automatique ou, combinant les deux, de traduction de la parole est un processus souvent
long, pouvant parfois nécessiter plusieurs années de mise au point et d’itérations successives
afin de parvenir à des résultats satisfaisants. De plus, c’est une entité dynamique, qui peut sans
cesse être repensée, enrichie de nouveaux traitements et théories et régulièrement recevoir des
évolutions.
L
Après avoir évoqué les questions de la pertinence et de la cohérence des données, nous
allons, au cours de ce chapitre, décrire les procédés mis en œuvre afin de construire notre
système de traduction de la parole. Dans un premier temps, nous nous intéresserons à l’architecture globale du système. Ensuite, nous détaillerons plus avant la construction du système
de reconnaissance automatique de la parole en anglais. Nous poursuivrons avec la mise en
place du système de traduction automatique statistique de l’anglais vers le français, adapté à la
traduction de la parole. Puis nous verrons de quelle façon nous avons mis en œuvre le système
nous permettant de redonner aux traductions produites une allure plus proche de celles que l’on
rencontre en traduction de textes classiques. Enfin, nous présenterons les différents résultats
obtenus à l’aide de notre système, que ce soit en évaluation interne ou au cours de la campagne
d’évaluation IWSLT 2011 à laquelle nous avons participé.
5.1
Architecture globale
Notre système de traduction de la parole anglaise vers le français se décompose en trois
éléments majeurs, qui combinés entre eux permettent de constituer le système proprement dit :
– le système de reconnaissance automatique de la parole en anglais, basé sur les précédents
travaux du LIUM concernant la reconnaissance du français, s’articule autour de la suite
d’outils open-source de CMU, Sphinx [Lee 1990], et des modifications qui y ont été
apportées par le LIUM [Deléglise 2009],
– le système de traduction automatique statistique de l’anglais vers le français, qui lui repose sur les composants logiciels open-source Moses pour la traduction [Koehn 2007] et
sur des extensions pour le modèle de langage à espace continu [Schwenk 2007],
– et enfin le système de remise de la casse et de la ponctuation, qui se base sur des tables
de traduction également créées grâce à Moses.
Ces trois composantes peuvent être modulées de plusieurs manières afin d’assurer un couplage plus ou moins étroit. Ce couplage est fortement lié à la quantité d’informations produite
en sortie d’un système pour être utilisé en entrée dans un autre. En effet, le couplage le plus
simple consiste à ne considérer à chaque fois que la meilleure hypothèse, c’est-à-dire que la
meilleure hypothèse de reconnaissance automatique, une fois assemblée sous forme de phrase
83
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
(typiquement il s’agira de mettre bout à bout l’ensemble des mots du segment considéré), sera
utilisée en entrée du système de traduction, qui lui-même produira ce qu’il considère être la
meilleure hypothèse de traduction. Celle-ci sera ensuite traitée afin de retrouver la casse et la
ponctuation manquante.
Un autre couplage consiste à considérer une liste de meilleures hypothèses de reconnaissance (de l’ordre de cent ou mille, par exemple), qui peuvent être réévaluées entre chaque
composante du système afin d’y appliquer une pondération et fournissent par ailleurs plus de
variété dans les choix de traductions possibles, créant par-là même un couplage plus étroit.
Il est également possible, grâce aux outils que nous utilisons, de traiter, après une conversion
de format, les graphes de mots produits par le système de reconnaissance afin de les traduire
et d’en extraire une ou plusieurs hypothèses. Ces graphes peuvent également être réduits en
réseaux de confusion et traités sous cette forme. Cela constitue un couplage beaucoup plus
étroit, puisque l’on pourra de cette manière conserver une grande partie de l’espace de recherche
tout au long des traitements afin de reporter au maximum la décision finale sur la meilleure
hypothèse à conserver.
La figure 5.1 présente l’architecture globale de notre système, laissant ainsi apparaître les
possibilités de couplage qui lui sont possibles. Les flèches noires fines représentent le flux des
données à traiter, avec les différentes entrées et sorties possibles. Les flèches grises plus grosses
représentent le flux des données utilisées pour la construction des systèmes. Pour chaque composante, il est de plus indiqué la condition du texte utilisé (avec ou sans casse, avec ou sans
ponctuation).
84
5.1. Architecture globale
Signal acoustique
anglais
Corpus
acoustique
anglais
Modèles
acoustiques
Corpus
monolingues
anglais
Meilleure
hypothèse
Liste de nmeilleures
Corpus
parallèles
anglais /
français
CMU
Sphinx
Modèle de
langage
Graphe de
mots
Modèle de
traduction
Corpus
monolingues
français
Corpus
parallèles
français /
français
Liste de nmeilleures
Traduction
- Pas de casse
- Pas de ponctuation
Modèle de
langage +
CSLM
Graphe de
mots
Réseau de
confusion
Remise de la
casse et de la
ponctuation
Modèle de
traduction
Moses
Corpus
monolingues
français
- Pas de casse
- Pas de ponctuation
Réseau de
confusion
Moses
Meilleure
hypothèse
Reconnaissance
Modèle de
langage
- Casse et ponctuation
du côté cible des
corpus parallèles
- Corpus monolingues
avec casse et ponctués
Meilleure
hypothèse
Liste de nmeilleures
F IGURE 5.1 – Représentation de l’architecture globale du système de traduction de la parole du
LIUM.
85
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
5.2
Système de reconnaissance automatique de la parole en
anglais
Le système que nous avons développé pour la reconnaissance de la parole anglaise se base
sur les précédents travaux du LIUM concernant la reconnaissance du français. Tous deux ont
été développés à l’aide du décodeur CMU Sphinx que nous avons déjà évoqué lors du chapitre
précédent. Celui-ci est distribué sous licence libre depuis 2001, permettant à quiconque de
modifier le code source. Le LIUM lui a apporté de nombreuses modifications et améliorations
[Deléglise 2005, Deléglise 2009], dont certaines ont par la suite été redistribuées à la communauté scientifique. En outre, grâce aux ajouts apportés, le décodage est réalisé via des passes
multiples, améliorant ainsi les performances par rapport à un système à passe unique.
5.2.1
Architecture
Nous utilisons deux versions différentes de CMU Sphinx pour construire nos systèmes :
– Sphinx-3, cette version a pour but de permettre la meilleure précision possible dans le
processus de décodage. Se basant sur les modèles de Markov continus, elle a longtemps
été la version de référence du décodeur de CMU et est entièrement codée en langage C
[Placeway 1997, Ravishankar 2000].
– Sphinx-4, cette version consiste en une implémentation d’un décodeur en langage Java
décrit dans [Walker 2004], avec l’objectif d’être au moins aussi performante que la version précédente. Néanmoins, elle ne constitue pas une copie de Sphinx-3 simplement
transposée dans un autre langage de programmation : en effet, en termes de génie logiciel,
la conception est très différente et permet d’obtenir un décodeur très modulaire.
Toutefois, ces deux versions utilisent les mêmes formats de modèles acoustiques et de modèles de langage.
Le système du LIUM pour la transcription d’émissions radiophoniques en français a été
développé pour la campagne d’évaluation ESTER 2, qui s’est déroulée en novembre 2008
(voir 3.2.1.2). Celui pour la transcription de présentations scientifiques en anglais a quant à
lui été développé sur les mêmes principes de base en vue d’une participation à la campagne
d’évaluation IWSLT 2011 qui a eu lieu en septembre 2011 (voir 3.3.2).
La figure 5.2 présente de façon globale l’architecture du système du LIUM pour la transcription de présentations scientifiques en anglais, reprise d’après une figure présentant l’architecture du système pour la transcription d’émissions radiophoniques en français extraite de
[Estève 2009]. Nous pouvons y voir la création des ressources nécessaires au système (l’apprentissage) ainsi que le processus de transcription (le décodage).
86
5.2. Système de reconnaissance automatique de la parole en anglais
Apprentissage
Textes
(web, articles...)
Transcriptions manuelles
automatiquement alignées
Enregistrements
audio de parole
Vocabulaire
CMUdict 0.7a
+
Festival
SRILM toolkit
SphinxTrain
+
ajouts LIUM
Phonétisation
Estimation des MA
Ressources
Estimation des ML
Modèles de langage
Dictionnaire phonétisé
Transcription
Segmentation LIUM +
Regroupement en
locuteurs
Adaptation acoustique
MFCC
Paramétrisation
Sphinx
+
ajouts LIUM
Modèles acoustiques
PLP
Décodeur CMU Sphinx
+
Ajouts LIUM
(système multi-passes)
CMLLR LIUM
Sorties du système
Signal de parole
Meilleure
hypothèse
Graphe de
mots
Liste de nmeilleures
Réseau de
confusion
F IGURE 5.2 – Architecture globale du système du LIUM pour la transcription de présentations
scientifiques en anglais, d’après [Estève 2009].
87
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
5.2.2
Apprentissage
5.2.2.1
Construction du dictionnaire phonétisé d’apprentissage
La construction d’un dictionnaire phonétisé pour l’apprentissage des modèles acoustiques
est une étape essentielle du développement d’un système de reconnaissance de la parole. Il se
différencie du dictionnaire phonétisé de décodage (voir 5.2.3.1) par le fait qu’il n’a pas nécessairement besoin de contenir un grand nombre de mots et leurs variantes. En effet, seul l’ensemble
des mots utilisés dans les transcriptions accompagnant les données acoustiques d’apprentissage
sont requis pour créer les modèles acoustiques. À l’inverse, pour le décodage, il est possible
d’utiliser beaucoup plus de mots : une fois le système créé, les phonèmes sont bien appris, et le
décodeur, via les modèles acoustiques est plus enclin à les associer pour décoder de nouveaux
mots.
Pour l’apprentissage de nos systèmes finaux et pour la construction du corpus d’apprentissage TED, nous avons pris comme base de départ l’ensemble des mots contenus dans nos
transcriptions extraites du site. Afin de les phonétiser, nous avons utilisé le système de synthèse
vocale Festival 13 configuré pour fournir en sortie une liste de phonèmes pour chaque mot
en entrée. À cela, nous avons ajouté la totalité des mots contenus dans les transcriptions du
corpus de broadcast news HUB4 [Pallett 1997] qui n’étaient pas déjà dans la liste des mots des
transcriptions TED et nous les avons phonétisés de la même manière. Nous y avons également
ajouté l’ensemble des mots du dictionnaire de CMU CMUdict. Ce dictionnaire est composé
de 133 315 couples [mot, phonétisation], phonétisés manuellement. Puisque nous disposions
de plusieurs listes phonétisées de manières différentes, nous avons effectué l’union de cellesci en conservant tous les couples [mot, phonétisation] existants. Le dictionnaire ainsi obtenu
contenait 141 297 mots pour un total de 153 399 mots couples [mot, phonétisation].
5.2.2.2
Modélisation acoustique pour l’anglais
Les modèles acoustiques utilisés par notre système de reconnaissance en anglais, basés sur
des modèles de Markov cachés, emploient un ensemble de 39 phonèmes de l’anglais, ainsi
qu’un silence et huit types de fillers, ces éléments sonores qui ne sont pas des phonèmes
constituant les mots (un bruit, une inspiration, une toux, ...). Tous ces phonèmes, à l’exception
des fillers, se définissent en contexte, c’est-à-dire que leur modélisation se fait en fonction des
phonèmes gauche et droit (concept de triphone) ainsi qu’en fonction de leur position dans le
mot, qu’ils soient au début, à la fin, au milieu ou encore isolé.
À partir du signal audio, un total de trente-neuf paramètres acoustiques par trame sont
extraits et traités pour la modélisation : ces descripteurs sont issus d’une analyse de signal
13. http://www.cstr.ed.ac.uk/projects/festival
88
5.2. Système de reconnaissance automatique de la parole en anglais
de type MFCC (voir 1.1.2). Il s’agit des douze vecteurs de caractéristiques, d’un descripteur de
l’énergie (soit treize descripteurs), ainsi que de leurs dérivées premières et secondes.
De plus, différents ensembles de modèles cohabitent au sein de notre système. Chacun
de ces ensembles est orienté pour se spécialiser en fonction du genre de bande passante rencontrée : bande large (BL) – également appelée studio – ou bande étroite (BE), également
appelée téléphone. La spécialisation s’effectue aussi en fonction du genre du locuteur, homme
ou femme. L’adaptation des modèles est faite au moyen de la technique MAP (voir 1.1.3.4) sur
les moyennes, les covariances et les poids des gaussiennes.
Comme nous l’avons déjà évoqué, notre système se base sur les précédents travaux réalisés
au LIUM sur le décodage du français [Deléglise 2009], notamment pour le fonctionnement en
passes multiples. Ceci nous permet de distinguer deux grandes familles de modèles en fonction
de la passe au cours de laquelle ils sont utilisés :
1. en première passe, nos modèles se composent de 6 500 états partagés, chacun de ces états
se modélisant par une mixture de vingt-deux gaussiennes.
2. en seconde passe, ceux-ci se composent de 7 500 états, toujours modélisés par une mixture
de vingt-deux gaussiennes. En revanche, ils sont estimés par un apprentissage de type
SAT (Speaker Adaptive Training) [Anastasakos 1997] assorti à un apprentissage discriminant de type MPE (Minimum Phone Error) [Povey 2002]. De plus, une matrice de
transformation CMLLR (voir 1.1.3.4) est calculée pour chaque locuteur et appliquée sur
les paramètres acoustiques de chacun d’entre eux.
En plus de cette modélisation, nous utilisons également un perceptron multi-couches (ou
MLP, Multi-Layer Perceptron), dont la figure 5.3 est une illustration. Pour l’extraction des
paramètres, nous utilisons la technique du goulot de bouteille (Bottle-neck) notamment décrite
dans [Grézl 2008].
Pour la phase d’apprentissage de notre système, le MLP que nous utilisons présente deux
couches cachées en plus des couches d’entrée et de sortie. La couche d’entrée contient 351 neurones : en effet, nous utilisons en entrée une concaténation de neuf trames comprenant chacune
trente-neuf paramètres acoustiques (9 × 39 = 351). La couche de sortie en contient 123 : trois
états par phonème, 40 phonèmes plus une classe pour les fillers. Entre les deux, la première
couche cachée contient 4 000 neurones et la seconde 40, soit un par phonème. L’apprentissage
des paramètres du MLP est réalisé à l’aide des bibliothèques QuickNet de ICSI 14 .
Enfin, pour le réglage des poids des modèles au sein de notre système, nous utilisons
l’optimiseur mathématique CONDOR (COnstrained, Non-linear, Direct, parallel Optimization
using trust Region method for high-computing load function) [Vanden Berghen 2005] afin de
14. http://www.icsi.berkeley.edu/Speech/qn.html
89
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
Couche
d'entrée
1ère couche 2ème couche
cachée
cachée
Couche
de sortie
F IGURE 5.3 – Exemple de perceptron multi-couches.
déterminer les poids optimaux concernant le modèle de langage, les fillers, les silences et la
pénalité d’insertion de mots.
5.2.2.3
Modélisation du langage pour l’anglais
Les modèles de langage de notre système de reconnaissance de la parole sont, comme pour
la plupart des systèmes actuels, des modèles n-grammes. Deux sortes de modèles sont employés,
selon la passe en cours du système (voir 5.2.3.3) :
– pour les trois premières passes, ce sont des modèles trigrammes,
– pour les deux dernières passes, ce sont des modèles quadrigrammes.
L’estimation de nos modèles se fait au moyen de la technique de lissage de Kneser-Ney
modifiée [Chen 1996] avec repli et interpolation des N-Grammes d’ordre inférieur. De plus,
aucun cut-off (élagage des N-Grammes très peu fréquents) n’est appliqué. Les données utilisées
sont décrites dans la section 4.3.1. Pour générer nos modèles trigrammes ou quadrigrammes
finaux, nous estimons en premier lieu un modèle (respectivement trigramme ou quadrigramme)
par corpus monolingue considéré. Puis, à l’aide de notre corpus de développement approprié,
nous calculons les coefficients d’interpolation optimaux grâce à l’algorithme EM en vue de
minimiser la perplexité du modèle final sur ce corpus. Toutes ces manipulations sont réalisées
via l’ensemble d’outils pour la modélisation du langage SRILM [Stolcke 2002]. Le tableau 5.1
90
5.2. Système de reconnaissance automatique de la parole en anglais
présente les coefficients d’interpolation appliqués aux corpus pour l’estimation des modèles
respectivement trigramme et quadrigramme. Il est très intéressant de noter que malgré sa très
petite taille (0,11% de l’ensemble des données), le corpus TED reçoit le plus grand coefficient
d’interpolation, ce qui montre bien la forte adéquation de ce corpus par rapport à la tâche considérée. La perplexité des modèles finaux est respectivement de 151 pour le modèle trigramme
et 139 pour le modèle quadrigramme sur le corpus de développement LIUM dev2010, décrit au
chapitre précédent.
Corpus
TED
News-Commentary
Europarl
News
TOTAL
Nb mots
(milliers)
2 076
3 945
50 354
2 448 158
2 504 533
Trigramme
Coefficient Perplexité
0,5984
197
0,0125
451
0,0425
490
0,3466
221
1
151
Quadrigramme
Coefficient Perplexité
0,5616
193
0,0124
444
0,0489
471
0,3771
203
1
139
TABLE 5.1 – Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage trigrammes et quadrigrammes pour la RAP.
5.2.3
Décodage
5.2.3.1
Construction du vocabulaire de décodage
La constitution du vocabulaire de décodage d’un système s’avère être une étape très importante dans le processus de construction d’un système de reconnaissance automatique de
la parole. En effet, le choix des mots et leur phonétisation contribue en grande partie aux
performances d’un tel système. Dans notre cas, nous avons choisi une approche similaire à
[Allauzen 2004], se décomposant de la façon suivante :
1. estimer autant de modèles de langage unigrammes que le nombre de corpus monolingues
dont nous disposons,
2. à partir du corpus de développement choisi, ici celui qui a été décrit dans la section 4.1.2,
estimer les coefficients d’interpolation entre ces modèles de langage unigrammes en vue
d’obtenir une perplexité minimale sur ce corpus. Ce calcul de coefficients se fait grâce à
l’algorithme EM (voir 1.1.3.1).
3. estimer le modèle unigramme global interpolé,
4. après avoir ordonné les mots du modèle unigramme interpolé dans l’ordre décroissant de
leur probabilité, en extraire les N mots les plus probables, N étant la taille souhaitée pour
le vocabulaire du système.
91
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
La taille fixée pour notre dictionnaire de décodage était de 150 000 mots. Comme pour le
dictionnaire phonétisé d’apprentissage, nous y avons ajouté l’ensemble des mots des corpus
TED et HUB4. De ce fait, le taux de mots hors-vocabulaire sur notre corpus de développement
est de 0 %. Au total, celui-ci contient 157 617 mots. De plus, afin d’assurer la liaison entre le
niveau lexical et le niveau acoustique du système, il est indispensable d’associer à chacun de ces
mots une séquence d’unités acoustiques de base (phonèmes) [Strik 1999]. Notre système pour
l’anglais utilise le jeu standard de 39 phonèmes pour l’anglais, plus un phonème représentant
un silence. Afin de phonétiser notre vocabulaire, nous avons procédé ainsi :
1. si le mot existe déjà dans notre dictionnaire phonétisé d’apprentissage, nous le conservons
et l’ajoutons, ainsi que ses éventuelles variantes,
2. s’il existe dans le dictionnaire CMUdict dans sa version 0.7a, nous utilisons la ou les
phonétisations proposées par celui-ci,
3. enfin, si le mot n’a pu être trouvé lors des deux étapes précédentes, nous produisons
une phonétisation automatique à l’aide de l’outil pour la synthèse vocale Festival (voir
5.2.2.1).
5.2.3.2
Segmentation
Afin de ne décoder que les zones contenant de la parole, il est nécessaire de définir les
frontières de ces segments sur le signal acoustique. De cette façon, il devient possible d’écarter
du processus de décodage les zones ne contenant pas du tout de parole, par exemple de la
musique, dans le but de limiter au maximum les erreurs de type insertion de mots. Ce processus
de segmentation consiste en un découpage du signal en zones homogènes, que ce soit en termes
de largeur de bande (étroite ou large), de genre (homme ou femme) ou de locuteur. La précision
d’un tel découpage doit être extrêmement importante, notamment en ce qui concerne le genre
et la largeur de bande, puisque les modèles acoustiques utilisés par notre système de reconnaissance sont spécialisés en fonction de ces critères. Le système de segmentation en locuteurs
développé au sein du LIUM se base sur le Critère d’Information de Bayes (BIC, Bayesian
Information Criterion) [Chen 1998] et propose une segmentation en trois étapes :
1. décomposition du signal en petits segments homogènes,
2. regroupement de ces segments en classes de locuteurs (un locuteur par classe) sans modifier les frontières par une classification hiérarchique,
3. ajustement des frontières par un décodage Viterbi.
De plus, les segments de parole sont limités à 20 secondes, les segments trop longs étant
découpés au moyen d’une détection de silences. Ce système, initialement été développé pour la
campagne d’évaluation ESTER 1, est décrit en détails dans [Meignier 2010].
92
5.2. Système de reconnaissance automatique de la parole en anglais
5.2.3.3
Transcription multi-passes
Comme nous l’avons déjà souligné en introduction de cette section, le système de reconnaissance automatique de la parole du LIUM procède au décodage du flux de parole en passes
multiples. Nous entendons comme passe le fait d’employer un algorithme de recherche afin de
manipuler le produit d’une passe précédente et de proposer une hypothèse de reconnaissance.
Elles sont au nombre de cinq :
1. dans la première passe, un traitement utilisant la version 3.7 du décodeur rapide de CMU
Sphinx-3 est appliqué sur les paramètres acoustiques PLP du signal acoustique à décoder.
Le décodeur utilise ici un modèle de langage trigramme et des modèles acoustiques adaptés en locuteur et en largeur de bande via la méthode MAP. Cela permet d’extraire de ces
paramètres la meilleure hypothèse ;
2. dans la seconde passe, une matrice de transformation CMLLR est calculée sur les mêmes
paramètres acoustiques afin de les adapter au second jeu de modèles acoustiques, estimés
à l’aide des méthodes SAT et MPE. Le traitement est toujours réalisé via le décodeur
rapide de CMU Sphinx-3. Le modèle de langage trigramme est quant à lui repris de la
première passe. Le système produit alors comme hypothèse de sortie un graphe de mots ;
3. au cours de la troisième passe, nous utilisons le perceptron multi-couches estimé lors
de l’apprentissage des modèles acoustiques, amputé de sa dernière couche, la seconde
couche cachée de quarante neurones décrite précédemment devenant alors la couche
de sortie. Pour le décodage, une transformation par analyse en composantes principales
(PCA, Principal Component Analysis) est appliquée sur ces quarante paramètres de sortie
puis deux flux sont décodés : le premier se compose de ces quarante paramètres transformés tandis que le second est fait des trente-neuf paramètres PLP standard. Les vraisemblances de ces deux flux sont pondérées afin d’obtenir une dynamique de vraisemblance
similaire à celle d’un flux de PLP simple. L’hypothèse de sortie est produite sous la forme
d’un graphe de mot ;
4. lors de la quatrième passe, les scores linguistiques des graphes de mots obtenus à l’issue
de la passe précédente sont recalculés à l’aide d’un modèle de langage quadrigramme ;
5. enfin, lors de la cinquième et dernière passe, les graphes de mots réévalués pendant la
passe précédente sont transformés en réseaux de confusion. Une variante de la méthode de
consensus, présentée dans [Mangu 2000], est ensuite appliquée, ce qui permet d’obtenir
l’hypothèse finale du système et de disposer pour chaque mot de probabilités a posteriori
pouvant être employées comme mesures de confiance.
93
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
5.3
Système de traduction automatique de la parole anglais français
Le système de traduction automatique statistique que nous avons développé au LIUM dans
le but de traduire en français les transcriptions de parole produites par notre système de reconnaissance de l’anglais se base sur le décodeur open-source Moses. Nous allons dans cette section
décrire notre système, de son architecture générale à la phase d’apprentissage des modèles, puis
au décodage.
5.3.1
Architecture
Nous utilisons plusieurs outils afin de construire notre système :
– pour l’alignement mot-à-mot (voir 1.2.2.1), nous utilisons l’outil GIZA++ dans sa version
multi-thread [Gao 2008],
– pour l’apprentissage du modèle de traduction et le décodage, nous utilisons l’ensemble
d’outils Moses,
– enfin pour l’estimation des modèles de langage, tout comme pour la reconnaissance de
la parole, nous employons les outils de SRILM. Nous utilisons également en complément
l’outil du LIUM 15 pour les modèles de langage à espace continu (CSLM) décrit notamment dans [Schwenk 2010].
Notre système a été spécifiquement développé pour la campagne d’évaluation IWSLT 2011
en parallèle de notre système de transcription, et par conséquent est également fortement orienté
vers la traduction de transcriptions de présentations scientifiques, bien qu’il puisse aussi être
utilisé comme un système générique.
La figure 5.4 présente l’architecture globale de notre système de traduction.
5.3.2
Apprentissage
5.3.2.1
Modélisation de la traduction de l’anglais vers le français
La première étape dans la modélisation de la traduction sera de préparer les textes parallèles
d’apprentissage dont nous disposons (voir 4.2.1) afin qu’ils soient formatés de façon convenable. Globalement, il s’agira tout d’abord de retirer des corpus les phrases trop longues (généralement, la limite est fixée à cent mots) et de les « tokeniser », c’est-à-dire de bien séparer le flux
de texte en unités atomiques, autrement dit en mots. Pour la plupart des langues, cela consistera
simplement en la séparation de la ponctuation (insertion d’espaces) et des mots comportant des
15. http://www-lium.univ-lemans.fr/cslm
94
5.3. Système de traduction automatique de la parole anglais - français
Corpora
parallèles
Apprentissage
Textes
(web, articles...)
Langue cible
Vocabulaire
MGIZA++
Moses
(scripts
d'apprentissage)
SRILM toolkit
Alignement
Estimation du MT
Estimation du ML
Ressources
Langue source
Modèle de langage
Paires de séquences
Modèle de traduction
Optimisation des
paramètres
Décodeur Moses
Tokenisation
Traduction
MERT
Sorties du système
Texte à traduire
Meilleure
hypothèse
CSLM
Meilleure
hypothèse
Graphe de
mots
Liste de nmeilleures
Réseau de
confusion
F IGURE 5.4 – Architecture globale du système du LIUM pour la traduction de transcriptions de
parole dans un contexte de présentations scientifiques.
95
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
apostrophes (comme « aujourd’hui » en français qui deviendra « aujourd’ + hui » ou « I’m »
en anglais qui deviendra « I + ’m »). Pour d’autres langues n’utilisant pas l’alphabet latin, tel
que l’arabe ou le chinois, il sera nécessaire de segmenter le flux de caractères en mots tout en
prenant soin d’éviter les ambiguïtés. Dans les deux cas, le but de cette opération est de limiter
au maximum la liste des mots du système afin qu’un même mot ne soit pas dépendant de la
ponctuation qui l’entoure, par exemple.
À partir de ces textes parallèles préparés, nous procédons d’abord à la phase d’alignement
mot-à-mot pour chaque paire de phrases dans les corpus à l’aide de l’outil dédié MGIZA++.
Afin de pouvoir par la suite en extraire les paires de séquences nécessaires à l’estimation du
modèle de traduction, il est nécessaire de réaliser l’alignement dans les deux sens de traduction,
à savoir aligner les mots de l’anglais avec ceux du français et vice versa.
L’étape suivante consiste en l’extraction des paires de séquences de mots qui constitueront
la table de traduction finale. Pour cela, un algorithme d’extraction est utilisé, dont le fonctionnement global est, à partir des alignements bidirectionnels, de passer en revue toutes les séquences
en langue source d’une phrase donnée et de déterminer la séquence minimale en langue cible
qui correspond à chacune d’entre elles. La correspondance se fait en identifiant tous les points
d’alignement de la séquence source puis en trouvant la séquence cible la plus courte qui inclut
toutes les traductions des mots de la séquence source. Néanmoins, trois conditions doivent être
pris en compte :
– si la séquence source ne contient que des mots non-alignés, on ne cherchera pas à la faire
correspondre dans la phrase cible,
– si la séquence cible minimale correspondante contient des points d’alignements situés en
dehors de la séquence source, cette paire de séquences ne peut être extraite,
– si la séquence cible est entourée de mots non-alignés avec la séquence source, elle est
étendue à ces mots et constitue alors une nouvelle traduction possible de la séquence
source.
Par conséquent, en regard de ces conditions, il est possible de considérer les points d’alignement comme des contraintes pour l’extraction des séquences : moins il y aura de points
d’alignement, plus il sera possible d’extraire de séquences différentes. L’estimation des probabilités de traduction pour chacune de ces paires de séquences est ensuite réalisée. Pour cela,
nous utilisons les comptes des fréquences relatives via le formalisme présenté dans l’équation
1.15 exposée au cours du chapitre 1.
Les dernières étapes de la modélisation de la traduction consistent en un calcul de la pondération lexicale, de la pénalité de mot et de séquence, puis de l’estimation du modèle de
réordonnement (cf. 1.2.3.2).
96
5.3. Système de traduction automatique de la parole anglais - français
Au total, notre système et sa modélisation de la traduction utilisent quatorze fonctions caractéristiques (feature functions). Les voici résumées ici :
– quatre features pour les probabilités lexicales et de traduction dans les deux sens de
direction,
– sept features pour le modèle de distorsion lexicalisé,
– une feature pour la pénalité de mot,
– une feature pour la pénalité de séquence,
– une feature pour le modèle de langage.
Le réglage et l’optimisation des fonctions caractéristiques du système sont réalisés à l’aide
de l’algorithme MERT (voir 1.2.4.1), modifié afin de proposer trois optimisations différentes, ce
qui nous permet de prendre la meilleure des trois et ainsi éviter plus facilement le phénomène
de maximum local pouvant se produire. Le corpus de développement sur lequel a été faite cette
optimisation est le même que celui utilisé pour le système de reconnaissance de la parole, en
vue d’assurer la consistance de notre architecture globale.
5.3.2.2
Modélisation du langage pour le français
À nouveau, notre modèle de langage en français pour la traduction est un modèle N-Gramme,
plus précisément quadrigramme, estimé à l’aide de l’ensemble d’outils SRILM. Le lissage est
réalisé au moyen de la technique Kneser-Ney modifiée, et aucun élagage n’est appliqué, tout
comme nos modèles pour la reconnaissance de la parole.
Concernant le vocabulaire utilisé lors de l’estimation du modèle, puisque la langue change,
nous n’avons pas pu reprendre le vocabulaire utilisé dans notre système de transcription. Nous
avons néanmoins pu l’utiliser comme base afin de toujours assurer une certaine consistance
entre la reconnaissance de la parole et la traduction. Pour ce faire, nous avons donc pris notre
dictionnaire de décodage, et nous avons filtré notre table de traduction sur les paires de séquence
ne contenant qu’un seul mot, lui-même faisant partie du dictionnaire considéré. Ceci nous a
permis d’obtenir la liste des mots en français correspondant à l’ensemble des mots en anglais
de notre dictionnaire d’origine.
À partir de cela, à l’instar du travail réalisé pour la reconnaissance de la parole, nous avons
estimé un modèle quadrigramme par corpus monolingue à notre disposition. Puis, sur la partie française de notre corpus de développement spécifique, nous avons calculé les coefficients
d’interpolation afin de créer le modèle final. Nous pouvons remarquer qu’à nouveau, bien qu’il
ne représente que 0,15% de l’ensemble de données, c’est le corpus TED qui reçoit le plus gros
coefficient lors de l’interpolation. Le tableau 5.2 présente les coefficients appliqués à chaque
corpus respectif. La perplexité du modèle quadrigramme final est de 98.
97
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
Corpus
TED
News-Commentary
Europarl
ccb2
UN200x
Gigaword 109
News
TOTAL
Nb mots
(milliers)
1 938
3 059
50 211
252 835
376 880
747 915
549 655
1 982 493
Coefficient
Perplexité
0,5294
0,0208
0,0686
0,0621
0,0146
0,1145
0,1900
1
140,76
275,23
210,69
189,68
322,10
182,17
166,70
98,41
TABLE 5.2 – Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage quadrigrammes pour la traduction.
Nous avons également estimé un modèle de langage à espace continu (CSLM, Continuous
Space Language Model) 5-grammes, basé sur l’implémentation de [Schwenk 2007]. Celui-ci
est appris à partir des mêmes données que le modèle de langage classique.
5.3.3
Décodage
5.3.3.1
Traitement des graphes de mots de la reconnaissance de la parole
Dans cette partie, nous allons nous intéresser à la manière dont nous avons traités les graphes
de mots en sortie de la reconnaissance de la parole afin qu’ils puissent être décodés par notre
système de traduction. En effet, les graphes produits par la reconnaissance sont dans leur grande
majorité trop grands pour être directement utilisés dans un système de traduction. L’espace de
recherche qu’ils représentent est bien trop vaste pour être traduits dans un temps raisonnable.
Nous avons donc utilisé une technique de réduction de ces graphes développée au LIUM, afin
qu’ils puissent être acceptés par le décodeur de traduction, que ce soit sous la forme de graphes
réduits ou encore sous la forme de réseaux de confusion. Cette technique fonctionne en sept
étapes :
1. calculer les probabilités a posteriori des mots du graphe à l’aide de l’algorithme forwardbackward [Rabiner 1989],
2. séparer certains mots (composés notamment) afin de normaliser la « tokenisation » du
graphe,
3. fusionner les mots identiques situés dans des zones temporelles proches,
4. retirer les arcs dont les probabilités a posteriori sont inférieures à 0.001 (filtrage doux),
puis réitérer l’étape 3,
98
5.3. Système de traduction automatique de la parole anglais - français
5. retirer les arcs dont les probabilités a posteriori sont inférieures à 0.01 (filtrage plus fort),
puis réitérer l’étape 3,
6. retirer les fillers et les transitions nulles (mot vide),
7. (optionnel) transformer le graphe en réseau de confusion.
La figure 5.5 présente un exemple visuel d’une telle réduction, les flèches numérotées représentant les étapes correspondantes. Le tableau 5.3 présente quant à lui un exemple de statistiques
(nœuds, arcs, chemins) d’un graphe au fur et à mesure des réductions qui lui sont appliquées.
3
5&6
4
7
F IGURE 5.5 – Exemple de réduction d’un graphe de mot afin de le rendre exploitable par le
décodeur de traduction.
3
Nœuds
Arcs
Nœuds/arc (moyenne)
Chemins
65
104
1.6
55080
4
49
70
1.42
3864
5&6
32
37
1.15
32
TABLE 5.3 – Exemple de statistiques d’un graphe de mots au cours de sa réduction.
99
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
5.4
Remise de la casse et de la ponctuation
Afin de produire des traductions de qualité acceptable, il est nécessaire de retraiter les sorties
de notre système. En effet, celles-ci, bien qu’étant composées d’une suite de mots, ne peuvent
pas réellement être considérées comme exploitables. Toute la ponctuation est manquante, ainsi
que la casse et notamment les majuscules en début de phrase et sur les noms propres ce que
dégrade fortement leur lisibilité.
Nous allons donc dans cette section nous intéresser au système de remise de la casse et de
la ponctuation que nous avons créé et mis en place afin de pallier à cette problématique.
5.4.1
Architecture
Notre système de remise de la casse et de la ponctuation (ci-après dénommé système de
recasing) se situe en position de post-traitement, après la traduction, et se base également sur
les méthodes de la traduction automatique en faisant intervenir le même cadre statistique et en
s’appuyant sur le décodeur Moses. Il utilise les mêmes outils que notre système de traduction
décrit ci-avant, à savoir MGIZA++ pour l’alignement, Moses pour l’apprentissage du modèle
de traduction et le décodage et enfin SRILM pour l’apprentissage du modèle de langage.
Néanmoins, à la différence d’un système de traduction « classique », notre système de recasing n’utilise pas de corpus parallèles dans deux langues distinctes mais bien dans la même
langue, en l’occurrence ici le français. La figure 5.4 proposée dans la section précédente illustre
également cela, à ceci près que dans le cas du recasing, la langue source est le français de
style transcriptions de parole et la langue cible est le français de style traduction, où figurent la
ponctuation et la casse.
5.4.2
Modélisation de la traduction
Pour modéliser notre système, nous avons repris l’ensemble des parties françaises de nos
corpus parallèles dans leur condition d’origine (avec ponctuation et casse, notamment) et nous
les avons traités avec notre script dédié, décrit dans la section 4.1.1.1. Nous avons donc obtenu
des corpus parallèles contenant le même texte, d’un côté possédant toutes les caractéristiques
d’un texte syntaxiquement correct et de l’autre se rapprochant le plus possible de la condition
des transcriptions produites par un système de reconnaissance.
À partir de ces corpus, nous avons appris un modèle de traduction de la même manière
que précédemment, avec le même nombre de fonctions caractéristiques (features). Puisque les
caractères de ponctuation et autres signes particuliers sont considérés comme des mots à part
entière grâce au processus de « tokenisation » préalable à toute construction de système de
100
5.4. Remise de la casse et de la ponctuation
traduction, notre modèle devient donc capable de replacer ces caractères aux endroits les plus
probables d’une phrase, ainsi que de retrouver la casse aux endroits où elle est nécessaire,
comme sur les noms propres ou en début de phrase.
Le réglage et l’optimisation des features du modèle ont été effectuées grâce à l’algorithme
MERT, à partir du corpus de développement dev2010 de la campagne d’évaluation IWSLT
2010, sans toutefois l’avoir préalablement normalisé.
5.4.3
Modélisation du langage
Pour la modélisation du langage, et toujours dans un souci de cohérence de l’ensemble, nous
avons employé les mêmes corpus monolingues qu’auparavant. Néanmoins, puisque la langue
cible de notre système est le français dans sa forme écrite (et non transcrite de l’oral), nous
avons pris les versions d’origine de ces corpus.
Toujours à l’aide de l’ensemble d’outils SRILM, nous avons estimé un modèle quadrigramme par corpus monolingue, sans élagage et lissé via la méthode Kneser-Ney modifiée, avec
le même vocabulaire que précédemment auquel nous avons ajouté l’ensemble des caractères
particuliers tels que la ponctuation qui n’étaient pas présents dans le vocabulaire du système de
traduction. Nous avons également ajouté, le cas échéant, les mots comportant une majuscule
dans tous les cas, afin de s’assurer de leur bonne probabilité dans les traductions finales. Bien
entendu, nous avons par la suite interpolé ces modèles, afin d’obtenir notre modèle de langage
final, dont la perplexité est de 78. Le tableau 5.4 présente les coefficients d’interpolation qui ont
été appliqués.
Corpus
TED
News-Commentary
Europarl
ccb2
UN200x
Gigaword 109
News
TOTAL
Coefficient
0.51970
0.02653
0.11550
0.04866
0.00538
0.08244
0.20179
1
Perplexité
109
221
166
209
278
169
124
78
TABLE 5.4 – Coefficients d’interpolation et perplexités pour l’estimation des modèles de langage quadrigrammes pour le recasing.
101
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
5.4.4
Décodage
Le décodage de notre système de recasing s’effectue, globalement, de la même manière que
le décodage pour la traduction. Néanmoins, il existe une différence qui bien que d’apparence
anodine, conditionne totalement les résultats qui seront obtenus à l’issue du traitement. En effet,
afin de ne pas modifier en profondeur la structure des traductions produites, il est indispensable
de supprimer la distorsion (autrement dit le réordonnement des N-Grammes) que réalise le
décodeur. Sans cela, les N-Grammes de la phrase reponctuée pourraient être déplacés, entraînant
par-là une perte de sens importante.
La figure 5.6 présente des exemples de traductions reponctuées à l’aide de notre système.
Pour chaque exemple, la première phrase représente à la sortie du système de traduction, la
seconde à la sortie du système de recasing et la dernière à la traduction de référence leur
correspondant.
Original
vous avez probablement vu le sentiment d' urgence un peu de peur mais intense concentration
profonde se concentrer sur la lutte contre un problème très difficile
Recase
Vous avez probablement vu le sentiment d' urgence , un peu de peur , mais intense
concentration profonde , se concentrer sur la lutte contre un problème très difficile .
Réf.
Vous percevez peut-être le sens de l' urgence , un peu de peur , mais surtout une
concentration intense , très très intense pour résoudre un problème vraiment difficile .
Original ils ont réussi le processus ils comprennent le processus
Recase Ils ont réussi le processus , ils comprennent le processus .
Réf.
Ils gèrent le processus , ils comprennent le process .
Original
il y a plusieurs années ici à ted peter skillman a introduit un défi de design appelé le
marshmallow défi
Recase
Il y a plusieurs années , ici à TED , Peter Skillman a introduit un défi de design , appelé le
marshmallow défi .
Réf.
Il y a plusieurs années , ici à TED , Peter Skillman a présenté une épreuve de conception
appelée l' épreuve du marshmallow .
F IGURE 5.6 – Exemples de traductions dont la ponctuation et la casse a été remise, en comparaison des traductions d’origine et de référence.
102
5.5. Expérimentations et évaluation des systèmes
5.5
Expérimentations et évaluation des systèmes
Afin de proposer un système de traduction automatique de la parole performant, il est bien
entendu indispensable de réaliser plusieurs expérimentations et évaluations afin de déterminer
au mieux les réglages et optimisations idéaux. Ces expérimentations portent notamment sur la
forme des entrées appliquées à nos systèmes, sur le choix des corpus d’apprentissage ou encore
sur l’application du recasing avant ou après la traduction.
Nous allons donc dans cette section dans un premier temps détailler les expériences qui
ont été réalisées en interne ainsi que les résultats obtenus, puis nous présenterons les résultats
obtenus lors des campagnes d’évaluation IWSLT.
5.5.1
Expérimentations et évaluations internes
5.5.1.1
Sur la reconnaissance de la parole
Sur notre système de reconnaissance de la parole, nous avons réalisé plusieurs ensembles de
modèles acoustiques différents que nous allons présenter ici. Le premier, surnommé tedhub1,
correspond à l’ensemble utilisé comme référence de départ (ou baseline), soit les modèles qui
ont été produit lors de l’itération d’amorçage de la construction de notre corpus TED-LIUM
(voir 4.1.1.2). Le second, surnommé tedhub2, correspond quant à lui à l’ensemble de modèles
qui ont été appris à l’issue de l’itération intermédiaire de la construction de TED-LIUM. Un
troisième ensemble, surnommé tedhub2mpe, constitue une amélioration du modèle tedhub2,
sur lequel nous avons appliqué un apprentissage discriminant de type MPE (Minimum Phone
Error). Cela correspond à l’état du système à l’issue de l’itération finale de TED-LIUM. Enfin,
un dernier ensemble, appelé tedhub2mlp correspond à l’évolution de l’ensemble tedhub2mpe
auquel nous avons ajouté un perceptron multi-couches (MLP). Le tableau 5.5 présente les
résultats internes en termes de WER obtenus pour chaque ensemble de modèles et pour chaque
passe lors du décodage de notre corpus de développement LIUM dev2010 par notre système de
transcription multi-passes.
Ensemble de modèles
tedhub1
tedhub2
tedhub2mpe
tedhub2mlp
Passe 1
29,0
26,7
27,7
26,6
Passe 2
25,3
23,0
21,1
21,3
Passe 3
23,5
21,1
19,4
18,4
Passe 4
22,9
20,4
18,6
17,9
Passe 5
22,6
20,2
18,4
17,8
TABLE 5.5 – Résultats d’évaluations internes des modèles acoustiques par décodage multipasses sur le corpus LIUM dev2010, en termes de WER.
103
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
5.5.1.2
Sur la traduction automatique
Concernant la traduction automatique, nos premières expérimentations ont consisté en la
détermination de l’ensemble des corpus qui constitueraient notre base d’apprentissage pour
notre système de départ. Nous avons pour cela créé plusieurs systèmes, basés sur des jeux de
données différents, et les avons évalués sur nos corpus de développement LIUM dev2010 et de
test LIUM test2010. Le tableau 5.6 présente, en termes de score BLEU, les résultats qui ont été
obtenus.
Ensemble de corpus
TED
News-commentary + TED
Europarl + News-commentary + TED
Europarl + News-commentary + TED + ccb2
Nombre de mots
anglais filtrés
1.8 M
4.4 M
51.0 M
271.0 M
LIUM
dev2010
23.69
24.30
23.92
24.34
LIUM
test2010
25.09
25.68
25.38
25.32
TABLE 5.6 – Scores BLEU des systèmes de référence en fonction des corpus utilisés.
Comme nous pouvons le constater, l’ensemble TED + News-commentary, bien que de taille
relativement réduite, obtient des résultats sur le corpus de développement similaires au plus
gros ensemble considéré, et supérieurs sur le corpus de test, malgré une taille environ soixante
fois inférieure. Ceci nous a également appris que l’introduction du corpus News-commentary
aidait beaucoup le système, tandis que l’utilisation du corpus Europarl dégradait les performances. C’est donc naturellement que nous avons fait le choix d’utiliser le couple TED +
News-commentary pour l’apprentissage de notre système de base. De plus, l’introduction du
corpus ccb2 améliore faiblement les résultats sur le corpus de développement. Il est possible
qu’un filtrage de celui-ci puisse permettre de sélectionner les données les plus proches de LIUM
dev2010.
Afin de réaliser ce filtrage, nous avons tenté une approche basée sur la perplexité des
modèles de langage, inspirée de précédents travaux décrits dans [Gao 2002]. Nous avons tout
d’abord estimé un modèle de langage quadrigramme sur la partie anglaise du corpus parallèle
TED. Puis, à l’aide de ce modèle, nous avons calculé la perplexité de chaque phrase du corpus
ccb2 et les avons classées par ordre croissant. Nous avons ensuite appliqué différents seuils sur
le corpus trié et les sous-ensembles résultants ont été intégrés à nos données d’apprentissage
de départ, afin d’étudier l’impact de la sélection sur les performances de notre système. Le
tableau 5.7 présente les résultats de ces expérimentations pour chaque sous-ensemble testé. Le
graphique 5.7 compare les résultats obtenus en termes de score BLEU à la quantité de données
utilisée par le système.
104
5.5. Expérimentations et évaluation des systèmes
Ensemble de corpus
nc6 + TED
nc6 + TED + ccb2.px50
nc6 + TED + ccb2.px60
nc6 + TED + ccb2.px70
nc6 + TED + ccb2.px80
nc6 + TED + ccb2.px100
nc6 + TED + ccb2.px150
Nombre de
mots anglais
4.4 M
4.9 M
5.2 M
5.7 M
6.2 M
7.4 M
11.9 M
LIUM
dev2010
24.30
24.22
24.20
24.29
24.29
24.28
24.31
LIUM
tst2010
25.68
25.98
25.87
26.04
25.29
25.45
25.39
TABLE 5.7 – Scores BLEU des systèmes en fonction de la sélection par la perplexité.
Filtrage par perplexite sur ccb2
26.5
13
12
26
11
10
9
25
8
24.5
Millions
Score BLEU
25.5
7
6
24
5
23.5
4
60
80
100
120
140
Perplexite
Nombre de mots
LIUM dev2010
LIUM tst2010
F IGURE 5.7 – Résultats (score BLEU) du filtrage par perplexité comparés à la taille des données
d’apprentissage.
105
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
Nous pouvons observer que pour un seuil égal à 70, l’ajout du sous-ensemble de ccb2 n’a
finalement pas d’impact sur le score du corpus de développement, mais qu’il améliore le score
obtenu sur le corpus de test, qui nous intéresse plus particulièrement. Par conséquent, nous
avons fait le choix de conserver le sous-ensemble correspondant au filtrage à 70 de perplexité.
À partir de notre système dont les données d’apprentissage ont été fixées, nous avons ensuite
tenté de déterminer quel type d’entrée, et donc quel type de sortie de système de reconnaissance,
s’appliquait le mieux à notre tâche de traduction de la parole. Nous considérons trois types
d’entrées :
– la meilleure hypothèse du système de reconnaissance (1-best),
– le graphe de mots réduit (voir 5.3.3.1),
– et le réseau de confusion.
Pour la campagne d’évaluation IWSLT, et à titre de comparaison dans cette section, nous
avons de plus pris en compte un autre type d’entrée, à savoir la meilleure hypothèse d’une
combinaison de systèmes basée sur la méthode BONG développée au LIUM [Bougares 2011],
en utilisant les graphes de mots de notre système de reconnaissance et ceux fournis par les
organisateurs de la campagne.
Nous avons également considéré une méthode de pondération de corpus dérivée des coefficients d’interpolation linéaire calculés lors de l’estimation du modèle de langage utilisé. En
effet, en dupliquant plusieurs fois les corpus TED et nc6 (selon leurs coefficients d’interpolation du ML) dans les données d’apprentissage, nous pouvons ainsi augmenter leur importance
relative. D’autres travaux ultérieurs menés au LIUM [Shah 2012] ainsi que dans la littérature
récente [Matsoukas 2009] présentent des méthodes de pondération de corpus plus avancées. Le
tableau 5.8 présente les résultats obtenus en fonction du type d’entrée considéré et des poids
relatifs appliqués à certains corpus.
Ensemble de corpus
ccb2.px70-nc6-TED
ccb2.px70-2xnc6-7xTED
ccb2.px70-2xnc6-8xTED
1-Best
(18.2% WER)
dev
test
23.63 24.62
23.96 24.90
23.97 25.01
Sorties LIUM
Graphe
réduit
dev
test
24.20 25.64
24.15 25.80
24.19 25.92
Réseau de
confusion
dev
test
24.20 25.86
24.24 25.72
24.29 26.04
Combinaison
BONG
(17.0% WER)
dev
test
24.65 26.34
24.82 26.50
24.67 26.78
TABLE 5.8 – Résultats en termes de score BLEU selon l’ensemble de corpus et le type d’entrée
considéré sur les corpus LIUM dev2010 et LIUM test2010.
À la lecture de celui-ci, nous pouvons remarquer deux choses. D’un côté, la pondération
des corpus par duplication des données améliore les résultats pour tous les types d’entrée, sauf
106
5.5. Expérimentations et évaluation des systèmes
sur les graphes où les scores sur le corpus de développement restent similaires. De l’autre côté,
outre le fait que la meilleure hypothèse issue de la combinaison de systèmes surpasse les autres
types d’entrée que ce soit sur le corpus de développement ou le corpus de test (presque 1,8 point
BLEU de gain), nous pouvons observer que les entrées de type graphe ou réseau de confusion,
en plus de proposer un couplage plus étroit entre les systèmes, permettent d’obtenir de meilleurs
résultats qu’un simple enchaînement de la reconnaissance et de la traduction notamment sur le
corpus de test : de 25.01 à 25.92 points BLEU pour les graphes et 25.01 à 26.04 pour les réseaux
de confusion, ce qui représente un gain de plus de un point.
Enfin, nous avons également appliqué un modèle de langage à espace continu (CSLM) sur
notre système, ce qui a permis d’obtenir de nouveau un gain supplémentaire sur les corpus de
développement et de test, comme le montre le tableau 5.9, tant sur le décodage de la meilleure
hypothèse (+ 0,66 point sur le test) que sur le décodage de la combinaison issue de BONG (+
0,27 point sur le test également).
Système
Baseline
+ CSLM
LIUM 1-best
dev
test
23.97 25.01
24.30 25.67
BONG
dev
test
24.67 26.78
24.97 27.05
TABLE 5.9 – Scores BLEU obtenus après ajout du modèle de langage à espace continu.
5.5.1.3
Sur la remise de la casse et de la ponctuation
En ce qui concerne la remise de la casse et de la ponctuation, nous avons souhaité valider
notre hypothèse consistant à préférer pratiquer le processus de recasing en aval du processus de
traduction, plutôt qu’en amont. Nous avons pour cela développé deux systèmes de traduction
complets et distincts tels que nous l’avons présenté dans les sections 5.3 et 5.4, un pour le recasing sur l’anglais, dont le traitement s’effectuerait sur la langue source et entre la reconnaissance
de la parole et la traduction ; et un autre pour le recasing sur le français, dont le traitement serait
lui réalisé sur la langue cible, après le processus de traduction.
Position du recasing
Aucun (baseline)
Amont de la traduction (anglais)
Aval de la traduction (français)
dev2010
23,97
22,98
23,17
test2010
25,01
24,12
24,41
TABLE 5.10 – Évaluation et validation des approches pour le recasing.
107
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
Le tableau 5.10 présente les scores obtenus sur notre système de référence ou baseline
(ccb2.px70-2xnc6-8xTED), pour chacune des deux approches, validant par-là même l’approche
en aval.
5.5.2
Évaluation officielle : la campagne IWSLT 2011
Comme nous l’avons déjà évoqué tout au long de ce manuscrit, les contributions apportées
par cette thèse prennent principalement place dans notre participation à la campagne d’évaluation IWSLT 2011. Lors de cette campagne, nous avons participé à trois tâches :
– reconnaissance automatique de la parole en anglais,
– combinaison de systèmes de reconnaissance (que nous ne développerons pas ici),
– et reconnaissance automatique suivie de traduction automatique de la parole.
Concernant la tâche de reconnaissance automatique de la parole, il s’agissait, en plus de
fournir des transcriptions sur les corpus de développement et de test de la campagne précédente,
de transcrire un ensemble de présentations scientifiques, au nombre de vingt, pour une durée
totale de 3 heures, 59 minutes et 10 secondes. Cinq laboratoire ont participé à cette tâche, deux
d’entre eux ayant de plus proposés une soumission contrastive. Lors de la campagne, le LIUM
s’est classé en troisième position. Le tableau 5.11 présente les résultats que nous avons obtenus
sur cette tâche.
Corpus
Dev 2010
Test 2010
Test 2011
Système du LIUM
(WER)
19.2%
18.2%
17.4%
Meilleur système
(WER)
17.8%
15.8%
15.3%
TABLE 5.11 – Résultats officiels du système de transcription du LIUM, en termes de WER.
Pour la tâche de reconnaissance automatique suivie de traduction de la parole, il s’agissait
d’effectuer une reconnaissance de la parole sur huit des vingt présentations proposées, pour une
durée totale d’une heure et vingt minutes, puis de traduire les transcriptions obtenues vers le
français. Également cinq laboratoires ont participé à cette tâche, dont quatre ont aussi participé à la tâche de reconnaissance. Cette fois, le LIUM s’est classé premier de l’ensemble des
participants, que ce soit sur l’évaluation avec casse et ponctuation ou sans. Notre soumission
était basée sur la meilleure hypothèse obtenue en combinaison de systèmes, puisque comme
nous l’avons évoqué précédemment, c’est ce type d’entrée qui nous permettait d’obtenir les
meilleurs résultats en interne. Nous avons également proposé une soumission contrastive, basée
108
5.5. Expérimentations et évaluation des systèmes
sur des sorties 100% LIUM, afin dévaluer la qualité de notre système seul. Le tableau 5.12
détaille les résultats que nous avons obtenus grâce à notre système.
Soumission
Primaire
Contrastif
2nd meilleur système
casse + ponctuation
28.23
26.96
26.78
tst2011
sans casse + sans ponctuation
29.40
28.16
28.26
TABLE 5.12 – Résultats officiels du système de traduction automatique de la parole du LIUM,
en termes de score BLEU.
Nous pouvons observer que sur la tâche comprenant la casse et la ponctuation, notre système
contrastif « 100% LIUM » a également été meilleur que le second système, ce qui nous confirme
les bonnes performances de l’ensemble.
Nous avons donc exposé, au long de ce chapitre, les méthodes que nous avons mises en
œuvre pour concevoir et réaliser notre système de traduction automatique de la parole. Nous
avons également discuté les diverses expérimentations effectuées pour parvenir à ce résultat, et
présenté les performances obtenues lors d’une évaluation officielle. Pour conclure, nous souhaiterions ajouter que nous avons eu l’honneur de recevoir, en complément de ces bons résultats,
le prix du meilleur article dans la catégorie « description de système » lors de la conférence qui
concluait la campagne d’évaluation IWSLT 2011.
109
Chapitre 5. De la mise en œuvre d’un système de traduction de la parole anglais - français
110
Chapitre 6
De l’amélioration des systèmes par la
sélection de données
Sommaire
6.1
6.2
6.3
Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.1.1
Sélection de données monolingues . . . . . . . . . . . . . . . . 113
6.1.2
Sélection de données parallèles . . . . . . . . . . . . . . . . . . 114
XenC : outil pour la sélection de données par l’entropie croisée . . . 116
6.2.1
Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
6.2.2
Disponibilité de l’outil . . . . . . . . . . . . . . . . . . . . . . . 117
Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.3.1
6.3.2
Sur le système IWSLT 2011 . . . . . . . . . . . . . . . . . . . . 118
6.3.1.1
Modélisation du langage . . . . . . . . . . . . . . . . 118
6.3.1.2
Sélection sur les corpus parallèles . . . . . . . . . . . 122
6.3.1.3
Expérimentations sur le système complet de traduction 125
Autres expérimentations . . . . . . . . . . . . . . . . . . . . . . 127
6.3.2.1
Sélection de données pour WMT12 . . . . . . . . . . 128
6.3.2.2
Sélection pour NIST OpenMT 2012 . . . . . . . . . . 129
111
Chapitre 6. De l’amélioration des systèmes par la sélection de données
ous avons déjà évoqué, au long de ce manuscrit, le fait qu’un système de traduction
automatique de la parole est une entité dynamique et évolutive, dont les performances
de référence peuvent être améliorées par diverses méthodes. L’une de ces méthodes consiste à
sélectionner, de façon supervisée ou non, les données qui viendront constituer ou s’ajouter à
l’ensemble de départ destiné à l’apprentissage du système. Cette sélection peut être réalisée à
deux niveaux :
N
– sur les données monolingues destinées à la modélisation du langage,
– sur les données parallèles destinées au modèle de traduction.
Partant du principe que l’on souhaite viser un domaine précis pour lequel notre système
sera plus adapté (comme les présentations scientifiques, orales par exemple), le but principal est
d’extraire d’un corpus identifié comme hors du domaine (out-of-domain corpus) les phrases ou
paires de phrases s’approchant du dit domaine. Cela suppose de posséder d’un corpus de taille
suffisante faisant partie du domaine (in-domain corpus) que l’on utilisera pour la comparaison.
Dans le cadre de ce manuscrit, nous avons travaillé sur un des aspects de l’amélioration des
systèmes : la sélection de données par l’entropie croisée. Dans un premier temps, nous décrirons
les principes de cette sélection, aussi bien pour les données monolingues que parallèles. Puis,
nous présenterons l’outil que nous avons développé à cet effet, ainsi que son architecture. Enfin,
nous détaillerons les expérimentations que nous avons réalisées à ce sujet, tant pour la modélisation du langage que pour le modèle de traduction ; nous évoquerons également les autres
expérimentations qui ont été faites au sein du laboratoire à l’aide de cette approche.
6.1
Principes
Il est communément admis qu’il n’y a pas de meilleures données qu’encore plus de données
(« There is no data like more data » selon Mercer, [Jelinek 2004]). Cette affirmation, bien
que correcte, n’est vraie que lorsque les données considérées sont suffisamment proches de
la tâche de traduction envisagée. Néanmoins, pour pratiquement n’importe quel domaine, les
quantités de données disponibles et réellement adaptées sont généralement limitées. La pratique
habituelle consiste en l’utilisation de données supplémentaires hors du domaine, généralement
en leur appliquant une pondération au niveau du corpus afin mettre l’emphase sur les données
faisant partie du domaine. Toutefois, il est certain que ce faisant, des données inutiles voire
néfastes au système sont aussi prises en compte, et induiront du bruit qu’il serait intéressant de
pouvoir limiter au maximum. Nous allons dans cette section détailler une approche permettant
de contourner ce problème, afin de ne garder, dans les grands ensembles de données, que ce qui
semble intéressant pour la tâche de traduction envisagée.
112
6.1. Principes
6.1.1
Sélection de données monolingues
La sélection de données par l’entropie croisée pour la modélisation du langage se base
sur une approche introduite dans [Moore 2010]. Fondamentalement, il s’agit, pour le modèle
de langage que l’on souhaite construire, de sélectionner au sein de l’ensemble de données ne
faisant pas partie du domaine considéré un sous-ensemble de phrases s’approchant au mieux
du texte d’un corpus faisant partie de ce domaine. Cela se fait en comparant l’entropie croisée
de chacune des phrases du corpus hors du domaine par rapport à deux modèles de langage
préalablement construits :
– le premier est estimé à partir de l’ensemble des données considérées comme faisant partie
du domaine,
– le second est quant à lui estimé sur un sous-ensemble aléatoire des données desquelles
on souhaite extraire les phrases les plus intéressantes, de taille similaire à l’ensemble de
données faisant partie du domaine.
Formellement, supposons que nous ayons un corpus du domaine I et un corpus hors du
domaine N . De là, HI (s) sera l’entropie croisée selon un modèle de langage estimé sur I de la
phrase s extraite de N . De façon similaire, HN (s) sera l’entropie croisée selon un modèle de
langage estimé sur un extrait de N de taille similaire à I de cette même phrase s. Chaque phrase
s1 , · · · , sN sera évaluée selon HI (s) − HN (s) et sélectionnée si son score se situe au-dessous
d’un seuil T .
Dans une justification plus statistique, nous pouvons postuler que notre corpus hors du
domaine N contient un sous-ensemble NI de phrases similaires à notre corpus du domaine I.
Par l’application du théorème de Bayes, nous pouvons écrire la probabilité P (NI |s, N ) que la
phrase s extraite de N soit comprise dans NI de la façon suivante :
P (NI |s, N ) =
P (s|NI , N )p(NI |N )
P (s|N )
(6.1)
Puisque NI est compris dans N , P (s|NI , N ) = P (s|NI ) et puisque nous croyons NI proche
de I, P (s|NI ) ' P (s|I). L’estimation de P (NI |N ) n’est pas pertinente dans ce cadre, puisqu’elle ne pourra nous fournir aucune indication sur la valeur à donner au seuil T . L’équation
deviendra alors :
P (NI |s, N ) '
P (s|I)
P (s|N )
(6.2)
113
Chapitre 6. De l’amélioration des systèmes par la sélection de données
où P (s|I) et P (s|N ) s’estimeront en apprenant des modèles de langage sur I et un extrait
aléatoire de N , respectivement. Dans le domaine logarithmique, nous chercherons donc à évaluer la quantité log (P (s|I)) − log (P (s|N )), ce qui nous rapproche beaucoup de la différence
entre les entropies croisées que nous calculons, puisque HI (s)−HN (s) est en réalité une version
normalisée par la longueur de log (P (s|I)) − log (P (s|N )) avec une inversion de signe. Cette
normalisation est nécessaire car la valeur de log (P (s|I)) − log (P (s|N )) tend à être fortement
corrélée à la longueur de la phrase.
Cette approche présente alors deux avantages majeurs pour la modélisation du langage qui
s’en suivra :
– tout d’abord, nous pouvons raisonnablement espérer améliorer la cohérence d’un modèle,
sa perplexité, ainsi que son impact sur les performances finales d’un système ;
– de plus, les ressources de calcul nécessaires non seulement à l’estimation des modèles
mais également à leur utilisation en situation de décodage seront moindres, notamment
en termes d’empreinte mémoire.
6.1.2
Sélection de données parallèles
La sélection par l’entropie croisée pour le modèle de traduction sur des données parallèles
peut également s’opérer de façon relativement similaire. À ce sujet, dans [Axelrod 2011], il est
décrit un cadre formel semblable à celui présenté dans [Moore 2010]. Néanmoins, la nature
bilingue du problème nécessite de prendre en compte les deux langages inclus dans les données
parallèles.
Formellement, à partir des corpus du domaine respectivement en langue source et cible IS
et IT et des corpus hors du domaine respectivement en langue source et cible NS et NT , nous
pourrons calculer, pour une phrase source sS extraite de NS , l’entropie croisée HIS (sS ) selon
un modèle de langage estimé sur IS et l’entropie croisée HNS (sS ) selon un modèle de langage
estimé sur un extrait de NS de taille similaire à IS . De même, pour la même phrase cible sT
extraite de NT , nous pourrons calculer HIT (sT ) l’entropie croisée selon un modèle de langage
estimé sur IT et HNT (sT ) l’entropie croisée selon un modèle de langage estimé sur un extrait de
NT de taille similaire à IT . L’estimation finale sera quant à elle réalisée en effectuant la somme
entre les différences des entropies croisées de chaque côté des corpus parallèles, source et cible,
comme le montre l’équation suivante :
[HIS (sS ) − HNS (sS )] + [HIT (sT ) − HNT (sT )]
114
(6.3)
6.1. Principes
Comme pour la sélection monolingue, cette approche présente le double avantage de renforcer les hypothèses de traduction inhérentes au domaine par l’ajout de données complémentaires
et de réduire le besoin en ressources, tant au niveau de la puissance de calcul que de la mémoire
requise pour charger les modèles.
115
Chapitre 6. De l’amélioration des systèmes par la sélection de données
6.2
XenC : outil pour la sélection de données par l’entropie
croisée
Afin de pouvoir réaliser des expériences sur la sélection, tant sur les données monolingues
que sur les données parallèles, nous avons crée un outil spécifique, surnommé XenC (pour
Cross-entropy en C++).
6.2.1
Architecture
Cet outil possède trois modes, chacun basé sur une approche particulière :
– le premier permet de pratiquer un filtrage simple basé sur la perplexité, tel que décrit dans
[Gao 2002],
– le second permet d’effectuer un filtrage par l’entropie croisée basé sur un langage unique
(filtrage monolingue), comme nous l’avons détaillé au cours de la section précédente et
tel qu’exposé dans [Moore 2010],
– enfin le dernier permet de réaliser un filtrage par l’entropie croisée mais basé sur une paire
de langages (filtrage bilingue), tel que nous l’avons présenté ci-avant et qu’introduit dans
[Axelrod 2011].
Écrit avec le langage C++, XenC est orienté objet et réutilise les bibliothèques de SRILM
pour tous les traitements liés aux modèles de langage : chargement des modèles compressés ou
binaires ou calcul des scores de perplexité.
À partir de deux corpus, le premier faisant partie du domaine et le second plus générique,
XenC :
1. générera tous les modèles de langage requis si nécessaire,
2. calculera, selon le mode choisi, le score final de chaque phrase du corpus générique,
3. puis écrira deux fichiers : le premier, appelé scored, contient les phrases du corpus dans
l’ordre d’origine accompagnées de leurs scores respectifs ; tandis que le second, appelé
sorted, contient les phrases du corpus triées selon ces scores.
Une fois le fichier trié généré, il est également possible de demander une évaluation du
filtrage. Concrètement, puisque le fichier est trié du meilleur score au plus mauvais, l’on souhaitera évaluer des sous-ensembles de celui-ci en prenant un certain pourcentage de mots depuis
le début du fichier, par exemple par pas de 10%. Puis, chaque sous-ensemble sera utilisé pour
estimer un modèle de langage, qui sera ensuite évalué en termes de perplexité soit sur un corpus
de développement spécifié, soit sur l’ensemble de données faisant partie du domaine lorsque
116
6.2. XenC : outil pour la sélection de données par l’entropie croisée
l’on ne dispose pas d’un tel corpus. Enfin, à partir de la distribution des perplexités selon le pas
que l’on aura pris soin de fixer (généralement de 10% en 10%), l’on pourra également pratiquer
une évaluation plus précise, par une recherche dichotomique, permettant de repérer le point où
se situe le meilleur sous-ensemble.
6.2.2
Disponibilité de l’outil
Depuis le début de son développement, XenC est utilisé de manière assez répandue au sein
de l’équipe LST (Language and Speech Technologies) du LIUM, tant en reconnaissance automatique de la parole pour l’estimation des modèles de langage qu’en traduction automatique
statistique, également pour l’estimation des modèles de langage mais aussi pour le modèle de
traduction [Servan 2012, Schwenk 2012]. De plus, celui-ci a déjà été distribué de façon restreinte à d’autres membres de la communauté scientifique de traduction automatique, et nous
envisageons ultérieurement de mettre l’outil et son code source à la disposition de toute la
communauté, sur un site de distribution de logiciels libres tel que SourceForge 16 , par exemple.
16. http://sourceforge.net
117
Chapitre 6. De l’amélioration des systèmes par la sélection de données
6.3
6.3.1
Expérimentations
Sur le système IWSLT 2011
Nous avons réalisé une série d’expériences basées sur la sélection de données à partir de
notre système de traduction automatique de la parole pour IWSLT 2011. Nous avons d’abord
étudié la sélection pour la modélisation du langage, puis nous avons réalisé un comparatif des
méthodes de sélection appliquées aux données d’apprentissage parallèles pour le modèle de
traduction. Enfin, nous présentons les expériences réalisées en combinant les deux sélections.
6.3.1.1
Modélisation du langage
Nous avons donc réalisé une série d’expériences sur la modélisation du langage. En effet,
puisque nous disposons déjà d’un ensemble de résultats récents d’un système dédié à une tâche
relativement spécifique et que le corpus TED, qui était au centre de cette campagne, constitue
un très bon exemple d’ensemble de données faisant partie d’un domaine.
Le modèle de langage que nous avions estimé pour la campagne avait été appris selon la
pratique courante consistant à estimer un modèle quadrigramme par source de données, puis à
les interpoler linéairement afin de produire le modèle quadrigramme final. Nous avons souhaité
connaître l’impact qu’une sélection par entropie croisée monolingue pourrait produire sur les
textes d’apprentissage de ces modèles.
Nous avons donc considéré comme étant :
– notre corpus du domaine I ; le corpus TED, adapté à la tâche de traduction de présentations scientifiques,
– nos corpus hors du domaine N ; l’ensemble des autres corpus utilisés pour estimer le
modèle de langage du système pour IWSLT 2011.
Puis nous avons pratiqué une sélection par entropie croisée sur chacun des corpus N , l’évaluation a ensuite été faite à l’aide d’une recherche du meilleur point par dichotomie. Pour ce
faire, le corpus de développement utilisé pour l’évaluation des modèles de langage estimés
à partir des sous-ensembles était le même que pour la campagne IWSLT. Le graphique 6.1
représente la courbe obtenue pour chaque corpus, en termes de perplexité calculée comparée
au pourcentage du corpus trié utilisé. Par conséquent, 100% du corpus équivalent au corpus
non-trié.
Il se dessine un comportement général des courbes dans lequel plus le sous-ensemble est
petit, plus la perplexité est basse jusqu’à un certain point, où elle commence à remonter : le
sous-ensemble devient alors trop petit. Nous remarquons aussi que les points optimaux, où
la perplexité est la plus basse, se situent pour la plupart aux alentours de 10%, voire un peu
118
6.3. Expérimentations
IWSLT11 LM Corpora
300
Perplexite
250
200
150
0
10
20
ccb2
Europarl
30
40
50
% Corpus
Gigaword 109
News-Commentary
60
70
80
90
100
News
UN200x
F IGURE 6.1 – Perplexité comparée à la taille des corpus N triés selon leur entropie croisée,
évaluation sur le corpus LIUM dev2010.
moins. Néanmoins, nous pouvons également observer qu’une courbe ne suit absolument pas
cette tendance, celle du corpus News-Commentary. Celle-ci est plutôt fluctuante, et sa perplexité
la plus basse se situe à 100%, soit l’intégralité du corpus. Nous expliquons ce phénomène d’une
part par la taille très réduite de ce corpus, qui ne lui permet à notre avis pas d’être suffisamment
représentatif par rapport au corpus faisant partie du domaine ; et d’autre part par l’apparente adéquation de ce corpus avec la tâche considérée, comme nous l’avons déjà démontré au chapitre
précédent lors des expérimentations réalisés pour la construction de notre système de traduction.
Au vu de ce graphique, nous avons donc fait le choix de remplacer nos corpus originaux
par des sous-ensemble de ceux-ci d’une taille proche de celle atteignant la perplexité la moins
élevée. Nous faisons également le choix, lorsque la variation de perplexité entre plusieurs points
contigus demeure très faible, de toujours prendre le plus de données possible sans toutefois
sacrifier le bénéfice de la faible perplexité. Le tableau 6.1 présente les statistiques en termes de
119
Chapitre 6. De l’amélioration des systèmes par la sélection de données
nombre de phrases, de mots et de mots par phrases dans les corpus du domaine I et hors du
domaine N et leurs sous-ensembles.
Corpus
TED
News-Comm.
Europarl
ccb2
UN200x
Gigaword 109
News
Total / moyenne
Nb de phrases
Nb de mots (milliers)
original
réduit
original
réduit
Corpus du domaine I
107 268
N/A
1 970
N/A
Corpus hors du domaine N
115 562
115 562
3 122
3 122
1 825 077
243 567
51 251
5 125
7 473 624
780 847
258 402
20 672
12 317 600
374 135
385 035
7 701
22 520 400 1 953 441
763 204
45 791
24 963 359 4 352 116
562 756
84 413
69 215 622 7 819 668 2 023 770 166 824
Mots / phrase
orig. réduit
18,36
N/A
27,01
28,08
34,57
31,25
33,89
22,54
29,56
27,01
21,04
26,47
20,58
23,44
19,40
22,99
TABLE 6.1 – Statistiques des corpus du domaine I et hors du domaine N et de leurs sousensembles.
Nous pouvons remarquer la forte réduction du taux moyen de mots par phrase dans les
corpus de l’ensemble N entre les versions originales et filtrées de ceux-ci. Nous expliquons ce
phénomène par deux facteurs :
– le faible taux de mots par phrase du corpus du domaine I, constitué de transcriptions de
parole aux segments relativement courts,
– la nature même du filtrage (log (P (s|I)) − log (P (s|N ))), qui bien que normalisée par la
longueur, tend à favoriser les phrases courtes [Moore 2010].
Le tableau 6.2 présente quant à lui les perplexités originales et réduites de ces mêmes corpus
ainsi que les tailles de leurs sous-ensembles. Il reprend également les coefficients d’interpolation qui avaient été appliqués sur les modèles estimés sur les corpus originaux, ainsi que ceux
appliqués sur les modèles des sous-ensembles. La dernière ligne indique les perplexités finales
obtenues sur le même corpus de développement (LIUM dev2010) pour chacun des modèles
ayant été crées.
Nous pouvons remarquer une forte baisse de la perplexité pour chacun des modèles hors du
domaine N , et par conséquent une baisse intéressante de la perplexité du modèle quadrigramme
final, soit 93 contre 98 précédemment. De plus, la répartition des modèles au sein de l’interpolation linéaire s’est retrouvée modifiée, réduisant quelque peu l’importance du corpus du domaine
TED et augmentant celle de la majorité des corpus hors du domaine N , ce qui nous permet de
croire en la meilleure adéquation des données extraites de ces corpus, et, en conséquence, en
l’utilité du filtrage opéré.
120
6.3. Expérimentations
Corpus
TED
NC
Europarl
ccb2
UN200x
Gigaword 109
News
Total
Perplexité
Coefficient
originale réduite original
réduit
Corpus du domaine I
140.76
N/A 0.52943 0.37202
Corpus hors du domaine N
275.23 275.23 0.02085 0.00327
210.69 172.56 0.06855 0.05203
189.68 135.93 0.06205 0.12225
322.10 194.55 0.01458 0.02158
182.17 126.89 0.11453 0.19190
166.70 133.69 0.19002 0.23696
98.41
93.17
1
1
Sous
ensemble
100%
100%
10%
8%
2%
6%
15%
N/A
TABLE 6.2 – Perplexités originales et réduites des corpus du domaine I et hors du domaine N
et tailles de leurs sous-ensembles.
Pour confirmer ces résultats, nous avons remplacé notre ancien modèle de langage du système de traduction de la parole par le nouveau que nous avons estimé. Nous prenons comme
référence le système final de la campagne, avant l’intégration du CSLM, et nous utilisons
comme entrée pour la traduction la sortie LIUM 1-best, à des fins de rapidité de traitement et de
simplification de l’expérimentation. Les corpus de développement et de test sont respectivement
les corpus LIUM dev2010 et LIUM tst2010. Le tableau 6.3 présente trois jeux de résultats sous
la forme de scores BLEU :
– le premier, nommé IWSLT11 original est le résultat de référence qui a été publié dans
[Rousseau 2011] et repris dans le chapitre précédent,
– le second, surnommé IWSLT11 retune, correspond au résultat du même système pour
lequel nous avons refait l’optimisation, en utilisant la méthode décrite dans [Clark 2011]
qui consiste à réaliser toute la séquence d’optimisation un nombre arbitraire de fois, en
l’occurrence dix, puis de faire la moyenne des scores, afin d’éviter les minima ou maxima
locaux,
– enfin le troisième, appelé IWSLT11 XenC_ML correspond au résultat de notre système
utilisant le nouveau modèle de langage, pour lequel nous avons également réalisé l’optimisation selon la même méthode.
Pour chacun, le tableau indique également l’écart-type des valeurs obtenues pour le calcul
de la moyenne des scores, ainsi que la taille des modèles de langage sur disque et en mémoire.
Nous pouvons observer dans ce tableau que les résultats obtenus sont intéressants. En effet,
outre une augmentation du score BLEU de traduction de plus de 0,4 points sur le corpus de test,
avec un écart-type de 0,07 points, nous pouvons observer que la taille du modèle de langage a été
fortement réduite. Sur disque et en mémoire, le nouveau modèle est plus de quatre fois plus petit,
121
Chapitre 6. De l’amélioration des systèmes par la sélection de données
Système
IWSLT11 original
IWSLT11 retune
IWSLT11 XenC_ML
dev2010
BLEU E.-type
23.97
N/A
23.84
0.12
24.01
0.06
tst2010
BLEU E.-type
25.01
N/A
24.94
0.06
25.35
0.07
Taille du ML
disque mémoire
7.9G
22.1G
7.9G
22.1G
1.7G
5.2G
TABLE 6.3 – Résultats en termes de score BLEU et tailles des ML de l’expérimentation sur la
sélection par entropie croisée monolingue.
ce qui non seulement consomme moins de ressources, mais permet aussi des décodages plus
rapides. Il serait par conséquent intéressant de recréer un modèle de langage à espace continu à
partir de ces mêmes données afin d’étudier l’impact qu’une telle sélection pourrait avoir sur ses
performances, puisque cela a déjà été réalisé avec succès sur d’autres tâches [Schwenk 2012].
De plus, il serait également intéressant de pratiquer le même genre de sélection sur les modèles
de langage utilisés en reconnaissance automatique de la parole, non seulement pour le gain de
ressources procuré, mais également pour étudier l’impact d’une telle sélection sur le score WER
d’un système.
6.3.1.2
Sélection sur les corpus parallèles
Comme nous l’avons évoqué dans la section 6.1.2, il est également possible de pratiquer une
sélection de données pour les corpus parallèles. Nous avons donc, à la suite des expérimentations sur la sélection monolingue, réalisé une série d’expériences sur les modèles de traduction.
Pour cela, nous avons repris le même système de référence, que nous avons mis en concurrence avec le système possédant le modèle de langage refait. L’idée est d’étudier l’impact que
peut avoir la sélection par entropie croisée sur le modèle de traduction, qu’elle soit monolingue
ou bilingue. En effet, pour un corpus parallèle donné, il est possible de réaliser dessus soit
une sélection monolingue (préférablement du côté source, mais il est intéressant d’évaluer les
deux côtés), soit une sélection bilingue des deux côtés [Axelrod 2011]. Puisque le système de
référence n’utilise que le corpus supplémentaire ccb2 (hormis le corpus News-Commentary,
pour lequel pratiquer une sélection n’est pas pertinent), nous comparons, dans le graphique
6.2, les courbes obtenues pour chaque sélection (monolingue côté source et cible puis bilingue),
toujours en termes de perplexité comparée au pourcentage du corpus trié. Le corpus de développement utilisé est toujours le corpus LIUM dev2010. Pour le filtrage côté cible, nous utilisons la
version française du corpus de développement, mais nous évaluons les perplexités de toutes les
sélections sur la version anglaise de ce même corpus, afin de pouvoir les comparer entre eux.
Nous pouvons remarquer, au regard de ces courbes, que la sélection bilingue et la sélection monolingue côté source décrivent une courbe presque identique, avec toutefois un léger
122
6.3. Expérimentations
Selection sur le corpus ccb2
340
320
Perplexite
300
280
260
240
220
200
0
10
20
Mono. cote source
30
40
50
% Corpus
Mono. cote cible
60
70
80
90
100
Bilingue
F IGURE 6.2 – Perplexité comparée à la taille du corpus parallèle ccb2 trié selon son entropie
croisée monolingue et bilingue.
avantage pour cette dernière. En revanche, la sélection monolingue côté cible semble un peu
moins bonne, tel qu’annoncé dans [Axelrod 2011]. Afin de confirmer ces constatations, nous
avons appris plusieurs systèmes de traduction, de la même manière que nous l’avons décrit
précédemment (voir section 5.3). Nous souhaitons que leurs résultats puissent être comparés
à ceux obtenus par notre système de référence : c’est pourquoi nous avons pris soin d’utiliser
les mêmes corpus pour l’apprentissage (TED, nc6, ccb2). Concernant le corpus ccb2, nous
avons utilisé un nombre de mots (6,6 millions, soit 3 %) correspondant à la perplexité minimale
observée sur les courbes, puisque la taille du sous-ensemble choisi est totalement dépendante
de cette perplexité minimale et fait partie intégrante de la méthode de sélection. Ces systèmes
expérimentaux sont au nombre de trois et chacun est basé sur une des sélections que nous avons
réalisées auparavant. Nous les identifions de la manière suivante :
– IWSLT11 XenC_monoEN correspond au système appris sur des données parallèles dont
la sélection a été faite de façon monolingue sur le langage source, ici l’anglais ;
123
Chapitre 6. De l’amélioration des systèmes par la sélection de données
– IWSLT11 XenC_monoFR correspond également à une sélection monolingue, mais sur le
langage cible de traduction, à savoir le français ;
– IWSLT11 XenC_biENFR correspond au système dont la sélection des données d’apprentissage est bilingue.
Pour ces systèmes, afin de ne mesurer que l’impact sur le modèle de traduction, nous avons
utilisé le même modèle de langage que lors de la campagne IWSLT 2011.
Système
IWSLT11 retune (référence)
IWSLT11 XenC_monoEN
IWSLT11 XenC_monoFR
IWSLT11 XenC_biENFR
dev2010
BLEU E.-type
23.84
0.12
24.11
0.05
24.01
0.05
24.10
0.04
tst2010
BLEU E.-type
24.94
0.06
25.12
0.08
24.87
0.11
25.13
0.14
TABLE 6.4 – Résultats en termes de score BLEU des systèmes expérimentaux selon la sélection
pratiquée.
Le tableau 6.4 présente les résultats de chacun de ces systèmes, en termes de score de
traduction BLEU sur les corpus de développement LIUM dev2010 et de test LIUM tst2010.
Il reprend également les résultats du système original (IWSLT11 original) et du système réoptimisé (IWSLT11 retune). Afin de conserver une cohérence dans la comparaison des scores,
la phase d’optimisation a également été réalisée dix fois. À la lumière de ces résultats, nous
pouvons observer que les systèmes basés sur les sélections monolingue en langue source et
bilingue obtiennent des performances similaires, qui sont meilleures que le système de référence, d’environ 0,3 point BLEU sur le corpus de développement et 0,2 point BLEU sur le
corpus de test. Néanmoins, bien qu’elles soient toutes deux utiles au système, il paraît difficile
de conclure à une plus grande efficacité de l’une ou l’autre : en effet, l’écart-type plus important
de la sélection bilingue sur le corpus de test semble indiquer un manque de stabilité dans les
résultats. Il apparaît en revanche clairement que l’approche par sélection monolingue sur le côté
cible de traduction présente moins d’intérêt car moins performante, comme le laissait pressentir
les courbes de perplexité du graphique 6.2 : elle dégrade même le score BLEU de presque 0,1
point sur le corpus de test par rapport au système de référence.
Nous pensons qu’il serait réellement intéressant de conduire d’autres expérimentations sur
le sujet, notamment en tentant de sélectionner des données parmi les corpus les plus éloignés
du domaine, tel que le corpus UN200x par exemple. De plus, nous envisageons également la
sélection et l’utilisation de données recueillies de façon non-supervisée, comme par exemple des
transcriptions automatiques de parole qui seraient ensuite traduites via un système automatisé
afin de produire un corpus parallèle de données entièrement non-supervisées. Au sujet de cet
124
6.3. Expérimentations
apprentissage non-supervisé, les expériences menées dans de précédents travaux, notamment au
LIUM [Lambert 2011], ont montré qu’il est préférable de le pratiquer dans le sens inverse de traduction considéré. Dans le cas qui nous intéresse ici, nous pourrions donc utiliser le système de
reconnaissance automatique de la parole française du LIUM, très performant [Deléglise 2009]
pour produire des transcriptions en français, puis les traduire à l’aide de notre système de
traduction de la parole pour lequel il serait assez aisé de changer le sens de traduction. Ces
nouvelles données parallèles pourraient alors nous permettre de pratiquer d’autres expériences
de sélection par entropie croisée, tant sur la modélisation du langage que sur le modèle de
traduction.
6.3.1.3
Expérimentations sur le système complet de traduction
Puisque les expériences concernant les systèmes créés à partir de la sélection monolingue
sur la langue source et la sélection bilingue semblent concluantes, en particulier sur le corpus de
développement, nous avons choisi d’appliquer à ces deux systèmes le modèle de langage estimé
lors de expériences relatées dans la section 6.3.1.1. Celui-ci ayant produit de bons résultats
en comparaison du modèle de langage d’origine lorsqu’il a été appliqué sur notre système
de référence, notamment sur le corpus de test, nous avons souhaité connaître l’impact global
que peut avoir la sélection par entropie croisée lorsqu’on l’applique sur les deux composantes
principales d’un système de traduction.
Caractéristique
Séquences source uniques
Séquences source totales
Moyenne de traductions / séquence source
Taille moyenne des séquences source
Taille de la table de traduction (en Mo)
IWSLT11
retune
34 767
1 356 443
39.015
1.616
130
XenC
monoEN
39 536
2 569 592
64.994
1.618
238
XenC
biENFR
39 588
2 649 434
66.925
1.652
255
TABLE 6.5 – Caractéristiques des tables de traduction des systèmes expérimentaux.
Le tableau 6.5 détaille les caractéristiques des tables de traduction, d’abord du système de
référence mais aussi des systèmes considérés pour les expérimentations complètes. Ces caractéristiques ont été compilées à partir de versions filtrées des tables de traduction sur le corpus
de développement LIUM dev2010, ce qui nous permet de n’étudier que les séquences utiles
à la tâche de traduction considérée. Nous y faisons figurer, pour la langue source, le nombre
de séquences de mots (phrases) uniques, le nombre de séquences de mots totales, le nombre
moyen de traductions en langue cible par séquence de mots et enfin la longueur moyenne des
séquences de mots.
125
Chapitre 6. De l’amélioration des systèmes par la sélection de données
Nous constatons sur ce tableau deux choses :
– malgré un nombre de séquences uniques relativement similaire entre le système de référence et les systèmes expérimentaux, le nombre de séquences totales et par conséquent
la moyenne de traductions par séquence sont presque doublés. Ce phénomène s’explique
simplement par la plus grande taille des données d’apprentissage des systèmes expérimentaux, cinq fois supérieure pour le corpus ccb2. Néanmoins, cela montre que l’ajout
des données sélectionnées produit plus de paires de séquences utiles à la traduction du
corpus de développement que le système de référence et augmente la variété des traductions possibles ;
– la sélection bilingue produit des séquences de mots qui sont en moyenne plus longues que
les autres systèmes, ce qui est intéressant dans le cadre de la traduction par séquences de
mots : comme nous l’avons évoqué dans la section 1.2.3.3, nous cherchons à maximiser
le nombre de mots par séquence tout en minimisant le nombre de séquences utilisées dans
la traduction.
dev2010
tst2010
BLEU E.-type BLEU E.-type
Système de référence
IWSLT11 retune
23.84
0.12 24.94
0.06
Sélection pour modèle de langage
IWSLT11 XenC_ML
24.01
0.06 25.35
0.07
Sélection pour modèle de traduction
IWSLT11 XenC_monoEN
24.11
0.05 25.12
0.08
IWSLT11 XenC_biENFR
24.10
0.04 25.12
0.15
Sélection pour modèles de langage et de traduction
IWSLT11 XenC monoEN + ML 24.12
0.07 25.18
0.03
IWSLT11 XenC biENFR + ML
24.18
0.07 25.40
0.05
Système
TABLE 6.6 – Résultats en termes de score BLEU des systèmes expérimentaux complets.
Nous présentons dans le tableau 6.6 les moyennes des scores BLEU, accompagnées des
écarts-types, que nous avons obtenus sur les systèmes IWSLT11 XenC_monoEN et IWSLT11
XenC_biENFR en leur ajoutant le modèle de langage utilisé pour le système IWSLT11 XenC_ML.
Les évaluations ont été réalisés sur les mêmes corpus de développement et de test qu’auparavant,
et l’optimisation a été effectuée dix fois.
Ces résultats nous permettent de faire les constatations suivantes :
– l’ajout du modèle de langage au système IWSLT11 XenC_monoEN procure des résultats
similaires au même système sans ce ML : 0.01 et 0.06 point BLEU en plus respectivement
sur le corpus de développement et de test ;
126
6.3. Expérimentations
– en revanche, l’ajout du ML au système IWSLT11 XenC biENFR permet d’obtenir un
nouveau gain : que ce soit comparé aux scores du même système sans le modèle de
langage (0.08 et 0.28 point BLEU en plus respectivement sur le corpus de développement
et de test) ou aux scores du système utilisant uniquement le modèle de langage estimé sur
les données filtrées (0.17 point BLEU de plus sur le corpus de développement et 0.05 de
plus sur le corpus de test).
Au regard des tableaux 6.5 et 6.6, nous pouvons conclure qu’il semble préférable d’employer la sélection par entropie croisée bilingue des données d’apprentissage pour les modèles
de traduction. Nous voyons également que sur les scores finaux, la sélection monolingue sur
le modèle de langage paraît être plus porteuse de gains que la sélection pour le modèle de
traduction. En effet, par rapport au système de référence, le modèle de langage seul produit
un gain de 0.41 point BLEU tandis que le modèle de traduction seul fait gagner 0.18 point
BLEU. La combinaison des deux modèles produit alors un gain de 0.46 point BLEU, toujours
en comparaison du système de référence, soit seulement 0.05 point de plus que le modèle de
langage seul. Le peu de gain procuré par la sélection des données parallèles s’explique par le fait
que notre système de référence utilisait déjà des données filtrées, par la méthode de [Gao 2002]
basée sur la perplexité.
Nous pensons également qu’il est certainement possible d’envisager d’autres méthodes pour
évaluer cette sélection de données. En effet, nous croyons que l’utilisation de la perplexité pour
mesurer la qualité de la sélection, notamment lorsqu’il s’agit de choisir des données pour le
modèle de traduction, pose la question de la pertinence de cette métrique. Nous souhaitons
de plus poursuivre ces expérimentations avec plus de données, notamment en pratiquant cette
sélection sur les corpus hors du domaine qui avaient été mis de côté durant la campagne IWSLT
2011 et, comme nous l’avons déjà évoqué plus haut, en expérimentant l’apprentissage nonsupervisé, seul ou en combinaison avec cette sélection par entropie croisée.
6.3.2
Autres expérimentations
En plus des expériences relatives à la campagne d’évaluation IWSLT 2011, que nous venons
de décrire, d’autres expérimentations reprenant cette méthode de filtrage ont été conduites au
sein du LIUM à l’aide de l’outil XenC. Nous allons ici résumer ces expérimentations et les
résultats qui en découlent.
127
Chapitre 6. De l’amélioration des systèmes par la sélection de données
6.3.2.1
Sélection de données pour WMT12
Le LIUM a participé, comme chaque année, à la campagne d’évaluation WMT12. La tâche
qui a été considérée est la traduction de l’anglais au français et inversement. Au niveau monolingue, la sélection par entropie croisée a été réalisée sur les données d’apprentissage du
modèle de langage cible dans le sens de traduction anglais vers français. Au niveau des données
parallèles, dans chaque sens de traduction, le corpus ccb2 a été filtré de façon monolingue sur la
langue source et ajouté au données d’apprentissage du système (noté ccb2f ). Pour constituer le
corpus faisant partie du domaine, trois corpus de test tirés des éditions 2008 et 2009 de la campagne WMT ont été utilisés. Le tableau 6.7 reprend les résultats présentés dans [Servan 2012].
Le système de référence utilise les corpus Europarl, News-Commentary et ntsXX. À titre de
comparaison, nous présentons également les résultats du système de référence auquel nous
avons ajouté le corpus ccb2 non-filtré.
Système
Europarl+NC+ntsXX
Europarl+NC+ntsXX+ccb2
Europarl+NC+ntsXX+ccb2f
Europarl+NC+ntsXX
Europarl+NC+ntsXX+ccb2
Europarl+NC+ntsXX+ccb2f
Mots source BLEU Corpus de
(millions)
développement
Traduction EN → FR
58
31.12
291
31.34
107
31.67
Traduction FR → EN
64
29.59
329
30.37
120
30.69
BLEU Corpus
de test
28.49
28.98
29.38
28.32
28.52
28.95
TABLE 6.7 – Résultats de la sélection de données pratiquée pour la campagne WMT12.
Nous pouvons observer dans ce tableau que la sélection pratiquée sur le corpus ccb2 permet
d’obtenir des gains intéressants sur cette tâche. En effet, dans le sens de traduction anglais
- français, les gains observés sont de 0.55 point BLEU sur le corpus de développement et
de 0.89 point BLEU sur le corpus de test. Dans le sens de traduction français - anglais, les
gains sont de 1.1 point BLEU sur le corpus de développement et de 0.63 point BLEU sur
le corpus de test. Les scores obtenus avec la version non-filtré du corpus ccb2 montrent bien
l’intérêt qu’il y a à employer cette technique de sélection de données : pour une quantité de
données d’apprentissage presque trois fois supérieure, les scores sont inférieurs d’environ 0.3
point BLEU sur le corpus de développement et d’environ 0.4 point BLEU sur le corpus de test,
dans les deux sens de traduction.
128
6.3. Expérimentations
6.3.2.2
Sélection pour NIST OpenMT 2012
La sélection par entropie croisée a également été réalisée pour la campagne NIST OpenMT
2012 à laquelle le LIUM a participé sur les tâches de traduction arabe vers anglais et chinois
mandarin vers anglais. Notre outil XenC a permis au LIUM de très bien se classer (4e place sur
12 participants) sur la tâche de traduction arabe - anglais. En revanche, les résultats obtenus sur
la tâche de traduction du chinois mandarin vers l’anglais (9e sur 12 participants) ne sont pas
représentatifs de ce que le LIUM sait faire : en effet, pour cette tâche, un système minimaliste
avait été soumis. Dans ce cadre, et notamment dans les travaux sur le CSLM décrits dans
[Schwenk 2012], notre outil s’est également montré efficace, avec une réduction importante
de la taille des ML utilisés et un gain de 0.3 point BLEU.
Nous avons présenté, dans ce chapitre, une méthode de sélection de données efficace et peu
coûteuse, basé sur le critère de l’entropie croisée. Cette méthode peut aussi bien être appliquée
sur des corpus monolingues, pour l’estimation des modèles de langage, que sur des corpus
parallèles, pour l’estimation des modèles de traduction. Nous avons décrit un outil que nous
avons développé, XenC, qui est à même de réaliser ces sélections, et qui depuis fait partie
intégrante du processus de construction de systèmes de traduction au sein du laboratoire. Cet
outil sera ultérieurement distribué à la communauté scientifique. Enfin, nous avons exposé les
diverses expérimentations que nous avons réalisé grâce à ces sélections, qui nous ont permis de
confirmer l’efficacité de cette méthode.
129
Chapitre 6. De l’amélioration des systèmes par la sélection de données
130
Conclusion et perspectives
131
Conclusion et perspectives
Conclusion
e travail de thèse présenté dans ce manuscrit s’inscrit dans le cadre des recherches menées
au Laboratoire d’Informatique de l’Université du Maine (LIUM), dans l’équipe LST (Language and Speech Technologies, Technologies pour le langage et la parole), sur la traduction
automatique de la parole qui combine les deux domaines majeurs situés au cœur des travaux de
cette équipe : la reconnaissance automatique de la parole et la traduction automatique statistique.
Le but de cette thèse était d’étudier les différentes stratégies possibles afin d’intégrer les deux
modalités que sont la parole et le texte dans un cadre unifié de traduction automatique. Les
travaux décrits ici se placent au centre de la participation du LIUM aux campagnes d’évaluation
IWSLT 2010 et 2011, qui constituent le contexte privilégié de nos diverses contributions.
L
Dans la première partie de ce manuscrit, nous avons tout d’abord exposé les fondamentaux des deux domaines à l’origine de la traduction de la parole que sont la reconnaissance
automatique de la parole et la traduction automatique. Nous présentons plus particulièrement
les approches statistiques de ces domaines, qui rencontrent actuellement une forte popularité
auprès de la communauté et sont très utilisées de nos jours.
Nous avons ensuite décrit les spécificités inhérentes à la traduction automatique de la parole
à proprement parler, et nous avons présenté les différentes stratégies permettant d’opérer un
couplage des systèmes plus étroit qu’un simple enchaînement séquentiel.
Enfin, nous nous sommes intéressés au contexte des travaux relatés ici, les campagnes
d’évaluation et plus particulièrement la traduction de présentations scientifiques dans le cadre
de la campagne IWSLT 2011, pour lequel nous avons retracé un historique des campagnes
récentes, en reconnaissance de la parole et en traduction automatique mais aussi en traduction
de la parole.
Dans la seconde partie de ce manuscrit, nous proposons plusieurs contributions au domaine
que nous traitons. Dans un premier temps, nous portons l’accent sur l’importance de disposer
de données pertinentes et cohérentes pour la construction de systèmes efficaces et performants.
Pour cela, nous décrivons notamment le corpus TED-LIUM, que nous avons développé dans
le but de transcrire des présentations scientifiques orales en anglais. Ce corpus, composé de
118 heures de parole accompagnées de leurs transcriptions alignées automatiquement, d’un
corpus de développement de 5 heures de paroles transcrites manuellement et d’un dictionnaire
132
phonétisé, a été gratuitement mis à la disposition de la communauté scientifique et a fait l’objet
d’une publication à l’édition 2012 de la conférence LREC [Rousseau 2012].
Dans un second temps, nous décrivons le système complet de traduction automatique de la
parole anglaise vers le français que nous avons développé sur une durée de deux ans consécutifs.
Ce système, qui a été évalué lors des campagnes internationales d’évaluation IWSLT 2010
[Rousseau 2010] et IWSLT 2011 [Rousseau 2011], a permis au LIUM, lors de cette dernière
édition, de se classer premier sur les cinq laboratoires participants à la tâche considérée, que ce
soit sur la traduction des transcriptions issues d’une combinaison de systèmes de reconnaissance
réalisée via la méthode BONG [Bougares 2011] ou sur la traduction des transcriptions directement issues de notre système de reconnaissance de la parole anglaise. Nous avons également à
cette occasion reçu le prix du meilleur article de la catégorie « description de système ». Au sujet
de la combinaison des systèmes de reconnaissance de la parole et de traduction statistique, nous
avons montré l’importance du couplage étroit entre les systèmes au niveau des performances
observées, par la traduction d’hypothèses de reconnaissance de la parole représentées sous
formes de graphes de mots ou de réseaux de confusion.
Enfin, nous présentons dans le dernier chapitre un outil que nous avons développé, reprenant une méthode de sélection de données basée sur le critère de l’entropie croisée. Grâce aux
expériences que nous avons réalisées, nous avons pu démontrer son efficacité et son intérêt, tant
sur le besoin en ressources de calcul que sur l’amélioration des résultats produits. Cet outil a
aussi été employé avec succès dans d’autres contextes ayant fait l’objet de publications récentes
[Schwenk 2012, Servan 2012]. L’utilisation systématique de la sélection de données a permis au
LIUM d’obtenir des améliorations importantes dans notre système de traduction arabe - anglais,
nous classant parmi les meilleurs systèmes de la campagne d’évaluation OpenMT 2012. Nous
envisageons également prochainement de mettre cet outil à la disposition de l’ensemble de la
communauté scientifique.
Perspectives
À partir des contributions exposées ici et des axes de recherches définis en introduction,
plusieurs perspectives de recherche peuvent être envisagées.
Tout d’abord, le système de traduction automatique de la parole que nous avons développé,
soumis à de fortes contraintes applicatives, pourrait être étendu à des applications plus générales. Pour cela, il serait nécessaire d’agir sur les deux composantes du système (reconnaissance
et traduction) selon deux facteurs :
133
Conclusion et perspectives
– l’acquisition et la sélection de ressources supplémentaires pour les deux modalités, qui
soient adaptées à un contexte plus général ;
– l’étude de nouvelles stratégies de couplage et de l’intégration d’informations et de metainformations supplémentaires au processus de traduction, comme les mesures de confiance
issues de la reconnaissance automatique ou encore les caractéristiques des locuteurs, afin
de faciliter par exemple les choix de terminaisons pour les accords en genre et en nombre.
Ces informations pourraient également être issues d’une méthode de combinaison de
systèmes telle que BONG.
À terme, une extension possible d’un système de traduction de la parole plus généraliste
serait la création d’un prototype de traduction interactive orale. Cela implique de fournir un
effort important vers la notion de temps réel, justifiant l’étude de ces nouvelles stratégies de
couplage afin de réduire au maximum la latence qui reste, en règle générale, trop importante.
Cette notion pourrait également être étudiée en restant dans le cadre des contraintes applicatives
que nous avons définies : une application possible serait par exemple la traduction de cours
universitaires du français à l’anglais afin d’aider les étudiants étrangers.
Une autre perspective intéressante serait d’étudier des méthodes d’adaptation rapide d’un
système de traduction automatique de la parole au locuteur et au sujet ou domaine traité, qui
concernerait donc tous les aspects et modèles statistiques du domaine : les modèles acoustiques,
les modèles de langage et les modèles de traduction. Les techniques d’adaptation sont déjà très
utilisées en reconnaissance automatique de la parole et de plus en plus employées également
en traduction statistique. Une extension de ces méthodes à une adaptation globale mérite d’être
explorée. Cela recoupe également la poursuite des recherches que nous désirons réaliser dans
le cadre de la sélection de données basée sur l’entropie croisée ainsi que dans le cadre de
l’acquisition de ces données via l’apprentissage non-supervisé.
Enfin, nous avons constaté qu’il était souvent coûteux, sinon difficile, de se procurer de
nouveaux corpus, notamment de parole, de taille suffisante pour permettre de construire des
systèmes de façon fiable. Nous pensons donc qu’il serait intéressant de poursuivre les travaux
que nous avons débutés avec la construction du corpus TED-LIUM et la mise en place d’outils
d’acquisition, d’extraction et d’alignement automatique de données, pour la reconnaissance
automatique de la parole et la traduction statistique.
134
Acronymes
135
Acronymes
ACL
Association for Computational Linguistics
AFCP
Association Francophone de la Communication Parlée
BE
Bande étroite
BL
Bande large
BTEC
Basic Travel Expression Corpus
CE
Entropie Croisée (Cross-Entropy)
CMLLR Constrained Maximum Likelihood Linear Regression
136
CSLM
Modèle de langage à représentation continue (Continuous Space Language Model)
DARPA
Defense Advanced Research Projects Agency
DGA
Délégation Générale pour l’Armement
ELDA
Evaluations and Language resources Distribution Agency
EM
Expectation-Maximisation
EMNLP
Empirical Methods in Natural Language Processing
ESTER
Evaluation des Systèmes de Transcription enrichie d’Émissions Radiophoniques
GALE
Global Autonomous Language Exploitation
IWSLT
International Workshop on Spoken Language Translation
MA
Modèle(s) acoustique(s)
MAP
Maximum A Posteriori
MERT
Minimum Error Rate Training
MFCC
Mel-scale Frequency Cepstral Coefficients
MIRA
Margin Infused Relaxed Algorithm
ML
Modèle(s) de langage
MLLR
Maximum Likelihood Linear Regression
MLP
Perceptron multi-couches (Multi-Layer Perceptron)
MMC
Modèle de Markov Caché
MPE
Minimum Phone Error
NCE
Entropie Croisée Normalisée (Normalized Cross-Entropy)
NIST
National Institute of Standards and Technology
PLP
Perceptual Linear Prediction
RAP
Reconnaissance Automatique de la Parole
SAT
Speaker Adaptive Training
TALN
Traitement Automatique des Langues Naturelles
TAS
Traduction Automatique Statistique
TER
Translation Edit Rate
WER
Taux d’Erreur/Mot (Word Error Rate)
WFSM Automate à États Finis Pondérés (Weighted Finite State Machine)
WMT
Workshop on statistical Machine Translation
137
Acronymes
138
Bibliographie
[Allauzen 2004] Allauzen A. et Gauvain J.-L., Construction automatique du vocabulaire d’un
système de transcription, dans Proceedings of Journées d’Étude de la Parole (JEP), 2004.
[Anastasakos 1997] Anastasakos T., McDonough J. et Makhoul J., Speaker adaptive training :
A maximum likelihood approach to speaker normalization, dans Proceedings of IEEE
International Conference on Acoustics, Speech and Signal Processing, volume 2, pages
1043–1046, Avril 1997.
[Axelrod 2011] Axelrod A., He X. et Gao J., Domain adaptation via pseudo in-domain data
selection, dans Proceedings of the 2011 Conference on Empirical Methods in Natural
Language Processing (EMNLP), pages 355–362, Juillet 2011.
[Baum 1972] Baum L. E., An inequality and associated maximization technique in statistical
estimation for probabilistic functions on markov processes, dans Inequalities III, volume 3, pages 1–8, 1972.
[Béchet 2001] Béchet F., LIA–PHON : Un système complet de phonétisation de textes, dans
Revue Traitement Automatique des Langues (TAL), volume 42, pages 47–67, 2001.
[Bengio 2003] Bengio Y., Ducharme R., Vincent P. et Jauvin C., A neural probabilistic language model, dans Journal of Machine Learning Research, volume 3, pages 1137–1155,
Février 2003.
[Bertoldi 2006] Bertoldi N., Cettolo M., Cattoni R., Chen B. et Federico M., ITC-IRST at
the 2006 TC-STAR SLT evaluation campaign, dans TC-STAR Workshop on Speech-toSpeech Translation, pages 19–24, 2006.
[Bertoldi 2005] Bertoldi N. et Federico M., A new decoder for spoken language translation
based on confusion networks, dans Proceedings of the Automatic Speech Recognition
and Understanding Workshop (ASRU), pages 86–91, Décembre 2005.
[Bertoldi 2007] Bertoldi N., Zens R. et Federico M., Speech translation by confusion network
decoding, dans Proceedings of IEEE International Conference on Acoustics, Speech and
Signal Processing, pages 1297–1300, Avril 2007.
[Bougares 2011] Bougares F., Estève Y., Deléglise P. et Linarès G., Bag of n-gram driven decoding for LVCSR system harnessing, dans Proceedings of Automatic Speech Recognition
and Understanding, pages 278–282, Décembre 2011.
[Brown 1990] Brown P. F., Cocke J., Pietra S. A. D., Pietra V. J. D., Jelinek F., Lafferty J. D.,
Mercer R. L. et Roossin P. S., A statistical approach to machine translation, dans Computational Linguistics, volume 16, pages 79–85, Juin 1990.
139
Bibliographie
[Brown 1993] Brown P. F., Pietra S. A. D., Pietra V. J. D. et Mercer R. L., The mathematics of
statistical machine translation, dans Computational Linguistics, volume 19, pages 263–
311, Juin 1993.
[Callison-Burch 2012] Callison-Burch C., Koehn P., Monz C., Post M., Soricut R. et Specia L.,
Findings of the 2012 workshop on statistical machine translation, dans Proceedings of
the 7th Workshop on Statistical Machine Translation, pages 10–51, Juin 2012.
[Cattoni 2007] Cattoni R., Bertoldi N. et Federico M., Punctuating confusion net- works for
speech translation, dans Proceedings of Interspeech, pages 2453–2456, Août 2007.
[Cettolo 1998] Cettolo M., Gretter R. et De Mori R., Recognition as search, dans Spoken Dialogues with Computers, pages 257–309, Avril 1998.
[Chen 1996] Chen S. F. et Goodman J. T., An empirical study of smoothing techniques for
language modeling, dans Proceedings of the 34th Annual Meeting of the Association for
Computational Linguistics, pages 310–318, Juin 1996.
[Chen 1998] Chen S. S. et Gopalakrishnan P., Speaker, environment and channel change detection and clustering via the Bayesian Information Criterion, dans DARPA Broadcast News
Transcription and Understanding Workshop, pages 127–132, Février 1998.
[Chiang 2005] Chiang D., A hierarchical phrase-based model for statistical machine translation, dans Proceedings of the 43rd Annual Meeting of the Association for Computational
Linguistics, pages 263–270, 2005.
[Clark 2011] Clark J. H., Dyer C., Lavie A. et Smith N. A., Better hypothesis testing for
statistical machine translation : Controlling for optimizer instability, dans Proceedings
of the 49th Annual Meeting of the Association for Computational Linguistics : Human
Language Technologies, pages 176–181, Juin 2011.
[Crammer 2003] Crammer K. et Singer Y., Ultraconservative online algorithms for multiclass
problems, dans Journal of Machine Learning Research, volume 3, pages 951–991, Janvier 2003.
[Davis 1980] Davis S. B. et Mermelstein P., Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences, dans IEEE Transactions
on Acoustics, Speech, and Signal Processing, volume 28, pages 357–366, Août 1980.
[Déchelotte 2007] Déchelotte D., Schwenk H., Adda G. et Gauvain J.-L., Improved machine
translation of speech-to-text outputs, dans INTERSPEECH’07, pages 2441–2444, Août
2007.
[Deléglise 2005] Deléglise P., Estève Y., Meignier S. et Merlin T., The LIUM speech transcription system : a CMU Sphinx iii-based system for french broadcast news, dans Proceedings of Interspeech, pages 1653–1656, Septembre 2005.
[Deléglise 2009] Deléglise P., Estève Y., Meignier S. et Merlin T., Improvements to the LIUM
french ASR system based on CMU Sphinx : what helps to significantly reduce the word
error rate ?, dans Proceedings of Interspeech, pages 2123–2126, Septembre 2009.
[Dempster 1977] Dempster A. P., Laird N. M. et Rubin D. B., Maximum likelihood from incomplete data via the EM algorithm, dans Maximum likelihood from incomplete data via
the EM algorithm, volume 39, pages 1–38, Janvier 1977.
140
[Denkowski 2011] Denkowski M. et Lavie A., Meteor 1.3 : Automatic metric for reliable optimization and evaluation of machine translation systems, dans Proceedings of the Sixth
Workshop on Statistical Machine Translation, pages 85–91, Juillet 2011.
[Digalakis 1995] Digalakis V., Rtischev D. et Neumeyer L., Speaker adaptation using constrained reestimation of gaussian mixtures, dans Transactions Speech and Audio Processing,
volume 3, pages 357–366, Septembre 1995.
[Doddington 2002] Doddington G., Automatic evaluation of machine translation quality using
n-gram co-occurrence statistics, dans roceedings of the second international conference
on Human Language Technology Research, pages 138–145, 2002.
[Estève 2009] Estève Y., Traitement automatique de la parole : contributions, dans Habilitation
à diriger des recherches (HDR), LIUM, Université du Maine, 2009.
[Estève 2004] Estève Y., Deléglise P. et Jacob B., Système de transcription automatique de
la parole et logiciels libres, dans Revue Traitement Automatique des Langues (TAL),
volume 45, pages 15–39, 2004.
[Federico 2003] Federico M., Evaluation frameworks for speech translation technologies, dans
Proceedings of Eurospeech, pages 377–380, Septembre 2003.
[Federico 2011] Federico M., Bentivogli L., Paul M. et Stüker S., Overview of the IWSLT 2011
evaluation campaign, dans Proceedings of International Workshop on Spoken Language
Translation, pages 11–27, Décembre 2011.
[Federico 1998] Federico M. et De Mori R., Language modelling, dans Spoken Dialogues with
Computers, pages 204–210, Avril 1998.
[Fiscus 2008] Fiscus J. G., Ajot J. et Garofolo J. S., The rich transcription 2007 meeting recognition evaluation, dans Multimodal Technologies for Perception of Humans, pages
373–389, Août 2008.
[Galliano 2005] Galliano S., Geoffrois E., Mostefa D., Choukri K., Bonastre J.-F. et Gravier G.,
The ESTER phase II evaluation campaign for the rich transcription of french broadcast
news, dans Proceedings of Interspeech, Septembre 2005.
[Galliano 2009] Galliano S., Gravier G. et Chaubard L., The ESTER 2 evaluation campaign for
the rich transcription of french radio broadcast, dans Proceedings of Interspeech, pages
2583–2586, Septembre 2009.
[Gao 2002] Gao J., Goodman J. T., Li M. et Lee K.-F., Toward a unified approach to statistical
language modeling for chinese, dans ACM Transactions on Asian Language Information
Processing (TALIP), volume 1, pages 3–33, Mars 2002.
[Gao 2008] Gao Q. et Vogel S., Parallel implementations of word alignment tool, dans Proceedings of Software Engineering, Testing, and Quality Assurance for Natural Language
Processing, pages 49–57, Juin 2008.
[Gauvain 1994] Gauvain J.-L. et Lee C.-H., Maximum a posteriori estimation for multivariate
gaussian mixture observations of markov chains, dans Transactions on Speech and Audio
Processing, volume 2, pages 291–298, Avril 1994.
[Gravier 2004] Gravier G., Bonastre J.-F., Geoffrois E., Galliano S., McTait K. et Choukri K.,
ESTER, une campagne d’évaluation des systèmes d’indexation automatique d’émissions
141
Bibliographie
radiophoniques en français, dans Proceedings of Journées d’Étude de la Parole (JEP),
Avril 2004.
[Grézl 2008] Grézl F. et Fousek P., Optimizing bottle-neck features for LVCSR, dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing,
pages 4729–4732, Avril 2008.
[Hamon 2007] Hamon O., Mostefa D. et Choukri K., End-to-end evaluation of a speech-tospeech translation system in TC-STAR, dans Proceedings of MT-SUMMIT, pages 223–
230, Septembre 2007.
[Hasler 2011] Hasler E., Haddow B. et Koehn P., Margin infused relaxed algorithm for moses,
dans The Prague Bulletin of Mathematical Linguistics, numéro 96, pages 69–78, Octobre
2011.
[Hermansky 1990] Hermansky H., Perceptual linear predictive (PLP) analysis of speech, dans
Journal of Acoustical Society of America, volume 87, pages 1738–1752, Avril 1990.
[Jelinek 1976] Jelinek F., Continuous speech recognition by statistical methods, dans Proceedings of the IEEE, volume 64, pages 532–556, Avril 1976.
[Jelinek 2004] Jelinek F., Some of my best friends are linguists, dans Proceedings of LREC
2004, http ://www.lrec-conf.org/lrec2004/doc/jelinek.pdf, Mai 2004.
[Jelinek 1977] Jelinek F., Mercer R. L., Bahl L. R. et Baker J. K., Perplexity – a measure of
difficulty of speech recognition tasks, dans 94th meeting of the Acoustical Society of
America, volume 62, page S63, Décembre 1977.
[Jiang 2005] Jiang H., Confidence measures for speech recognition : A survey, dans Speech
Communication, volume 45, pages 455–470, Mars 2005.
[Justo 2010] Justo R., Pérez A., Torres M. I. et Casacuberta F., Hierarchical finite-state models for speech translation using categorization of phrases, dans CICLING 2010 : 11th
International Conference on Intelligent Text Processing and Computational Linguistics,
pages 484–493, Mars 2010.
[Katz 1987] Katz S. M., Estimation of probabilities from sparse data for the language model
component of a speech recognizer, dans IEEE Transactions on Acoustics, Speech and
Signal Processing, volume 35, pages 400–401, Avril 1987.
[Koehn 2007] Koehn P., Hoang H., Birch A., Callison-Burch C., Federico M., Bertoldi N.,
Cowan B., Shen W., Moran C., Zens R., Dyer C., Bojar O., Constantin A. et Herbst E.,
Moses : Open source toolkit for statistical machine translation, dans Meet- ing of the
Association for Computational Linguistics, pages 177–180, 2007.
[Koehn 2003] Koehn P., Och F. J. et Marcu D., Statistical phrase-based translation, dans Proceedings of the 2003 Conference of the North American Chapter of the Association for
Computational Linguistics on Human Language Technology, volume 1, pages 48–54,
Mai 2003.
[Kumar 2006] Kumar S., Deng Y. et Byrne W., A weighted finite state transdu- cer translation
template model for statistical machine translation, dans Natural Language Engineering,
volume 12, pages 35–75, 2006.
142
[Lambert 2011] Lambert P., Schwenk H., Servan C. et Adbul-Rauf S., Investigations on translation model adaptation using monolingual data, dans Proceedings of the Sixth Workshop
on Statistical Machine Translation, pages 284–293, Juillet 2011.
[Lavie 2007] Lavie A. et Agarwal A., Meteor : an automatic metric for mt evaluation with high
levels of correlation with human judgments, dans Proceedings of the Second Workshop
on Statistical Machine Translation, pages 228–231, Juillet 2007.
[Lee 1990] Lee K.-F., Hon H.-W. et Reddy R., An overview of the SPHINX speech recognition
system, dans IEEE Transactions on Acoustics, Speech and Signal Processing, volume 38,
pages 35–45, Janvier 1990.
[Leggetter 1995] Leggetter C. J. et Woodland P. C., Maximum likelihood linear regression for
speaker adaptation of continuous density hidden Markov models, dans Computer Speech
and Language, volume 9, pages 171–185, Avril 1995.
[Mangu 1999] Mangu L., Brill E. et Stolcke A., Finding consensus among words : Latticebased word error minimization, dans Proceedings of Eurospeech, pages 495–498, Septembre 1999.
[Mangu 2000] Mangu L., Brill E. et Stolcke A., Finding consensus in speech recognition :
Word error minimization and other applications of confusion networks, dans Computer
Speech and Language, volume 14, pages 373–400, Octobre 2000.
[Marcu 2002] Marcu D. et Wong W., A phrase-based, joint probability model for statistical
machine translation, dans Proceedings of the ACL-02 conference on Empirical methods
in natural language processing, volume 10, pages 133–139, Juillet 2002.
[Mathias 2006] Mathias L. et Byrne W., Statistical phrase-based speech translation, dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing,
pages 561–564, Mai 2006.
[Matsoukas 2009] Matsoukas S., Rosti A.-V. I. et Zhang B., Discriminative corpus weight estimation for machine translation, dans Proceedings of the 2009 Conference on Empirical
Methods in Natural Language Processing, pages 708–717, Août 2009.
[Matusov 2009] Matusov E., Combining Natural Language Processing Systems to Improve
Machine Translation of Speech, Thèse de doctorat, Fakultät für Mathematik, Informatik
und Naturwissenschaften der Rheinisch-Westfälischen Technischen Hochschule Aachen,
Décembre 2009.
[Matusov 2007] Matusov E., Hillard D., Magimai-Doss M., Hakkani-Tur D., Ostendorf M. et
Ney H., Improving speech translation with automatic boundary prediction, dans INTERSPEECH’07, pages 2449–2452, Août 2007.
[Matusov 2006a] Matusov E., Mauser A. et Ney H., Automatic sentence segmentation and
punctuation prediction for spoken language translation, dans Proceedings of International Workshop on Spoken Language Translation, pages 158–165, Décembre 2006a.
[Matusov 2005] Matusov E., Ney H. et Schlüter R., Phrase-based translation of speech recognizer word lattices using loglinear model combination, dans Proceedings of the Automatic
Speech Recognition and Understanding Workshop (ASRU), pages 110–115, Novembre
2005.
143
Bibliographie
[Matusov 2006b] Matusov E., Zens R., Vilar D., Mauser A., Popovic M., Hasan S. et Ney H.,
The RWTH machine translation system, dans TC-STAR Workshop on Speech-to-Speech
Translation, pages 31–36, 2006b.
[Mauclair 2006] Mauclair J., Mesures de confiance en traitement automatique de la parole
et applications, Thèse de doctorat, LIUM, Université du Maine, Le Mans, France, Décembre 2006.
[Meignier 2010] Meignier S. et Merlin T., LIUM SpkDiarization : an open source toolkit for
diarization, dans Proceedings of the CMU SPUD Workshop, Mars 2010.
[Mohri 2004] Mohri M., Weighted finite-state transducer algorithms : An overview, dans Formal Languages and Applications, 2004.
[Mohri 2002] Mohri M., Pereira F. et Riley M., Weighted finite-state transducers in speech
recognition, dans Computer Speech and Language, volume 16, pages 69–88, Janvier
2002.
[Moore 2010] Moore R. C. et Lewis W., Intelligent selection of language model training data,
dans Proceedings of the ACL Conference Short Papers, pages 220–224, Juillet 2010.
[Ney 1999] Ney H., Speech translation : coupling recognition and translation, dans Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing,
pages 1149–1152, Mai 1999.
[Ney 1992] Ney H., Mergel D., Noll A. et Paeseler A., Data driven search organization
for continuous speech recognition, dans IEEE Transactions on Signal Processing, volume 40, pages 272–281, Février 1992.
[Och 2003a] Och F. J., Minimum error rate training in statistical machine translation, dans
Proceedings of the 41st Annual Meeting on Association for Computational Linguistics,
volume 1, pages 160–167, Juillet 2003a.
[Och 2003b] Och F. J. et Ney H., A systematic comparison of various statistical alignment
models, dans Computational Linguistics, volume 29, pages 19–51, Mars 2003b.
[Och 1999] Och F. J., Tillmann C. et Ney H., Improved alignment models for statistical machine translation, dans University of Maryland, College Park, MD, pages 20–28, 1999.
[Pallett 2003] Pallett D. S., A look at NIST’s benchmark ASR tests : Past, present, and future,
dans Proceedings of the 2003 IEEE Automatic Speech Recognition and Understanding
Workshop (ASRU), pages 483–488, Décembre 2003.
[Pallett 1997] Pallett D. S., Fiscus J. G., Fisher W. M. et Garofolo J. S., Use of broadcast news
materials for speech recognition benchmark tests, dans Proceedings of Eurospeech, pages
1903–1906, Septembre 1997.
[Pallett 1994] Pallett D. S., Fiscus J. G., Fisher W. M., Garofolo J. S., Lund B. A. et Przybocki
M. A., 1993 benchmark tests for the ARPA spoken language program, dans HLT ’94
Proceedings of the workshop on Human Language Technology, pages 49–74, Mars 1994.
[Pallett 1999] Pallett D. S., Fiscus J. G., Garofolo J. S., Martin A. et Przybocki M. A., 1998
broadcast news benchmark test results : English and non-english word error rate performance measures, dans Proceedings of the DARPA Broadcast News Workshop, pages
5–12, Février 1999.
144
[Papineni 2002] Papineni K., Roukos S., Ward T. et Zhu W.-J., BLEU : a method for automatic evaluation of machine translation, dans Proceedings of the 40th Annual Meeting on
Association for Computational Linguistics, pages 311–318, Juillet 2002.
[Paul 2010] Paul M., Federico M. et Stüker S., Overview of the IWSLT 2010 evaluation campaign, dans Proceedings of International Workshop on Spoken Language Translation,
pages 3–27, Décembre 2010.
[Paulik 2008] Paulik M., Rao S., Lane I., Vogel S. et Schultz T., Sentence segmentation and
punctuation recovery for spoken language translation, dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, pages 5105–5108, Avril
2008.
[Placeway 1997] Placeway P., Chen S., Eskenazi M., Jain U., Parikh V., Raj B., Ravishankar
M., Rosenfeld R., Seymore K., Siegler M., Stern R. et Thayer E., The 1996 Hub-4
Sphinx-3 system, dans Proceedings of the DARPA Speech Recognition Workshop, pages
85–89, Février 1997.
[Povey 2002] Povey D. et Woodland P. C., Minimum phone error and i-smoothing for improved discriminative training, dans Proceedings of IEEE International Conference on
Acoustics, Speech and Signal Processing, pages 105–108, Mai 2002.
[Quan 2005] Quan V. H., Federico M. et Cettolo M., Integrated nbest re-ranking for spoken
language translation, dans Proceedings of Interspeech, pages 3181–3184, Septembre
2005.
[Rabiner 1989] Rabiner L. R., A tutorial on hidden markov models and selected applications in
speech recognition, dans Proceedings of the IEEE, volume 77, pages 257–286, Février
1989.
[Ravishankar 2000] Ravishankar M., Singh R., Raj B. et Stern R. M., The 1999 CMU 10x
real time broadcast news transcription system, dans Proceedings of DARPA Workshop on
Automatic Transcription of Broadcast News, Mai 2000.
[Rayner 2008] Rayner M., Bouillon P., Brotanek J., Flores G., Halimi S., Hockey B. A., Isahara
H., Kanzaki K., Kron E., Nakao Y., Santaholma M., Starlander M. et Tsourakis N., The
2008 medslt system, dans Proceedings of Coling 2008, pages 32–35, Août 2008.
[Rousseau 2009] Rousseau A., La traduction automatique de la parole – approches pour de
meilleures performances, Juillet 2009, mémoire de Master Recherche en Informatique,
Université du Maine, Le Mans.
[Rousseau 2010] Rousseau A., Barrault L., Deléglise P. et Estève Y., LIUM’s statistical machine translation system for IWSLT 2010, dans Proceedings of International Workshop
on Spoken Language Translation, pages 113–117, Décembre 2010.
[Rousseau 2011] Rousseau A., Bougares F., Deléglise P., Schwenk H. et Estève Y., LIUM’s
systems for the IWSLT 2011 speech translation tasks, dans Proceedings of International
Workshop on Spoken Language Translation, pages 79–85, Décembre 2011.
[Rousseau 2012] Rousseau A., Deléglise P. et Estève Y., TED-LIUM : an automatic speech
recognition dedicated corpus, dans Proceedings of the Eight International Conference
on Language Resources and Evaluation (LREC’12), pages 125–129, Mai 2012.
145
Bibliographie
[Saleem 2004] Saleem S., Jou S.-C., Vogel S. et Schultz T., Using word lattice information for
a tighter coupling in speech translation systems, dans INTERSPEECH’04, pages 41–44,
Octobre 2004.
[Schwenk 2007] Schwenk H., Continuous space language models, dans Computer Speech and
Language, volume 21, pages 492–518, Janvier 2007.
[Schwenk 2010] Schwenk H., Continuous space language models for statistical machine translation, dans The Prague Bulletin of Mathematical Linguistics, numéro 93, pages 137–
146, Janvier 2010.
[Schwenk 2006] Schwenk H., Costa-Jussà M. R. et Fonollosa J. A. R., Continuous space language models for the iwslt 2006 task, dans Proceedings of International Workshop on
Spoken Language Translation, pages 166–173, Novembre 2006.
[Schwenk 2002] Schwenk H. et Gauvain J.-L., Connectionist language modeling for large vocabulary continuous speech recognition, dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, pages 765–768, Mai 2002.
[Schwenk 2005] Schwenk H. et Gauvain J.-L., Training neural network language models on
very large corpora, dans Proceedings of the Conference on Empirical Methods in Natural
Language Processing, pages 201–208, Octobre 2005.
[Schwenk 2011] Schwenk H., Lambert P., Barrault L., Servan C., Adbul-Rauf S., Afli H. et
Shah K., LIUM’s SMT machine translation systems for WMT 2011, dans Proceedings
of the Sixth Workshop on Statistical Machine Translation, pages 464–469, Juillet 2011.
[Schwenk 2012] Schwenk H., Rousseau A. et Attik M., Large, pruned or continuous space
language models on a GPU for statistical machine translation, dans NAACL Workshop on
the Future of Language Modeling, pages 11–19, Juin 2012.
[Servan 2012] Servan C., Lambert P., Rousseau A., Schwenk H. et Barrault L., LIUM’s SMT
machine translation systems for WMT 2012, dans Proceedings of the Seventh Workshop
on Statistical Machine Translation, pages 369–373, Mai 2012.
[Shah 2012] Shah K., Model adaptation techniques in machine translation, Thèse de doctorat,
LIUM, Université du Maine, Le Mans, France, Juin 2012.
[Shugrina 2010] Shugrina M., Formatting time-aligned ASR transcripts for readability, dans
Proceedings of the 2010 Conference of the North American Chapter of the Association
for Computational Linguistics, pages 198–206, Juin 2010.
[Siu 1999] Siu M. et Gish H., Evaluation of word confidence for speech recognition systems,
dans Computer Speech and Language, volume 13, pages 299–319, Octobre 1999.
[Snover 2006] Snover M., Dorr B., Schwartz R., Micciulla L. et Makhoul J., A study of translation edit rate with targeted human annotation, dans Proceedings of the 7th Conference of
the Association for Machine Translation in the Americas (AMTA), pages 223–231, 2006.
[Snover 2009] Snover M., Madnani N., Dorr B. et Schwartz R., Fluency, adequacy, or HTER ?
exploring different human judgments with a tunable MT metric, dans Proceedings of the
Fourth Workshop on Statistical Machine Translation, pages 259–268, Mars 2009.
[Stolcke 2002] Stolcke A., SRILM - an extensible language modeling toolkit, dans Proceedings
of Interspeech, pages 901–904, Septembre 2002.
146
[Stolcke 2011] Stolcke A., Zheng J., Wang W. et Abrash V., SRILM at sixteen : Update and
outlook, dans Proceedings of the Automatic Speech Recognition and Understanding
Workshop (ASRU), Décembre 2011.
[Strik 1999] Strik H. et Cucchiarini C., Modeling pronunciation variation for ASR : A survey
of the literature, dans Speech Communication, volume 29, pages 225–246, Novembre
1999.
[Stüker 2006] Stüker S., Fügen C., Hsiao R., Ikbal S., Jin Q., Kraft F., Paulik M., Raab M.,
Tam Y.-C. et Wölfel M., The ISL TC-STAR spring 2006 ASR evaluation systems, dans
Proceedings of the TC-STAR Workshop on Speech-to-Speech Translation, pages 139–
144, Juin 2006.
[Stüker 2012] Stüker S., Kraft F., Mohr C., Herrmann T., Cho E. et Waibel A., The kit lecture
corpus for speech translation, dans Proceedings of the Eight International Conference on
Language Resources and Evaluation (LREC’12), pages 3409–3414, Mai 2012.
[Takezawa 2002] Takezawa T., Sumita E., Sugaya F., Yamamoto H. et Yamamoto S., Toward a
broad-coverage bilingual corpus for speech translation of travel conversations in the real
world, dans Proceedings of LREC 2002, pages 147–152, Mai 2002.
[Vanden Berghen 2005] Vanden Berghen F. et Bersini H., CONDOR, a new parallel, constrained extension of powell’s UOBYQA algorithm : experimental results and comparison
with the DFO algorithm, dans Journal of Computational and Applied Mathematics, volume 181, pages 157–175, Septembre 2005.
[Viterbi 1967] Viterbi A. J., Error bounds for convolutional codes and an asymptotically optimal decoding algorithm, dans IEEE Transactions on Information Theory, volume 13,
pages 260–269, Avril 1967.
[Wahlster 2000] Wahlster W., Verbmobil : Foundations of Speech-to-Speech Translation, Springer, Juillet 2000.
[Walker 2004] Walker W., Lamere P., Kwok P., Raj B., Singh R., Gouvea E., Wolf P. et Woelfel J., Sphinx-4 : A flexible open source framework for speech recognition, dans Sun
Microsystems Technical Report, Novembre 2004.
[White 1994] White J. S., The ARPA MT evaluation methodologies : Evolution, lessons, and
further approaches, dans Proceedings of the 1994 Conference of the Association for
Machine Translation in the Americas, pages 193–205, 1994.
[Witten 1991] Witten I. H. et Bell T. C., The zero-frequency problem : estimating the probabilities of novel events in adaptive text compression, dans IEEE Transactions on Information
Theory, volume 37, pages 1085–1094, Juillet 1991.
[Yamada 2001] Yamada K. et Knight K., A syntax-based statistical translation model, dans
Proceedings of the 39th Annual Meeting on Association for Computational Linguistics,
pages 523–530, Juillet 2001.
[Zhang 2006] Zhang R. et Kikui G., Integration of speech recognition and machine translation :
Speech recognition word lattice translation, dans Speech Communication, volume 48,
pages 321–334, Mars 2006.
147
Bibliographie
[Zhang 2004] Zhang R., Kikui G., Yamamoto H., Soong F. K., Watanabe T., Sumita E. et
Lo W.-K., Improved spoken language translation using n-best speech recognition hypotheses, dans INTERSPEECH’04, pages 1629–1632, Octobre 2004.
148
Annexes
149
Annexe A
Liste des publications
151
Annexe A. Liste des publications
– Yannick Estève, Paul Deléglise, Sylvain Meignier, Simon Petit-Renaud, Holger Schwenk,
Loïc Barrault, Fethi Bougares, Richard Dufour, Vincent Jousse, Antoine Laurent et Anthony Rousseau. « Some recent research work at LIUM based on the use of CMU Sphinx »,
CMU SPUD Workshop, Mars 2010.
– Anthony Rousseau, Loïc Barrault, Yannick Estève et Paul Deléglise. « LIUM’s Statistical
Machine Translation System for IWSLT 2010 », Proceedings of the International Workshop on Spoken Language Translation 2010, pp. 113–117, Décembre 2010.
– Anthony Rousseau, Fethi Bougares, Paul Deléglise, Holger Schwenk et Yannick Estève.
« LIUM’s systems for the IWSLT 2011 Speech Translation Tasks », Proceedings of the
International Workshop on Spoken Language Translation 2011, pp. 79–85, Décembre
2011.
– Anthony Rousseau, Paul Deléglise et Yannick Estève. « TED-LIUM : an Automatic Speech
Recognition dedicated corpus », Proceedings of the Eighth International Conference on
Language Resources and Evaluation (LREC’12), Mai 2012.
– Christophe Servan, Patrik Lambert, Anthony Rousseau et Holger Schwenk. « LIUM’s
SMT Machine Translation Systems for WMT 2012 », Proceedings of the Seventh Workshop on Statistical Machine Translation, pp. 369–373, Mai 2012.
– Holger Schwenk, Anthony Rousseau et Mohammed Attik. « Large, Pruned or Continuous
Space Language Models on a GPU for Statistical Machine Translation », Proceedings of
the NAACL workshop on the Future of Language Modeling, Juin 2012.
152