UNIVERSITÉ PARIS 13 INSTITUT GALILÉE N˚attribué par la

Transcription

UNIVERSITÉ PARIS 13 INSTITUT GALILÉE N˚attribué par la
UNIVERSITÉ PARIS 13
INSTITUT GALILÉE
N˚ attribué par la bibliothèque
THÈSE
pour obtenir le grade de
DOCTEUR DE L’UNIVERSITÉ PARIS 13
Discipline : informatique
présentée et soutenue publiquement
par
Olivier HAMON
le 6 décembre 2010
Titre :
Vers une architecture générique et pérenne pour l’évaluation en traitement
automatique des langues : spécifications, méthodologies et mesures
Directrice de thèse :
Adeline Nazarenko
JURY
M.
M.
M.
M.
M.
Mme
M.
Mohand
Khalid
Anthony
Daniel
Joseph
Adeline
François
BOUGHANEM
CHOUKRI
HARTLEY
KAYSER
MARIANI
NAZARENKO
YVON
Rapporteur
Examinateur
Examinateur
Examinateur
Président
Directrice
Rapporteur
« – Ma machine fait ce qu’elle sait faire, dit-il. Ce n’est pas de techniciens qu’elle aurait
besoin. Elle en a assez. Il lui faudrait des cerveaux...
– Des cerveaux ? Il n’y a pas un endroit au monde où vous en trouverez réunis de
meilleurs qu’ici ! Je vais demander une réunion immédiate du Conseil. Vous exposerez
vos problèmes...
– Ce sont de petits cerveaux, monsieur le docteur, de tout petits cerveaux d’hommes. Il
leur faudrait des siècles de discussion avant de se mettre d’accord sur le sens d’une
virgule... Quand je dis cerveau, c’est au sien que je pense.
Il caressa de nouveau le bord de la console, et ajouta :
– Et à ses semblables. »
La Nuit des temps, René Barjavel, éd. Presses de la cité, 1968, p.128.
Remerciements
Il est difficile d’évaluer l’apport de chacun sur une thèse... certains ont un fort rappel,
d’autres une forte précision, et d’autres encore cumulent et obtiennent une forte f-mesure.
Ces remerciements ne sont pas une évaluation, mais plutôt une sorte de "validation",
tous ayant largement dépassé un seuil qui était fixé bien haut. Cette validation m’est
plus simple à faire et chaque personne citée ci-dessous a apporté une brique nécessaire à
construire ma petite maison qui sera, j’en ai bien l’impression, en perpétuels travaux.
Mes premiers remerciements vont bien entendu à Adeline Nazarenko, qui a accepté
d’être la directrice de cette thèse. Chaque discussion que nous avons eue a été une source
de (re)motivation et un très bon exercice pour se creuser les méninges. Sa présence lors des
moments difficiles, 24 heures sur 24 et 7 jours sur 7, a été d’un support plus qu’apprécié.
Merci également à Khalid Choukri pour m’avoir accueilli au sein de la société ELDA
afin de réaliser cette thèse dans le cadre d’une convention CIFRE. Le contexte de mon
travail à ELDA m’a permis de découvrir de nombreux aspects du domaine du TAL et de
réaliser des expérimentations autour de multiples et diverses campagnes d’évaluation.
J’adresse mes remerciements à Mohand Boughanem et François Yvon, rapporteurs de
ce manuscrit, de même qu’à Anthony Hartley, Daniel Kayser et Joseph Mariani qui ont
accepté d’en être les examinateurs. Merci à eux pour leurs remarques constructives et les
discussions lors de ma soutenance. Ils m’ont apporté de nombreux points de réflexion pour
le futur. Merci à ceux qui sont venus de loin, voire de très loin, assister à ma soutenance.
Chronologiquement parlant, je ne peux que remercier Sylvain Surcin, qui ma lancé dans
cette galère. L’odyssée s’est poursuivi sans lui, mais il est à l’origine de ma motivation
pour démarrer ce beau voyage.
Un énorme merci à Louis-Gabriel Pouillot et Victoria Arranz pour leurs relectures
attentives. Ma thèse n’en est que plus aboutie par leur aide précieuse, quand bien même
cela m’a donné plus de travail que prévu.
Les travaux présentés dans cette thèse reposent sur plusieurs évaluations de systèmes
de traitement automatique des langues. Ils n’auraient pas pu être réalisés sans l’apport
et le soutien de nombreuses personnes avec qui j’ai eu le plaisir, autant professionnel
que personnel, de collaborer. Parmi elles, je tiens particulièrement à remercier Andrei
Popescu-Belis, Patrick Paroubek, Paula Estrella, Haïfa Zargayouna et Martin Rajman
qui ont alimenté mes réflexions autour du sujet "évaluation" et certainement bien plus.
Merci aussi aux collaborateurs avec qui j’ai eu l’occasion de collaborer dans différents
projects et qui m’ont beaucoup appris dans un contexte hors évaluation.
Je tiens à remercier l’ensemble de l’équipe d’ELDA, passée et présente. Certains ont
déjà été cités, je remercie aussi plus particulièrement Chiao Yun-Chuang, Marie-Neige
Garcia, Hélène Mazo et Mathieu Robin-Vinet. Leur écoute de mes râleries constantes a
été source de relaxation...
Enfin je remercie ma famille et mes amis pour leur patience et m’avoir supporté durant
tout ce temps... ou d’avoir supporté mes absences répétées. Ce n’est malheureusement
qu’un aperçu de ce qui les attends par la suite ! Un grand merci en particulier à mes parents
pour avoir tenu le coup lors de ma soutenance, et réussi à me réconforter durant toutes
ces années. Merci aussi à J.P., J.D. et Odile pour leurs encouragements inextinguibles.
Pour les oubliés, mille pardons...
Le meilleur pour la fin, un énorme merci à la petite pitufa pour son soutien infaillible.
Résumé
Le développement de systèmes en traitement automatique des langues (TAL) nécessite de déterminer la qualité de ce qui est produit. Que ce soit pour comparer plusieurs
systèmes entre eux ou identifier les points forts et faibles d’un système isolé, l’évaluation
suppose de définir avec précision et pour chaque contexte particulier une méthodologie, un
protocole, des ressources linguistiques (les données nécessaires à l’apprentissage et au test
des systèmes) ou encore des mesures et métriques d’évaluation. C’est à cette condition
que l’amélioration des systèmes est possible afin d’obtenir des résultats plus fiables et plus
exploitables à l’usage. L’apport de l’évaluation en TAL est important avec la création de
nouvelles ressources linguistiques, l’homogénéisation des formats des données utilisées ou
la promotion d’une technologie ou d’un système.
Toutefois, l’évaluation nécessite un important travail manuel, que ce soit pour l’expression des jugements humains ou pour la gestion du déroulement même de l’évaluation, ce
qui compromet l’efficacité des évaluations, augmente leur coût et les rend difficilement reproductibles. Nous avons cherché à réduire et à encadrer ces interventions manuelles. Pour
ce faire, nous appuyons nos travaux sur la conduite ou la participation à des campagnes
d’évaluation comparant des systèmes entre eux, ou l’évaluation de systèmes isolés.
Nous avons formalisé la gestion du déroulement de l’évaluation et listé ses différentes
phases pour définir un cadre d’évaluation commun, compréhensible par tous. Le point
phare de ces phases d’évaluation concerne la mesure de la qualité via l’utilisation de
métriques. Cela a imposé trois études successives sur les mesures humaines, les mesures
automatiques et les moyens d’automatiser le calcul de la qualité et enfin la méta-évaluation
des mesures qui permet d’en évaluer la fiabilité. En parallèle, les mesures d’évaluation
utilisent des ressources linguistiques dont les aspects pratiques et administratifs à travers
les opérations de création, standardisation, validation, impact sur les résultats, coût de
production et d’utilisation, identification et négociation des droits doivent être prises
en compte. Dans ce contexte, l’étude des similarités entre les technologies et entre leurs
évaluations nous a permis d’observer les points communs et de les hiérarchiser. Nous avons
montré qu’un petit ensemble de mesures permet de couvrir une large palette d’applications
à des technologies distinctes.
Notre objectif final était de définir une architecture d’évaluation générique, c’est-àdire adaptable à tout type de technologie du TAL, et pérenne, c’est-à-dire permettant la
réutilisation de ressources linguistiques, mesures ou méthodes au cours du temps. Notre
proposition se fait à partir des conclusions des étapes précédentes afin d’intégrer les phases
d’évaluation à notre architecture et d’y incorporer les mesures d’évaluation, sans oublier
la place relative à l’utilisation de ressources linguistiques. La définition de cette architecture s’est effectuée en vue d’automatiser entièrement la gestion des évaluations, que
ce soit pour une campagne d’évaluation ou l’évaluation d’un système isolé. À partir de
premières expérimentations, nous avons modélisé une architecture d’évaluation prenant
en compte l’ensemble de ces contraintes et utilisant les services Web afin d’interconnecter
les composants de l’architecture entre eux et d’y accéder via le réseau Internet.
Abstract
The development of Natural Language Processing (NLP) systems needs to determine
the quality of their results. Whether aiming to compare several systems to each other or to
identify both the strong and weak points of an isolated system, evaluation implies defining
precisely and for each particular context a methodology, a protocol, language resources
(data needed for both system training and testing) and even evaluation measures and
metrics. It is following these conditions that system improvement is possible so as to
obtain more reliable and easy-to-exploit results. The contribution of evaluation to NLP is
important due to the creation of new language resources, the homogenisation of formats
for those data used or the promotion of a technology or a system.
However, evaluation requires considerable manual work, whether to formulate human
judgments or to manage the evaluation procedure. This compromises the evaluation’s
reliability, increases costs and makes it harder to reproduce. We have tried to reduce
and delimit those manual interventions. To do so, we have supported our work by either
conducting or participating in evaluation campaigns where systems are compared to each
other or where isolated systems are evaluated.
The management of the evaluation procedure has been formalised in this work and
its different phases have been listed so as to define a common evaluation framework,
understandable by all. The main point of those evaluation phases regards quality measurement through the usage of metrics. Three consecutive studies have been carried out on
human measures, automatic measures and the automation of quality computation, and
the meta-evaluation of the mesures so as to evaluate their reliability. Moreover, evaluation measures use language resources whose practical and administrative aspects must
be taken into account. Among these, we have their creation, standarisation, validation,
impact on the results, costs of production and usage, identification and legal issues. In
that context, the study of the similarities between the technologies and between their
evaluations has allowed us to highlight their common features and class them. This has
helped us to show that a small set of measures allows to cover a wide range of applications
for different technologies.
Our final goal has been to define a generic evaluation architecture, which is adaptable to different NLP technologies, and sustainable, namely allowing to reuse language
resources, measures or methods over time. Our proposal has been built on the conclusions
drawn from previous steps, with the objective of integrating the evaluation phases to
our architecture and incorporating the evaluation measures, all of which bearing in mind
the place of language resource usage. The definition of this architecture has been done
with the aim of fully automating the evaluation management work, regardless of whether
this concerns an evaluation campaign or the evaluation of an isolated system. Following
initial experiments, we have designed an evaluation architecture taking into account all
the constraints found as well as using Web services. These latter provide the means to
interconnect architecture components and grant them accessible through the Internet.
Table des matières
1 Introduction
1.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Contexte de travail . . . . . . . . . . . . . . . . . . . .
1.2.1 ELDA et le LIPN : des organismes demandeurs
1.2.2 Des projets divers et variés . . . . . . . . . . . .
1.3 Conclusion et plan de thèse . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2 L’évaluation en traitement automatique des langues
2.1 Le traitement automatique des langues . . . . . . . . . . . . . . . . .
2.1.1 Vision historique . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Applications et enjeux . . . . . . . . . . . . . . . . . . . . . .
2.1.3 Niveaux de traitement . . . . . . . . . . . . . . . . . . . . . .
2.1.4 Difficultés . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.5 Domaines d’application . . . . . . . . . . . . . . . . . . . . . .
2.2 Évaluation en traitement automatique des langues . . . . . . . . . . .
2.2.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Trois questions fondamentales . . . . . . . . . . . . . . . . . .
2.2.4 Paradigme et méthodologies . . . . . . . . . . . . . . . . . . .
2.2.5 Difficultés . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.6 De la théorie à la pratique . . . . . . . . . . . . . . . . . . . .
2.3 Architectures en traitement automatique des langues . . . . . . . . .
2.3.1 Infrastructure, architecture ou plate-forme ? . . . . . . . . . .
2.3.2 GATE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.3 UIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.4 Architectures en évaluation . . . . . . . . . . . . . . . . . . .
2.4 Vers une automatisation de l’évaluation en traitement automatique
langues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1 Aspects méthodologiques et organisation d’évaluations . . . .
2.4.2 Utilité des ressources linguistiques . . . . . . . . . . . . . . . .
2.4.3 Un point de départ : les jugements . . . . . . . . . . . . . . .
2.4.4 Automatisation et substitution aux jugements humains . . . .
2.4.5 Évaluation des mesures . . . . . . . . . . . . . . . . . . . . . .
2.4.6 Automatisation des protocoles : un vaste avenir . . . . . . . .
2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
xi
.
.
.
.
.
.
.
.
.
.
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
. .
des
. .
. .
. .
. .
. .
. .
. .
. .
.
.
.
.
.
1
1
3
3
5
8
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
12
14
15
16
17
19
19
19
25
28
37
39
42
44
44
44
45
.
.
.
.
.
.
.
.
47
47
47
48
48
49
50
51
TABLE DES MATIÈRES
3 Le déroulement d’une évaluation
3.1 Phases préliminaires . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1.1 Planifier l’évaluation . . . . . . . . . . . . . . . . . . . . . .
3.1.2 Définir la tâche de contrôle et ses objectifs . . . . . . . . . .
3.1.3 Cibler les participants et les acteurs . . . . . . . . . . . . . .
3.1.4 Établir des critères de qualité . . . . . . . . . . . . . . . . .
3.1.5 Définir les mesures de la qualité . . . . . . . . . . . . . . . .
3.1.6 Constituer les ressources linguistiques . . . . . . . . . . . . .
3.1.7 Spécifier et organiser les interactions entre acteurs . . . . . .
3.1.8 Préparer l’évaluation . . . . . . . . . . . . . . . . . . . . . .
3.2 Phases d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.1 Phase d’apprentissage . . . . . . . . . . . . . . . . . . . . .
3.2.2 Phase de réglage . . . . . . . . . . . . . . . . . . . . . . . .
3.2.3 Phase de test à blanc . . . . . . . . . . . . . . . . . . . . . .
3.2.4 Phase de test . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2.5 Phase d’analyse des résultats . . . . . . . . . . . . . . . . .
3.2.6 Phase de retour d’expériences et d’adjudication des résultats
3.2.7 Phase de diffusion . . . . . . . . . . . . . . . . . . . . . . . .
3.2.8 Niveau supérieur : pérennisation et recherche de synergie . .
3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
53
54
54
56
58
59
60
62
68
70
70
71
72
73
75
77
77
78
80
80
4 Les ressources linguistiques pour l’évaluation
4.1 Définition . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Le développement de systèmes . . . . . . . .
4.1.2 Évaluation de systèmes . . . . . . . . . . . .
4.2 Identification, production et négociation . . . . . .
4.2.1 Identification . . . . . . . . . . . . . . . . .
4.2.2 Production . . . . . . . . . . . . . . . . . .
4.2.3 Négociation . . . . . . . . . . . . . . . . . .
4.3 Validation . . . . . . . . . . . . . . . . . . . . . . .
4.4 Coût des ressources . . . . . . . . . . . . . . . . . .
4.5 Standardisation . . . . . . . . . . . . . . . . . . . .
4.6 Impact des ressources sur l’évaluation . . . . . . . .
4.6.1 Impact méthodologique . . . . . . . . . . . .
4.6.2 Impact de la qualité . . . . . . . . . . . . .
4.6.3 (Contre)-exemple en traduction automatique
4.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
83
83
84
84
85
85
86
90
91
92
92
93
93
93
93
102
5 L’étude des mesures d’évaluation
5.1 Description . . . . . . . . . . . .
5.1.1 Généralités et définitions .
5.1.2 Identification des mesures
5.1.3 Modélisation . . . . . . . .
5.1.4 Métriques de base . . . . .
5.1.5 Applications . . . . . . . .
5.2 Évaluation humaine . . . . . . . .
5.2.1 Caractéristiques . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
105
105
105
107
108
110
111
112
114
.
.
.
.
.
.
.
.
xii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
TABLE DES MATIÈRES
5.2.2 Déroulement . . . . . . . . . . . . . . . . . . . . . . . . . .
5.2.3 Validation des jugements humains . . . . . . . . . . . . . .
5.2.4 Identification de juges « problématiques » . . . . . . . . .
5.2.5 Calcul et analyse des résultats de l’évaluation humaine . .
5.3 Évaluation automatique . . . . . . . . . . . . . . . . . . . . . . .
5.3.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.2 Formalisme et approches . . . . . . . . . . . . . . . . . . .
5.3.3 Déroulement . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.4 Calcul et analyse des résultats de l’évaluation automatique
5.3.5 Expérimentations en traduction automatique . . . . . . . .
5.3.6 Expérimentations en extraction terminologique . . . . . .
5.4 Méta-évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Généralités . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.2 Procédure et méthodes . . . . . . . . . . . . . . . . . . . .
5.4.3 Méta-évaluation de l’évaluation manuelle . . . . . . . . . .
5.4.4 Méta-évaluation de l’évaluation automatique . . . . . . . .
5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Les similarités entre évaluations de technologies
naisons de technologies
6.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . .
6.2 Similarités entre technologies . . . . . . . . . . . .
6.3 Similarités entre mesures ou métriques . . . . . .
6.3.1 Mesure humaine vs mesures automatiques
6.3.2 Catégories . . . . . . . . . . . . . . . . . .
6.3.3 Métriques humaines . . . . . . . . . . . . .
6.3.4 Métriques automatiques . . . . . . . . . .
6.3.5 Synergies . . . . . . . . . . . . . . . . . .
6.4 Formalisme . . . . . . . . . . . . . . . . . . . . .
6.5 Difficultés et « hiérarchie » des technologies . . .
6.5.1 Subjectivité . . . . . . . . . . . . . . . . .
6.5.2 Diversité des réponses possibles . . . . . .
6.5.3 Non comparabilité . . . . . . . . . . . . .
6.5.4 Complexité . . . . . . . . . . . . . . . . .
6.5.5 Synthèse et hiérarchisation . . . . . . . . .
6.6 Combinaison de technologies . . . . . . . . . . . .
6.6.1 Généralités . . . . . . . . . . . . . . . . .
6.6.2 Expérimentation . . . . . . . . . . . . . .
6.7 Conclusion . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
117
118
129
136
141
141
143
145
146
148
156
162
162
164
165
166
169
du TAL et les combi171
. . . . . . . . . . . . . . 171
. . . . . . . . . . . . . . 172
. . . . . . . . . . . . . . 174
. . . . . . . . . . . . . . 174
. . . . . . . . . . . . . . 174
. . . . . . . . . . . . . . 174
. . . . . . . . . . . . . . 175
. . . . . . . . . . . . . . 176
. . . . . . . . . . . . . . 177
. . . . . . . . . . . . . . 179
. . . . . . . . . . . . . . 179
. . . . . . . . . . . . . . 179
. . . . . . . . . . . . . . 180
. . . . . . . . . . . . . . 180
. . . . . . . . . . . . . . 181
. . . . . . . . . . . . . . 183
. . . . . . . . . . . . . . 183
. . . . . . . . . . . . . . 185
. . . . . . . . . . . . . . 195
7 Vers une architecture d’évaluation générique et pérenne
7.1 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 Premières expériences . . . . . . . . . . . . . . . . . . . . .
7.2.1 Architectures pour l’évaluation automatique . . . .
7.2.2 Architectures pour l’évaluation humaine . . . . . .
7.2.3 Discussion . . . . . . . . . . . . . . . . . . . . . . .
7.3 Proposition d’une architecture d’évaluation . . . . . . . . .
xiii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
en
. .
. .
. .
. .
. .
. .
TAL
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
197
198
201
201
207
215
216
TABLE DES MATIÈRES
7.3.1 Spécifications fonctionnelles . . .
7.3.2 Spécifications techniques . . . . .
7.3.3 Modélisation . . . . . . . . . . . .
7.3.4 Environnement de développement
7.4 Discussion et conclusion . . . . . . . . .
8 Conclusions et travaux futurs
8.1 Résumé . . . . . . . . . . .
8.1.1 Méthodologie . . . .
8.1.2 Généralisation . . . .
8.1.3 Automatisation . . .
8.2 Principaux développements
8.3 Perspectives . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
231
. 231
. 231
. 232
. 232
. 233
. 233
Bibliographie
235
A Résultats succincts de projets abordés
A.1 TC-STAR . . . . . . . . . . . . . . . .
A.2 CESTA . . . . . . . . . . . . . . . . .
A.3 CESART . . . . . . . . . . . . . . . . .
A.4 PASSAGE . . . . . . . . . . . . . . . .
A.5 EQueR . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
B Chronologie sur l’évaluation en TAL
sur les corpus
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
249
. 249
. 249
. 250
. 251
. 251
253
C Exemples de métriques utilisées en TAL
C.1 Traduction automatique . . . . . . . . . . . . . . .
C.1.1 BLEU . . . . . . . . . . . . . . . . . . . . .
C.1.2 mWER . . . . . . . . . . . . . . . . . . . . .
C.1.3 WNM . . . . . . . . . . . . . . . . . . . . .
C.2 Recherche d’information . . . . . . . . . . . . . . .
C.2.1 Précision moyenne non interpolée ou UAP .
C.2.2 Moyenne des Réciproques du Rang ou MRR
D Exemple de standardisation
D.1 Contexte et historique . .
D.2 Formats de codage . . . .
D.3 Formats de stockage . . .
217
221
224
228
230
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
255
. 255
. 255
. 256
. 256
. 258
. 258
. 258
textuels
261
. . . . . . . . . . . . . . . . . . 261
. . . . . . . . . . . . . . . . . . 264
. . . . . . . . . . . . . . . . . . 265
E Liste des acronymes
267
E.1 Liste des acronymes de projets et de campagnes . . . . . . . . . . . . . . . 267
E.2 Liste des acronymes d’institutions . . . . . . . . . . . . . . . . . . . . . . . 268
E.3 Liste des acronymes du traitement automatique des langues et de l’évaluation269
E.4 Liste des acronymes de l’informatique . . . . . . . . . . . . . . . . . . . . . 269
Glossaire
271
xiv
Liste des tableaux
2.1 Distinction entre compétition, validation et évaluation. . . . . . . . . . . . 29
2.2 Exemples de différents types, niveaux, critères, méthodes et mesures d’évaluation pour l’évaluation d’un système de traduction automatique de l’oral
vers l’oral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
Les phases préliminaires de l’organisation d’une évaluation. . . . .
Les étapes de la planification d’une évaluation. . . . . . . . . . . .
Les étapes de la définition de la tâche de contrôle. . . . . . . . . .
Les étapes pour cibler les acteurs de l’évaluation. . . . . . . . . .
Les étapes pour établir les critères de qualité. . . . . . . . . . . .
Caractéristiques des systèmes et critères de qualité dans CESART.
Caractéristiques des systèmes et critères de qualité dans CESTA.
Les étapes pour définir les mesures de la qualité. . . . . . . . . . .
Les étapes pour constituer les ressources. . . . . . . . . . . . . . .
Les étapes d’organisation des interactions entre acteurs. . . . . . .
Les phases d’une évaluation. . . . . . . . . . . . . . . . . . . . . .
Recommandations faisant suite au test à blanc CESTA. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4.1
4.2
4.3
4.4
Aperçu des ressources utilisées en fonction des technologies. . . . . . . . .
Directions de traduction et types de données du projet TC-STAR. . . . .
Pénalités pour les erreurs de traduction. . . . . . . . . . . . . . . . . . .
Scores de validation des traductions de référence et WER entre les traductions intermédiaires et la traduction finale pour la première traduction de
référence et la seconde de chaque ensemble. . . . . . . . . . . . . . . . . .
4.5 Corrélations sur les scores BLEU [%] et sur les classements des systèmes.
5.1 Caractéristiques de définition d’une mesure humaine, valeurs possibles et
exemples en traduction automatique. . . . . . . . . . . . . . . . . . . . .
5.2 Concordance des jugements de pertinence sur les mêmes documents, pour
608 documents portant sur le français lors du projet Infile. . . . . . . . .
5.3 Interprétation des valeurs du coefficient Kappa. . . . . . . . . . . . . . .
5.4 Exemple de résultats avec des désaccords équilibrés. . . . . . . . . . . . .
5.5 Exemple de résultats avec des désaccords déséquilibrés. . . . . . . . . . .
5.6 Coefficients Kappa global κg [0-1] pour les évaluations en fluidité et adéquation des deux campagnes d’évaluation CESTA. . . . . . . . . . . . . .
5.7 n-agreement [0-1] pour les deux campagnes d’évaluation CESTA. . . . . .
xv
.
.
.
.
.
.
.
.
.
.
.
.
54
55
57
58
59
60
60
61
63
69
71
75
. 84
. 94
. 95
. 98
. 101
. 116
.
.
.
.
120
121
122
122
. 123
. 124
LISTE DES TABLEAUX
5.8 Accord intra-juge [0-1] pour les deux campagnes, mesuré à partir du score
des systèmes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.9 Accord intra-juge [0-1] pour les deux campagnes, mesuré en fonction du
rang des systèmes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.10 Accord relatif intra-juge [0-1] pour la seconde campagne d’évaluation. . . . 127
5.11 Nombre de juges divergents identifiés pour chacune des méthodes de validation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
5.12 Corrélations de Pearson entre les scores originaux et les scores après suppression des juges problématiques. . . . . . . . . . . . . . . . . . . . . . . . 135
5.13 Résultats des jugements humains pour la première campagne : scores sur
une échelle de 1 à 5 (5 étant la meilleure note et 1 la moins bonne) avec
leurs intervalles de confiance, et classements avec leurs probabilités. . . . . 137
5.14 Rang moyen des systèmes en fonction des classements par juge pour la
mesure de fluidité de la première campagne. . . . . . . . . . . . . . . . . . 137
5.15 Rang moyen des systèmes en fonction des classements par juge pour la
mesure d’adéquation de la première campagne. . . . . . . . . . . . . . . . . 138
5.16 Résultats des jugements humains pour la seconde campagne après adaptation des systèmes au domaine : scores sur une échelle de 1 à 5 avec leurs
intervalles de confiance, et classements avec leurs probabilités. . . . . . . . 138
5.17 Statistiques des candidats termes renvoyés par les systèmes pour la tâche
T1 de CESART et par corpus d’évaluation. . . . . . . . . . . . . . . . . . . 139
5.18 Précision des extracteurs sur le corpus de la santé d’après l’appariement
automatique aidant les experts, sur les N premiers candidats termes renvoyés.140
5.19 Précision cumulée [%] des extracteurs sur le corpus de la santé. . . . . . . . 141
5.20 Scores des métriques automatiques pour les traductions de la première campagne d’évaluation CESTA. . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.21 Scores des métriques automatiques pour les résultats de la seconde campagne avant adaptation au domaine. . . . . . . . . . . . . . . . . . . . . . 147
5.22 Scores des métriques automatiques pour les résultats de la seconde campagne CESTA après adaptation au domaine. . . . . . . . . . . . . . . . . . 147
5.23 Comparaison des scores des métriques automatiques pour les résultats de
la seconde campagne CESTA avant et après adaptation au domaine. . . . . 147
5.24 Poids des catégories morphosyntaxiques pour le calcul du X-Score. . . . . . 152
5.25 Scores et classement X-Score et fluidité des systèmes de la première campagne CESTA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
5.26 Scores et classement X-Score et fluidité des systèmes de la seconde campagne CESTA. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
5.27 Exemple de résultats du X-Score. . . . . . . . . . . . . . . . . . . . . . . . 154
5.28 Scores et classement X-Score des systèmes des deux campagnes CESTA en
considérant les ratios d’unigrammes. . . . . . . . . . . . . . . . . . . . . . 156
5.29 Résultats de l’évaluation automatique sur CESART. . . . . . . . . . . . . . 160
5.30 Résultats de l’évaluation automatique sur CESART. . . . . . . . . . . . . . 160
5.31 Corrélations de Pearson pour chaque système entre les évaluations automatique et humaine. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
xvi
LISTE DES TABLEAUX
5.32 Résultats de l’échantillonnage des jugements humains pour la première
campagne d’évaluation CESTA : scores sur une échelle de 1 à 5 avec leurs
intervalles de confiance, et classements avec leurs probabilités. . . . . . . . 167
5.33 Résultats de l’échantillonnage sur les scores moyens pour la métrique BLEU
(cumul. 4-gram avec casse) pour la première campagne CESTA. . . . . . . 168
5.34 Corrélation de Pearson entre les métriques automatiques et les juges humains de la première campagne CESTA. . . . . . . . . . . . . . . . . . . . 168
6.1 Technologies classifiées selon le traitement effectué et le format des résultats.173
6.2 Classification de mesures pour l’évaluation de technologies du traitement
automatique des langues. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
6.3 Types de mesures selon les types de traitement et formats de données en
sortie des technologies du TAL. . . . . . . . . . . . . . . . . . . . . . . . . 177
6.4 Difficulté d’évaluations de différentes technologies, d’après les indices de
subjectivité, de diversité des réponses possibles et de non comparabilité. . . 181
6.5 Résultats des mesures automatiques de la seconde campagne TC-STAR
pour les composants de reconnaissance automatique de la parole avec le
WER et de traduction automatique de la parole avec BLEU. Les résultats
du meilleur système et du système sont présentés. . . . . . . . . . . . . . . 186
6.6 Résultat des mesures humaines de la seconde campagne TC-STAR pour le
composant de traduction automatique de la parole avec les scores de fluidité
et d’adéquation ; les résultats du meilleur système, de la combinaison de
systèmes et d’une référence humaine sont présentés. . . . . . . . . . . . . . 186
6.7 Résultat des mesures humaines de la seconde campagne TC-STAR pour
le composant de synthèse vocale avec la qualité globale ; les résultats du
meilleur système et d’une voix humaine sont présentés. . . . . . . . . . . . 186
6.8 Questionnaire de qualité pour l’évaluation en cascade de TC-STAR. . . . . 190
6.9 1-agreement [%] du questionnaire de qualité pour l’évaluation en cascade
de TC-STAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
6.10 Résultats des tests d’adéquation [%] pour l’évaluation en cascade de TCSTAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
6.11 Résultats des tests de compréhension [%] pour l’évaluation en cascade de
TC-STAR, restreints au sous-ensemble des questions pour lesquelles les
réponses sont trouvées dans les sorties des interprètes. . . . . . . . . . . . . 192
6.12 Résultats des tests de fluidité [1-5] pour l’évaluation en cascade de TC-STAR.193
6.13 Résultats des tests de qualité pour chaque composant de l’évaluation en
cascade de TC-STAR. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
C.1 Exemple de précisions calculées pour chaque document pertinent. . . . . . 258
xvii
LISTE DES TABLEAUX
xviii
Table des figures
1.1 Hiérarchie entre les concepts d’outil, de technologie, de système et d’application. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1
2.2
2.3
2.4
2.5
2.6
2.7
Les niveaux d’analyse du traitement automatique des langues.
L’évaluation dans le cycle de vie d’un logiciel. . . . . . . . . .
Les types et niveaux d’évaluation d’après les travaux de ELSE.
Processus d’évaluation automatique et humaine. . . . . . . . .
Les types, niveaux et mesures d’évaluation. . . . . . . . . . . .
Schéma de l’architecture UIMA dans TC-STAR. . . . . . . . .
Méta-évaluation des mesures automatiques et humaines. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
DTD du corpus original. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
DTD de la liste de termes amorces. . . . . . . . . . . . . . . . . . . . . . .
Format SGML des documents sources des campagnes d’évaluation CESTA.
Format SGML des documents références des campagnes d’évaluation CESTA.
Format SGML des documents tests des campagnes d’évaluation CESTA. .
DTD du corpus de la liste ordonnée de termes. . . . . . . . . . . . . . . . .
DTD des relations renvoyées. . . . . . . . . . . . . . . . . . . . . . . . . .
Phases préliminaires et phases d’évaluation. . . . . . . . . . . . . . . . . .
4.1 Comparaison des différences de score de validation et les WER entre les
traductions non validées et leurs corrections. . . . . . . . . . . . . . . . .
4.2 Résultats BLEU [%] pour l’ensemble Cortes-Verbatim de la direction de
l’espagnol vers l’anglais de la troisième année . . . . . . . . . . . . . . . .
4.3 Résultats BLEU [%] pour l’ensemble Cortes-FTE de la direction de l’espagnol vers l’anglais de la seconde année . . . . . . . . . . . . . . . . . . .
4.4 Cycle de vie d’une ressource linguistique. . . . . . . . . . . . . . . . . . .
5.1
5.2
5.3
5.4
Différents aspects d’une mesure. . . . . . . . . . . . . . . . . . . . . . . .
Modélisation d’une métrique d’évaluation. . . . . . . . . . . . . . . . . .
Déroulement d’une évaluation humaine. . . . . . . . . . . . . . . . . . . .
Score moyen par juge pour les jugements de fluidité et score moyen pour
les jugements correspondants provenant des autres juges. . . . . . . . . .
5.5 Score moyen par juge pour les jugements d’adéquation et score moyen pour
les jugements correspondants provenant des autres juges. . . . . . . . . .
5.6 Accord moyen par juge pour les jugements de fluidité. . . . . . . . . . . .
5.7 Accord moyen par juge pour les jugements d’adéquation. . . . . . . . . .
xix
.
.
.
.
.
.
.
2
16
29
31
35
35
43
50
64
64
66
66
67
69
70
82
. 99
. 100
. 100
. 103
. 107
. 109
. 118
. 131
. 131
. 132
. 133
TABLE DES FIGURES
5.8 Résultats officiels des systèmes comparés aux résultats après suppression
des juges problématiques. . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.9 Déroulement de la métrique X-Score. . . . . . . . . . . . . . . . . . . . . .
5.10 Poids catégories morphosyntaxiques rapporté au nombre total des fréquences
du X-Score. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.11 Évaluation automatique sur les terminologies complète et réduite. . . . . .
5.12 Échantillonnage des jugements pour tester la robustesse de l’évaluation
humaine. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1 Schématisation de la difficulté cognitive d’évaluer en fonction du nombre
des réponses possibles et de son caractère fini. . . . . . . . . . . . . . . .
6.2 Hiérarchisation des évaluations de technologies du traitement automatique
des langues. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.3 Calcul de l’impact de la sortie d’un composant sur un autre pour une
évaluation en cascade. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.4 Le processus de traduction de l’oral vers l’oral. . . . . . . . . . . . . . . .
6.5 L’évaluation de la traduction de l’oral vers l’oral. . . . . . . . . . . . . .
7.1
7.2
7.3
7.4
7.5
7.6
7.7
7.8
7.9
7.10
7.11
Schéma d’utilisation du serveur de données dans TC-STAR. . . . . . . .
Architecture de la plate-forme d’évaluation. . . . . . . . . . . . . . . . .
Interface d’évaluation humaine CESTA - jugement de fluidité. . . . . . .
Interface d’évaluation humaine CESTA - jugement d’adéquation. . . . . .
Interface d’évaluation humaine CESTA - partie administration. . . . . . .
Interface de réponse aux questionnaires TC-STAR pour l’évaluation de la
traduction de l’oral vers l’oral (en espagnol). . . . . . . . . . . . . . . . .
Interface d’évaluation QASTLE pour les systèmes de question-réponse. .
Schéma fonctionnel de l’architecture. en gris la version étendue de l’architecture intégrant les systèmes de TAL. . . . . . . . . . . . . . . . . . . .
Alternatives d’architectures d’évaluation. . . . . . . . . . . . . . . . . . .
Combinaison d’une architecture d’évaluation et d’une architecture de production de ressources. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Une occurrence d’évaluation au sein de l’architecture. . . . . . . . . . . .
xx
136
149
153
159
166
. 180
. 182
. 184
. 188
. 189
.
.
.
.
.
202
206
208
209
210
. 211
. 213
. 218
. 225
. 226
. 227
Chapitre 1
Introduction
1.1
Généralités
Le Traitement Automatique des Langues (TAL) s’appuie sur plusieurs disciplines à
l’intersection de la linguistique et des mathématiques, le liant étant l’informatique et la
couche supérieure relevant de l’intelligence artificielle et des sciences cognitives. Chacune
de ces disciplines apporte ses propres contributions au TAL, qui se préoccupe de l’interaction entre un ordinateur et un humain en langue naturelle.
De manière simple, l’ordinateur analyse une entrée, la convertit en une représentation formelle compréhensible par un programme, pour générer une sortie en faisant la
conversion inverse vers une langue compréhensible par un humain. Il arrive aussi que
cette analyse ait pour finalité de rester à un niveau intermédiaire dans un format non
naturel.
L’intérêt du traitement automatique des langues réside dans sa capacité à traiter en
quantité des informations produites en langue naturelle. L’ambition d’automatiser ces
traitements, notamment pour un accès à l’information plus rapide, est au centre de la
problématique du TAL. Les raisons se situent aux origines du TAL dès les années 50, avec
les besoins en compréhension mutlilingue et en communication.
L’expression « TAL » regroupe de nombreuses technologies comme la traduction automatique, la reconnaissance de la parole, la recherche d’information, l’analyse syntaxique,
la synthèse de la parole, le dialogue homme-machine, etc. Ce qui est une ambition de la
recherche scientifique est aussi au cœur de la réalité industrielle de par les applications qui
sont proposées. Le TAL regroupe de nombreux sous-domaines utilisant plusieurs types de
données issus de l’écrit (textes écrits, lexiques, etc.), de l’oral (signaux sonores, dialogues
oraux, etc.) ou du multimodal (images et sons).
Chaque technologie se retrouve intégrée dans des systèmes, ensemble de programmes
informatiques permettant d’automatiser une tâche. Une application est, elle, plutôt destinée à un utilisateur final qui n’a besoin d’aucune connaissance spécifique pour la faire
fonctionner. À un niveau plus basique, les outils sont des programmes qui effectuent des
tâches simples. La figure 1.1 présente la hiérarchie entre ces différents concepts.
Dans notre thèse, nous préférons parler d’évaluation de systèmes que d’évaluation
d’applications. D’autre part, nous considérons que les systèmes sont composés de mo1
Chapitre 1 : Introduction
Figure 1.1 – Hiérarchie entre les concepts d’outil, de technologie, de système et d’application.
dules, éléments de base d’un programme, et qu’une combinaison de systèmes regroupe des
composants technologiques 1 .
Au delà du développement de systèmes de traitement automatique, il existe un besoin de déterminer la qualité de ce qui est produit. L’automatisation des processus de
traitement de la langue est une tâche ni accomplie, ni stabilisée : la difficulté de traiter
le langage naturel conduit à vouloir estimer les performances des systèmes. De plus, le
traitement automatique des langues est un domaine qui n’est pas encore entré dans les
mœurs et la connaissance du grand public reste limitée. Il faut alors trouver les moyens
pour prouver que les systèmes fonctionnent et qu’ils sont utilisables, via l’évaluation.
D’après le Trésor de la Langue Française 2 , l’évaluation se définie comme l’action d’évaluer, d’apprécier la valeur (d’une chose) ; technique, méthode d’estimation. Ainsi, l’évaluation en traitement automatique des langues a pour but d’apprécier la qualité des sorties
d’un ou de plusieurs systèmes traitant le langage naturel. Cette évaluation s’accomplit
dans le contexte d’une tâche précise et à l’aide de méthodes spécifiques.
En TAL, le besoin d’évaluer est bien réel car il est inhérent à toute démarche scientifique : c’est le seul moyen qui existe pour valider ou comparer différentes approches,
connaître l’impact de nouvelles méthodes, de nouveaux paramètres, ou encore de nouveaux domaines. De plus, l’évaluation a également pour vocation d’apporter les éléments
indispensables qui serviront à améliorer les sorties d’un système par des indicateurs de
performance ou par une analyse d’erreurs et un diagnostic élaboré.
De manière pragmatique, l’évaluation d’un système repose sur la mesure de sa qualité
selon des critères définis au préalable. La mesure d’évaluation s’effectue par comparaison
d’une sortie, produit d’un système, avec une référence, un repère bien défini. Cette référence est fondée sur des jugements humains (pour lesquels des juges humains décident du
niveau de qualité) ou des métriques automatiques (des programmes calculant le niveau de
1. Un glossaire est proposé en fin de thèse en plus des définitions données au fur et à mesure du
manuscrit, ainsi qu’une liste des acronymes en annexe E.
2. http ://atilf.atilf.fr
2
1.2. Contexte de travail
la qualité à partir de références pré-établies), tous deux appliqués sur la sortie du système
évalué.
Le défi suivant, plus ambitieux, concerne sans aucun doute la modélisation d’une
architecture d’évaluation qui permette de conduire des évaluations de tout type et pour
toute technologie et de reproduire des évaluations à loisir. Cela aiderait d’une part les
développeurs de systèmes à tester fréquemment les progrès réalisés, et cela faciliterait
d’autre part le travail de l’évaluateur, souvent freiné par les difficultés liées à l’organisation
d’évaluations.
L’évaluation en traitement automatique des langues en est à un stade relativement
avancé où la communauté commence à mesurer l’étendue de son importance, mais il reste
encore beaucoup à faire. Le caractère subjectif des jugements humains, l’automatisation
des mesures d’évaluation, les soucis de fiabilité et de précision des mesures automatiques
ou encore la mise en place d’architectures d’évaluation pérennes sont les enjeux actuels
pour l’évaluation en TAL. À partir de ces points de réflexion, notre thèse vise à définir et à modéliser une architecture type dédiée. En particulier, nous nous intéressons à
la problématique des jugements humains réalisés sur les sorties de systèmes. L’un des
tout premiers objectifs est de déterminer les réels enjeux et difficultés de ces jugements
humains. Cet effort nous poussera à établir des critères objectifs pour l’introduction d’automatismes d’évaluation. C’est un point de départ indispensable pour la modélisation de
notre architecture, puisque cette dernière se veut pérenne et générique.
1.2
Contexte de travail
Cette thèse s’inscrit dans le cadre de plusieurs projets français et européens qui ont
pour objet l’évaluation de systèmes dans le domaine du traitement automatique des
langues (traduction automatique de texte et de la parole, extraction terminologique, recherche d’information, analyse syntaxique, etc.). Après avoir souligné l’importance des
organismes d’encadrement et leurs besoins respectifs, nous donnons ci-après une brève
description de projets sur lesquels nous avons travaillé. Nous avons ainsi construit pas à
pas notre réflexion sur le domaine de l’évaluation du traitement automatique des langues.
1.2.1
ELDA et le LIPN : des organismes demandeurs
Le cadre applicatif de cette thèse se situe en plein cœur des activités d’évaluation en
traitement automatique des langues. ELDA (Evaluations and Language resources Distribution Agency 1 ) est une société agissant comme organisme d’évaluation. Elle a organisé
et organise des campagnes d’évaluation pour différentes technologies du traitement automatique des langues. Fondée en 1995, elle est l’organe opérationnel de l’association
ELRA (European Language Resources Association 2 ) qui a pour objectif de promouvoir
les ressources linguistiques dans le secteur du TAL et l’évaluation de ses technologies.
L’activité première d’ELDA se situe dans l’identification, la production, la validation,
la promotion et la distribution de ressources linguistiques. Par ailleurs, une activité d’évaluation de technologies est également conduite. De fait, ces six activités sont étroitement
1. http ://www.elda.org
2. http ://www.elra.info
3
Chapitre 1 : Introduction
liées, puisque les systèmes du traitement automatique des langues requièrent des données
au cours de leur développement, ainsi que pour leur évaluation. Il existe un grand besoin
d’augmenter le volume de ces données pour l’amélioration des systèmes, mais aussi de les
renouveler pour garder neutre le test des sorties dans le cadre d’une évaluation. En effet,
la connaissance des données de test aux participants d’une évaluation doit être restreinte
afin de respecter l’impartialité des actions (cf. chapitre 3, section 3.2.4).
Au début de ses activités d’évaluation, ELDA a pris part au projet EVALDA du
programme Technolangue 1 financé par le Ministère de la Recherche. Ce projet avait pour
but la mise en place d’une infrastructure pérenne d’évaluation des technologies de la
langue 2 . Cet objectif ambitieux avait pour contexte linguistique le traitement de la langue
française. C’est ainsi que huit « campagnes d’évaluation » (l’ensemble coordonné des
tâches visant à l’évaluation et la comparaison de plusieurs systèmes) ont eu lieu, dont
cinq autour de l’évaluation de technologies traitant des données textuelles :
– Alignement de corpus bilingues (ARCADE II) ;
– Extraction terminologique (CESART) ;
– Traduction automatique (CESTA) ;
– Annotation syntaxique (EASY) ;
– Question-réponse (EQueR).
Parmi ces campagnes d’évaluation, trois ont utilisé des mesures manuelles pour estimer
la qualité des systèmes : CESART, CESTA et EQueR. Trois ont utilisé des mesures
automatiques ou semi-automatiques (cf. section 5.3) : ARCADE II, CESTA et EASY.
Notons que trois autres campagnes ont été organisées avec comme objectif le traitement de données orales : ESTER (évaluation de systèmes de transcription automatique
de données audio), EvaSy (évaluation de systèmes de synthèse de la parole) et MEDIA
(évaluation de systèmes de dialogue), pour lesquelles aussi bien des mesures manuelles
que des mesures automatiques ont été utilisées.
Par ailleurs, d’autres campagnes d’évaluation ont été conduites au sein d’ELDA
comme, entre autres, celles conduites dans le projet européen TC-STAR 3 visant l’élaboration d’un système distribué de traduction automatique de l’oral vers l’oral en temps
réel et comptant une part importante d’évaluation sur la reconnaissance automatique de la
parole, la traduction automatique de la parole, la synthèse vocale ainsi qu’une évaluation
regroupant ces trois technologies. Le projet PASSAGE 4 , ayant pour objectif l’évaluation
des analyseurs syntaxiques, a également été prépondérant dans la réalisation de cette thèse
car il a donné lieu au développement d’une plate-forme d’évaluation (cf. section 7.2.1.2).
Le projet européen CLEF 5 qui a lancé des campagnes d’évaluation annuelles autour de la
recherche d’information, nous a permis à moindre échelle de poursuivre nos efforts pour
l’amélioration d’une interface de collecte de jugements humains développée dans le cadre
du projet EQueR.
1. http ://www.technolangue.net
2. Une infrastructure représentant l’entité qui rassemble la totalité des moyens et ressources de l’évaluation à long terme : organisations, acteurs, agents, etc. Au contraire, une architecture est une modélisation des relations entre composants technologiques. Sa partie technique, la plate-forme, permet la mise
en pratique de chaînes de traitement.
3. http ://www.tcstar.org
4. http ://atoll.inria.fr/passage
5. http ://www.clef-campaign.org
4
1.2. Contexte de travail
D’autres évaluations d’un système isolé, hors campagnes d’évaluation, ont également
eu lieu de manière plus confidentielle.
L’ensemble de ces projets couvre les différents aspects de l’évaluation en traitement
automatique des langues :
– Évaluations utilisant des mesures manuelles (les jugements humains) et évaluations
utilisant des mesures automatiques (les métriques automatiques), comparaison des
deux approches et étude de leur complémentarité ;
– Exploration des problématiques d’évaluation inhérentes à chaque technologie ;
– Développement de plates-formes en vue de conduire des évaluations pérennes.
Notre implication dans la plupart de ces projets nous a permis de découvrir un vaste
ensemble d’éléments constitutifs de l’évaluation en traitement automatique des langues.
La mise à disposition des ressources, protocoles, outils, etc. fait également partie des
objectifs à atteindre pour un projet d’évaluation par le biais de « kits d’évaluation ». Ceuxci permettent la distribution de l’ensemble des données et informations d’une évaluation,
compilées sur un support physique (CD-ROM, DVD-ROM, disque dur, etc.) ce qui facilite
la réutilisabilité des ressources et méthodologies employées.
D’un autre côté, le LIPN 1 assure l’encadrement scientifique de cette thèse qui s’articule
autour des travaux menés par l’équipe de « Représentation des Connaissances et Langage
Naturel » (RCLN). L’intérêt pour le langage et la représentation des connaissances se
situe autour de thématiques telles que l’étude sémantique de textes, l’accès au contenu
textuel ou l’acquisition de connaissances. Elles regroupent diverses technologies, telles
que l’accès à l’information, l’analyse de corpus, l’extraction et l’analyse terminologique,
la construction d’index de fin de livre, la reconnaissance d’entités nommées, la recherche
d’information et l’extraction d’information, etc.
Concernant l’évaluation des technologies du traitement automatique des langues, le
LIPN agit plus comme un développeur de technologie et un participant à des évaluations.
Cela n’empêche pas une réflexion de fond sur les méthodes d’évaluation, en particulier pour
l’extraction terminologique et l’acquisition d’ontologie. Le LIPN a notamment participé
à des évaluations dans les campagnes ESTER (repérage d’entités nommées), CESART
(détection de relations de synonymie entre termes), EQueR (question-réponse dans le
domaine médical), TAC 2008 (analyse de textes) ou DUC 2008 (résumé automatique).
Le LIPN participe aussi au projet Quaero 2 sur la partie acquisition de connaissances et
contribue dans ce cadre à la définition de protocoles d’évaluation adaptés à ce domaine
de recherche.
Cette collaboration, complémentaire, de deux organismes acteurs de l’évaluation trace
l’intersection entre le besoin d’organiser des évaluations de manière efficace et pérenne et
celui d’élaborer et de mettre au point les outils clés dans les domaines du TAL.
1.2.2
Des projets divers et variés
Nous résumons ci-dessous les caractéristiques des projets les plus pertinents et dont les
résultats ont été utilisés dans cette thèse pour donner une vue globale des expérimentations
sur lesquelles elle repose. Ces projets entrent dans deux catégories qu’il est nécessaire de
1. http ://www-lipn.univ-paris13.fr
2. http ://www.quaero.org
5
Chapitre 1 : Introduction
distinguer du point de vue méthodologique et organisationnel : les campagnes d’évaluation,
pour lesquelles un des objectifs est de comparer des systèmes entre eux en effectuant des
tests de performance ; les évaluations de systèmes isolés, où l’objectif est d’estimer la
qualité propre à un système par rapport à l’état de l’art.
Ces projets successifs nous permettent, entre autres, de tester nos approches sur de
nombreux domaines, technologies et thématiques de recherche. Bien que les exemples fournis focalisent essentiellement sur des domaines bien spécifiques (traduction automatique,
analyse syntaxique, etc.), ils nous permettent d’envisager l’automatisation souhaitée à
l’ensemble des domaines du TAL. Nous tentons d’explorer le maximum d’approches possibles à la fois dans un but d’élargissement et de généralisation des cas de figure. Ces
projets sont décrits dans la section suivante.
1.2.2.1
Les campagnes d’évaluation
TC-STAR [Mostefa et al., 2006, Mostefa et al., 2007a, Hamon et al., 2007b,
Hamon et al., 2008a, Hamon et Mostefa, 2008a, Hamon et Mostefa, 2008b], soutenu
par la Commission Européenne dans le cadre du sixième programme-cadre, est un
projet européen qui a pour but d’identifier les avancées technologiques des systèmes de
traduction automatique de l’oral vers l’oral dans un contexte multilingue (reconnaissance
automatique de la parole, traduction automatique et synthèse vocale). L’évaluation de
ces technologies y a aussi une part importante. Le projet réunit de nombreux acteurs
du domaine provenant de divers pays européens et a pour objectif de réduire l’écart
de performance entre les humains et les machines. TC-STAR se concentre sur trois
paires de langues : de l’anglais vers l’espagnol, de l’espagnol vers l’anglais et du chinois
vers l’anglais. Des compétitions annuelles sont organisées, au cours desquelles les trois
technologies sont évaluées sur des données issues des débats des sessions plénières du
parlement européen (pour l’anglais vers l’espagnol et l’espagnol vers l’anglais) ou sur des
données de l’émission radiophonique Voice of America (pour le chinois vers l’anglais). Par
exemple, lors de sa seconde année d’évaluation (sur les trois ans du projet), 30 organismes
ont participé : 8 pour la reconnaissance vocale, 12 pour la traduction automatique et
enfin 10 pour la synthèse vocale.
CESTA
[Surcin et al., 2005,
Hamon et al., 2006,
Hamon et al., 2007a,
Hamon, 2007b, Hamon, 2007a, Hamon et al., 2008c] est le premier projet européen
proposant une évaluation de systèmes de traduction automatique pour les deux directions
de traduction que sont l’anglais vers le français et l’arabe vers le français. Il s’est déroulé
dans le cadre de l’action Technolangue financée par le Ministère de la Recherche français.
Le but de ce projet est triple : fournir un protocole d’évaluation orienté utilisateur
pour l’évaluation des systèmes de traduction automatique, évaluer différents systèmes
académiques et commerciaux et enfin introduire des mesures d’évaluation expérimentales
automatiques et estimer ces mesures en les comparant à des évaluations conduites par
des juges humains. Au total 13 systèmes (10 pour l’anglais vers le français, 3 pour l’arabe
vers le français) ont participé aux deux campagnes d’évaluation proposées. La première
portait sur un domaine dit « général », la seconde sur un domaine de spécialité (la santé).
CESART
[Mustafa El Hadi et al., 2005,
Mustafa El Hadi et al., 2006,
Timimi et Mustafa El Hadi, 2008] s’inscrit dans la suite de la campagne d’évaluation d’outils d’acquisition de ressources terminologiques à partir de corpus écrits, ARC
A3 [Béguin et al., 1997]. Les systèmes évalués au cours de la seule campagne d’évaluation
6
1.2. Contexte de travail
couvrent deux modes d’acquisition de ressources terminologiques : les extracteurs
terminologiques et les extracteurs de relations sémantiques. La compétence de l’expertise
humaine lors d’une évaluation manuelle a été nécessaire pour estimer la qualité des
systèmes, dans le cadre des deux tâches d’évaluation : l’extraction des termes pour
la construction d’un référentiel terminologique (tâche T1) et l’extraction des relations
sémantiques à partir d’une liste amorce (tâche T2). Cinq systèmes ont participé à la
première tâche, tandis qu’un seul a participé à la seconde tâche. De plus, les systèmes
ont été testés sur deux domaines différents (la santé et l’éducation).
PASSAGE [Villemonte de la Clergerie, 2007, Villemonte de la Clergerie et al., 2008]
(« Produire des Annotations Syntaxiques à Grande Échelle ») a pour principal objectif
de créer semi-automatiquement un large corpus annoté syntaxiquement sur différents domaines. Dans un même temps, la pertinence des analyseurs utilisés est estimée au cours
de deux campagnes d’évaluation. Au final, en combinant plusieurs des analyseurs impliqués, une fusion des résultats des analyseurs est constituée afin de construire un corpus
du français annoté syntaxiquement. Le corpus est ensuite validé manuellement pour les
points les plus ambigus. Les ressources ainsi produites sont alors réutilisées par les analyseurs et le processus recommence alors (toujours en vue d’améliorer la qualité du corpus
annoté syntaxiquement et des analyseurs). Par ailleurs, la méthodologie d’évaluation est
également étudiée, notamment au travers du développement d’une architecture d’évaluation accessible par l’ensemble des participants au projet. Les analyseurs syntaxiques sont
évalués selon deux critères : par type de constituants (noyau verbal, groupe nominal, etc.)
et par type de relations (sujet/verbe, COD, etc.).
Infile 1 (Information, Filtrage, Evaluation) a pour but l’organisation de campagnes
d’évaluation autour du filtrage d’information cross-lingue. Trois langues ont été sélectionnées : l’anglais, le français et l’arabe. Les systèmes participants sont évalués sur des corpus
de fil de presse fournis par l’AFP 2 (Agence France Presse).
EQueR [Ayache et al., 2006] a pour objectif l’évaluation des systèmes de questionréponse dans un contexte général (constitué de documents issus du domaine journalistique) d’une part et spécialisé (dans le domaine médical) d’autre part. Au total, sept
systèmes ont été évalués.
1.2.2.2
Synergies
La mise en parallèle de ces campagnes permet d’induire et d’exploiter des synergies
entre technologies au niveau de l’évaluation. Il ne faut pas négliger l’apport d’une technologie à une autre, que ce soit au niveau des ressources linguistiques ou des mesures d’évaluation. Il est très fructueux d’organiser des rencontres entre communautés travaillant
sur des technologies différentes (comme par exemple lors des conférences JEP/TALN,
LREC, etc.). Ces croisements favorisent le développement de la recherche sur les méthodes et outils de mesure.
De plus, le cadre de toutes ces campagnes d’évaluation enrichit notre réflexion, dans
un contexte pratique, sur la problématique de l’évaluation afin d’arriver à en extraire les
composants communs. C’est un point essentiel pour mener à bien des évaluations au sein
d’une architecture générique.
1. http ://www.infile.org
2. http ://www.afp.com
7
Chapitre 1 : Introduction
1.2.2.3
L’évaluation d’un système isolé
L’évaluation d’un système isolé est une autre méthode d’évaluation. Les mesures d’évaluation sont similaires à celles d’une campagne d’évaluation dans la majorité des cas 1 ,
mais la méthodologie n’est pas la même. Les méthodes et ressources utilisées diffèrent
en terme d’échelle et il est nécessaire de bien faire la distinction entre une campagne
d’évaluation, pour laquelle l’objectif est souvent de comparer des systèmes entre eux, et
l’évaluation d’un système isolé, pour laquelle c’est la qualité du système dans l’absolu qui
est analysée. Dans ce dernier cas, le système n’est pas comparé à d’autres systèmes. Le
diagnostic n’est pas le même non plus et il est nécessaire de garder à l’esprit qu’il doit mener à l’amélioration d’un système par ses développeurs ou à un choix par ses utilisateurs
potentiels (d’achat, de téléchargement, etc.).
Nous aborderons ce point à partir de cas particuliers autour de l’évaluation d’un système de traduction de l’oral vers l’oral. Deux technologies ont été évaluées : la traduction
automatique et la combinaison d’un système de reconnaissance de la parole et d’un système de traduction automatique) [Hamon et al., 2009].
1.3
Conclusion et plan de thèse
Dans ce chapitre, nous avons abordé en guise d’introduction le contexte de travail de
notre thèse. L’aspect principal de notre thèse consiste en la modélisation d’une architecture
d’évaluation pérenne et générique de technologies du traitement automatique des langues.
Cela nous amène à une recherche axée autour du paradigme d’évaluation des technologies
et, d’une manière plus large, autour du cadre scientifique et économique de l’évaluation.
Dans ce contexte, l’aspect qui prime est sans nul doute l’automatisation de l’évaluation : les protocoles, les mesures ou encore l’organisation sont autant d’enjeux à explorer
lors de la définition de notre architecture. Un de nos axes de recherche est l’observation
des mesures manuelles et les moyens de remplacement par des mesures automatiques,
autant que faire se peut. Pour pallier une automatisation éventuelle, l’architecture doit
offrir une interface pour la réalisation des jugements humains et en tenir compte pour
la visualisation des résultats. Lorsqu’une mesure automatique est disponible, sa partie
technique, les métriques automatiques, doit être adaptée à l’architecture. Toutefois, l’utilisation de mesures automatiques implique de valider les résultats produits : des résultats
calculés automatiquement n’ont de sens que s’ils sont corrects, c’est-à-dire représentatives
des vraies performances des systèmes.
Dans le chapitre 2, nous présentons un état de l’art relatif au domaine de l’évaluation en
traitement automatique des langues. Les aspects théoriques et pratiques y sont développés.
Nous fournissons également un état des lieux du vocabulaire et de la terminologie de
l’évaluation qui est complété par un glossaire en fin de thèse. Finalement, nous nous
positionnons par rapport à cet état des lieux et nous présentons nos objectifs. Ceuxci peuvent se résumer à l’étude des mesures d’évaluation (humaines et automatiques),
l’automatisation de l’évaluation et enfin la modélisation d’une architecture d’évaluation
générique et pérenne.
1. Dans le cas contraire, il peut aussi s’agir de mesures de comparaison entre systèmes, comme la
mesure de préférence en traduction automatique, comparant les sorties entre systèmes, phrase à phrase.
8
1.3. Conclusion et plan de thèse
Dans le chapitre 3, nous introduisons l’évaluation dans sa partie la plus pratique en
étudiant son organisation et son déroulement. Notre propos se focalise avant tout sur
les aspects liés aux campagnes d’évaluation, comme l’image à grande échelle de toute
évaluation. Chaque évaluation, même d’un système isolé, n’est finalement que le reflet
d’une campagne d’évaluation à moindre échelle réduite à ses aspects les plus élémentaires.
Dans le chapitre 4, c’est un des aspects primordiaux d’une évaluation qui est abordé :
les ressources linguistiques. D’elles dépendront bien souvent les résultats d’une évaluation
ainsi que son déroulement, c’est un élément à ne pas négliger. Nous traiterons avant tout les
aspects pratiques (création, standardisation, validation, impact) mais aussi administratifs
(coût, identification, négociation).
Le chapitre 5 fait état des mesures d’évaluation et de leur propre évaluation (appelée
méta-évaluation), qu’elles soient manuelles ou automatiques. Nos expérimentations pour
la création de nouvelles mesures sont présentées dans ce chapitre.
Dans le chapitre 6, nous discutons des similarités des technologies et de leurs mesures
d’évaluation en traitement automatique des langues. C’est un point crucial avant d’aborder la modélisation de notre architecture. Nous cherchons dans ce chapitre à comprendre
et à déterminer quels sont les points communs entre les différentes technologies du TAL et
leur évaluation, quels sont les rapprochements à faire et quelles sont leurs caractéristiques
propres.
Finalement, nous présentons la modélisation de notre architecture d’évaluation dans le
chapitre 7. Cela se fait tout d’abord en évoquant nos retours de premières expériences puis
en discutant les difficultés et les différentes approches techniques. Enfin, nous proposons
notre propre vision d’une architecture d’évaluation générique et pérenne.
La thèse se conclut dans le chapitre 8 autour de réflexions sur l’évaluation de la modélisation d’une architecture d’évaluation. Nous résumons les réalisations de cette thèse
puis nous explorons les futurs travaux que nous envisageons de suivre.
9
Chapitre 1 : Introduction
10
Chapitre 2
L’évaluation en traitement automatique
des langues
De nombreux protocoles, métriques et méthodologies d’évaluation ont été définis au
cours des quelques 60 dernières années. Les accomplissements ont été considérables depuis
l’essor des premières campagnes ARPA au début des années 70. Toutefois, le chemin est
encore long à parcourir avant de déterminer avec efficacité les points forts ou les faiblesses
d’un système selon les attentes des utilisateurs, ou même de comparer objectivement un
système à un autre. Nous nous trouvons dans un contexte de développement croissant
de technologies imprégnées d’outils de TAL (recherche d’information, traduction automatique, etc.). L’évaluation de ces technologies est une étape indispensable afin de justifier
l’emploi de telle ou telle méthodologie ou système dans tel contexte applicatif. Que ce
soit pour les développeurs d’un système ou pour ses utilisateurs, il est indispensable de
connaître ses performances avant une mise en production ou une utilisation finale. La
difficulté d’apprécier les performances d’un quelconque système de TAL est accrue par la
variabilité de l’ensemble de ses caractéristiques.
L’évaluation s’est généralisée à l’ensemble des domaines du traitement automatique
des langues et de nombreuses technologies ont désormais leur lot de protocoles et mesures,
voire de campagnes d’évaluation régulières. Cependant, la part de l’évaluation n’est pas
homogène selon les technologies. Historiquement, la reconnaissance de la parole est considérée comme étant pionnière en terme d’évaluation, du simple fait que cette technologie
a connu les premières campagnes d’évaluation organisées. De manière moins établie, la
traduction automatique et l’analyse syntaxique n’ont pas été en reste : elles ont profité des
avancées technologiques et du besoin de les prouver. L’évaluation s’est ensuite étendue de
manière plus ou moins efficace à des systèmes ayant des approches éloignées, certes, mais
ayant des besoins similaires en mesure de qualité.
2.1
Le traitement automatique des langues
Il est difficile de parler d’évaluation en traitement automatique des langues sans aborder le TAL en lui-même, et dresser un bref bilan historique, politique et économique du
domaine au cours des 60 dernières années. En effet, l’automatisation des traitements linguistiques a pris beaucoup d’importance du fait des ambitions politiques au sortir de la
11
Chapitre 2 : L’évaluation en traitement automatique des langues
Seconde Guerre Mondiale. Plus tard, notamment avec la fin de la Guerre Froide, les perspectives économiques prennent le dessus. Mais c’est bien l’évaluation qui est au centre
des débats même si sa mise en œuvre ne devient effective que quelques années plus tard :
c’est aussi en fonction des performances de systèmes que les programmes de recherche se
sont dessinés.
2.1.1
Vision historique
Au sortir de la Seconde Guerre Mondiale, les premiers calculateurs sont développés
aux alentours de 1946 et leurs performances s’améliorent très vite avec l’apparition des
transistors en 1948, puis des circuits intégrés en 1965. L’arrivée de l’informatique va
donner naissance au traitement automatique des langues et leurs devenirs seront alors
étroitement liés. Chaque nouvelle montée en puissance ou en capacité des ordinateurs
bouleverse à chaque fois le traitement automatique des langues. Certains vont très vite
comprendre l’intérêt de l’ordinateur pour la linguistique, en s’attaquant notamment au
mythe de Babel, la traduction automatique. Il en sera de même pour l’une des disciplines
de base des sciences du langage, l’analyse syntaxique.
Un des pionniers en la matière, le mathématicien Warren Weaver, pensait dès 1947
à utiliser les calculateurs afin de produire des traductions automatiques, tout en restant conscient des limites : Même si je traduisais uniquement du matériel scientifique
(pour lequel les difficultés sémantiques sont bien moindres), et même si cela ne produisait
qu’un résultat pas très élégant (mais intelligible), il me semble que ça vaudrait le coup
[Weaver, 1955].
Bien que l’approche reste assez simpliste, il n’en reste pas moins que les premières
communications entre Weaver et ses collègues inaugurent les débuts de la traduction automatique. Dans un contexte de Guerre Froide, mais aussi d’un futur planétaire constructif
et de paix (sic), l’intérêt pour une automatisation de la traduction est fortement accru. Le
Memorandum de 1949, écrit par Weaver [Weaver, 1955], est alors le stimulant pour la recherche en traduction automatique aux États-Unis [Hutchins, 1997]. Il en demeure le texte
fondateur. La plupart des aspects théoriques et pratiques y sont abordés, et la question
encore bien actuelle de la fiabilité des traductions produites automatiquement et celle des
difficultés du traitement automatique des langues sont déjà clairement connues (comme
par exemple le cas de traductions multiples dépendant du contexte). Cependant, l’apparition de la traduction automatique n’est pas le fait d’un seul homme. L’enthousiasme
naissant est celui de nombreux groupes de chercheurs venant, il est vrai, essentiellement
des États-Unis : il peut être utile de mentionner ici d’autres pionniers tels que Andrew
Booth, Norbert Wiener ou encore Richard Richens, qui font partie des quelques deux
cents scientifiques auxquels Weaver avait envoyé son Memorandum [Cori et Léon, 2002].
En 1952, la première conférence sur la traduction automatique (Conference on Mechanical Translation, Massachusetts Institute of Technology - MIT ) a lieu sous la direction de
Yehoshua Bar-Hillel et en 1954 le premier journal dédié paraît, édité par William Locke
et Victor Yngve sous le nom Mechanical Translation. À l’époque, il est déjà très clair
qu’une traduction automatique parfaite n’est pas possible et que l’intervention humaine
est indispensable, par exemple en vue d’une post-édition (la traduction est manuellement
corrigée, a posteriori ). En effet, dès 1953, Bar-Hillel préconise une traduction assistée par
ordinateur, une traduction de haute qualité (FAHQT, pour Fully Automatic High Quality
12
2.1. Le traitement automatique des langues
Translation) n’étant réalisable que par un humain [Bar-Hillel, 1953].
Un premier système de traduction automatique rudimentaire est mis au point en 1954
par IBM (Peter Sheridan) et l’université de Georgetown (Paul Garvin). Quarante-neuf
phrases sont alors traduites du russe vers l’anglais avec un vocabulaire de 250 mots
et seulement 6 règles de grammaire. L’intérêt scientifique est faible, mais la portée est
telle que cela favorise l’émergence de nombreux projets, aux États-Unis, mais aussi dans
le monde entier et notamment en Union Soviétique, en Grande-Bretagne et en France
[Hutchins, 2001]. Les années 50 voient émerger de nombreuses approches fondamentales
(linguistique distributionnelle par Zellig Harris en 1954, théorie des langages formels par
Chomsky en 1957) et l’essor se poursuivra jusqu’au début des années 60.
C’est à la fin de cette période qu’apparaît l’intelligence artificielle, l’idée étant d’avoir
des ordinateurs capables d’appréhender le langage et la réflexion. En France, l’ATALA
(Association pour l’étude et le développement de la Traduction Automatique et de la Linguistique Appliquée, animée par Emile Delavenay) est créée en 1959, ainsi que la première
revue française La Traduction Automatique. Les premiers traducteurs automatiques voient
le jour, ainsi que les premières désillusions. L’exemple sans doute le plus célèbre concerne
la traduction de la phrase The spirit is willing but the flesh is weak (L’esprit est fort
mais la chair est faible) en russe. La traduction inverse du russe vers l’anglais de cette
traduction donnait alors The vodka is good but the meat is rotten (La vodka est bonne
mais la viande est pourrie). Au-delà de son côté amusant, ce genre de traduction pose
le problème de la connaissance du monde général et du contexte des textes à traduire :
ici, certains termes ont été traduits en fonction du sens spécifique à un autre contexte
que celui propre à cette phrase (par exemple spirit comme en tant qu’alcool plutôt que
l’esprit humain).
Finalement, l’optimisme des débuts chute radicalement à la suite de deux rapports
successifs. Un premier rapport de Bar-Hillel en 1960 critique la possibilité qu’une traduction automatique ne puisse pas se distinguer d’une traduction humaine (et doute par la
même occasion de la capacité à obtenir un jour une FAHQT). Son étude ne se base pas sur
l’état des ressources de l’époque, mais sur le principe en lui-même. L’impact est important
au sein de la communauté. Aussi, en 1964, les sponsors gouvernementaux de la recherche
commandent-ils au National Science Fondation de définir un comité afin d’examiner les
possibilités du domaine. Cela a mené au célèbre rapport ALPAC (Automatic Language
Processing Advisory Committee). Ce rapport provoque la réduction drastique des investissements de la recherche en traduction automatique tout en mettant en lumière l’échec de
la recherche au cours des années précédentes. L’influence du rapport ALPAC est profonde
mais ses conclusions sont à relativiser : la traduction automatique y est décrite comme
étant « plus lente, moins précise et deux fois plus chère qu’une traduction humaine » et
il est dit « qu’il n’y a aucune perspective immédiate ou prédictible pour une traduction
automatique utile » [ALPAC, 1966]. Ce rapport est déjà critiqué à l’époque (car biaisé et
manquant de vue à long terme) et l’état actuel de la traduction automatique tend à nous
prouver le contraire de ces deux affirmations. Il faut noter que les conclusions du rapport
appellent au développement d’outils d’aide aux traducteurs humains et à la poursuite du
soutien à la recherche en linguistique computationnelle [Hutchins, 2001]. Autrement dit,
si le rapport ALPAC sonne presque le glas de la traduction automatique en tant que telle,
il ouvre aussi la recherche à d’autres domaines de la linguistique computationnelle.
Ainsi, parallèlement au déclin de la traduction automatique, la linguistique compu13
Chapitre 2 : L’évaluation en traitement automatique des langues
tationnelle, elle, prend de l’intérêt aux yeux des scientifiques (parmi lesquels certains
avaient effectivement senti venir la tempête ALPAC). En 1965, la première conférence
internationale traitant de la linguistique computationnelle a lieu, qui deviendra la conférence Coling 1 , toujours organisée tous les deux ans. D’autres domaines émergent, tels que
l’analyse syntaxique (bien que déjà en vogue dès le début des années 50) ou l’intelligence
artificielle. De nombreux outils apparaissent, se rapprochant plus de l’intelligence artificielle et fondés sur des mots clef et des patrons syntaxiques. Ainsi, le programme ELIZA
en 1966 [Weizenbaum, 1966] simule un dialogue entre un patient et un psychothérapeute,
ou le programme SHRDLU [Winograd, 1971] permet l’interaction entre un humain et un
robot placé dans un univers composé de formes diverses et utilisant une approche plus
sémantique.
Des approches plus pragmatiques ont vu le jour à la fin des années 70, comme le
système de dialogues dirigés par la tâche, Grosz (1977). C’est au cours de cette période
que la traduction automatique émerge à nouveau avec l’apparition d’applications commerciales, comme par exemple Systran en 1975. La revue American Journal of Computational
Linguistics est créée en 1974 (faisant suite à la revue Mechanical Translation, elle sera renommée Computational Linguistics en 1984, traduisant l’évolution du traitement automatique des langues [Cori et Léon, 2002]) et désormais de nombreux domaines sont abordés :
correction orthographique, traitement de la parole, dialogue homme-machine, etc.
Depuis le début des années 80, d’autres méthodes émergent, laissant apparaître l’étude
du contexte, de la situation d’énonciation ou du raisonnement par analogie. Le traitement
automatique des langues a de plus en plus l’objectif d’un développement effectif de systèmes, notamment pour le grand public avec la généralisation de l’ordinateur personnel.
De nouvelles approches émergent aidées par le développement de l’Internet au début des
années 90 : travaux sur des textes réels, à large couverture ou approches statistiques nécessitant de grandes quantités de données. La plupart de ces approches ont été étudiées
dès le début des années 80 mais l’explosion de la puissance des ordinateurs les a rendues
souvent plus robustes. Le traitement automatique des langues tend à se focaliser sur la
recherche d’information, l’interrogation et l’exploitation de grandes masses de connaissances. Cela est sans doute dû au besoin des chercheurs de tester de nouvelles approches
suite à l’échec relatif des précédentes, mais aux facilités d’accès à de grande quantités de
données. Le monde du traitement automatique des langues a progressivement privilégié
les approches statistiques nécessitant un apprentissage du modèle recherché pour accomplir une tâche précise, par opposition aux approches à base de règles (sans toutefois s’en
passer définitivement) .
2.1.2
Applications et enjeux
Depuis quelques années maintenant, les développements technologiques rendent accessibles aux particuliers et aux entreprises des systèmes du TAL. En tant que telles, les
applications disponibles couvrent un vaste répertoire, d’autant plus que le développement
croissant de l’Internet pousse beaucoup d’acteurs du domaine à mettre en ligne leurs outils
linguistiques. Les enjeux, avant tout économiques, sont énormes. Il s’agit bien sûr, historiquement, de la traduction automatique : la masse de données à traduire est de plus en plus
importante (e-mails, articles, blogs, documents officiels, etc.) et la mondialisation gagne
1. http ://www.coling-2010.org
14
2.1. Le traitement automatique des langues
du terrain au travers d’Internet et des offices internationaux et gouvernementaux (ONU,
UNESCO, Union Européenne, etc.). D’autres outils de traduction sont aussi mis en avant
comme l’apprentissage des langues, la traduction de l’oral ou encore la traduction assistée par ordinateur. L’autre grand enjeu économique concerne la recherche d’information :
veille technologique ou stratégique, moteurs de recherche, etc.
Les apports récents de l’informatique expliquent en partie l’évolution du traitement
automatique des langues :
– augmentation de la puissance et de la capacité des ordinateurs : développement des
approches statistiques, larges quantités de données traitées, etc. ;
– amélioration du réseau et des taux de transfert : échange de données facilité, traitement plus aisé en recherche d’information, etc. ;
– nouveaux modes de communication : téléphones portables, systèmes embarqués. Ces
moyens de communication nécessitent de nouvelles approches mais créent aussi de
nouveaux besoins (comme par exemple une traduction orale à l’aide de son téléphone
portable, pour la réservation d’un hôtel à l’étranger [Stüker et al., 2006]).
D’après le rapport Van Dijk sur le marché et les tendances des technologies de la langue
en Europe (Van Dijk, 2006) sur l’année 2006, l’Europe comporte 160 millions d’internautes
(sur 460 millions d’habitants) et les dépenses en nouvelles technologies de l’information et
de la communication (NTIC) représentent 6 % du PIB (Produit Intérieur Brut). D’autre
part, il existe 482 sociétés européennes présentes de près ou de loin sur le marché des NTIC.
Ce marché n’a cessé de croître depuis le début des années 2000. La répartition de l’offre
est assez déséquilibrée entre le traitement textuel (70 %) et le traitement vocal (30 %).
Toutefois, il est à noter qu’une majorité des grands leaders européens sont spécialisés sur
le traitement vocal et que celui-ci est en tendance ascendante, les services de téléphonie
ayant de plus en plus de poids sur le marché.
2.1.3
Niveaux de traitement
Il est possible de considérer plusieurs niveaux d’analyse pour la compréhension d’un
document écrit en langage naturel (cf. figure 2.1). Le parcours de ces niveaux n’est pas
toujours linéaire, par exemple pour faciliter l’analyse.
La base de tout traitement est de reconnaître les formes de base de manière à
segmenter le document en unités. Les séparateurs et autres signes de ponctuation sont
pris en compte. Par exemple, la difficulté est de savoir distinguer un mot sachant que les
séparateurs peuvent être ambigus (en français, les fins de phrase sont marquées par des
points, qui apparaissent aussi dans les sigles ou les abréviations, et que faire, par exemple,
d’un sigle situé en fin de phrase...) et qu’une segmentation est dépendante de la langue
(la partie décimale est notée par une virgule en français et par un point en anglais, la
plupart des langues asiatiques n’ont pas de séparateurs). Les formes de base sont également
facteurs d’ambiguïté, notamment lorsqu’elles ne font pas partie du vocabulaire connu.
Le traitement lexical permet d’identifier les unités lexicales et de définir leurs
propriétés. Une analyse morpholexicale caractérise les formes de base reconnues par le
segmenteur et fournit toutes sortes d’informations à partir de lexiques et de règles morphologiques.
Ensuite, le traitement syntaxique permet de définir des groupes de taille supérieure
au mot (les constituants comme les groupes nominaux, les groupes verbaux, etc.) et les
15
Chapitre 2 : L’évaluation en traitement automatique des langues
Figure 2.1 – Les niveaux d’analyse du traitement automatique des langues.
relations de dépendance qu’ils entretiennent entre eux. À partir de grammaires, l’analyse
syntaxique vise l’étude des contraintes entre les catégories morphosyntaxiques, préalablement déterminées. Elles doivent être prises en compte afin de décrire des séquences
de phrases grammaticalement acceptables (ou correctes, selon la tâche). La résolution des
ambiguïtés à ce niveau facilite la représentation sémantique qui est construite par la suite.
En effet, de nombreuses ambiguïtés lexicales (vert : adjectif ou nom masculin singulier)
et liées au contexte (se mettre au vert) apparaissent.
Le traitement sémantique construit une représentation du sens afin de comprendre
le document. L’analyse sémantique consiste à étudier une unité de niveau phrastique
et à représenter conceptuellement sa partie significative. Ainsi, des expressions de type
logique représentent des relations entre les objets liés à la situation et ont pour but de
comprendre le sens de l’énoncé. De nombreuses difficultés rendent l’analyse compliquée,
comme la résolution des anaphores 1 (l’avocat a défendu son client, je l’ai vu pleurer :
qui a pleuré ?) ou le rattachement syntaxique (le propriétaire du chien qui n’arrête pas de
hurler ).
Finalement, le traitement pragmatique consiste à identifier et contextualiser le sens
concret du document, dans le contexte particulier de sa production. Il s’agit de la phase
pour laquelle on s’approche le plus du processus de compréhension humaine. La difficulté
du traitement consiste à repérer l’implicite, les attitudes et présupposés qu’un humain
aurait.
2.1.4
Difficultés
Deux difficultés majeures se distinguent en traitement automatique des langues : l’ambiguïté et l’implicite. La compréhension d’un document nécessite une désambiguïsation
morphosyntaxique (le terme partie peut correspondre à la fois au substantif féminin décrivant une portion d’un tout, mais aussi au participe passé du verbe partir ) et une
désambiguïsation lexicale (dans la phrase j’ai acheté un avocat pourri, le terme avocat
peut autant correspondre au fruit de l’avocatier qu’à l’homme de loi). Cette dernière est
1. La résolution des anaphores se fait aussi au niveau du traitement pragmatique.
16
2.1. Le traitement automatique des langues
fortement liée à la connaissance de l’univers contextuel du document (j’avais faim, j’ai
donc acheté un avocat, le lecteur comprend aisément qu’il s’agit d’un fruit 1 ). De manière
plus complexe, la compréhension d’un document passe par une désambiguïsation structurelle (la phrase c’est l’avocat de l’accusé qui a volé les pommes n’indique pas si c’est
l’avocat ou l’accusé qui a volé les pommes).
Au-delà de l’ambiguïté concernant la compréhension d’un texte, il y a également celle
concernant sa génération, et l’adaptation au récepteur afin qu’il comprenne bien le sens du
document. Dès lors que le vocabulaire d’un document est limité à un domaine spécifique,
l’ambiguïté peut, dans une certaine mesure, être levée. En effet, un vocabulaire plus limité
réduit la connaissance sur le monde qu’a l’outil automatique. De fait, un terme, ou une
structure grammaticale, ne trouvera pas (ou moins) de synonymes dans un vocabulaire
spécialisé (si l’avocat est acheté, on comprend qu’il y a acte de corruption dans le contexte
d’un document juridique 2 ).
2.1.5
Domaines d’application
Qu’elles répondent à des besoins professionnels ou privés, différentes tâches sont effectuées avec des systèmes du TAL selon des besoins bien spécifiques. Un premier découpage
consiste à distinguer les modalités de communication, et le type des données utilisées,
selon qu’elles proviennent de la langue orale, de la langue écrite ou du multimodal.
Ensuite, les technologies sont caractérisées par leur finalité : il existe des systèmes
finaux, applications ou produits pour l’utilisateur, ou des systèmes intermédiaires, utilisés
généralement par d’autres systèmes ou ne servant que d’assistance pour une étape humaine
conséquente.
Cette caractéristique de finalité n’est pas binaire : les outils sont plus ou moins intermédiaires et se positionnent sur une échelle graduée allant d’un niveau totalement
intermédiaire et produisant des résultats peu exploitables par un humain en tant que tels
(comme par exemple, à l’extrême : la lemmatisation, la segmentation, l’analyse morphologique, etc.), à un niveau directement utilisable (par exemple une traduction automatique).
Notre thèse a pour vocation d’être applicable à de nombreux types de technologies,
quel que soit leur niveau de finalité ou le type des données qu’elles utilisent. Ce choix est dû
à nos possibilités d’étude sur différents projets comme ceux présentés dans le chapitre 1.
Nous décrivons ci-dessous différentes technologies de traitement de la langue, cette liste
étant non exhaustive.
Les technologies de traitement du langage écrit permettent d’analyser, de générer ou
de transformer des données textuelles, comme par exemple :
– La recherche d’information qui consiste à représenter structurellement des informations selon leur degré de pertinence afin d’aider l’utilisateur à trouver les documents
l’intéressant.
– L’extraction de l’information qui permet d’identifier des informations pertinentes
dans un contexte spécifique pour les représenter sous forme structurée. Ces informations peuvent être de type entités nommées (un lieu, une personne, une organisation,
une date, etc.), évènements, passage d’un document, etc.
1. Exception faite d’un livre fantastique où des hommes de loi sont mangés...
2. Mais les contres-exemples sont toujours possibles : il peut très bien s’agir du jugement d’un vol à
l’étalage au cours duquel des avocats n’ont pas été achetés.
17
Chapitre 2 : L’évaluation en traitement automatique des langues
– La traduction automatique qui permet de convertir un texte source écrit en langue
A en un texte cible écrit en langue B.
– Le résumé automatique de texte qui consiste à extraire une ou des parties de documents pertinentes et à les présenter sous forme synthétique.
– La correction grammaticale, à partir de l’analyse syntaxique, qui permet de représenter un texte sous forme structurée en fonction de la grammaire de la langue du
texte.
– L’alignement multilingue de textes qui consiste à identifier des correspondances
entre deux documents parallèles de deux langues différentes et à les aligner selon
des critères variables (mot, phrase, paragraphe, document).
– L’analyse en question-réponse qui consiste à renvoyer une ou plusieurs réponses à
une question sous forme d’un paragraphe, d’une expression ou d’un terme.
– L’extraction terminologique qui consiste à renvoyer des termes ou des relations représentatifs d’un corpus de documents.
Les technologies de traitement de la langue orale permettent d’analyser des données
de la parole et/ou de les transformer à partir ou vers des données textuelles, comme par
exemple :
– La synthèse de la parole qui consiste à synthétiser un document au format oral à
partir d’un document au format texte.
– La reconnaissance de la parole qui consiste à transcrire un document oral en un
document texte.
– La détection de parole qui permet d’identifier dans un document audio les passages
parlés par un locuteur.
– La reconnaissance de la langue qui permet de reconnaître la langue d’un document
oral.
– La reconnaissance du locuteur qui permet d’identifier le ou les locuteur dans un
document oral.
Les technologies de traitement multimodal sont liées aux interactions homme-machine,
comme par exemple :
– La biométrie qui consiste à capturer des informations sur des éléments morphologiques ou comportementaux d’un être humain tels que la voix, l’iris, la gestuelle,
etc.
– Les interfaces multimodales, combinaison de différentes technologies (audio, image,
et/ou vidéo), qui permettent des interactions humaines ou homme-machine.
– Les interfaces vocales qui permettent l’interaction humaine sur des technologies
orales (par exemple la reconnaissance de la parole ou la synthèse de la parole).
Des combinaisons de technologies sont également envisageables, le besoin d’interconnecter les technologies étant de plus en plus fréquent. Par exemple, la traduction automatique de l’oral vers oral permet la traduction d’un document audio, présentée elle-même
sous forme orale : elle combine un composant de reconnaissance de la parole, un composant
de traduction automatique et un composant de synthèse de la parole.
Dans cette thèse, nous nous intéressons avant tout aux systèmes du traitement de
l’écrit mais de manière non restrictive. En effet, des systèmes traitant l’écrit sont souvent
combinés à des systèmes de traitement de l’oral ou du multimodal et il est nécessaire de les
prendre en compte. Aussi, il est intéressant d’avoir connaissance d’autres technologies et
de leurs différentes applications afin de modéliser une architecture générique et pérenne.
18
2.2. Évaluation en traitement automatique des langues
2.2
2.2.1
Évaluation en traitement automatique des langues
Généralités
L’évaluation est un élément essentiel pour estimer les performances d’un système. Que
ce soit pour un aperçu général ou pour une analyse plus fine, il existe trois raisons d’évaluer
un système :
– l’évaluation est un élément moteur pour son développement,
– elle permet de valider les directions de travail,
– de manière pragmatique, elle permet aussi la valorisation du système.
Le développeur est ainsi à même de justifier les investissements réalisés. Au-delà de
l’apport scientifique, il ne faut pas oublier qu’il s’agit également d’un objectif industriel
dans un marché souvent saturé en produits. La plupart du temps, il est d’ailleurs indispensable que les évaluations d’un ou de plusieurs systèmes soient conduites par des agents
extérieurs et sans lien avec leur développement. C’est d’autant plus crucial lorsque l’évaluation porte sur la comparaison de plusieurs systèmes développés par différents acteurs.
Les mesures de qualité nécessaires à toute évaluation se font à travers des jugements
humains ou des métriques automatiques, les applications techniques de la mesure. Cela
fournit des informations sur les performances d’un ou de plusieurs systèmes, dans sa
totalité ou en partie.
Toutefois, il existe différents types, différents niveaux ou encore différentes méthodes
pour évaluer un système de TAL. Cela mène à une grande variété de déroulements possibles. Ces nombreux aspects influencent fortement le résultat des évaluations entreprises
et sont à prendre en compte lors de l’analyse finale.
2.2.2
Historique
2.2.2.1
Les origines
Depuis de nombreuses années, le traitement automatique des langues nécessite l’emploi de méthodes, formelles ou non, pour estimer le niveau de performance des systèmes
développés. De fait, l’évaluation a été dès les premières recherches effectuées un élément
à part du domaine. Chaque expérimentation est évaluée à un moment ou à un autre, soit
de manière informelle en observant simplement les résultats obtenus, soit de manière plus
rigoureuse en mesurant la qualité à l’aide d’une méthodologie bien précise. Ainsi, un effort
conséquent a été consacré au développement de méthodes d’évaluation pour justifier les
travaux de recherche et rendre compte des progrès des systèmes.
L’intérêt croissant pour l’évaluation est tel que l’on peut désormais considérer la discipline comme un domaine à part entière en regroupant l’ensemble des méthodes propres
à chaque technologie. La fréquence des programmes d’évaluation s’est accrue (en particulier ceux organisés aux États-Unis) et chaque projet qui a pour objectif le développement
d’un système contient une partie propre à son évaluation. La conférence internationale
LREC 1 (Language Resources and Evaluation Conference) est devenue un événement majeur. Cette dernière est dédiée aux ressources linguistiques (étude, constitution, utilisation, etc.) et à l’évaluation en traitement automatique des langues autour des mesures,
protocoles, expérimentations, développements, etc.
1. http ://www.lrec-conf.org
19
Chapitre 2 : L’évaluation en traitement automatique des langues
Nous traçons ci-dessous un historique de l’évaluation en traitement automatique des
langues en parcourant les différentes campagnes et projets qui ont vu le jour au cours
des cinq dernières décennies. Parler de l’évaluation de systèmes isolés est plus compliqué
du fait de leur visibilité réduite, leur nombre et leur manque de standardisation. Au
contraire, les campagnes d’évaluation sont révélatrices des « modes » et approches de leur
temps. Elles ont bénéficié de l’intérêt grandissant des chercheurs et ont connu des phases
importantes, véritables bonds évolutifs des différents mécanismes liés à l’évaluation. D’un
point de vue général, les premières campagnes ont vu le jour dans les années 1960, mais
l’essor de l’évaluation s’est indubitablement produit vers la fin des années 1980.
2.2.2.2
Les prémices
Les premiers tests de systèmes sous forme de campagne d’évaluation remontent aux
années 60 avec les tests de Cranfield I et II [Cleverdon, 1967] en Angleterre, comparant 33
systèmes d’indexation. Les systèmes avaient à indexer 1 400 documents à partir de 331 requêtes. Des jugements de pertinence étaient ensuite donnés manuellement aux documents,
ceux-ci permettant de calculer des scores en rappel et en précision [Cleverdon et al., 1966].
Certains principes de base n’ont que peu évolué depuis ces premières campagnes et sont encore employés dans de nombreuses campagnes actuelles [Sparck Jones et Galliers, 1996],
comme l’engagement d’un panel de systèmes, l’utilisation du rappel et de la précision,
l’évaluation quantitative, l’approche de type boîte noire, etc.
2.2.2.3
L’essor américain
C’est surtout aux États-Unis qu’ont été réalisées les principales avancées en matière
d’évaluation. Ce fut souvent par le biais de programmes fédéraux largement financés
autour de l’ARPA (Advanced Research Projects Agency, renommée DARPA, Defense
Advanced Research Projects Agency) et le NIST (National Institute of Standards and
Technology) 1, et ce dès les années 1970. La plupart des évaluations se font alors en utilisant des mesures de rappel et de précision, ou encore des distances de Levenshtein
[Levenshtein, 1966] (cf. section 5.1.4).
Mais auparavant, le rapport ALPAC (cf. section 2.1.1) a mis en lumière les limites
de la traduction automatique. Il a surtout contraint (de manière non formelle) les développeurs à évaluer leurs systèmes, valorisant de la même façon l’évaluation en traitement
automatique des langues.
Le premier grand programme de recherche américain mené par l’ARPA, SUS (Speech
Understanding Systems) [Klatt, 1977] vise à évaluer les systèmes de reconnaissance de la
parole, domaine pionnier en ce qui concerne l’évaluation. Ce programme s’est déroulé de
1971 à 1976, avec des résultats décevants du fait de systèmes très disparates qui traitent
des langues différentes pour des tâches différentes. On voit dès lors l’importance de l’évaluation comparative, qui permet d’estimer la performance de systèmes par rapport à
d’autres dans un même contexte. De plus, aucun protocole ou mesure n’était assez standardisé à l’époque pour évaluer les systèmes de reconnaissance de la parole. Certains
développeurs se targuaient de taux d’erreur très faibles, quand bien même la comparaison
avec d’autres systèmes n’était pas possible [Bernsen et al., 1999].
1. http ://www.nist.gov
20
2.2. Évaluation en traitement automatique des langues
Ensuite, l’étude de nouvelles mesures se poursuit en dehors de ces campagnes
d’évaluation. La f-mesure fut développée en 1979 et combine rappel et précision
[van Rijsbergen, 1979] (cf. section 5.1.4). La même année, le rapport Van Slype présente
une étude très approfondie qui a pour thème les mesures d’évaluation des systèmes de
traduction automatique [van Slype, 1979].
Suite au programme SUS, une période moins faste (en terme de campagnes) a suivi
jusqu’au début des années 1980. Elle fut propice à la réflexion et mena au nouveau programme DARPA, démarré en 1984. Il repose sur une évaluation comparative ne prenant
en compte que les entrées/sorties des systèmes (évaluation de type « boîte noire », cf. section 2.2.4.2). Après trois années d’implémentations et de définitions, la première campagne
est conduite en 1987. La série des campagnes MUC (Message Understanding Conference) 1
lui fit suite et conclut à la nécessité de conduire des évaluations comparatives. En effet,
ces campagnes ont montré une amélioration générale de la performance des systèmes, ce
qui a provoqué l’apparition de certains produits sur le marché. Les campagnes MUC-1 à
MUC-7 furent menées jusqu’en 1998, la participation internationale étant ouverte à partir
de 1992. Elles ont été suivies par les campagnes TDT (Topic Detection and Tracking) 2 à
partir de 1998.
Au cours de ces campagnes, la DARPA confia au NIST la mission d’organiser les
programmes d’évaluation du gouvernement américain.
Parallèlement aux campagnes MUC, de nouveaux programmes américains d’évaluation
se sont ouverts à d’autres technologies, comme ATIS (Air Travel Information System)
[Price, 1990] de 1989 à 1995, concernant l’évaluation des systèmes de dialogue appliquée
au domaine du transport aérien. Ces campagnes sont d’une manière générale financées par
la DARPA et coordonnées par le NIST. Ensuite, les campagnes d’évaluation TREC (Text
REtrieval Conferences) 3, débutées en 1991, concernent de nombreuses technologies en
recherche d’information et sont encore en cours à l’heure actuelle. En 1992, les premières
campagnes d’évaluation centrées sur la traduction automatique débutent (DARPA-MT,
NIST-MT 4 ) et sont entreprises de manière périodique depuis 2001. En 1998, SUMMAC 5
est la première campagne organisée pour l’évaluation des systèmes de résumé automatique.
En 1992 est créé le LDC 6 (Linguistic Data Consortium) qui prend en charge la production et la distribution des ressources linguistiques des campagnes d’évaluation du NIST.
2.2.2.4
Le retard de l’Europe et de l’Asie
Avec quelques années de retard sur les programmes de recherche américains, d’autres
actions ont eu cours à des niveaux nationaux (Allemagne, Angleterre, Chine, France,
Japon, etc.) et européens, mais de manière moins pérenne. La plupart d’entre elles ont
été fortement influencées par les méthodologies employées par les programmes américains.
Entre 1982 et 1992, le projet EUROTRA a eu pour objectif la mise en place d’un
système de traduction automatique multilingue pour les neuf langues officielles de la
1.
2.
3.
4.
5.
6.
http
http
http
http
http
http
://www-nlpir.nist.gov/related_projects/muc/
://projects.ldc.upenn.edu/TDT/
://trec.nist.gov
://www.itl.nist.gov/iad/mig//tests/mt/
://www-nlpir.nist.gov/related_projects/tipster_summac/
://www.ldc.upenn.edu
21
Chapitre 2 : L’évaluation en traitement automatique des langues
Communauté Européenne : anglais, allemand, danois, espagnol, français, grec, italien,
néerlandais et portugais. Une évaluation a été conduite par des experts indépendants.
En 1992, la campagne japonaise JEIDA (Japan Electronics Industry Development Association) [Nomura, 1992] a pour but de déterminer quel système de traduction automatique est le plus approprié pour un utilisateur.
Au niveau européen, les projets Sundial (Speech Understanding and Dialogue, 19881993) [Peckham, 1991] et Plus (A Pragmatics-based Language Understanding System,
1991-1994) [Black et al., 1991] ont comporté des composantes d’évaluation. Mais c’est
surtout le projet SQALE 1 (Speech recognizer Quality Assessment for Linguistic Engineering) qui a pour objectif l’évaluation de systèmes de reconnaissance de la parole de 1993 à
1995. SQALE reprend les principes des tests de l’ARPA Spoken Language Program (dès le
début des années 80 aux États-Unis) en les appliquant au français, à l’anglais britannique
et à l’allemand. Ces projets montrent la prépondérance originelle des technologies de la
parole en évaluation.
Sur la même période (1993-1996), le projet allemand VerbMobil 2 a pour but le développement d’un système de traduction en temps réel. Une évaluation du système est alors
conduite [Nübel, 1997].
Au niveau de la recherche française et francophone, l’Aupelf-Uref (dorénavant AUF,
l’Association des Universités Francophones) lance sept campagnes pour le traitement de
langue écrite et parlée, qui se sont déroulées de 1994 à 1999, lors de l’Action de Recherche Concertée 3 (ARC). Les domaines concernés étaient la recherche d’information
(ARC A1), l’alignement de corpus (ARC A2), l’extraction de terminologies (ARC A3),
la compréhension de messages (ARC A4), la dictée vocale (ARC B1), la synthèse vocale
(ARC B2) et la transcription de la parole (ARC B3). Parmi ces campagnes, AMARYLLIS
1 et 2 (ARC A1) avaient pour objectifs l’évaluation de logiciels de recherche d’information du français et le développement d’une méthodologie d’évaluation de tels logiciels. Les
activités d’AMARYLLIS seront fusionnées plus tard avec celles du projet européen CLEF
(cf. ci-dessous).
Toujours au niveau national, la campagne GRACE 4 (Grammaires et Ressources pour
les Analyseurs de Corpus et leur Evaluation) a pour but l’évaluation d’étiqueteurs morphosyntaxiques. Elle s’est déroulée de 1994 à 1998 et ne considère que la langue française.
L’équivalent allemand, Morpholympics [Hausser, 1994] s’est déroulé en 1994, puis à un
niveau européen la campagne Sparkle 5 (1993-1996) d’évaluation d’analyseurs syntaxiques
sur quatre langues différentes (anglais, français, allemand et italien).
À partir de 1998 ont lieu au niveau européen les campagnes SENSEVAL/ROMANSEVAL 6 , évaluant les systèmes de désambiguïsation lexicale sur différentes langues. De
nouvelles campagnes SENSEVAL ont lieu en 2001, 2004 et 2007.
Entre 1998 et 1999 s’est déroulé le projet japonais IREX (Information Retrieval and
Extraction Exercise) basé sur deux tâches d’évaluation : la recherche d’information et
l’extraction d’entités nommées [Sekine et Isahara, 2000].
1.
2.
3.
4.
5.
6.
http
http
http
http
http
http
://www.limsi.fr/sqale.html
://verbmobil.dfki.de
://www.limsi.fr/Recherche/FRANCIL/frcl.html
://www.limsi.fr/TLP/grace
://www.ilc.cnr.it/sparkle/wp1-prefinal/wp1-prefinal.html
://www.senseval.org
22
2.2. Évaluation en traitement automatique des langues
Par ailleurs, le pendant européen de TREC, CLEF 1 , portant sur la recherche d’information crosslingue a débuté en 2000 [Braschler, 2000] et continue au cours de campagnes
annuelles qui ont été étendues à la recherche d’information multimodale (c’est-à-dire l’extraction d’information à partir d’images, de vidéos ou de sons).
En France, sur les bases du programme de l’Aupelf-Uref, le projet EVALDA a été lancé
en 2002, dans le cadre du programme Technolangue 2 . Huit campagnes furent menées à
bien, également autour du traitement de l’oral et de l’écrit : alignement de textes (ARCADE II 3 ), extraction terminologique (CESART 4 ), traduction automatique (CESTA 5 ),
analyse syntaxique (EASy 6 ), question-réponse (EQueR 7 ), reconnaissance de la parole
(ESTER 8 ), synthèse vocale (EvaSy 9 ) et dialogue oral (MEDIA 10 ). De nombreuses données et informations ont été tirées de ces campagnes, notamment sous formes de « kits
d’évaluation » contenant les ressources, protocoles utilisés, résultats et documentation des
différentes campagnes [Chaudiron et Choukri, 2008a].
Le projet européen TC-STAR 11 s’est déroulé de 2004 à 2007, ambitionnant le développement d’un système de traduction de l’oral vers l’oral et son évaluation. En plus du
développement d’une plate-forme d’évaluation dédiée, le projet proposait trois évaluations
successives dans les domaines de la reconnaissance automatique de la parole, la traduction
automatique de la parole et la synthèse vocale.
Depuis 2005 et de façon annuelle, le DÉfi Fouille de Texte 12 (DEFT) rassemble une
communauté autour de la fouille de texte (Text Mining) et son évaluation.
Un premier programme semblable à celui d’EVALDA a également été mené en Italie,
EVALITA en 2007 13 , puis en 2009 14 avec un périmètre plus réduit. Cinq campagnes se
sont déroulées en 2007 sur le traitement de l’écrit : désambiguïsation sémantique, analyse
syntaxique, étiquetage morphosyntaxique, reconnaissance d’expressions et reconnaissance
d’entités nommées. En 2009, ce sont huit campagnes qui se sont déroulées, cinq sur le
traitement de l’écrit et trois sur le traitement de l’oral.
2.2.2.5
Autres campagnes
Les exemples de campagnes ou projets d’évaluation sont nombreux, mais ils sont parfois de moindre portée ou moins connus. La plupart des évaluations du NIST sont annuelles
à l’heure actuelle, de même que les évaluations portées par CLEF.
Au Japon, le projet NTCIR 15 (NII Test Collection for IR Systems) réalise des évaluations annuelles depuis 1999 portant sur la recherche d’information.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
http
http
http
http
http
http
http
http
http
http
http
http
http
http
http
://www.clef.org
://www.technolangue.net
://www.technolangue.net/article201.html
://www.technolangue.net/article200.html
://www.technolangue.net/article199.html
://www.technolangue.net/article198.html
://www.technolangue.net/article195.html
://www.technolangue.net/article60.html
://www.technolangue.net/article202.html
://www.technolangue.net/article62.html
://www.tcstar.org
://deft.limsi.fr/
://evalita.fbk.eu/2007/
://evalita.fbk.eu
://research.nii.ac.jp/ntcir/index-en.html
23
Chapitre 2 : L’évaluation en traitement automatique des langues
D’autres projets ont cours en Europe et en France mais de manière plus chaotique, les
moyens financiers étant plus complexes à obtenir. En France, il est notamment question
des projets financés par l’ANR 1 tels que Infile 2 ou PASSAGE 3 qui ont débutés en 2006.
En Inde, un récent programme a eu lieu et prenant en compte 19 des langues parlées
dans ce pays, TDIL 4 (Technology Development for Indian Languages). Ce programme
considère également la thématique de l’évaluation.
2.2.2.6
En dehors des campagnes
En marge des campagnes d’évaluation, quelques projets ont défini des standards méthodologiques pour l’évaluation. En premier lieu, la définition des premières normes
ISO/IEC 9126 [ISO 9126, 1991], en 1991, jette les bases d’un cadre pour l’évaluation
de logiciels et des critères sont définis. Il ne s’agit pas de critères spécifiques au TAL, mais
les technologies du TAL sont directement concernées. De nombreuses mesures de qualité
sont inspirées de ces normes et les systèmes de traitement de la langue sont inclus dans
la liste des logiciels que vise la définition des normes ISO/IEC 9126.
Sur la base de ces normes, le groupe de travail européen EAGLES 5 (Expert Advisory
Group on Language Engineering Standards) a mis au point une méthodologie d’évaluation
axée sur l’usage et de nouvelles normes ont été alors définies. EAGLES fait suite à des
activités de projets tels que ESPRIT Speech Assessment Methods (1987-1993) ou SQALE
(1993-1995) qui sont principalement axés sur le domaine de l’audio.
Dans un même temps, le projet européen ISLE (International Standards for Language
Engineering, 1999-2002) 6 aborde des objectifs similaires à ceux du projet EAGLES. Trois
groupes de travail sont alors chargés de développer des standards pour les lexiques, l’interaction homme-machine et l’évaluation. Alors qu’en 1998 une nouvelle version des standards ISO/IEC 14598 est fixée, le nouveau projet européen ELSE (Evaluation in Language
and Speech Engineering) 7 reprend les recommandations du projet EAGLES en 1999. Il
s’agit d’une étude de faisabilité, l’objectif étant d’étudier la possibilité d’organiser une
évaluation comparative et quantitative de type boîte noire. Le projet FEMTI (a Framework for the Evaluation of Machine Translation in ISLE ) 8 fera suite à ISLE avec pour
objectif de référencer les différentes méthodes existantes en traduction automatique et de
les lier au but et au cadre d’utilisation des systèmes.
Régulièrement depuis 2005, ELRA organise des ateliers autour du sujet de l’évaluation :
HLT Evaluation workshop en 2005 9 , Automatic Procedures in MT Evaluation en 2007 10
et ELRA Workshop on Evaluation en 2008 11 . ELRA organise aussi la conférence LREC 12
tous les deux ans depuis 1998, qui reste un évènement majeur en évaluation du TAL.
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
http
http
http
http
http
http
http
http
http
http
http
http
://www.agence-nationale-recherche.fr/
://www.infile.org
://atoll.inria.fr/passage/
://tdil.mit.gov.in
://www.ilc.cnr.it/EAGLES/home.html
://www.ilc.cnr.it/EAGLES96/isle/ISLE_Home_Page.htm
://www.limsi.fr/TLP/ELSE/
://www.issco.unige.ch/en/research/projects/isle/femti/
://www.elra.info/HLT-Evaluation-Workshop-in-Malta.html
://www.elra.info/Automatic-Procedures-in-MT.html
://www.elra.info/ELRA-Workshop-on-Evaluation-at.html
://www.lrec-conf.org
24
2.2. Évaluation en traitement automatique des langues
2.2.2.7
Bilan
Tous ces exemples d’initiatives nationales et internationales illustrent l’intérêt croissant pour l’évaluation en traitement automatique des langues. Les technologies les plus
évaluées sont celles qui s’intéressent à la recherche d’information, la traduction automatique, les analyseurs syntaxiques et, d’un point de vue plus historique, les systèmes de
reconnaissance vocale.
La comparaison entre les programmes américains et européens montre de grosses différences, essentiellement dues aux méthodes de financement. La pérennisation des campagnes au niveau régional n’en est que plus complexe. Toutefois, l’évaluation en traitement
automatique des langues est en important développement, du fait d’un succès croissant.
L’impact le plus représentatif est lié à la progression des systèmes et la mise sur le marché
de nouveaux produits pour le grand public.
Cet historique nous permet de dresser un bilan des acteurs du domaine de l’évaluation
en traitement automatique des langues. En premier lieu, les principales agences de financement qui apportent les crédits nécessaires au développement des projets, qu’il s’agisse
de la DARPA aux États-Unis, la Communauté Européenne en Europe ou encore l’ANR
en France. Ensuite, les organisateurs et porteurs de projets : la plus importante institution
est le NIST et a peu d’équivalent dans d’autres régions. Les organisateurs d’évaluations
sont bien souvent des agences plus modestes, des universités ou des groupes de projet.
En amont de l’évaluation, les distributeurs et producteurs de ressources linguistiques que
sont LDC et ELDA/ELRA sont souvent remplacés ponctuellement par des possesseurs de
données ne souhaitant pas passer par ces organismes.
2.2.3
Trois questions fondamentales
En évaluation du TAL trois questions principales se posent :
– Pourquoi évaluer ? Quelle est la finalité du processus d’évaluation en traitement
automatique des langues ?
– Que peut-on évaluer ? À quels types de paramètres s’intéresse-t-on ?
– Comment évaluer ? Quels sont les critères d’évaluation à mettre en place pour estimer la performance des systèmes ?
D’autres questions secondaires font suite à ces trois premières questions, comme par
exemple : quand évaluer ?, avec qui évaluer ?
2.2.3.1
Pourquoi évaluer ?
Dans toute démarche de développement de systèmes informatiques, il est nécessaire
de connaître et d’estimer le niveau de qualité atteint par les produits développés. C’est
une tâche primordiale à laquelle le développeur doit s’attacher.
En premier lieu, il est utile de tester l’évolution d’un système en cours de développement. Les développeurs ont besoin de connaître l’impact d’une approche pour résoudre
une tâche donnée en observant les performances du système. Dans le même ordre d’idées,
un système contient des paramètres modifiables pour l’amélioration des performances générales comme pour l’adaptation à un domaine particulier. Les développeurs du système
mesurent l’impact des changements de paramètres sur les performances. Par exemple, la
présence de plusieurs modules dans un système peut nécessiter des évaluations successives.
25
Chapitre 2 : L’évaluation en traitement automatique des langues
Dans ce cas, une analyse fine permet de déterminer si les performances générales sont limitées par un module en particulier et ainsi de connaître les points faibles du système.
En se plaçant à un niveau plus théorique, l’évaluation aide à observer les possibilités
qu’offre un axe de recherche. Le but est alors de préciser dans quelles directions l’effort
doit être poursuivit, ce qui néanmoins risque d’affaiblir l’innovation puisque l’évaluation
se restreint alors à un contexte particulier.
L’évaluation justifie les investissements entrepris pour le développement d’un système.
C’est le cas lorsque des agences de financement ont besoin de savoir si leurs investissements ont abouti à des progrès significatifs [Chaudiron et Choukri, 2008a]. Cela permet
par la même occasion de rediriger les axes de recherche et développement en fonction des
avancées d’une technologie. Ainsi, à plus grande échéance et avec un recul suffisant, il
est possible d’estimer le degré de maturité d’une technologie. Finalement, le processus de
développement aboutit lorsque le système est mis en production : l’évaluation établit si
le système sera un produit utilisable ou non au travers de l’application commerciale.
Pour comparer de manière objective les performances de plusieurs systèmes, les critères
d’évaluation doivent être similaires d’un système à un autre. En définissant des tâches, des
mesures et des références communes, l’évaluation permet de confronter des résultats de
manière homogène et cohérente. Quand bien même les critères sont parfois discutables, il
est indispensable que la communauté scientifique comprenne et interprète les résultats de
la même manière 1 . L’homogénéisation s’effectue en particulier lors de campagnes d’évaluation, car elles regroupent plusieurs acteurs d’un même domaine qui s’entendent sur des
critères compréhensibles par tous. L’exemple de GRACE [Adda et al., 1999] est caractéristique, puisque la campagne a obtenu l’accord des développeurs d’analyseurs syntaxiques
pour un jeu commun d’étiquettes morphosyntaxiques de leurs systèmes.
Les raisons d’évaluer se retrouvent dans [Miller, 2005] qui résume une bonne évaluation
comme étant :
– objective : les résultats ne sont pas biaisés ;
– reproductible : les mesures fournissent les mêmes résultats pour les mêmes données
de test ;
– diagnosticable : l’évaluation donne des informations sur l’amélioration des systèmes ;
– efficace en terme de coût : peu de ressources sont nécessaires pour reproduire l’évaluation ;
– compréhensible : les résultats doivent avoir du sens pour le public visé.
C’est l’utilisation de ces critères qui satisfait l’évaluation d’un système, plutôt qu’une
estimation informelle de ses performances.
1. De même, dans un domaine à forte domination anglo-saxone, il est parfois difficile de trouver des
correspondances de vocabulaire entre l’anglais et le français. Nous nous efforçons au cours de la rédaction
d’utiliser des termes français, quoi qu’il soit souvent plus facile, voire naturel, d’utiliser des termes anglais.
Un cas typique porte sur les termes désignant les juges. Plusieurs termes existent dans la littérature :
on parlera le plus souvent de « evaluator » ou, moins souvent, de « judge », mais le terme « rater » est
également rencontré, ou encore « subject », etc. Pourtant, chacun des termes a sa spécificité et nécessite
d’être traduit correctement en français. Autant « evaluator » peut être traduit par « évaluateur » (notons
que nous considérons l’évaluateur comme celui qui organise l’évaluation, et non pas celui qui porte des
jugements), « subject » par « sujet » autant « rater » et « judge » devraient tous les deux être traduits par
« juge ». D’autres termes sont moins évidents à traduire, certainement plus à cause de la pratique que de
la difficulté intrinsèque de la traduction. Il n’est pas rare de voir dans des conférences en langue française
des orateurs utiliser des termes anglais. Les principales mesures utilisées sont nommées en anglais. Par
exemple, on parlera de taux d’erreurs de mots, mais abrégé par WER (pour Word Error Rate).
26
2.2. Évaluation en traitement automatique des langues
2.2.3.2
Que peut-on évaluer ?
Il est primordial de fixer un objectif d’évaluation et de situer l’évaluation sur une échelle
de temps (c.-à-d. Quand évaluer ?, à quel étape du développement d’un système ?). Cela
passe par une définition du domaine (celui du système à évaluer), de la tâche de contrôle
et de ces critères d’évaluation.
La tâche de contrôle définit ce que le système doit effectuer au cours de l’évaluation
(le plus souvent au début d’un cycle de développement) : traduire automatiquement des
documents du domaine médical de l’anglais vers l’arabe, répondre automatiquement à
des questions écrites en langage naturel en utilisant le Web, extraire des relations de synonymie d’un corpus du domaine de l’éducation, etc. Ses caractéristiques sont données
en amont, selon des conditions claires et précises ne laissant aucune place aux différences
d’interprétation. Elles fournissent un état des critères d’évaluation, compréhensibles par
la communauté scientifique, mesurables et ne faisant pas nécessairement état d’une fonctionnalité finale des systèmes évalués.
Les critères d’évaluation sont multiples et répondent à une demande de qualité, de
quantité ou de comparaison. Les systèmes visées étant aussi informatiques, nous nous
tournons vers les normes définies pour estimer la qualité des logiciels.
Les normes ISO/IEC 9126 et 14598 définissent un cadre pour l’évaluation de logiciels
et le développent de critères de qualité, divisé en six catégories :
–
–
–
–
–
efficacité : le logiciel doit avoir un bon rendement,
fiabilité : le logiciel doit maintenir son niveau de service,
fonctionnalité : le logiciel doit répondre aux besoins fonctionnels requis,
utilisabilité : le logiciel doit être facile à utiliser,
maintenance : le logiciel doit demander un minimum d’efforts pour son évolution
par rapport à de nouveaux besoins,
– portabilité : le logiciel doit pouvoir être adapté sur une plate-forme ou à un environnement différent.
Chaque catégorie est découpée en sous-catégories définissant plus finement les critères
de qualité d’un logiciel en fonction de son type et de la tâche de contrôle. Le découpage se fait ainsi consécutivement jusqu’à arriver aux terminaisons appelées attributs. À
chaque attribut est assignée une mesure qui lui fixe un niveau de qualité sur une échelle
[Popescu-Belis, 2007].
Les systèmes de traitement automatique de la langue sont concernées par ces critères
de qualité. Il est nécessaire de déterminer des moyens précis pour mesurer chaque critère.
Toutefois, nous pensons que tous les critères ne sont pas indispensables pour l’évaluation
en traitement automatique des langues : dans notre cas, les critères les plus pertinents
sont l’efficacité d’un système et sa fiabilité. Le critère de fonctionnalité est en fait un pré
requis : si la fonction souhaitée n’existe pas, l’évaluation ne peut pas se dérouler (et c’est
alors plus une question d’ordre technique qu’il faut valider que d’évaluation proprement
dite). L’utilisabilité fait partie de l’évaluation des interfaces et de l’ergonomie, quant à
la maintenance et à la portabilité, il s’agit d’un trait particulier du développement d’un
système. In fine, ce sont les traitements linguistiques des systèmes qui sont évalués, en
tant que partie d’une application. L’évaluation de l’application dans son ensemble porte
plus sur se caractéristiques, fonctionnalités, qualités ergonomiques, etc.
27
Chapitre 2 : L’évaluation en traitement automatique des langues
2.2.3.3
Comment évaluer ?
La décision des caractéristiques d’une évaluation n’est pas forcément la première tâche
à accomplir. ELSE [Bernsen et al., 1999] considère par exemple deux modes opératoires
spécifiques à l’organisation d’une campagne d’évaluation :
– proactif : la tâche de contrôle est définie en premier, avant la sélection des participants ;
– réactif : la tâche de contrôle dépend du projet et ne peut être définie que lorsque
toutes les étapes préliminaires sont connues (par exemple le nombre de participants).
Après avoir établi les critères d’évaluation correspondant à la tâche de contrôle, il
reste à déterminer les moyens mis à disposition de l’évaluateur pour mener le travail
d’évaluation. La mise en place d’une évaluation peut se révéler très vite complexe, même
si de prime abord cela passe par un axiome simple : un ou plusieurs systèmes renvoient des
données qui sont analysées pour en déterminer la qualité. Seulement, il existe un nombre
important de paramètres à prendre en compte afin de mener correctement une évaluation
(comme le type des données en entrée du système, la subjectivité de l’évaluation, le risque
d’erreur, ou encore à un niveau plus pragmatique l’organisation de l’évaluation en ellemême). La méthodologie, les protocoles, le domaine, ou encore la tâche doivent alors être
définis avec précision.
Il est aussi indispensable d’adopter un système de valeurs, compréhensible par tous
et représentant de manière correcte le niveau de qualité mesuré. Ce système de valeurs
organise le niveau d’un critère sur une échelle de point. Il est dépendant de la mesure
utilisée et du domaine du système. Par exemple, bien que compris entre 0 et 100, un taux
d’erreurs sur les mots n’a pas la même portée en reconnaissance vocale qu’en traduction
automatique du fait que des éléments différents sont mesurés (c.-à-d. respectivement une
solution unique vs une multitude de solutions, cf. chapitre 6) . Le système de valeurs influe
sur l’interprétation des résultats. Il est défini selon des normes précises liées à la définition
d’une mesure de performance.
2.2.4
Paradigme et méthodologies
Tout d’abord, il nous faut distinguer l’évaluation de deux autres concepts relativement
proches : la validation et la compétition. La validation s’oppose à l’évaluation dans le sens
où celle-ci détermine si un certain niveau de qualité a été atteint sans se soucier du niveau
en lui-même. L’échelle est alors binaire et les résultats sont valides, ou non. Il faut noter
que l’on associe plus souvent la validation aux données qu’aux technologies. Pour les
technologies, validation et évaluation ont une base commune, puisque les mêmes mesures
sont utilisées. C’est l’acceptation d’un seuil de performance qui fait passer de l’évaluation
à la validation.
La compétition se distingue également de l’évaluation puisque l’on s’attend à un « classement ». L’objectif est de déterminer la position d’un système par rapport à un autre
en laissant une part très faible quant à l’importance de leurs performances intrinsèques.
La frontière entre les deux pratiques est faible mais bien réelle : il arrive de « classer »
les systèmes d’une campagne mais plutôt dans l’objectif de comparer les différentes approches.
D’après [Bernsen et al., 1999], les trois concepts (évaluation, validation, compétition)
se différencient selon plusieurs caractéristiques, présentées dans le tableau 2.1.
28
2.2. Évaluation en traitement automatique des langues
Approche
Compétition
Validation
Evaluation
Critère
1
Plusieurs
Plusieurs
Classement
Strict
Partiel
Partiel
Performance
Pas d’audit
Seuil
Audit
Reproductibilité
Non
Oui
Oui
Table 2.1 – Distinction entre compétition, validation et évaluation.
2.2.4.1
Niveaux d’évaluation
Les niveaux d’évaluation que nous traitons ci-dessous correspondent aux types d’évaluation employés dans ELSE ou EAGLES. Nous procédons à une telle distinction, dans le
sens où un niveau définit le degré d’évaluation lié aux différentes étapes de la conception
d’un logiciel, tandis qu’un type caractérise l’évaluation au sens large et présente un moyen
de réalisation.
Nous représentons dans la figure 2.2 les niveaux d’évaluation par rapport au cycle de
vie d’un logiciel, présenté en cascade, comparés aux choix de ELSE et EAGLES.
Figure 2.2 – L’évaluation dans le cycle de vie d’un logiciel.
EAGLES définit trois niveaux d’évaluation : tout d’abord, l’évaluation de développement (progress evaluation) dont l’objectif est de mesurer les progrès d’un système en
fonction des performances d’un autre système de même type (le second système sert en
quelque sorte d’étalon) ; ensuite, l’évaluation de diagnostic (diagnostic evaluation) dont
l’objectif est de déterminer les points de dysfonctionnement et d’en identifier les raisons ;
29
Chapitre 2 : L’évaluation en traitement automatique des langues
enfin, l’évaluation d’adéquation (adequacy evaluation) dont l’objectif est de mesurer la
capacité d’un système à remplir une tâche spécifique.
Ces trois niveaux d’évaluation de EAGLES sont clairement spécifiés pour trois grandes
étapes du cycle de vie d’un logiciel (cf. ci-dessous) : les quatre étapes de la conception
à l’intégration (le développement à proprement parler sont regroupées et positionnent le
système par rapport aux systèmes types du domaine ; l’étape de maintenance voit les
performances du système être améliorées en diagnostiquant les problèmes ; l’étape de
mise en production (en partie liée à l’étape de maintenance) où le système est adapté aux
différentes tâches applicatives, incluant le retour utilisateur.
ELSE considère quant à lui cinq niveaux d’évaluation [Bernsen et al., 1999] qui reposent également sur plusieurs étapes du cycle de vie d’un logiciel. Toutefois, ELSE étend
les conclusions de EAGLES à l’identification de la maturité d’une technologie. Pour ce
faire, le niveau technologique est lui-même pris en compte avec son propre cycle de vie.
Les cinq niveaux de ELSE sont donnés ci-après suivant le cycle de vie d’une technologie :
– l’évaluation de recherche élémentaire (basic research evaluation) sert à évaluer les
travaux de recherche et à mesurer leur impact sur les performances par rapport aux
méthodes anciennes déjà établies,
– l’évaluation de technologie (technology evaluation) estime le niveau de performance
d’une technologie et sa capacité à résoudre un problème bien défini, schématisé
(simplifié) et théorique,
– l’évaluation orientée utilisateur (usage evaluation), également dénommée évaluation
d’usage, mesure l’utilisabilité d’une technologie pour résoudre un problème dans des
conditions réelles d’utilisation et en impliquant des utilisateurs finaux dans l’environnement d’utilisation du système testé,
– l’évaluation d’impact (impact evaluation) mesure les conséquences socioéconomiques du déploiement d’une technologie,
– l’évaluation de programme (program evaluation) tente d’estimer l’impact d’un programme 1 sur l’évolution d’un domaine.
On remarque dans la littérature que la définition de ce dernier niveau d’évaluation est
moins claire, voire très peu employée.
La figure 2.3 schématise les niveaux d’évaluation définis dans ELSE.
De manière plus anecdotique, dans [Saracevic, 1995] six niveaux d’évaluation sont
définis pour la recherche d’information et restent valables pour d’autres technologies :
– niveau ingénierie : l’évaluation des performances est matérielle et logicielle (fiabilité,
erreurs, vitesse, sécurité, etc.),
– niveau des données en entrée : cela relève du contenu du système et des caractéristiques des données fournies en entrée, comme leur couverture,
– niveau de traitement : c’est à ce niveau qu’est évaluée la manière de traiter les
données (algorithmes, techniques et approches),
– niveau des données en sortie : l’interaction entre le système et les données obtenues
en sortie est évaluée (retour sur information, recherche, etc.),
– niveau utilisateur : la question de l’évaluation selon une tâche et un problème donné
est soulevée, allant jusqu’à prendre en compte le marché,
– niveau social : l’impact sur l’environnement est évalué.
Nous observons que ces niveaux d’évaluations sont assez abstraits et que l’auteur
1. Au sens d’un programme d’appel d’offre de recherche et développement.
30
2.2. Évaluation en traitement automatique des langues
Figure 2.3 – Les types et niveaux d’évaluation d’après les travaux de ELSE.
considère l’évaluation à un degré industriel. Finalement, il ne prend en compte la qualité
de la sortie d’un système qu’à une échelle très réduite.
D’après [King, 2005], il existe deux points de vue : soit l’évaluation définit ce que le
système doit être capable de faire (évaluation traditionnellement utilisée en recherche et
représentée par des campagnes), soit elle décrit la tâche qu’un humain souhaiterait effectuer (évaluation traditionnellement utilisée dans le monde industriel, représentée par les
standards ISO/IEC, EAGLES, ou encore FEMTI en traduction automatique). Dans le
premier cas, l’évaluateur cherche à déterminer la qualité que le système atteint en effectuant une tâche précise (niveau technologique), dans le deuxième cas il s’agit davantage
de montrer à quel point le système aide un utilisateur à accomplir une tâche (niveau
utilisateur). La finalité n’est donc pas la même.
De manière plus pragmatique, trois cas typiques d’évaluation de technologies sont
abordés par [Hirschman et Thompson, 1996], avec des objectifs bien précis :
– l’évaluation de diagnostic : cette évaluation est conduite lors du développement
d’un système, notamment lors de son paramétrage. L’analyse des résultats confirme
ou infirme les directions de recherche proposées, les hypothèses de travail, ou les
paramètres utilisés.
– l’évaluation de performance : il s’agit ici de l’évaluation d’un système complet, finalisé ou en passe de l’être (une « solution »). L’objectif ici est de mettre en parallèle
plusieurs systèmes ou de mesurer la qualité des sorties du système d’après un étalon.
– l’évaluation d’adéquation : il s’agit d’une évaluation orientée utilisateur. L’évaluation
d’usage rend la priorité aux utilisateurs finaux en testant un système dans un cadre
bien spécifique et un contexte particulier. Cela concerne aussi bien l’évaluation du
système en lui-même que l’évaluation d’un système associé à d’autres (c.-à-d. une
combinaison de systèmes). C’est le sentiment et la perception de l’utilisateur final
qui sont mis ici en valeur en mesurant son « niveau d’acceptation » du résultat.
ELSE pousse plus loin l’étude des niveaux d’évaluation en étudiant les relations qu’ils
peuvent avoir entre eux. Lorsque c’est possible, l’évaluation de recherche de base réutilise
les résultats d’évaluations sur des approches existantes. Les objectifs sont de comparer les
31
Chapitre 2 : L’évaluation en traitement automatique des langues
performances avec l’état de l’art, de décider si la différence peut se combler rapidement et
d’identifier les points d’amélioration des performances en utilisant la nouvelle approche 1 .
L’évaluation de technologie et l’évaluation d’usage sont complémentaires : autant la
performance de la technologie que la qualité liée à l’usage sont nécessaires pour sélectionner un système. En théorie, l’évaluation de technologie devrait prédire l’évaluation
d’usage : ce n’est concrètement pas le cas. De plus, une fois que la technologie est arrivée
à maturité, l’évaluation d’usage peut être alors employée seule, en attendant des standards
de validation.
Les relations entre les évaluations de technologies et d’impact sont plus complexes à
identifier car les niveaux d’évaluation sont éloignés. L’évaluation d’usage est plus proche
de l’évaluation d’impact, car elle implique l’utilisateur et peut au moins prédire l’impact
de la technologie sur le consommateur d’un produit. Mais ce n’est qu’après plusieurs
années que l’impact socio-économique peut être mesuré, avec une prudence relative à la
complexité de la tâche.
Enfin, l’évaluation de programme est considérée, dans ELSE, comme une somme des
quatre autres niveaux d’évaluation. Toutefois, la relation entre ces évaluations n’étant pas
linéaire, il ne s’agit que d’indicateurs pour une évaluation de programme.
2.2.4.2
Types d’évaluation
Il existe deux principaux types d’évaluation en ingénierie logicielle : en boîte noire et en
boîte transparente [Illingworth, 1990]. Ils sont valables pour les évaluations en traitement
automatique des langues.
Avec l’approche en boîte noire (black box evaluation), le comportement externe du
système est observé d’après les données qu’il reçoit en entrée, qu’il fournit en sortie et
leurs relations. La structure interne du système n’est pas analysée.
Avec l’approche en boîte transparente (glass box evaluation), la structure interne du
système est analysée et chaque module est isolé pour être diagnostiqué. Les données de
test sont alors plus précises et en relation avec les modules.
Les deux approches sont employées, bien que l’approche en boîte noire soit plus courante notamment lors de campagnes d’évaluation. Cet état de fait est notamment dû à
la proximité de l’approche de type boîte noire avec les origines de l’évaluation, sur les
résultats en sortie d’un système et pour une entrée donnée [Bernsen et al., 1999]. Il faut
toutefois reconnaître que l’approche en boîte noire est aussi plus simple à organiser, la
description détaillée des modules pouvant être fastidieuse. Elle facilite aussi l’analyse simplifiée des résultats car seule la sortie finale du système est étudiée, indépendamment des
résultats intermédiaires.
L’évaluation de type boîte transparente permet, au contraire, de mesurer l’impact de
chaque module sur les performances du système entier et de mesurer ses propres performances dans ce contexte. L’objectif est d’identifier les modules à améliorer pour obtenir
une meilleure qualité générale du système.
À noter l’utilisation d’évaluations en cascade permettant l’évaluation de plusieurs technologies imbriquées (par exemple, la traduction de l’oral vers l’oral, incorporant les trois
1. Il faut noter que la réutilisation de résultats provenant d’évaluations antérieures implique une interprétation en conséquence : les conditions d’évaluation ne sont certainement pas reproduites à l’identique
pour une nouvelle évaluation.
32
2.2. Évaluation en traitement automatique des langues
composants de reconnaissance vocale, traduction automatique et synthèse vocale). Avec
ce type d’évaluation, deux approches peuvent être adoptées, souvent complémentaires :
d’une part appliquer un jeu de test différent à chaque composant afin d’observer leurs
performances intrinsèques ; d’autre part appliquer à chaque composant un jeu de test correspondant à la sortie du précédent afin d’observer l’évolution des performances au fur
et à mesure de la chaîne de composants (chaque composant évalué étant pénalisé par les
résultats des composants précédents). La combinaison de ces deux approches permet l’observation des composants les « moins performants », en comparant les résultats obtenus
deux à deux. De la même manière, il est possible de remplacer un composant par un autre,
d’une même technologie, afin de déterminer celui qui correspond le mieux à la tâche de
contrôle (à savoir le composant qui amène les performances les plus élevées). Toutefois,
l’évaluation en cascade est souvent beaucoup plus coûteuse, puisque chaque composant
nécessite un nouveau jeu de test ou l’adaptation à un jeu de test existant.
D’aucuns considèrent l’évaluation avec une approche orientée utilisateur comme étant
un type d’évaluation [Chaudiron et Choukri, 2008a], en opposition avec une approche
d’évaluation technologique. C’est à notre avis plutôt une méthode d’évaluation dans le
cadre d’une évaluation de type boîte noire.
2.2.4.3
Critères, méthodes et mesures d’évaluation
L’une des dernières étapes avant le lancement même de l’évaluation reste la mise en
place des moyens d’exécution. On parle alors de méthodes d’évaluation, c’est-à-dire de
techniques permettant d’estimer les performances selon des pratiques formelles.
Cela passe avant tout par la définition d’un critère d’évaluation des performances donné
pour chaque méthode d’évaluation : ils indiquent les caractéristiques prises en compte par
l’évaluateur. [Sparck Jones et Galliers, 1996] définit deux principaux types de critères. Le
critère intrinsèque considère ce qu’un système produit et s’il est correctement produit :
il est lié à l’objectif du système. Le critère extrinsèque considère l’effet des sorties du
système dans un ensemble : il est lié à la fonction du système dans son environnement
usuel. Par exemple, un aligneur de phrases parallèles est évalué de manière intrinsèque en
mesurant le taux de phrases correctement alignées, et de manière extrinsèque en calculant
son impact sur un système de traduction automatique statistique utilisant les données
alignées pour son entraînement.
La méthode d’évaluation comparative permet d’estimer le niveau de qualité en comparant des systèmes dans un même contexte, pour une même tâche et sur les mêmes données.
Les mesures de performance utilisées sont également identiques d’un système à un autre,
sans favoriser l’un ou l’autre des systèmes 1 . Cette méthode est notamment utilisée lors
de campagnes d’évaluation et peut servir autant pour une évaluation intrinsèque qu’une
évaluation extrinsèque. L’évaluation comparative s’oppose à une méthode d’évaluation
d’un système isolé ne fournissant que des résultats relatifs dont l’interprétation est limitée. Ses performances n’étant pas comparées à un autre système, il est difficile d’en saisir
le niveau. Toutefois, son intérêt réside dans l’analyse de diagnostic des données en sortie
du système.
Une fois que les critères d’évaluation sont définis et la méthode choisie, il reste à
sélectionner ou développer les mesures d’évaluation, qui sont les moyens mis en œuvre
1. Nous verrons par la suite que la mise en pratique montre que ce n’est pas toujours le cas.
33
Chapitre 2 : L’évaluation en traitement automatique des langues
pour formuler une valeur de la qualité d’une entité (phrase, document, terme, etc.). Ces
mesures sont de deux types bien distincts :
– Les mesures d’évaluation humaines ou manuelles emploient des juges, experts ou
utilisateurs, qui estiment manuellement la qualité des productions d’un système.
– Les mesures d’évaluation (semi-)automatiques, appelées plus communément mesures
d’évaluation automatiques, utilisent des programmes (les métriques) qui comparent
les productions d’un système à une référence. Les mesures automatiques sont appelées ainsi mais ne doivent pas induire le lecteur en erreur : l’emploi d’une référence
implique une intervention humaine 1 , construite avant les calculs de résultats.
Par exemple, en reconnaissance automatique de la parole, les systèmes sont évalués
automatiquement. Une évaluation humaine reviendrait à parcourir la transcription automatique produite par chaque système évalué en écoutant la piste audio : cette mesure
serait très coûteuse. Les systèmes sont donc évalués automatiquement, en comparant leurs
transcriptions à une transcription manuelle unique, établie au préalable.
Les mesures actuelles sont souvent imparfaites, aussi l’interprétation de leurs résultats
doit, sans exception, tenir compte du contexte de l’évaluation. Elles ont cependant le
mérite d’intéresser la communauté à un même problème et de stimuler l’effort de recherche.
Au minimum, elles fournissent une esquisse des performances.
Nous pensons que la principale différence du déroulement d’une évaluation humaine 2
et d’une évaluation automatique 3 se situe dans l’intervention de l’élément humain selon
qu’il est réalisé (cf. figure 2.4) :
– a posteriori dans le cas de l’évaluation humaine, par la conduite de jugements humains après la production des sorties par les systèmes,
– a priori dans le cas de l’évaluation automatique, par la construction d’une ou plusieurs références avant, pendant, voire après la production des sorties, mais de manière disjointe.
D’autre part, l’évaluation humaine a pour particularité d’être subjective : elle dépend
du niveau d’exigence des juges, de leurs connaissances et attitudes au moment de fournir
des jugements. À l’inverse, on parle pour l’évaluation automatique d’évaluation objective,
car sans lien avec la subjectivité des juges. Il nous faut toutefois nuancer cette objectivité
puisque les références des mesures automatiques sont à base d’expertise humaine. Les
références sont validées selon un niveau d’exigence et peuvent être ajustées en conséquence.
2.2.4.4
Synthèse
La figure 2.5 présente notre vision des types et niveaux d’évaluation tels qu’ils sont
employés dans cette thèse.
Le tableau 2.2 fournit des exemples simples d’évaluations pour un système de traduction de l’oral vers l’oral afin de distinguer les types, niveaux et méthodes d’évaluation que
nous avons présentés jusque là.
1. Car une mesure entièrement automatique peut logiquement être intégrée dans un système.
2. contexte d’une évaluation utilisant une mesure humaine
3. contexte d’une évaluation utilisant une mesure automatique
34
2.2. Évaluation en traitement automatique des langues
Figure 2.4 – Processus d’évaluation automatique et humaine.
Figure 2.5 – Les types, niveaux et mesures d’évaluation.
35
Chapitre 2 : L’évaluation en traitement automatique des langues
Caractéristique
Niveau
Évaluation
Technologie
Usage
Impact
Type
Diagnostic
Boîte transparente
Boîte noire
En cascade
Critère
Intrinsèque
Extrinsèque
Méthode
Comparative
Isolée
Mesure
Humaine
Automatique
Description
Évaluation de la sortie du système par des experts
Évaluation de la sortie du système lors de discours
du parlement européen dans un contexte d’utilisation
Après plusieurs années, étude de marché sur les
systèmes de traduction parole-parole selon des facteurs socio-économiques (par exemple, impact sur
le rôle des interprètes)
Analyse fine de la sortie du système
Évaluation d’un module de segmentation interne
au composant de traduction automatique
Évaluation en sortie du système de traduction
parole-parole
Évaluation successive des différents composants du
système de traduction parole-parole et leur impact
respectif sur la qualité générale
Mesure des performances du système à partir des
données produites
Mesure des performances dans un contexte d’utilisation et prise en compte des sorties dans ce
contexte
Évaluation de plusieurs systèmes et comparaison
de leurs résultats
Évaluation d’un seul système sans le comparer à
d’autres
Mesure manuelle des performances du système par
des juges
Mesure des performances par comparaison avec
une ou plusieurs références à l’aide de métriques
automatiques
Table 2.2 – Exemples de différents types, niveaux, critères, méthodes et mesures d’évaluation pour l’évaluation d’un système de traduction automatique de l’oral vers l’oral.
36
2.2. Évaluation en traitement automatique des langues
2.2.5
Difficultés
Bien que le traitement automatique des langues ait pour but la modélisation et la
compréhension de phénomènes linguistiques, l’évaluation de ses systèmes passe à une
moindre échelle par les mêmes difficultés.
D’après [Popescu-Belis, 2007], la principale difficulté de l’évaluation en traitement automatique des langues est due à l’impossibilité de fournir des spécifications formelles pour
les tâches de traitement faisant intervenir des données linguistiques. Ainsi, l’absence d’un
formalisme de spécifications restreint les moyens d’observer les capacités d’un système.
Seules les mesures d’évaluation rendent compte de l’état des performances du système,
pour des cas particuliers.
Nous ajoutons que la complexité de l’évaluation vient également des juges qui perçoivent la qualité différemment. Cela relève du caractère ambigu et non déterministe de
la langue, comme par exemple lors d’une traduction automatique.
La difficulté d’évaluer en traitement automatique des langues est par ailleurs liée à
l’organisation même d’une évaluation. Nous mettons en avant plusieurs points particuliers :
1. Difficultés selon la technologie prise en compte : Le difficulté d’évaluer dépend de
la complexité de la tâche et il existe une échelle de difficulté selon les technologies
évaluées : certaines sont plus « stables » que d’autres. Cela est dû à l’expérience
acquise, le degré de dépendance par rapport à une référence, ou encore à l’ambiguïté
linguistique. Nous traitons ce point dans le chapitre 6.
2. Définition des standards et des critères d’évaluation : Afin de mesurer les performances d’un système, il est nécessaire dans un premier temps d’établir des normes
communes, compréhensibles par tous. Des standards définis en amont de l’évaluation
serviront à interpréter correctement les résultats obtenus. Les critères d’évaluation
sont à définir le plus tôt possible afin de centrer et de limiter l’activité de l’évaluation.
3. Création des jeux de données et d’une référence : L’effort le plus conséquent lors
de la préparation d’une évaluation est souvent celui de la création des données aux
différentes étapes de l’évaluation (cf. chapitre 5). La difficulté de construire ces ressources réside dans leur adéquation avec la tâche d’évaluation, leur représentativité
(par rapport à la tâche, la langue ou la technologie) ou leur taille.
4. Analyse et interprétation des résultats : La plupart des évaluations produisent pléthore de chiffres et de tableaux. Une interprétation correcte nécessite de mettre en
évidence les résultats les plus pertinents et d’en extraire les informations les plus
utiles (cf. chapitre 5).
5. Comparaison des approches de traitement automatique des langues : Pour une même
technologie, les mesures employées ou la méthode d’évaluation peuvent avoir tendance à favoriser certaines approches de traitement automatique plus que d’autres.
Par exemple en traduction automatique, la métrique BLEU est connue pour pénaliser les systèmes qui n’utilisent pas l’approche statistique [Hovy, 2007] (cf. chapitre
6).
6. Définition de méthodes d’évaluation objectives : Pour la majorité des mesures humaines, les résultats dépendent fortement des juges, qu’ils soient utilisateurs finaux
ou experts. En effet, la perception de la qualité varie d’un juge à l’autre pour de
37
Chapitre 2 : L’évaluation en traitement automatique des langues
nombreuses raisons. L’objectif d’une bonne évaluation est de limiter la part de subjectivité. Le cas échéant, l’interprétation des scores est effectuée selon le niveau de
subjectivité atteint. Il en va de même pour les mesures automatiques puisque certaines mesures peuvent influencer la mesure des performances de certains systèmes
ou technologies (cf. chapitre 6).
7. Conduite de méta-évaluations : La précédente section a fait état de la subjectivité
des mesures ou de leurs imperfections. Par conséquent, il est nécessaire d’en saisir
les limites en procédant à l’évaluation des mesures elles-mêmes, dénommée métaévaluation. Celle-ci permet de cerner les limites de la mesure d’évaluation sans forcément la rejeter. Elle sert aussi à fournir une meilleure interprétation des résultats.
Nous y revenons plus en détail en section 5.4.
8. Variations de la langue : L’évaluateur fait un choix quant aux paramètres (langues,
domaines, etc.) sur lesquels se focaliser [Miller, 2005] car les mesures et ressources
utilisées ne sont pas forcément adaptées à tous. Par exemple, les taux d’erreurs sur les
mots en reconnaissance de la parole (WER - Word Error Rate) fonctionnent pour les
langues indo-européennes, mais pas pour les langues sino-tibétaines qui utilisent des
caractères comme unités de base (sinogrammes ou idéogrammes) et que l’on ne peut
pas segmenter : un taux d’erreur sur les caractères (CER - Character Error Rate) est
alors employé. Il existe aussi le problème de la multilingualité [Peñas et al., 2004] :
complexité de la tâche, difficulté de la construction des ressources, besoins, etc.
9. Organisation de campagnes d’évaluation : Quelle que soit sa dimension, des difficultés surviennent à chaque étape de l’organisation d’une évaluation. La critique sans
doute la plus répandue, à juste titre, concerne la conception même des campagnes
qui se focalisent sur une même tâche dans un cadre restreint et qui contraignent
les systèmes à s’améliorer sur une partie spécifique d’un domaine. Bien souvent, la
mise en place d’une nouvelle campagne d’évaluation consiste à définir de nouveaux
problèmes de traitement automatique des langues. Pourtant, l’objectif initial devrait être d’évaluer des systèmes à partir de problèmes existants et un problème
devrait donner lieu à une évaluation, et non l’inverse. La mise en pratique de campagnes rend compte de la réalité du terrain et de la nécessité de restreindre le
cadre applicatif des évaluations. Parfois cela aboutit à la création de tâches artificielles. D’autre part, l’intérêt d’organiser des campagnes est limité par l’absence de
bons résultats sur de nouvelles technologies avant qu’elles ne montrent leur vraie
valeur [Bernsen et al., 1999]. C’est aisément contourné par l’organisation de campagnes évaluées sur la durée (et notamment les méga-évaluations évoquées dans le
chapitre 1).
10. Coûts : L’estimation des coûts d’une évaluation est complexe, mais il est déjà possible d’en identifier les différentes étapes [Chaudiron et Choukri, 2008a] : l’identification, la négociation, le traitement et/ou la production des ressources linguistiques
pour les phases d’entraînement, de développement ou de tests (cf. chapitre 3) ; l’organisation de l’ensemble des activités ; la contribution des équipes participantes (y
compris le comité scientifique et les experts) ; l’évaluation elle-même (développement
des outils de mesure et des interfaces de jugement, mesure de la qualité, adjudication
des résultats 1 , etc.) ; organisation des réunions et divers ateliers. Si les évaluations
1. L’adjudication des résultats fait suite aux premiers résultats calculés avec leur vérification par les
38
2.2. Évaluation en traitement automatique des langues
de systèmes isolés (c.-à-d. hors campagne) sont moins contraignantes, leurs coûts
n’en sont pas moins importants.
2.2.6
De la théorie à la pratique
L’évaluation en traitement automatique des langues repose sur un cadre définit au
cours des 30 dernières années. Il est relativement aisé d’en tirer les éléments les plus
pertinents afin de définir les bases théoriques d’une évaluation. Son déroulement consiste
à mettre en place des éléments génériques pour toutes les technologies étudiées, quels que
soient le type, le niveau ou la méthode d’évaluation. L’évaluation se limite alors à une
répétition de procédures et méthodologies déjà menées.
Selon le standard ISO/IEC 9126 [ISO 9126, 1991], le processus d’évaluation se déroule
en trois étapes : la définition des exigences de qualité, puis la préparation de l’évaluation, et enfin la procédure d’évaluation. L’étape de préparation de l’évaluation se déroule
elle-même en trois phases : la sélection des mesures, puis la définition des niveaux de
classement, et enfin la définition des critères de jugement. À noter qu’à aucun moment le
standard n’accorde de place aux ressources nécessaires à l’évaluation. Elles sont pourtant,
selon nous, indissociables du processus d’évaluation. De plus, l’ordre des phases de l’étape
de préparation n’est pas très cohérent en pratique : définir les critères de jugements, puis
les niveaux de classement et enfin sélectionner les mesures nous semble plus conforme à
la réalité.
[Forsbom, 2002] a repris de manière simplifiée ce processus d’évaluation en l’appliquant
à la traduction automatique. Il se déroule également en trois étapes principales :
1. Définir les besoins en qualité :
– Analyser les besoins : définir les exigences de qualité,
– Adapter l’évaluation aux besoins : définir le protocole selon les besoins.
2. Préparer l’évaluation :
– Sélectionner les mesures : déterminer les mesures adéquates d’après le protocole,
– Définir les niveaux de score ou de classement : préparer les données en attente
des résultats,
– Définir les critères d’évaluation : définir les caractéristiques qui seront évaluées
durant l’évaluation.
3. Conduire l’évaluation :
– Mesurer : mesurer la performance des systèmes selon les critères identifiés en 2,
– Classer : classer les systèmes en fonction des résultats obtenus, en prenant en
compte les niveaux de scores précédemment définis,
– Évaluer : faire le bilan des classements, évaluer les systèmes et conclure.
Ce processus d’évaluation a le mérite d’être appliqué à une technologie spécifique. Par
contre, tout comme avec le standard ISO, il nous paraît curieux de placer la définition
des critères d’évaluation après la sélection des mesures et aucune place n’est accordée aux
ressources. Il est possible de noter deux autres écueils : il est d’une part très difficile, en
pratique, de définir les niveaux de score avant l’évaluation ; d’autre part, il n’y a pas de
participants et les évaluateurs. Les résultats et les références sont alors ajustés en fonction des commentaires reçus.
39
Chapitre 2 : L’évaluation en traitement automatique des langues
phase d’adjudication des résultats permettant la vérification des résultats de l’évaluation,
et leur correction le cas échéant.
Le projet EAGLES va plus loin et définit 7 étapes principales pour entreprendre avec
succès une évaluation en traitement automatique des langues :
1. Définir les raisons et les objectifs d’une évaluation (« pourquoi faire une évaluation ? ») : un consensus est établi entre tous les participants impliqués dans l’évaluation. Le protocole est admis et validé par tous les acteurs, il est compris de tous
et de la même manière. Dès le départ, les caractéristiques à évaluer sont déterminées
dans le but de savoir ce que l’on cherche à évaluer (par exemple : un système dans
son ensemble, un module d’un système ou de plusieurs systèmes). Le contexte et le
cadre de l’évaluation sont délimités lors de cette étape, de même que les contraintes
que supportent les systèmes.
2. Élaborer un modèle de tâches : les rôles et les agents pertinents sont identifiés, en
tant qu’entités impliquées dans le modèle d’évaluation (système, utilisateur, évaluateur, etc.). Les tâches correspondantes sont ensuite définies et associées à des
types de données. Autrement dit, l’évaluateur définit l’utilisation du système et ses
caractéristiques principales.
3. Définir des caractéristiques de haute qualité : c’est au cours de cette étape que sont
détaillées les caractéristiques et leur degré d’importance.
4. Spécifier des critères détaillés pour l’évaluation des systèmes : pour chaque caractéristique explicitée à l’étape 3, l’étape 4 se penche sur l’aspect méthodologique :
l’évaluateur cherche l’existence d’une méthode cohérente et fiable pour mesurer les
performances du système à partir des caractéristiques retenues. Toutefois, si aucune
méthode ne peut être trouvée, le critère correspondant sera décomposé en des critères secondaires qui peuvent être mesurés, et ce jusqu’à ce que tous les critères,
primaires ou secondaires, soient mesurables.
5. Définir les mesures pour calculer les performances sur les critères retenus : à partir
des critères trouvés à l’étape 4, la mesure et la méthode sont définies afin d’identifier
les performances correspondantes. De même, en plus de la méthode et de la mesure, il
est nécessaire de définir le seuil d’acceptabilité des résultats, afin de savoir distinguer,
à la fin de l’évaluation, un résultat correct (c’est-à-dire conforme aux attentes) d’un
résultat incorrect d’un résultat satisfaisant, etc. Le seuil d’acceptabilité dépend du
modèle des tâches défini à l’étape 2. Lorsqu’un critère primaire a été décomposé en
plusieurs critères secondaires, il doit être possible de définir une combinaison des
critères secondaires.
6. Définir des techniques pour exécuter les mesures : un matériel de test doit être
développé pour procéder à l’évaluation du système (ou des systèmes, le cas échéant).
De plus, les agents impliqués ont connaissance de leurs tâches respectives : à quel
moment, sous quelles conditions, de quelle manière, comment les résultats doivent-ils
être présentés, etc.
7. Procéder à l’évaluation et interpréter ses résultats : c’est lors de cette dernière étape
que sont effectuées les mesures préalablement définies. Les résultats sont comparés
aux seuils d’acceptabilité définis lors de l’étape 5. Cela se conclut en résumant les
résultats et les analyses dans un rapport d’évaluation.
40
2.2. Évaluation en traitement automatique des langues
Le point de vue d’EAGLES 1 regroupe à la fois les évaluations de systèmes isolés et de
plusieurs systèmes lors d’évaluations comparatives. Toutefois, il se focalise avant tout sur
la partie qui sert à définir l’évaluation et non sa conduite : la dernière étape mérite d’être
détaillée et explicitée. De même que pour les standards ISO, EAGLES fait abstraction des
ressources utilisées dans l’évaluation et de leur création/acquisition. L’étape 5 nous paraît
problématique dans le sens où une confusion est faite entre l’évaluation et la validation
(« définir le seuil d’acceptabilité des résultats »). Nous revenons sur ce point dans le
chapitre 5. Enfin, il n’est toujours pas question d’une étape d’adjudication des résultats
ni d’un « atelier final » réunissant des différents acteurs pour conclure l’évaluation.
D’après les conclusions du projet ELSE, une campagne d’évaluation se déroule en
quatre phases :
1. La phase d’apprentissage, ou d’entraînement :
– Les participants potentiels sont ciblés selon la tâche de contrôle. Les détails sont
annoncés, puis les participants sont contactés afin de déterminer leur intérêt.
– Les spécifications et les mécanismes de collecte des résultats sont déterminés, en
s’assurant qu’ils sont représentatifs, comparables et reproductibles.
– Les standards, les critères de comparaison et les mesures sont définis.
– Les données d’entraînement (représentatives des données de test et qui ont une
couverture suffisante des variations du domaine) sont collectées, formatées et distribuées aux participants.
– Ces derniers acceptent ou non de participer à la campagne d’évaluation.
– Le protocole d’évaluation est communiqué aux participants, de même que les
outils qui seront utilisés durant la campagne.
2. La phase de « test à blanc » ou de développement :
– Le protocole d’évaluation est testé sans être rendu public. Il implique les participants comme s’il s’agissait d’un test réel. Le test est effectué sur des données
différentes des données de test mais leur volume est similaire 2 .
– La phase se conclut par une évaluation sur les données de test à blanc puis le
retour des participants est pris en compte. C’est également au cours de cette
phase que les participants décident s’ils veulent voir les résultats anonymisés ou
non.
3. La phase de test :
– La phase de test est exécutée de manière similaire à la phase de test à blanc en
utilisant des données inconnues des participants. Le protocole est similaire et les
performances sont calculées en fonction des données de référence. Le volume des
données utilisées et les contraintes de temps doivent empêcher tout traitement
manuel sur les données, de même que l’identification des parties utilisées pour le
calcul des performances.
– La phase de test se termine par un atelier final restreint aux seuls participants. Ils
y présentent leurs systèmes ou algorithmes et commentent les résultats obtenus.
1. Le projet ISLE a fait suite au projet EAGLES, en développant des standards pour trois domaines du
traitement automatique des langues : les lexiques, l’interaction multimodale homme-machine et l’évaluation. La structure FEMTI (http ://www.isi.edu/natural-language/mteval/) a poursuivi les investigations
en évaluation des systèmes de traduction automatique, son objectif étant d’établir une classification des
différentes méthodes d’évaluation.
2. Dans les fait, c’est surtout la forme des données de test à blanc qui importe, plutôt que le contenu.
41
Chapitre 2 : L’évaluation en traitement automatique des langues
La publication des résultats et la distribution des données, des protocoles et des
outils produits clôt cette phase.
4. L’étude d’impact :
– Les bénéfices apportés par la campagne d’évaluation sont estimés à ce niveau. Ils
sont de sources variées : augmentation de la masse de données annotées et validées,
identification de directions de recherche et d’algorithmes prometteurs, nouveaux
produits et outils créés, nouveaux acteurs du domaine et progrès réalisés par les
participants.
– Les résultats de cette phase servent à modifier et à améliorer le protocole de
futures campagnes d’évaluation. Ces résultats sont constitués après publication
des résultats de la campagne d’évaluation et suivent généralement une discussion
entre les acteurs de la campagne.
Il faut noter que ELSE se consacre strictement à l’étude des campagnes d’évaluation,
qui, toujours d’après ELSE, durent environ deux ans. Dans le cas contraire, soit les résultats ne sont pas capitalisés par les participants faute de temps (lorsque la campagne
dure moins longtemps), soit la motivation des participants faiblit (lorsque la campagne
dure plus longtemps). S’ajoute à cela une année préliminaire qui établit les bases de la
campagne : définition de la tâche de contrôle, communication autour de la campagne,
création d’une communauté, définition des mesures et sélection des données 1 .
ELSE est le projet qui va le plus loin pour définir l’organisation d’une évaluation :
la partie pratique est clairement mise en avant, contrairement aux précédents standards,
plus théoriques. Toutefois, nous souhaitons renforcer le poids des données et des mesures :
elles sont au cœur de l’évaluation mais ELSE n’aborde pas le sujet. De plus, la partie
administrative n’est pas prise en compte par ELSE. C’est pourtant ce qui fait « tourner »
l’évaluation. Nous souhaitons les mettre davantage en avant, car c’est une limitation
importante pour établir une architecture d’évaluation.
2.3
Architectures
langues
en
traitement
automatique
des
C’est depuis un peu plus d’une dizaine d’années que les premières architectures modulaires et distribuées ont commencé à être développées. Au milieu des années 90, les
environnements GATE [Cunningham et al., 1996, Cunningham et al., 2002] et Tipster
[Grishman, 1996] ont défini un environnement apte à développer des outils linguistiques,
toutefois limité aux données textuelles. Développée quelques années après GATE, UIMA
[Ferrucci et Lally, 2004] est une architecture très utilisée actuellement en TAL et certainement celle qui offre le plus de possibilités. Dans un même temps, la plate-forme
LinguaStream [Widlöcher et Bilhaut, 2005] définit des chaînes de traitement par assemblage de modules et possède une approche qui repose sur l’enrichissement incrémental de
documents.
Peu de ces architectures utilisent Internet (telle UIMA) pour effectuer leurs traitements
[Cerbah et Daille, 2006]. Mais leur modularité et leur facilité d’utilisation, reposant sur
une approche de services, permet d’adapter des systèmes et des outils afin de les intégrer
1. La plupart des projets européens sont d’une durée maximale de trois ans.
42
2.3. Architectures en traitement automatique des langues
dans une même structure [Witte et al., 2010]. Par exemple, les travaux effectués dans le
cadre du projet TC-STAR ont vu se développer une architecture modulaire utilisant UIMA
d’IBM 1 [Fanta et al., 2007]. Celle-ci était modélisée par une architecture distribuée autour
d’un serveur central, les trois types de technologies étant successivement pris en compte
(reconnaissance de la parole, traduction automatique, synthèse vocale) et suivis par un
module d’évaluation. Chaque module traitant d’une technologie était disponible sur un
ordinateur distant et appelé automatiquement par le serveur après s’être préalablement
enregistré sur un serveur d’authentification (voir figure 2.6).
Figure 2.6 – Schéma de l’architecture UIMA dans TC-STAR.
Malgré cette première expérimentation dans TC-STAR, il n’existe pas à notre connaissance d’architecture dédiée à l’évaluation dans le domaine du traitement automatique des
langues et qui puisse automatiser les protocoles. Plus étonnant, il semble qu’aucune campagne d’évaluation n’ait mené au développement d’une architecture permettant l’évaluation automatique de systèmes dans un cadre commun.
Nous décrivons succinctement dans cette section quelques-unes des architectures existantes et pouvant nous être utiles. Nous étudions également plusieurs outils qui ont pu
servir au cours d’évaluations : même s’il est difficile de les nommer « architecture » puisqu’il n’y est pas question d’un contexte commun et distribué, il ont permis des avancées
non négligeables pour l’automatisation des procédures d’évaluation.
1. http ://dl.alphaworks.ibm.com/technologies/uima/UIMA_SDK_Users_Guide_Reference.pdf
43
Chapitre 2 : L’évaluation en traitement automatique des langues
2.3.1
Infrastructure, architecture ou plate-forme ?
L’emploi des termes « infrastructure », « architecture » et « plate-forme » peut prêter
à confusion. Proches, ils représentent pourtant des concepts bien distincts.
L’infrastructure rassemble l’ensemble des notions liées au cadre de l’évaluation et à
son organisation. Les éléments de l’évaluation sont interconnectés et servent de support
à sa conduite. Il s’agit des acteurs de l’évaluation (organisateurs, experts, participants,
développeurs, fournisseurs de ressources, etc.), des outils, des protocoles, de la partie
administrative, des architectures, etc.
Nous avons délibérément centré notre propos autour d’une architecture d’évaluation,
car cette notion regroupe les aspects relationnels et informatiques de l’évaluation à organiser. Les éléments de l’évaluation (composants technologiques, procédures, outils, etc.)
sont organisés et structurés.
L’architecture modélise les relations entre composants technologiques, la plate-forme
en est son développement (informatique) concret que ce soit d’un point de vue logiciel
ou matériel. C’est la plate-forme qui est développée et mise en place sur un serveur ou
autour d’un réseau. Les chaînes de traitements y sont déployées concrètement à l’aide de
programmes.
2.3.2
GATE
À l’origine, GATE propose un environnement de développement permettant à des
utilisateurs de composer des modules de traitement afin de produire des ressources (des
corpus annotés la plupart du temps) et/ou de créer un système. Dans un second temps,
l’architecture GATE donne la possibilité d’évaluer des systèmes ainsi créées.
Le passage d’informations entre les modules se fait à l’aide d’annotations ajoutées sur
les documents traités dans une base centralisée, accessible par chaque module. L’architecture est développée en Java, et une interface dédiée permet de composer des chaînes de
traitements, visualiser les résultats et effectuer des traitements manuels.
Il est certainement possible de nommer autant de points forts que de points faibles liés
à l’utilisation de GATE [Plamondon, 2004]. Parmi ses points forts, l’utilisation du XML,
la modularité et l’aspect uniforme de son utilisation (une interface et un langage unique)
répondent aux attentes d’une telle architecture. Toutefois, il faut noter les lenteurs de
traitement, les gros besoins en mémoire, un langage à base de règles complexe et quelques
bugs, ce qui semble toutefois inévitable dans ce genre d’architecture. Nous regrettons
aussi le développement de l’architecture en code Java pour des raisons de lourdeur ou de
compatibilité entre versions, bien que ce point dépende plus des goûts de chacun. Enfin,
même si l’architecture inclut des modules d’évaluation, il n’est pas possible de démarrer
une chaîne de traitement distribuée à travers un réseau.
2.3.3
UIMA
Les principes d’UIMA (Unstructured Information Management Architecture) sont
proches de ceux de GATE, même si l’approche est différente et offre plus de possibilités. L’architecture UIMA est également modulaire et distribuée. Elle permet d’effectuer
44
2.3. Architectures en traitement automatique des langues
des chaînes de traitement en parallèle 1 . De plus, son utilisation n’est pas limitée aux seules
données textuelles : il est aussi possible d’utiliser des ressources audio ou multimodales.
Autre point fort de UIMA, son architecture intègre des modules à la fois en local ou à
distance, via le réseau.
Dans UIMA, les metadonnées sont décrites dans des fichiers XML pour chaque module du système global. Ces modules, écrits en Java ou en C++ et appelés Annotators,
sont englobés dans des outils d’analyse, (« AE », pour Analysis Engines). Les AE font
l’interface avec l’architecture UIMA qui lance tour à tour les AE en respectant la chaîne
de traitement demandée par l’utilisateur.
Une structure de données, le CAS (Common Analysis Structure) autorise le partage
d’informations entre Annotators. Ces informations sont représentées sous forme d’objets,
de propriétés ou de valeurs. Afin de disposer d’un aperçu multiple d’un même document,
UIMA fournit également des Sofa (multiple Subject of Analysis) qui représentent les objets
du document selon l’analyse effectuée. Par exemple, le document est représenté de manière
différente selon que l’analyse porte sur la partie audio du document ou sur la partie
textuelle : les attributs, indépendants, sont alors différents. Plusieurs Sofa peuvent ainsi
être inclus dans un CAS.
UIMA possède plusieurs avantages pour l’évaluation en traitement automatique des
langues : automatisation des processus, notamment pour l’appel aux modules faisant
partie de la chaîne de traitement ; possibilité de reconduire des évaluations à loisir et,
pourquoi pas, en laissant le choix de combinaison des modules ; capacité de l’architecture
à empêcher l’accès aux données utilisées, etc.
Mais malgré ces avantages, UIMA ne nous semble pas exempts de défauts : le développement peut se révéler long et fastidieux, en particulier pour des participants à une
évaluation qui n’ont pas forcément la capacité matérielle et financière d’adapter leur système à l’architecture en place. Bien que cela puisse se compenser par le développement
d’interfaces d’échanges de données, cela ne fait que repousser le coût en développement
vers l’évaluateur. Dans UIMA, nous mettons aussi en cause le manque de souplesse et
les problèmes de robustesse fortement liés au type de matériel utilisé (performance des
serveurs, fiabilité du réseau, etc.).
2.3.4
Architectures en évaluation
La majeure partie des évaluations en traitement automatique des langues se fait plutôt
manuellement qu’automatiquement. Les différentes tâches des organisateurs représentent
un important travail manuel, puisque la plupart du temps c’est à l’aide de scripts lancés
par ligne de commande que sont calculés les résultats des évaluations. Cette étape, obligatoire, devient vite fastidieuse lorsque plusieurs systèmes sont évalués, ou lorsqu’il faut
se rappeler quels sont les bons paramètres à appliquer. Pour éviter cela, des interfaces
ont été développées, bien souvent pour aider les jugements humains en leur fournissant
des fonctionnalités spécifiques. Il faut toutefois remarquer que les juges n’interagissent
pas avec les organisateurs d’évaluation ou les participants, et qu’ils ne jugent que très
rarement via Internet. Diverses expériences ont vu le jour, nous en fournissons quelques
exemples ci-dessous pour plusieurs technologies.
1. Ce n’était pas le cas pour les premières versions d’UIMA, telle l’architecture que nous avons utilisée
dans le projet TC-STAR.
45
Chapitre 2 : L’évaluation en traitement automatique des langues
En résumé automatique, la plate-forme QARLA [Amigó et al., 2005a] permet l’utilisation de plusieurs métriques automatiques (les métriques QUEEN, KING et JACK), dès
lors qu’elle reçoit en entrée des références humaines et des sorties de systèmes. Elle a été
utilisée lors de la campagne DUC 2004 [Amigó et al., 2005b]. La plate-forme IQMT est
une adaptation de QARLA à la traduction [Giménez et Amigó, 2006] et inclut quatre métriques différentes du domaine (ROUGE, GTM, METEOR et BLEU/NIST). Toutefois,
ces plates-formes nécessitent encore une intervention humaine relativement importante,
similaire à l’utilisation d’une seule et unique métrique d’évaluation (comme le lancement
de scripts en ligne de commande, la lecture des fichiers contenant les résultats, etc.).
De même que pour IQMT, plusieurs autres initiatives ont eu cours en traduction
automatique. Cela se justifie par l’existence de plusieurs métriques automatiques et des
possibilités de calculs de scores plus ou moins robustes ne nécessitant pas de jugements
humains. EvalTrans 1 [Niessen et al., 2000] est une des plates-formes les plus abouties pour
la recherche en traduction automatique. De nombreuses fonctionnalités sont disponibles :
ajout des jugements humains, utilisation de métriques automatiques calculant des taux
d’erreurs, informations diverses sur les erreurs rencontrées. Du reste, la plate-forme dispose
d’une base de données contenant les segments sources, de référence, ainsi que l’ensemble
des segments en sortie des systèmes évalués.
Dans le même ordre d’idées, l’utilisation de jugements humains a justifié le développement d’interfaces en traduction automatique afin de faciliter le calcul des scores et de
rendre plus robustes ces jugements. Citons entre autres les interfaces d’évaluation humaine des projets CESTA [Hamon et al., 2006], WMT [Koehn, 2007] ou encore IWSLT
[Fordyce, 2007].
En recherche d’information, des interfaces de jugements humains ont été développées de manière similaire, comme lors des campagnes CLEF [Di Nunzio et Ferro, 2006].
Puisque dans CLEF le même type d’évaluation se répète sur des corpus de langues différentes, le mieux est d’effectuer les jugements à travers une même interface, mais à partir
de sites différents (un par partenaire de langue différente). L’interface a été développée
afin d’être utilisée via Internet et l’ensemble des données, jugements, etc. est stocké sur
un serveur.
En reconnaissance de la parole, une plate-forme pour l’évaluation des systèmes de dialogue, PARADISE [Walker et al., 1997], a permis l’évaluation selon différentes mesures
combinées. PARADISE permettait notamment la comparaison de plusieurs systèmes.
Pourtant, la plate-forme a été peu utilisée, probablement, d’après les auteurs, à cause
de sa complexité et de son coût.
Une plate-forme pour la traduction parole-parole à été développée dans le cadre du
projet TC-STAR, mais de manière limitée et expérimentale.
À l’heure actuelle, il est relativement difficile de trouver trace dans la littérature de
plate-forme permettant à des participants de déposer leurs données et d’accéder à l’évaluation de leur système sans avoir à effectuer des manipulations complexes. La raison
est essentiellement due à un manque de publicité faite autour des développements réalisés, souvent dans l’intimité de laboratoires ou de projets. Nous pouvons toutefois citer les
travaux réalisés dans le cadre du projet Quaero, notamment autour de la plate-forme OSIRIM 2 (Open Services for Indexing and Research Information in Multimedia) en recherche
1. http ://www-i6.informatik.rwth-aachen.de/web/Software/EvalTrans
2. https ://osirim.irit.fr
46
2.4. Vers une automatisation de l’évaluation en traitement automatique des langues
d’information.
Les plates-formes souffrent d’un manque majeur en traitement automatique des
langues, entraînant une faiblesse dans la réutilisabilité et le prolongement des activités d’évaluation en communauté. Actuellement, l’évaluation est plutôt vue comme une
activité ponctuelle de fréquence relativement faible à cause des ressources requises et la
synergie créée a tendance à retomber une fois l’évaluation terminée.
2.4
2.4.1
Vers une automatisation de l’évaluation en traitement automatique des langues
Aspects méthodologiques et organisation d’évaluations
Quels que soient les critères et les mesures d’évaluation, une évaluation et ses résultats
sont énormément influencés par son organisation et son déroulement. Ils sont d’une importance capitale. Une évaluation bien organisée et sans écueil de déroulement présente
des résultats plus probants et pertinents qu’une évaluation mal ficelée.
La préparation des données, l’enregistrement des participants, l’envoi des données,
la récupération des sorties de systèmes, ou le protocole d’évaluation sont des exemples
de tâches pour lesquelles il est impératif de respecter une procédure correcte. Une fois
posés les jalons d’une évaluation, rien ne devrait gêner a priori son bon déroulement.
Mais malgré l’apparente facilité d’organiser une évaluation, il existe de nombreux points
critiques lors de son exécution. Cela peut concerner des données erronées ou non validées,
des participants n’ayant pas compris le protocole ou, à l’inverse, un protocole pas assez
adapté ou incomplet, etc. Cela provoque au mieux un contretemps, au pire un retard
conséquent qu’il faut être capable de gérer.
2.4.2
Utilité des ressources linguistiques
Il ne nous semble pas possible d’aborder la problématique de l’évaluation sans qu’une
partie ne traite des ressources utilisées. Outre les métriques d’évaluation, les systèmes
ou même les ressources humaines, les ressources linguistiques sont nécessaires à toute
évaluation. Elles sont aussi variées qu’il y a de systèmes de TAL : données textuelles
(corpus brut, corpus annoté, etc.), données audio (corpus audio, signaux sonores, etc.),
données vidéo (corpus d’images, corpus de vidéos annotées, etc.).
L’acquisition des ressources linguistiques fait l’objet d’un effort très conséquent lors
de la préparation d’une évaluation. Leur production est longue, voire très longue, leur
acquisition peut être coûteuse autant en termes d’effort humain que financier, et elles
impliquent souvent la négociation de droits d’utilisation (et/ou de distribution dans le cas
de campagnes d’évaluation).
La réutilisation de données existantes est une alternative à la production de nouvelles
données. Mais cette solution est à adopter avec précaution : un jeu de test ne doit pas être
connu des systèmes évalués. Le risque est de biaiser l’évaluation par « sur apprentissage »,
le jeu de test ayant été utilisé pour l’apprentissage du système évalué.
La qualité des données produites influence les résultats de l’évaluation tant en terme
de format que de contenu. La définition et le contrôle de qualité des ressources utilisées
ne doivent pas être laissés à l’écart sans décrédibiliser les résultats de l’évaluation.
47
Chapitre 2 : L’évaluation en traitement automatique des langues
2.4.3
Un point de départ : les jugements
De prime abord, il semble indispensable de faire vérifier les sorties de systèmes de TAL
par des yeux humains. En pratique, des juges font guise d’observateurs. Ils produisent des
jugements en fixant une valeur sur une solution proposée par un système. Toutefois, cette
tâche n’est pas aussi aisée qu’il y paraît [Vilar et al., 2007]. Par leur perception personnelle de la langue, les humains ne donnent pas forcément des jugements identiques, que ce
soit entre plusieurs juges, ou bien pour un même juge à deux instants différents. Leur jugements sont dits subjectifs 1 . En effet, leurs choix ne sont pas toujours homogènes, ils sont
même dépendants de nombreux critères. Un même juge est capable de fournir un jugement
différent au cours du temps pour des raisons de fatigue, de contraintes temporelles, d’humeur, d’intérêt (variable au cours d’une évaluation) ou d’un environnement perturbant.
De même, deux juges différents ont souvent des jugements radicalement différents, selon
leurs cultures, leurs compétences, leurs dispositions, en plus des raisons précédemment
évoquées. Beaucoup de questions se posent [Hamon et al., 2008a] et plusieurs paramètres
sont à considérer pour interpréter les résultats :
– Les qualités et l’expérience des juges (par exemple experts ou utilisateurs finaux),
– Les conditions de conduite des jugements (par exemple via Internet ou sous contrôle
de l’évaluateur),
– L’aptitude des juges à effectuer des jugements (liée à la fatigue, la période, etc.),
– La préparation et le niveau d’information des juges (entraînement préalable ou non).
Toutefois, des jugements différents ne constituent pas pour autant des erreurs d’interprétation : chacun a sa propre idée d’une valeur de qualité à fixer. L’intérêt des jugements
porte néanmoins sur l’avis d’un humain comme référence sur la qualité d’une production
automatique. C’est l’interprétation et la mise en contexte des résultats, et surtout l’accumulation des avis de plusieurs juges qui atténuent ou empêchent les erreurs d’analyse et
permettent de disposer d’un avis général. Cela signifie que le contexte d’évaluation doit
toujours être spécifié pour une meilleure compréhension des résultats et empêcher toute
contestation possible.
Les jugements sont subjectifs non seulement parce que le langage naturel est ambigu,
mais aussi et surtout parce qu’ils sont liés à la psychologie. La perception et la connaissance
de la langue qu’ont les juges sont très variables. Il est aussi certain qu’un expert n’a pas
le même point de vue qu’un « utilisateur lambda » ou qu’un développeur de système,
du simple fait que leurs objectifs ne sont pas les mêmes. Par ailleurs, les attentes des
utilisateurs ne sont pas les mêmes selon leur utilisation d’un système : professionnelle,
sociale, scolaire, fréquente ou non, exigeante ou non, niveau d’expertise, etc.
2.4.4
Automatisation et substitution aux jugements humains
La problématique de l’évaluation automatique consiste, dans une certaine limite, à imiter les jugements de manière à les reproduire sans aide manuelle et de manière cohérente
avec les résultats attendus. Dans de nombreux cas, c’est une tâche qui s’avère aussi complexe que celles qui réalisent les technologies évaluées. Dans d’autres cas, l’automatisation
est recommandée, voire nécessaire pour réduire les coûts : par exemple, la transcription
1. Certaines communautés du TAL utilisent le terme « jugements subjectifs » plutôt que « jugements
humains ». Ainsi, on aura tendance à parler « d’évaluation humaine » en traduction automatique, mais
« d’évaluation subjective » en synthèse de la parole.
48
2.4. Vers une automatisation de l’évaluation en traitement automatique des langues
manuelle en reconnaissance de la parole reste plus pratique et rapide en établissant une
référence que des jugements comparant deux signaux manuellement.
Une mesure automatique pousse à créer une référence (création humaine correspondant
à ce qui doit être produit automatiquement) et à appliquer une métrique (programme de
calcul des résultats) en comparant les données produites automatiquement à la référence.
Pourtant, cette création humaine qu’est la référence inhibe l’automatisation complète de
l’évaluation. L’évaluation automatique comporte ainsi une part de subjectivité.
Quel est donc l’intérêt d’automatiser des phénomènes qui sont, a priori, somme toute
assez complexes à modéliser ? La réponse est simple : une évaluation humaine est coûteuse
[Papineni et al., 2001] et les objectifs actuels sont la réduction du temps passé à évaluer
et surtout celle du coût [Hamon, 2007a]. Les développeurs observent régulièrement la
qualité de leurs systèmes, les utilisateurs choisissent rapidement entre plusieurs systèmes
ou applications, une entreprise doit savoir quelle système ou application lui convient le
mieux, et tout cela à moindre coût. Ainsi, l’automatisation des jugements doit rendre
plus aisée la reproductibilité des évaluations. Le volume des données utilisées n’est pas
non plus le même : la machine est capable de gérer de grandes quantités de données à
moindre coût tandis que l’évaluation humaine est plus coûteuse, plus longue, et avec des
risques non négligeable d’erreurs.
Certaines mesures automatiques actuelles potentiellement pertinentes ne reflètent pas
le choix des juges. Elles fournissent une approximation des performances d’un système, ce
qui est souvent suffisant. De plus, leur manque d’adaptation provoque parfois des écueils
dès lors que l’évaluateur s’éloigne des sentiers bien bornés de ces mesures.
2.4.5
Évaluation des mesures
Une fois les mesures définies, elles sont validées puis évaluées sur un critère de pertinence. On parle alors de méta-évaluation [Stufflebeam, 1974, Callison-Burch et al., 2007],
l’évaluation de l’évaluation. Dans ce souci de perpétuelle évaluation, il est facile d’imaginer le besoin constant de vérifier la pertinence des actions, de vérifier si la méthode de
vérification est elle-même correcte et juste, et ainsi de suite. Il faut cependant se fixer des
limites. La méta-évaluation touche à des domaines éprouvés en mathématiques, lorsque
l’on cherche à comparer deux méthodes ou deux résultats l’un par rapport à l’autre.
Dans notre cas, des mesures d’évaluation automatiques sont comparées à des mesures
d’évaluation humaines. Ces dernières servent alors de référence.
Les mesures d’évaluation automatiques et humaines sont également méta-évaluées en
considérant leur robustesse, à savoir leur capacité à produire des scores cohérents pour
des données ayant une qualité constante : on observe la stabilité des mesures par rapport
à la variation des données, à qualité supposée constante.
Du reste, toute mesure humaine est aussi validée en bonne et due forme. Cela se fait
le plus souvent par des calculs d’accord entre juges : l’évaluateur s’attend à ce que les
décisions des juges soient homogènes et cohérentes.
La méta-évaluation est une étape essentielle dans la « vie » d’une mesure d’évaluation :
elle justifie l’emploi d’une mesure efficace (cf. figure 2.7). À partir des données de test,
les évaluations automatique et humaine produisent des résultats. Les résultats de l’évaluation automatique subissent des calculs de corrélation avec les résultats de l’évaluation
humaine. Ces derniers sont, eux, méta-évalués en comparant les résultats des juges entre
49
Chapitre 2 : L’évaluation en traitement automatique des langues
eux (accord inter-juges) ou pour chaque juge (accord intra-juge). Finalement, un calcul de
robustesse des mesures est réalisés, généralement par des méthodes statistiques. La principale difficulté est de comparer concrètement des mesures automatiques à des jugements
humains : ces derniers sont généralement soumis à une grande variabilité. Nous tentons
de réfléchir à des moyens de contourner ces inconvénients.
Figure 2.7 – Méta-évaluation des mesures automatiques et humaines.
2.4.6
Automatisation des protocoles : un vaste avenir
La répétition d’évaluations est bien plus qu’une étape supplémentaire dans le processus
d’évaluation ou qu’un enjeu de plus en TAL. C’est une représentation de ce que devrait
être l’évaluation à long terme : la mise en place d’observatoires pérennes de performances,
reproductibles dans le temps et comparables. Ainsi, l’évolution de la qualité générale d’un
domaine particulier pourra être décryptée : l’évaluation d’impact, la comparaison au cours
du temps d’un même système ou entre plusieurs systèmes passe par le développement
d’architectures d’évaluation. Elles facilitent le stockage des données et des résultats, ainsi
que l’utilisation de mesures communes.
Nous défendons l’emploi d’architectures d’évaluation. Elles structurent les composants
d’une chaîne d’évaluation (et par extension les composants d’une chaîne de TAL) et
facilitent leurs interactions.
Au-delà des intérêts mentionnés précédemment, c’est également une réduction des
coûts de l’évaluation qui est proposée. Une architecture d’évaluation rend possible la
réutilisation de protocoles automatisés et de données. C’est une nouvelle vision de l’évaluation qui est désormais possible : une architecture laisse envisager la combinaison de
50
2.5. Conclusion
plusieurs technologies via des composants interchangeables (à partir du moment où les
technologies peuvent s’associer). Nous proposons en premier lieu une architecture simple
permettant de pérenniser une campagne d’évaluation et nécessitant peu d’efforts. Mais
nous souhaitons concevoir une plate-forme d’évaluation plus ambitieuse. L’objectif final
est de modéliser une architecture type, permettant l’évaluation de n’importe quelle technologie de TAL. Les mesures d’évaluation automatiques comme les mesures d’évaluation
humaines sont concernées. Auparavant, nous appréhendons les possibilités d’une mise en
commun des ressources de chaque technologie après avoir étudié leurs similarités. Cette
étude est indispensable, dès lors que l’aspect générique de l’architecture implique de mutualiser au mieux les aspects communs aux différentes technologies.
Enfin, une telle architecture d’évaluation laisse envisager la conduite de méga évaluations [Sparck Jones et Galliers, 1996] : des évaluations répétées au cours du temps sur des
jeux de test similaires et avec différentes versions d’un même système, afin d’observer son
évolution en terme de performances 1 .
2.5
Conclusion
Nous avons dressé dans ce chapitre un état des lieux du traitement automatique des
langues dans un contexte d’évaluation. Plusieurs philosophies de l’évaluation existent,
mais elles se rejoignent autour d’un même but : déterminer quel est le niveau de performance atteint par des systèmes. L’évaluateur identifie jusqu’à quel point les systèmes se
rapprochent de ce que ferait un humain. Dans notre contexte, les attentes des utilisateurs
sont prises en compte mais dans une moindre mesure : il faudrait également considérer
l’ergonomie, l’utilisabilité, etc.
Il est difficile de définir les tâches de l’évaluation : les « grands » standards comme ISO,
EAGLES, ELSE, etc. ne se situent pas sur un même plan. De notre côté, nous estimons que
ces standards ne font pas assez état du côté pratique de l’évaluation. Ainsi, les décisions ne
sont ni séquentielles ni linéaires : en pratique, l’évaluateur parcourt un arbre de décision
et revient en arrière lorsque les tâches ne correspondent pas. Elles peuvent également
être menées en parallèle les unes des autres. Ce sont autant de cas qui limitent la portée
des standards comme ceux qui précèdent, même s’ils donnent de nombreux détails sur
des cas particuliers en évaluation. L’autre grand inconvénient est d’avoir des standards
essentiellement orientés vers les campagnes d’évaluation et qui ne tiennent pas compte de
l’évaluation de systèmes isolés.
Ce chapitre nous a permis de poser les bases de l’architecture que nous cherchons à
définir. En premier lieu, nous souhaitons renforcer l’importance des ressources, notamment
face aux métriques d’évaluation. Car si ces dernières sont indispensables pour effectuer
une mesure de qualité, l’impact des ressources utilisées sur les résultats d’évaluation est
indéniable. D’autre part, ce sont les ressources, en plus des métriques d’évaluation, qui
mettront à mal la plate-forme d’évaluation : leur volume et leur complexité seront une
des variables pour la définition des caractéristiques techniques de la plate-forme.
Nous avons également observé que les mesures d’évaluation automatiques sont loin
d’être adoptées par les acteurs du TAL, et que beaucoup de mesures sont encore à base
1. Par exemple, nous avons procédé à une étude sur trois ans pour les systèmes de traduction automatique impliqués dans le projet TC-STAR [Mostefa et al., 2007a].
51
Chapitre 2 : L’évaluation en traitement automatique des langues
de jugements humains. Les mesures humaines sont indispensables dans bien des cas, ce
qui peut entraver l’utilisation d’une plate-forme d’évaluation générique et pérenne. Il
faut donc faciliter leur intégration à notre architecture d’évaluation. L’automatisation des
protocoles et mesures est nécessaire pour celle-ci et passe par leur étude.
Enfin, nous avons remarqué que la plupart des standards proposent différentes visions
du déroulement d’une évaluation. La participation à plusieurs évaluations de systèmes
nous permet d’en proposer une synthèse et d’y ajouter notre propre contribution, essentiellement d’un point de vue pratique.
52
Chapitre 3
Le déroulement d’une évaluation
Les attentes d’une évaluation vont au-delà des simples résultats de mesures d’évaluation d’un ou de plusieurs systèmes évalués. Elles passent par l’analyse des résultats
obtenus afin d’améliorer ce qui est évalué ou de comparer les performances de systèmes.
La mise en pratique d’une évaluation donne parfois lieu à l’amélioration des mesures, des
protocoles ou des méthodes.
La conception même d’une évaluation influe sur les résultats obtenus : ils sont dépendants de son organisation et de ses caractéristiques. Il est impératif de faire les bons choix
dès son élaboration. De cette manière, il nous paraît judicieux de construire une méthodologie générique prenant en compte chaque technologie. Cela ne signifie pas pour autant
qu’il faut oublier les particularités propres de chacune, mais que le maximum de similarités sont mises en commun. C’est un premier pas vers la définition d’une méthodologie
type.
Nous nous intéressons dans ce chapitre aux aspects méthodologiques d’après nos participations à des projets d’évaluation divers. Par ailleurs, nous nous plaçons dans une
démarche plus pragmatique que celle de EAGLES ou ELSE. Nous considérons avant tout
l’évaluation sous forme de campagnes impliquant plusieurs systèmes. Nous constatons
que les caractéristiques d’une campagne d’évaluation s’appliquent facilement à l’évaluation d’un système isolé.
Afin de mettre en perspective les aspects d’organisation d’une campagne d’évaluation,
nous fournissons des exemples dans le cadre des campagnes CESTA et CESART (cf.
annexes A.3 et A.2) auxquelles nous avons activement collaboré. Nous nous limitons aux
points liés à l’organisation et au déroulement des campagnes d’évaluation. Les aspects liés
à la mesure des performances et à l’analyse des résultats seront détaillés dans les chapitres
suivants.
La phase de préparation consiste à spécifier les caractéristiques des systèmes et les
méthodes pour les évaluer. En conséquence de quoi, l’évaluateur adapte les critères aux
caractéristiques observées. Il délimite également un cadre strict autour de la technologie
évaluée, sans quoi une évaluation hors contexte n’aurait aucun sens.
La mise en place d’une évaluation est rigoureuse pour des raisons scientifiques et
d’équité entre systèmes. Quelquefois, elles sont aussi politiques. Par contre, il ne faut pas
oublier son objectif principal : améliorer les performances d’un ou de plusieurs systèmes,
ou d’une technologie. La déviation dans l’application d’une méthodologie rigoureuse peut
53
Chapitre 3 : Le déroulement d’une évaluation
avoir comme conséquence des biais dans les résultats ou une compréhension erronée des
acteurs du domaine.
Par contre, il ne faut pas négliger la question du coût de l’évaluation. Dans le cas
d’une campagne, le coût est un paramètre fondamental : dans bien des cas, la planification
des tâches se fait selon le budget alloué [Chaudiron et Choukri, 2008a]. Dans le cas d’un
système isolé, cette question est plus complexe à traiter car les conditions sont moins
encadrées que des campagnes : l’évaluateur-développeur a tendance à connaître à l’avance
les caractéristiques qu’il cherche à évaluer. Il adapte son évaluation en conséquence et
« jongle » entre critères, ressources et budget.
L’évaluation se déroule en deux cycles principaux. Le premier cycle consiste à définir
l’évaluation, sa mise en œuvre et les moyens pour la mener à bien. Le second cycle met en
pratique l’évaluation et applique le protocole défini au cours du premier cycle. En pratique,
les deux phases se chevauchent régulièrement et un affinement de l’organisation se fait
au fur et à mesure de l’évolution des phases. Cela est souvent dû à des aspects n’ayant
pas été anticipés. Ils sont à prendre en compte lors de la constitution d’un programme
d’évaluation. Le but est notamment de laisser des marges de manœuvre.
3.1
Phases préliminaires
Les phases préliminaires d’une évaluation ont pour objectifs de planifier son déroulement, d’établir ses spécifications et enfin de développer et préparer les éléments indispensables pour la mener à bien. La mise en place de ces caractéristiques de base n’est pas
à négliger car c’est à partir de cela que les expérimentations seront effectuées. Plus ces
étapes préliminaires sont suivies correctement, plus les étapes suivantes sont exécutées
facilement.
Le tableau 3.1 fait la synthèse des différentes phases préliminaires.
1.
2.
3.
4.
5.
6.
7.
8.
Planifier l’évaluation
Définir la tâche de contrôle et ses objectifs
Cibler les participants et les acteurs
Établir des critères de qualité
Définir des mesures de la qualité
Constituer les ressources linguistiques
Spécifier et organiser les interactions entre acteurs
Préparer l’évaluation
Table 3.1 – Les phases préliminaires de l’organisation d’une évaluation.
3.1.1
Planifier l’évaluation
3.1.1.1
Description
L’organisation d’une évaluation nécessite la mise en place de procédures strictes. Cela
commence par la planification des étapes clés. Celles-ci varient peu d’une évaluation à une
autre. Lorsque la planification des étapes est fixée, les partenaires du projet d’évaluation
54
3.1. Phases préliminaires
se voient affecter la responsabilité d’une ou de plusieurs tâches. Un coordinateur de l’ensemble du projet est également désigné. C’est particulièrement le cas dans des projets de
grande envergure (projets européens, nationaux, etc.) qui incluent de nombreuses tâches.
Les composantes administratives sont ensuite fixées : le budget, les participants, etc.
Un calendrier est spécifié selon les possibilités des partenaires. Il lui arrive d’être
modifié en cours de projet, en fonction de nouvelles contraintes susceptibles d’apparaître.
Toutefois, le calendrier de base doit toujours servir de référence. Dans ce calendrier, un
certain nombre de réunions sont prévues en plus des tâches : réunion servant de « coup
d’envoi », réunion de parcours, atelier final ou réunion de clôture, etc. Le besoin de se
rencontrer entre partenaires est important.
Lorsque tous ces détails sont acceptés par tous les partenaires, ils sont formalisés dans
un document final : le « programme d’évaluation » (evaluation plan). Il est validé par
l’ensemble des organisateurs et/ou participants impliqués.
Finalement, la communication générale autour du projet est aussi planifiée : site Internet, publications, liste de diffusion, etc. Elle tient la communauté informée et procure
un apport important par les retours engendrés et l’émulation suscitée.
Le tableau 3.2 fait la synthèse des différentes étapes de cette phase.
1.1. Définition des étapes de l’évaluation
1.2. Assignation aux acteurs
1.3. Planification des échéances
1.4. Choix du coordinateur
1.5. Administration du projet
1.6. Définition du calendrier
1.7. Planification des réunions
1.8. Validation des étapes par tous les acteurs
1.9. Formalisation des étapes
1.10. Communication générale
Table 3.2 – Les étapes de la planification d’une évaluation.
3.1.1.2
L’exemple de CESART
Dans le cadre du projet EVALDA, financé par le Ministère de la Recherche et des
Technologies, le projet CESART (extraction terminologique, cf. annexe A.3) était coordonné par l’Université Lille 3 et l’ELDA. Le CISMeF 1 (Catalogage et l’Indexation des
Sites Médicaux Francophones) a rapidement été identifié comme un potentiel fournisseur
de corpus en plus des deux coordinateurs car le domaine médical était fortement pressenti
dès le début comme un domaine sur lequel porter évaluation.
Les contraintes de calendrier étaient celles du projet EVALDA et le projet était planifié
sur trois ans. La première année était destinée à la réflexion méthodologique autour de
l’évaluation des systèmes. La seconde année devait servir à la production des ressources
nécessaires (données et mesures). Enfin, la troisième année développait une campagne
d’évaluation à proprement parler.
1. http ://www.cismef.org
55
Chapitre 3 : Le déroulement d’une évaluation
Une page Internet dédiée a été conçue sur le portail Technolangue 1 et une liste de
diffusion interne a été créée. Tout au long du projet, plusieurs publications ont été réalisées,
que ce soit pour informer de ses caractéristiques ou pour présenter les résultats.
3.1.1.3
L’exemple de CESTA
Dans le cadre du projet EVALDA, financé par le Ministère de la Recherche et des
Technologies, le projet CESTA (traduction automatique, cf. annexe A.2) était coordonné
par l’ELDA, associée à l’Université de Lille 3. Des partenaires étrangers étaient invités en
tant qu’experts : l’École Polytechnique Fédérale de Lausanne (Laboratoire d’Intelligence
Artificielle - LIA, Suisse), l’Université de Leeds (Royaume-Uni), l’Université de Montréal
(Recherche appliquée en linguistique informatique - RALI, Canada) et l’Université de
Genève (Institut Dalle Molle pour les études sémantiques et cognitives - ISSCO, Suisse).
Les contraintes de calendrier étaient celles du projet EVALDA : la durée du projet
était planifiée sur trois ans. Deux campagnes ont été entreprises. La première année était
destinée à la réflexion méthodologique autour de l’évaluation des systèmes et la définition
des mesures d’évaluation. La seconde année servait à la production et au développement
des ressources nécessaires (données et mesures), puis la première campagne d’évaluation
était démarrée. Enfin, la troisième année avait pour but le déroulement de la seconde
campagne d’évaluation. Les ressources nécessaires étaient produites au préalable et le
protocole a été amélioré entre la première campagne et la seconde.
Une page Internet dédiée a été créée sur le portail Technolangue de même qu’une liste
de diffusion interne. De nombreuses publications ont été réalisées, autant pour annoncer
les campagnes d’évaluation que pour en publier les résultats ou pour décrire des mesures
d’évaluation ou des systèmes de traduction automatique utilisés au cours du projet.
3.1.2
Définir la tâche de contrôle et ses objectifs
3.1.2.1
Description
La conduite d’une évaluation passe par la définition de ce qui sera évalué et la description des résultats attendus. L’évaluateur justifie les actions entreprises ou à entreprendre
en fonction des objectifs initiaux. C’est lors de cette étape qu’il définit les grandes lignes
du projet d’évaluation : ce que l’on cherche à évaluer et dans quel contexte.
Les acteurs impliqués dans l’évaluation sont parfois nombreux et il est nécessaire qu’ils
aient la même vue d’ensemble du problème, la même compréhension et la même interprétation. Dès lors qu’un consensus est établi, un modèle de tâches à accomplir est défini. Il
identifie les différentes tâches liées à l’évaluation, puis les agents susceptibles de remplir
ces tâches et enfin assigne une tâche à un ou plusieurs agents.
La formulation du problème est primordiale : elle met en accord tous les acteurs de
l’évaluation. Les éléments sont ensuite communiqués, partiellement ou non, à l’ensemble
de la communauté. L’intérêt de l’évaluation doit y être clair. Il se reflète dans la description de la tâche de contrôle et l’assignation des différentes actions aux acteurs du projet
d’évaluation.
Le tableau 3.3 fait la synthèse des différentes étapes de cette phase.
1. http ://www.technolangue.net
56
3.1. Phases préliminaires
2.1.
2.2.
2.3.
2.4.
2.5.
Définition des caractéristiques évaluées
Mise au point des résultats attendus
Justifications et établissement d’un consensus entre les acteurs
Définition d’un modèle des tâches
Dissémination des informations sur l’évaluation
Table 3.3 – Les étapes de la définition de la tâche de contrôle.
3.1.2.2
L’exemple de CESART
Dans CESART, trois tâches de contrôle ont été définies :
– Extraction des termes pour la création d’un référentiel terminologique sans qu’aucun
référentiel de base soit fourni (tâche T1 ), le but étant de fournir une liste ordonnée
(par défaut selon la fréquence documentaire) ;
– Indexation contrôlée pour l’enrichissement de thésaurus (tâche T2 ) à partir d’un
corpus spécialisé et d’un thésaurus pré existant ;
– Extraction des relations sémantiques (synonymie) à partir d’une liste de termes
amorces (tâche T3 ), le but étant de trouver les relations entre un terme amorce et
un autre terme.
Les campagnes d’évaluation correspondant aux trois tâches se déroulaient séquentiellement et les données de sorties étaient réutilisées en entrée pour les tâches suivantes.
3.1.2.3
L’exemple de CESTA
L’objectif de la première campagne d’évaluation était de fournir une mesure des performances de systèmes de traduction automatique. Celle-ci se faisait à l’aide de l’ensemble des
métriques prévues pour les campagnes CESTA en utilisant des textes du domaine général.
Deux directions de traduction, de l’anglais et de l’arabe vers le français, ont été testées
[Surcin et al., 2005]. Par ailleurs, un second objectif de cette campagne d’évaluation était
de développer et d’expérimenter de nouvelles métriques d’évaluation.
Au delà de l’évaluation comparative des performances, l’un des objectifs de la seconde campagne était d’améliorer la robustesse et la fiabilité du protocole d’évaluation
[Hamon et al., 2006]. Mais l’objectif innovant de cette seconde campagne était surtout de
mesurer l’impact d’une adaptation des systèmes de traduction automatique au domaine
des textes à traduire (celui de la santé). C’est pourquoi deux séries de scores étaient prévues avec ce protocole d’évaluation amélioré : l’une utilise des versions « génériques » des
systèmes et l’autre utilise des versions adaptées au domaine spécialisé. Les participants
à la seconde campagne recevaient un corpus bilingue d’adaptation afin d’adapter leurs
systèmes pendant deux semaines avant l’évaluation proprement dite 1 .
1. En pratique, le corpus d’adaptation était de taille relativement faible - environ 20 000 mots - ce qui
a posé problème à certains participants. Toutefois, tous les systèmes ont obtenus de meilleurs résultats
après adaptation, signifiant par cela l’intérêt d’un tel corpus, même de faible taille.
57
Chapitre 3 : Le déroulement d’une évaluation
3.1.3
Cibler les participants et les acteurs
3.1.3.1
Description
Les différents acteurs extérieurs sont identifiés en relation directe avec la tâche de
contrôle et des objectifs. De prime abord, ils sont susceptibles d’être intéressés par l’évaluation proposée et d’être associés à la réflexion autour de l’évaluation. Ces acteurs sont
d’origines diverses : développeurs de système et participants, développeurs ou distributeurs de ressources, évaluateurs, experts, etc. Cela s’étend aux personnes intéressées par
les résultats de l’évaluation, tels que les examinateurs d’un projet, ou tout simplement la
communauté autour d’une technologie.
L’identification des acteurs et, avant tout, celle des participants proposant leurs systèmes passe bien souvent par l’utilisation de « réseaux » alliant rapidité et souplesse :
associations, connaissances, partenaires anciens ou actuels, sur d’autres projets, etc. Il
existe aussi les listes de diffusion, forums, conférences, réunions, etc.
Ensuite, les acteurs potentiels sont contactés et les formalités administratives sont
effectuées après acceptation, comme la signature d’un contrat ou de licences d’utilisation. Ces derniers rendent possible légalement l’utilisation de ressources ou d’outils et
concrétisent les obligations et droits des acteurs.
L’objectif est d’ouvrir le projet d’évaluation au maximum de personnes intéressées par
le sujet, lesquelles apportent en retour une valeur ajoutée au projet.
Finalement, une fois cette équipe formée, il faut la maintenir impliquée dans le projet
autour de réunions, animations, liste de diffusion, etc.
Le tableau 3.4 fait la synthèse des différentes étapes de cette phase.
3.1.
3.2.
3.3.
3.4.
Identification des acteurs
Contact des acteurs identifiés
Formalisation administrative
Animation de l’équipe formée
Table 3.4 – Les étapes pour cibler les acteurs de l’évaluation.
3.1.3.2
L’exemple de CESART
Plusieurs acteurs ont été identifiés au cours des deux premières années. Sur la douzaine
de participants potentiels identifiés [Timimi et Mustafa El Hadi, 2008], six ont réellement
participé : cinq pour la tâche T1 (CEA, deux systèmes de l’Université de Montréal, EDF
et TEMIS), un seul pour la tâche T3 (l’Université Paris XIII). La tâche T2 n’a pas eu
lieu faute de participant.
3.1.3.3
L’exemple de CESTA
Plusieurs acteurs ont été identifiés au cours des différentes conférences du domaine,
via des contacts directs ou par le biais des listes de diffusion : les participants, d’une part,
mais aussi des experts du domaine et des fournisseurs ou producteurs de ressources.
Au total, sept systèmes ont participé à la première campagne d’évaluation (cinq pour
la direction de l’anglais vers le français, deux pour la direction de l’arabe vers le français).
58
3.1. Phases préliminaires
Six systèmes ont participé à la seconde campagne (cinq pour la direction de l’anglais
vers le français et un pour la direction de l’arabe vers le français). Le manque de temps,
de moyen (la participation aux campagnes d’évaluation n’était pas subventionnée) ou
d’intérêt (directions de traduction, données, protocole...) sont des explications possibles
au manque de participants. Selon les conventions de CESTA et dès le début du projet, il
a été décidé que les résultats des systèmes seraient anonymisés.
3.1.4
Établir des critères de qualité
3.1.4.1
Description
À partir des caractéristiques des systèmes évalués, l’évaluateur détermine quels sont
les critères adéquats pour estimer le niveau de qualité atteint. Après les avoir identifiées,
les plus pertinentes sont sélectionnées afin de déterminer les critères de qualité qui sont
utilisés par la suite. Tous les critères sont décrits afin d’ôter toute ambiguïté sur leur
compréhension ou leur interprétation. Une échelle graduée de valeurs est ensuite établie
pour identifier les niveaux de qualité atteints.
Une fois que les critères de qualité et que leur description sont acceptés par tous
les acteurs du projet d’évaluation, une recherche des mesures d’évaluation (cf. section
2.2.4.3) correspondantes est effectuée. Le type de critère (intrinsèque ou extrinsèque) est
décidé, de même que la méthode d’évaluation, selon que l’on veuille comparer des systèmes
ou bien évaluer un système isolé. D’autres paramètres entrent en jeu comme le coût de
l’évaluation. Cela force parfois à modifier la définition des critères, voire à les changer.
Le tableau 3.5 fait la synthèse des différentes étapes de cette phase.
4.1.
4.2.
4.3.
4.4.
4.5.
4.6.
Recueil des caractéristiques du type de système évalué
Définition des critères de qualité
Description détaillée des critères
Définition d’une échelle de valeurs
Recherche des mesures d’évaluation
Retour à l’étape 4.2 si les méthodes d’évaluation ne conviennent pas
Table 3.5 – Les étapes pour établir les critères de qualité.
3.1.4.2
L’exemple de CESART
Les critères de qualité ont été définis pour chacune des tâches de contrôle à partir de
caractéristiques communes aux systèmes évalués (cf. tableau 3.6) 1 .
3.1.4.3
L’exemple de CESTA
Quelle que soit la campagne, deux critères de qualité ont été retenus, présentés dans
le tableau 3.7 2 .
1. Pour les détails des éléments du tableau, se référer à la section 2.2.4.4
2. Pour les détails des éléments du tableau, se référer à la section 2.2.4.4
59
Chapitre 3 : Le déroulement d’une évaluation
Tâche
T1
T3
Caractéristique
Renvoi de candidats termes
Critère
Type
Les candidats termes ren- Intrinsèque
voyés sont pertinents pour
la création d’un référentiel
selon un corpus donné
Renvoi de relations Les relations de synonymie Intrinsèque
de synonymie
candidates sont pertinentes
par rapport aux domaine et
corpus
Méthode
Comparative
Comparative
Table 3.6 – Caractéristiques des systèmes et critères de qualité dans CESART.
Caractéristique
Le système renvoie une
traduction conservant le
contenu sémantique
Le système renvoie une
traduction écrite correctement en langue cible
Critère
Type
Adéquation : le texte cible Intrinsèque
contient les mêmes informations que le texte source
Fluidité : le texte renvoyé Intrinsèque
est écrit en français compréhensible (fluide)
Méthode
Comparative
Comparative
Table 3.7 – Caractéristiques des systèmes et critères de qualité dans CESTA.
3.1.5
Définir les mesures de la qualité
3.1.5.1
Description
Après avoir défini les critères d’évaluation, le niveau de qualité atteint doit être identifié pour chaque système évalué. Pour ce faire, des mesures d’évaluation sont utilisées,
utilisant des métriques d’évaluation automatiques ou humaines. Les premières dépendent
du modèle de référence (restriction à un domaine, à une approche, au manque de données, etc.), mais les secondes sont subjectives et dépendent du choix des juges, qu’ils
soient experts ou non. L’objectif de l’évaluateur est de limiter l’impact de ces défauts. En
conséquence, il définit au mieux les mesures avant que l’évaluation ne soit conduite.
D’après l’ISO 9126, la sélection des mesures d’évaluation est la première étape lors
de la préparation de l’évaluation 1 . Pour l’ISO, les caractéristiques du système doivent
être prises en compte pour la définition des mesures et être conformes aux attentes d’un
utilisateur. Nous considérons que cette sélection se fait par rapport aux critères définis, la
mesure devant être en adéquation avec le critère. Associée à cette sélection, la définition
d’une échelle de valeurs a aussi son importance puisqu’elle indique la façon d’interpréter
les résultats. Elle rend compte du niveau atteint pour un critère donné et, par extension,
indique si les caractéristiques des systèmes remplissent les attentes ou non.
Une mesure a pour objectif d’être valide et fiable. La validité caractérise l’aptitude de
la mesure à atteindre ses objectifs tout en étant dépourvue d’erreurs. Quant à la fiabilité
de la mesure, elle s’établit au fur et à mesure des expérimentations partir de la variation
des paramètres de l’évaluation : contexte, systèmes, domaines, etc. Nous revenons sur ces
points dans le chapitre 5.
1. Ce qui la situe loin de notre position, puisqu’elle se situe en cinquième phase de ce premier cycle.
60
3.1. Phases préliminaires
Après avoir défini les mesures de la qualité, il reste à définir plus concrètement la
ou les métriques utilisées, c’est à dire les outils de calcul des résultats. Trois possibilités
s’offrent alors à l’évaluateur : utiliser l’existant, l’adapter ou développer de nouvelles
métriques (lorsque l’existant est peu fiable ou inadapté, ou lorsqu’une nouvelle méthode
d’évaluation apparaît).
Le tableau 3.8 fait la synthèse des différentes étapes de cette phase.
5.1.
5.2.
5.3.
5.4.
5.5.
5.6.
Définition ou sélection des mesures
Sélection des niveaux de classement
Définition des métriques d’évaluation
Développement des métriques d’évaluation
Test des métriques développées
Retour à l’étape 5.3. si les métriques ne conviennent pas
Table 3.8 – Les étapes pour définir les mesures de la qualité.
3.1.5.2
L’exemple de CESART
Pour la tâche T1, nous avons défini la mesure suivante [Mustafa El Hadi et al., 2006]
de manière originale. Les participants renvoient une liste de candidats termes triés selon un ordre de pertinence au choix, et sinon par fréquence décroissante 1 . Des experts
exploitent ces candidats termes à l’aide d’une base terminologique représentative du domaine spécialisé. Les jugements se font hors contexte et en comparant les candidats termes
aux termes certifiés de la base terminologique.
Pour chaque candidat terme, l’expert a le choix entre cinq valeurs. Ces valeurs prennent
en considération les mots composant un candidat terme qui est souvent une expression
composée.
– Valeur 1 : le candidat est présent dans la terminologie ;
– Valeur 2 : le candidat est valide, mais n’est pas dans la terminologie ;
– Valeur 3 : tous les composants du candidat sont certifiés individuellement dans la
terminologie ;
– Valeur 4 : un seul composant du candidat est certifié dans la terminologie ;
– Valeur 5 : aucun composant du candidat n’est certifié dans la terminologie.
Nous partons du principe que plus un terme est composé de mots présents dans la
terminologie de référence et plus l’ordre de ces mots est respecté, plus ce terme est pertinent. Par ailleurs, le terme peut ne pas être dans la terminologie et être néanmoins valide,
le référentiel n’étant pas fixe dans ce cas précis. Cela montre toute l’intérêt d’utiliser une
mesure humaine dans ce cas précis.
L’expert suit l’ordre des critères, après une première passe automatique pour les termes
remplissant le critère 1 et pouvant être appariés automatiquement avec la base terminologique. Ainsi, lorsque le candidat terme expertisé ne répond pas au critère 1, l’expert teste
le critère 2 et ainsi de suite. Une précision cumulée est ensuite calculée sur les n premiers
candidats termes (cf. chapitre 5).
1. Ce choix peut prêter à discussion : deux critères sont alors évalués, la pertinence des candidats
termes et le choix de classement, rendant plus difficile l’interprétation des résultats. La comparaison
entre systèmes est déjà elle-même rendue difficile.
61
Chapitre 3 : Le déroulement d’une évaluation
Pour la tâche T3, la mesure est la suivante. Les systèmes d’extraction de synonymie
renvoient une liste de relations de synonymie entre les termes issus d’une liste de termes
amorces et des termes au choix dans le corpus d’évaluation. Pour chaque relation candidate, l’expert décide manuellement entre les deux critères : soit elle est « valide » soit elle
est « non valide ». Un score de précision est ensuite calculé automatiquement.
3.1.5.3
L’exemple de CESTA
Deux types de mesures d’évaluation ont été employées dans CESTA : automatiques
et humaines. Cinq métriques automatiques ont été déployées lors des deux campagnes.
Elles se divisent en deux catégories. Celles de la première catégorie adoptent comme
approche la proximité de la traduction automatique avec une ou plusieurs traductions
humaines, les traductions de référence, fournies par des traducteurs professionnels. Elle
utilise la métrique BLEU (BiLingual Evaluation Understudy), une métrique automatique, développée par IBM [Papineni et al., 2002]. Comme pour sa variante élaborée par
le NIST [Doddington, 2002], le principe est de comparer les phrases sorties du système
aux phrases de référence correspondantes sur la base de séquences de n-grammes (à savoir une séquence ordonnée de n mots) ; la méthode WNM (Weighted N-gram Model)
[Babych et Hartley, 2004, Babych et al., 2005] part du principe que, étant donné la variation légitime inhérente à toute traduction, tous les mots ont des raisons différentes
d’être préservés par un processus de traduction. Tout en adoptant l’approche utilisant les
n-grammes, elle introduit une pondération pour les mots identifiés comme étant significatifs.
En revanche, les métriques de la deuxième catégorie ne font pas appel à des traductions
de référence des textes source, mais à des corpus autonomes représentatifs de la langue
cible et, éventuellement, de la langue source. Ces métriques sont le X-score et le D-score
[Rajman et Hartley, 2001, Rajman et Hartley, 2002, Hamon et Rajman, 2006] que nous
avons développées. Celles-ci ont été utilisées à titre expérimental car leur fiabilité n’est
pas entièrement démontrée, comme le suggèrent les résultats (cf. chapitre 5).
Les mesures humaines ont pour double intérêt l’évaluation des systèmes et la métaévaluation des mesures automatiques en comparant les scores humains aux scores automatiques. Deux métriques d’évaluation ont été retenues : la fluidité et l’adéquation,
s’inspirant des campagnes d’évaluation DARPA [White et al., 1994].
3.1.6
Constituer les ressources linguistiques
3.1.6.1
Description
Une étape essentielle et souvent sous-estimée lors de l’organisation d’évaluations est le
développement ou l’acquisition des ressources. Elles sont utilisées par les mesures d’évaluation, ou directement par les systèmes. C’est une des étapes les plus coûteuse si l’on fait
abstraction des mesures humaines.
Six grandes étapes sont généralement fixées pour la constitution de ressources. Il s’agit
tout d’abord de spécifier les ressources nécessaires dans le contexte de l’évaluation en
cours, en termes de quantité mais aussi en termes de qualité : les ressources utilisées
doivent être représentatives de la tâche. Puis, l’évaluateur identifie les ressources à utiliser.
Il peut aussi bien s’agir de nouvelles données (provenant par exemple de pages Internet) ou
62
3.1. Phases préliminaires
de données préexistantes qui seront réutilisées. Quel que soit le cas de figure, cela nécessite
d’engager des négociations afin d’obtenir les droits d’utilisation des ces données. Ensuite,
les données sont extraites et formatées en fonction de la tâche de contrôle et du format.
Cette étape se fait manuellement ou automatiquement, ou combine les deux possibilités,
selon les cas de figure. Finalement, il est indispensable de valider les ressources constituées,
ce qui peut se faire de manière formelle (par l’utilisation de critères de validation spécifiés
à l’avance) ou non (vérification rapide par un humain). Dans le second cas, le développeur
de ressources estime de manière moins rigoureuse qu’une vérification rapide et succincte
est suffisante.
Par ailleurs, il faut prendre en compte le renouvellement des ressources et l’importante
demande, dus à une utilisation plus fréquente et croissante dans le temps : les données
sont de moins en moins intéressantes au fur et à mesure que le temps passe. Dès lors
que les données sont de plus en plus « connues » par les systèmes, elles ne seront alors
plus utiles pour l’apprentissage, ou biaiseront l’évaluation si elles sont utilisées en tant
que corpus de test. Il est alors nécessaire de constituer de nouvelles ressources, sur de
nouveaux domaines, pour des contextes différents.
Le tableau 3.9 fait la synthèse des différentes étapes de cette phase.
6.1.
6.2.
6.3.
6.4.
6.5.
6.6.
6.7.
Spécification des besoins
Identification des ressources
Négociation des droits d’utilisation
Acquisition de données
Formatage des données
Validation des données créées
Correction des données (le cas échéant)
Table 3.9 – Les étapes pour constituer les ressources.
3.1.6.2
L’exemple de CESART
Plusieurs ressources ont été utilisées pour mener à bien la campagne du projet CESART :
– un corpus de textes issus d’un domaine spécialisé pour les deux tâches d’évaluation ;
– un thésaurus du même domaine comme référence de la tâche T1 ;
– une liste de termes amorces correspondant au corpus pour la tâche T3 ;
– les résultats des jugements humains.
L’idée originale était de collecter des ressources dans le but de constituer un corpus
de textes d’un domaine spécialisé, en vue d’une extraction terminologique. Le domaine
retenu a été le domaine de la santé. Il était également question de « masquer » le corpus
sur lequel porterait l’évaluation, à la manière dont sont masquées les données à traduire
en traduction automatique : du contenu est ajouté afin que les participants ne sachent
pas sur quelles données porte l’évaluation. Dès lors, deux choix était possibles : séparer
le corpus en plusieurs parties (l’une servant pour l’évaluation, l’autre pour le masquage
du premier), mais la couverture terminologique en aurait été biaisée ; construire deux
autres corpus qui ne seraient pas évalués mais que les systèmes traiteraient tout de même.
Le second choix a été retenu et finalement deux des trois corpus ont été évalués, un seul
63
Chapitre 3 : Le déroulement d’une évaluation
faisant office de masquage, pour « perturber » les participants. Après coup, il nous semble
que ce corpus de masquage n’est pas utile en évaluation des systèmes terminologiques : le
volume des données est généralement suffisamment important pour que les participants
ne puissent réaliser de travail manuel.
Les fichiers contenant les corpus devaient être encodés en UTF-8, selon une DTD bien
précise (cf. figure 3.1), de même que la liste de termes amorces (cf. figure 3.2).
<!DOCTYPE FILESET [
<!ELEMENT FILESET (DOC∗)>
<!ATTLIST FILE f i l e i d CDATA #REQUIRED>
<!ELEMENT DOC (SEG∗)>
<!ATTLIST DOC d o c i d CDATA #REQUIRED>
<!ELEMENT SEG (#PCDATA)>
<!ATTLIST SEG s e g i d CDATA #REQUIRED>
]>
Figure 3.1 – DTD du corpus original.
<!DOCTYPE FILESET [
<!ELEMENT FILESET (TERME∗)>
<!ATTLIST FILESET s e t i d CDATA #REQUIRED>
<!ELEMENT TERME (#PCDATA)>
<!ATTLIST TERME ( t e r m e i d ) CDATA #REQUIRED>
]>
Figure 3.2 – DTD de la liste de termes amorces.
La thématique du premier corpus CESART (corpus C1 ) est le domaine de la santé, créé
à partir de pages Internet provenant du site Santé Canada 1 . La thématique du deuxième
corpus (corpus C2 ) est le domaine de l’éducation, il s’agit du corpus Spirale tiré de la
revue du même nom 2 . Enfin, la thématique du troisième et dernier corpus (corpus C3 )
est le domaine politique, tiré du Journal Officiel de la Communauté Européenne 3 (JOC).
Le domaine médical étant choisi, il nous a semblé normal de nous intéresser au site
de Santé Canada car les droits d’utilisation existaient déjà suite à la campagne EVALDA/EQueR (cf. annexe A.5) et les ressources étaient nombreuses. De plus, le CISMeF 4
(Catalogage et Indexation des Sites Médicaux Francophones) était à même de fournir le
thésaurus Mesh 5 . Le choix d’un corpus sur l’éducation s’est également imposé, puisque
1.
2.
3.
4.
5.
http
http
http
http
http
://www.hc-sc.gc.ca
://spirale-edu-revue.fr
://catalog.elra.info/product_info.php ?products_id=534
://www.chu-rouen.fr/cismef/
://www.nlm.nih.gov/mesh
64
3.1. Phases préliminaires
l’Université de Lille 3 disposait du corpus Spirale (provenant de la revue scientifique Spirale) et le thésaurus Motbis 1 était lui aussi disponible. Comme corpus de masquage, nous
avons choisi le JOC car il était disponible rapidement dans le catalogue d’ELRA. L’ensemble de ces choix montre l’importance de l’existant et de la connaissance des ressources
disponibles.
Pour la constitution du corpus médical, un partenaire du projet a fourni près de 13 000
URLs provenant du site Santé Canada. À partir de ces URLs, il a été possible « d’aspirer »
les pages correspondantes. À l’origine, les documents contiennent beaucoup de bruit, avec
beaucoup de données inutiles, comme par exemple les index ou les menus des pages, mais
le format HTML est simple, avec un étiquetage < DOC > pour les documents, et < P >
pour les paragraphes qui contenaient plusieurs phrases et ont été considérés comme les
parties intéressantes à conserver. Après transformation du code HTML en format brut,
les données étaient encore très bruitées. Nous avons donc effectué un nettoyage du corpus
obtenu. Ce nettoyage, laborieux, a été fait pour une petite partie automatiquement, et
pour une grande partie manuellement. La procédure automatique est sommaire : suppression des retours à la ligne au milieu d’une phrase, formatage des données (une phrase par
segment, suppression des espaces doubles, encodage UTF-8, etc.), suppression du balisage
HTML, nettoyage des erreurs générées lors de la conversion des fichiers PDF, etc. Il s’est
avéré (lors de la phase d’adjudication) que beaucoup d’erreurs subsistaient même après
ce nettoyage, comme des mots collés. Au final, plus de 7 500 documents ont été formatés selon notre DTD pour un total de 255 161 phrases. Ils représentent un volume de 9
millions mots environ.
Le corpus Spirale a été constitué approximativement de la même manière, à ceci près
que les fichiers d’origine étaient au format RTF. Nous avons préféré les convertir en format
HTML afin de pouvoir les convertir à nouveau en données brutes de la même manière que
pour le corpus médical. 152 documents étaient disponibles et les opérations appliquées
ont été les mêmes avec un nettoyage automatique, puis un nettoyage manuel. Au final,
149 documents ont été constitués comprenant plus de 12 000 phrases, ce qui représente
environ 535 000 mots.
Le corpus JOC était déjà constitué et un simple reformatage a été nécessaire pour qu’il
soit conforme à notre DTD. Au final, le corpus JOC est constitué de 1 477 documents
pour environ 9 000 phrases et environ 240 000 mots.
La construction des termes amorces pour la tâche T3 s’est faite en plusieurs étapes.
Nous avons tout d’abord choisi de réutiliser la sortie des systèmes de la tâche T1. Seuls
deux systèmes étaient alors disponibles. Nous avons appariés les deux sorties pour en faire
ressortir les termes les plus pertinents, d’après les systèmes automatiques. À cette sortie,
nous avons ensuite apparié le thésaurus UMLS 2 (Unified Medical Language System) afin
d’enrichir et de valider la liste obtenue et de supprimer les synonymes qui auraient pu
y être inclus. Au final 423 termes ont été retenus. Le même principe à été adopté pour
créer la liste des termes amorces du corpus Spirale. Le thésaurus utilisé a été le Thésaurus
Européen de l’Éducation Motbis. De même que pour les deux autres domaines, la liste
des termes amorces a été constituée en appariant les sorties des outils d’extraction.
1. http ://www.motbis.fr
2. http ://umlsinfo.nlm.nih.gov
65
Chapitre 3 : Le déroulement d’une évaluation
3.1.6.3
L’exemple de CESTA
Les fichiers contenant les corpus source, les corpus de référence et les traductions
candidates sont encodés en UTF-8 et respectent le format SGML qu’utilise le NIST
[NIST, 2003] pour ses campagnes d’évaluation. Nous présentons ci-dessous des exemples
de format pour les corpus source (3.3), de référence (3.4) et cible (3.5).
<SRCSET SetID="CESTA−RUN1−EN" SrcLang="E n g l i s h">
<DOC DocID="DOC−1">
<SEG i d ="1"> s o u r c e t e x t </SEG>
<SEG i d ="2" >... </SEG>
</DOC>
<DOC DocID="DOC−2">
...
</DOC>
...
</SRCSET>
Figure 3.3 – Format SGML des documents sources des campagnes d’évaluation CESTA.
<REFSET SetID="CESTA−RUN1−EN" SrcLang="E n g l i s h " Trglang="French">
<DOC DocID="DOC−1" SysID=" r e f −1">
<SEG i d ="1"> t e x t e s o u r c e </SEG>
<SEG i d ="2" >... </SEG>
</DOC>
<DOC DocID="DOC−2">
...
</DOC>
...
</REFSET>
Figure 3.4 – Format SGML des documents références des campagnes d’évaluation
CESTA.
Lors des campagnes d’évaluation, chaque participant identifie son système de traduction automatique à l’aide de l’attribut SysID qui lui est fourni par l’ELDA. Chaque
participant a la possibilité de soumettre plusieurs systèmes avec des SysID différents pour
chaque fichier envoyé.
Les documents ont été segmentés par phrase et trois traductions de référence ont été
produites par des agences de traduction, en plus de la traduction officielle du site Santé
Canada. Le corpus d’évaluation que nous avons envoyé aux participants se décomposent
en deux parties : le corpus de test et le corpus de masquage. Le corpus de test contient les
données sur lesquelles sont calculés les résultats. Ce corpus de test est noyé dans un corpus
66
3.1. Phases préliminaires
<TSTSET SetID="CESTA−RUN1−EN" SrcLang="E n g l i s h " TrgLang="French">
<DOC DocID="DOC−1" SysID="system −1">
<SEG i d ="1"> t e x t e s o u r c e </SEG>
<SEG i d ="2" >... </SEG>
</DOC>
<DOC DocID="DOC−2">
...
</DOC>
...
</TSTSET>
Figure 3.5 – Format SGML des documents tests des campagnes d’évaluation CESTA.
de masquage qui « cache » le corpus de test aux participants. Ceux-ci ignorent donc sur
quelle partie des données leur système sera évalué. Le corpus de masquage est beaucoup
plus volumineux que le corpus de test afin d’empêcher la traduction ou la correction
manuelle des textes, mais il est de même nature que celle du corpus de test. Pour les deux
campagnes d’évaluation, le corpus de masquage est à chaque fois de 200 000 mots, tandis
que le corpus de test est de 20 000 mots.
L’idée initiale était de trouver un ensemble de textes parallèles directement disponibles
en 3 langues (anglais, français et arabe). La raison est simple : le fait de travailler sur les
mêmes textes dans les deux directions nous procurait un certain « confort d’utilisation »
et l’obtention de textes déjà parallèles nous permettait aussi d’économiser une traduction
humaine par rapport au protocole établi par le NIST, qui préconisait à l’époque quatre
traductions de référence pour chaque texte.
Pour la première campagne d’évaluation, notre choix s’est initialement porté sur les
rapports de la 32e Conférence générale de l’UNESCO parce qu’ils sont disponibles dans
un grand nombre de langues, y compris les trois qui nous intéressaient et que l’ELDA
dispose des droits pour leur utilisation. Malheureusement, l’exploitation des documents
pose d’énormes problèmes, en particulier quand il s’agit de récupérer les documents arabes
sous un format facilement utilisable : ils se présentent sous forme de documents PDF et
nous n’avons trouvé aucun logiciel de conversion capable de fournir des fichiers de sortie
exploitables. De plus, pour procéder à une étude de faisabilité des outils et des ressources,
nous avons mené une mini campagne au sein d’ELDA sur un corpus anglais/français
tiré des documents de l’UNESCO. L’une des conclusions que nous avons tirées de cette
étude est que le style et le vocabulaire rendent les textes « extrêmement difficiles à lire »
[Hamon, 2004a]. Beaucoup de tournures et de termes techniques y sont propres à l’administration et à la diplomatie. Face à ces difficultés qui commençaient à être nombreuses,
nous avons préféré éliminer ces documents pour cette campagne d’évaluation censée utiliser des textes plus généraux. Nous avons donc cherché d’autres sources de documents.
Pour la direction de traduction de l’anglais vers le français, afin de minimiser les
négociations de droits et les coûts afférents, nous nous sommes tourné vers des documents
déjà présents dans le catalogue d’ELRA, le corpus MLCC 1 . Il est composé de deux parties :
1. Référence W0023 du catalogue ELRA.
67
Chapitre 3 : Le déroulement d’une évaluation
un corpus multilingue parallèle reprenant les Questions Écrites au Parlement Européen
et des Débats du Parlement Européen dans toutes les langues officielles de l’Union de la
période 1992-1993 ; un corpus multilingue contenant des collections d’articles de journaux
de la même époque pour chaque langue de l’Union. Les documents originaux se présentent
sous forme d’un ensemble de fichiers au format TEI lui-même issu de SGML. Après
vérification de l’encodage, le contenu des balises < P > est extrait et formaté dans notre
format SGML, plus simple.
Le corpus de test est finalement composé de 16 documents extraits du corpus MLCC
provenant du Journal Officiel des Communautés Européennes 1993, section des Questions
Écrites au Parlement Européen. Il représente un volume supérieur à 20 000 mots anglais et
22 000 mots français pour la traduction de référence officielle tirée directement du corpus
MLCC. Les trois autres références ont été établies à partir de trois traducteurs différents.
Pour construire le corpus de masquage, nous sommes parti d’un sous-ensemble du corpus
du Financial Times 1993. Son volume total est supérieur à 200 000 mots anglais.
Pour la direction de traduction de l’arabe vers le français, nous nous sommes concerté
avec l’équipe du projet ARCADE II [Véronis et al., 2008] afin de réutiliser un corpus aligné arabe/français en cours de production dans le cadre de ce projet. Le corpus que nous
avons obtenu est constitué d’un ensemble d’articles issus du Monde diplomatique 2001,
2002 et 2003, sous forme XML et encodés en UTF-8. Seuls certains articles de ce corpus ont réellement été utilisés pour la campagne, car de nombreux articles présentaient
des problèmes similaires à ceux rencontrés dans presque tous les corpus parallèles arabe/français : les deux versions ne correspondent pas vraiment car la plupart du temps la
version traduite tient plus de la réécriture que de la traduction. Même sans cela, il subsiste
beaucoup d’autres problèmes relatifs, entre autres, aux chiffres, à la typographie et aux
notes de bas de page. Nous nous sommes donc limité au sous-ensemble des articles qui ne
présentent pas de problème d’alignement : certains articles de 2002 et une paire d’articles
de 2003.
Le corpus de test est composé de 16 articles du Monde diplomatique publiés en 2002
et en 2003. Ils représentent un volume supérieur à 23 000 mots arabes et 28 000 mots
français pour la traduction de référence qui provient du Monde diplomatique. Les trois
autres traductions humaines ont été produites par des agences de traduction. Le journal
arabe Al-Hayat 1998 1 , section « nouvelles » a été utilisé pour construire le corpus de
masquage après conversion dans notre format. Son volume total est d’environ 223 813
mots arabes.
3.1.7
Spécifier et organiser les interactions entre acteurs
3.1.7.1
Description
L’étape concernant l’organisation des interactions entre les acteurs du projet d’évaluation est le plus souvent faite de manière informelle, à tort selon nous. En effet, elle
facilite la cohésion du projet et permet d’éviter certains pièges lors du déroulement de
l’évaluation : perte de données, erreurs de format, mauvaise compréhension du protocole,
interprétation différente des résultats. C’est un des intérêts de l’architecture automatisée
que de délimiter strictement les interactions entre acteurs.
1. Référence W0030 du catalogue ELRA W0030.
68
3.1. Phases préliminaires
Nos expérimentations menées au cours des divers projets d’évaluation nous ont permis
de constater l’impact de l’aspect humain dans les interactions entre partenaires. Avant
même de parler du format des fichiers (XML, SGML, etc.), le format des noms de fichiers
peut déjà poser problème. Par exemple dans le cadre du projet TC-STAR/SLT, les noms
de fichier renvoyés par les participants devaient identifier à la fois le participant, la direction de traduction, le domaine et le type de soumission pour une meilleure organisation
de l’évaluation et des traitements automatiques ; peu de participants ont finalement renvoyé un fichier correspondant à ce format. Alors, lorsqu’une centaine de fichiers doit être
renvoyée par e-mail, cela devient rapidement un casse-tête. Étant donné l’utilisation de
certains outils d’évaluation, la modification des fichiers et de leur format peut se révéler
encore plus complexe : modification des balises XML, du format d’encodage, etc.
Finalement, les recommandations faites aux participants doivent être les plus claires
et simples possibles. La plupart du temps, les participants sont déjà préoccupés par les
problèmes relatifs à leurs systèmes et ne sont pas vraiment concernés par ceux relatifs
à l’évaluation. D’un autre côté, la plus grande attention doit être accordée aux données
envoyées aux participants et fournies aux systèmes.
Le tableau 3.10 fait la synthèse des différentes étapes de cette phase.
7.1. Définition de recommandations claires et simples aux acteurs
7.2. Validation des procédures
Table 3.10 – Les étapes d’organisation des interactions entre acteurs.
3.1.7.2
L’exemple de CESART
Les participants devaient renvoyer les résultats de leurs systèmes selon une DTD bien
précise, que ce soit pour la liste ordonnée de termes (cf. figure 3.6) ou la liste de relations
(cf. figure 3.7). Les fichiers renvoyés étaient alors testés à l’aide de l’outil XMLInt et
renvoyés s’ils ne correspondaient pas à la DTD.
<!DOCTYPE FILESET [
<!ELEMENT FILESET (TERME∗)>
<!ATTLIST FILESET s e t i d CDATA #REQUIRED>
<!ELEMENT TERME (FORME_CANONIQUE, RANG_PERTINENCE,
\\ VARIATIONS+, FREQUENCE, CONTEXTE)>
<!ATTLIST TERME t e r m e i d CDATA #REQUIRED>
<!ELEMENT FORME_CANONIQUE (#PCDATA)>
<!ELEMENT RANG_PERTINENCE (#PCDATA)>
<!ELEMENT VARIATIONS (#PCDATA)>
<!ELEMENT FREQUENCE (#PCDATA)>
<!ELEMENT CONTEXTE (#PCDATA)>
<!ATTLIST CONTEXTE ( docid , s e g i d ) CDATA #REQUIRED>
]>
Figure 3.6 – DTD du corpus de la liste ordonnée de termes.
69
Chapitre 3 : Le déroulement d’une évaluation
<!DOCTYPE FILESET [
<!ELEMENT FILESET (TRIPLET∗)>
<!ATTLIST FILESET s e t i d CDATA #REQUIRED>
<!ELEMENT TRIPLET (TERME_SOURCE, RELATION,
\\ TERME_CIBLE, OCCURRENCES, CONTEXTE)>
<!ATTLIST TERME t e r m e i d CDATA #REQUIRED>
<!ELEMENT TERME_SOURCE (#PCDATA)>
<!ELEMENT RELATION (#PCDATA)>
<!ELEMENT TERME_CIBLE (#PCDATA)>
<!ELEMENT OCCURENCES (#PCDATA)>
<!ELEMENT CONTEXTE (#PCDATA)>
<!ATTLIST CONTEXTE ( docid , s e g i d ) CDATA #REQUIRED>
]>
Figure 3.7 – DTD des relations renvoyées.
3.1.7.3
L’exemple de CESTA
Les participants devaient renvoyer des résultats de leurs systèmes conformes au pseudo
XML du corpus cible détaillé précédemment. Des scripts en langage PERL permettaient
de valider les fichiers et d’accepter ou non leur format. En théorie, des fichiers mal formatés
étaient renvoyés aux participants, sous peine de ne pas être évalués. En pratique les erreurs
mineures sont bien souvent corrigées par l’évaluateur...
3.1.8
Préparer l’évaluation
La préparation de l’évaluation est le résultat des phases précédentes et finalise le cycle
afin de faciliter le démarrage du cycle suivant. La préparation passe tout d’abord par
le développement des ressources et mesures comme nous l’avons décrit précédemment.
Puis, tous les éléments applicatifs et structurels sont mis en place : pour le dépôt de
fichiers (comptes FTP, mots de passe, autorisations, etc.), l’envoi de mails, le rappel des
procédures ou des délais, l’usage d’outils d’évaluation ou de formatage de données, etc.
Cette partie peut sembler fastidieuse, mais garantit (presque) le bon déroulement de
l’évaluation.
3.2
Phases d’évaluation
Après la préparation, le second cycle d’une évaluation permet la mise en place des
systèmes et leurs sorties sont traitées. D’après notre expérience, huit phases ponctuent
cette étape. Les trois premières phases sont optionnelles : l’apprentissage des systèmes,
le réglage des systèmes et le test à blanc. Les deux phases suivantes sont au cœur même
de l’évaluation (le test et l’analyse des résultats) et trois suivantes sont aussi optionnelles
(l’adjudication des résultats et les retours d’expérience, la diffusion des résultats et enfin la
pérennisation et la recherche de synergie). La méthodologie se définit par l’enchaînement
et le contenu de ces phases. La reproduction de toute évaluation devrait suivre dans le
70
3.2. Phases d’évaluation
moindre détail cette méthodologie originale pour pouvoir être comparée avec objectivité,
les divergences ne menant qu’à des approximations difficilement comparables. En pratique,
c’est en tenant compte du contexte et en relativisant les résultats obtenus que deux
évaluations différentes sont comparables.
Le tableau 3.11 fait la synthèse des différentes phases d’évaluation.
1.
2.
3.
4.
5.
6.
7.
8.
Phase d’apprentissage
Phase de réglage
Phase de test à blanc
Phase de test
Phase d’analyse des résultats
Phase de retour d’expériences et d’adjudication des résultats
Phase de diffusion
Pérennisation et recherche de synergie
Table 3.11 – Les phases d’une évaluation.
Dans CESART, aucune phase d’apprentissage ni de réglage des systèmes n’était prévue. La méthodologie d’évaluation comprenait une phase de test à blanc, une phase de test
et une phase d’analyse des résultats. Cette méthodologie est difficilement reproductible
en temps que telle car les tâches étaient exploratoires.
Dans CESTA, aucune phase d’apprentissage n’était prévue. Un test à blanc a eu lieu
pour la première campagne d’évaluation et les deux campagnes ont vu des phases de test,
d’analyse des résultats et d’adjudication. De plus, une phase de réglage s’est déroulée pour
la seconde campagne.
La méthodologie CESTA est aisément reproductible : les outils, les méthodes et le
protocole sont clairement établis. Les données sont également disponibles. Toutefois, une
comparaison des systèmes évaluées a posteriori serait malvenue, car le contexte est tout
de même différent : les juges ne seraient pas les mêmes, les systèmes et leurs données
d’entraînement à une date donnée seraient aussi différentes, etc.
3.2.1
Phase d’apprentissage
La phase d’apprentissage a pour objectif d’améliorer les systèmes. Le terme issu de
l’anglais training phase est plus souvent traduit par phase d’entraînement ce qui est à
notre sens un anglicisme : un système n’est pas « entraîné » au cours de cette phase, mais
le développeur lui fait « apprendre » quelque chose par expérience en lui fournissant des
connaissances. Dans la plupart des cas, de grandes quantités de données sont utilisées, qui
couvrent plusieurs types de domaines, genre, etc. Les systèmes découvrent un ensemble
de possibilités sans faire cas d’un type de données en particulier. Cette phase est en
particulier utile aux systèmes qui utilisent des modèles statistiques de traitement de la
langue. Dans une certaine mesure, plus la taille des données est importante, plus le modèle
est performant, du fait de la rencontre d’un plus grand nombre de manières de modéliser
la langue.
Dans le cadre d’une campagne d’évaluation, force est de reconnaître que l’évaluateur
est généralement moins regardant sur la qualité des données d’apprentissage que sur celles
71
Chapitre 3 : Le déroulement d’une évaluation
des données de test. Avec la taille des données traitées 1 , il est très coûteux de valider
l’ensemble des données. De plus, le volume est tel que les erreurs sont noyées parmi
l’ensemble du corpus, dans une certaine mesure.
Les délais laissés à la phase d’apprentissage sont les plus longs car le développement
des systèmes requiert du temps (pouvant être supérieur à 6 mois). Les données sont
habituellement déposées sur un serveur FTP et les participants sont libres de télécharger
les corpus les intéressant. Dans nombre de campagnes d’évaluation, deux types de données
d’apprentissage émergent : celles qui se limitent aux données d’apprentissage du projet
d’évaluation ; celles qui se limitent à l’ensemble des données disponibles publiquement ou
non. Une restriction majeure est généralement imposée : l’utilisation des données n’est
autorisée que jusqu’à une date limite de création, correspondant au début de la sélection
des données de test (afin de ne pas superposer les données d’apprentissage et de test). Il
est aussi possible de supprimer les données de test de celles d’apprentissage, toujours pour
que les systèmes ne connaissent pas les données de test lors du démarrage de l’évaluation
et que les résultats ne soient pas biaisés.
3.2.2
Phase de réglage
3.2.2.1
Description
La phase de réglage, parfois appelée phase d’adaptation, permet aux participants d’optimiser les paramètres de leurs systèmes en utilisant des données de même type que celles
de la phase de test. Nous utilisons le terme « phase de réglage » pour désigner le terme anglais development phase qui est presque toujours traduit, à tort d’après nous, par « phase
de développement » : le risque est de confondre cette phase avec celle du réel développement informatique et technologique des systèmes. Nous préférons donc adopter le terme
de « phase de réglage ».
Au cours de cette phase, de nouvelles données sont fournies aux participants. Elles sont
similaires (c.-à-d. de même nature et de même domaine linguistique) à celles qui seront
fournies lors de la phase de test. Avec ces données, les participants règlent les paramètres
du système afin d’obtenir les meilleures performances possibles sur les données de test.
Le but recherché est d’optimiser les différents modules du système. La durée de la phase
de réglage n’est pas très longue (de l’ordre de quelques semaines) car elle nécessite peu
de travail de la part des participants et le volume de données est moindre 2 .
Plus particulièrement, la phase de réglage sert d’adaptation à un domaine spécifique,
un modèle de voix (en reconnaissance automatique de la parole), etc. Elle s’apparente
à un apprentissage sur de nouvelles données de taille plus réduite, mais spécialisées. En
effet, la taille des données n’est pas nécessairement très importante, mais elle contient
suffisamment d’éléments pour que les systèmes s’améliorent [Hamon et al., 2008c].
Tout comme pour la phase d’apprentissage, les données utilisées lors de la phase de
réglage ont une limite temporelle afin de ne pas superposer ces données avec celles de la
phase de test.
1. Dans le cadre du projet TC-STAR, la quantité de données d’apprentissage des systèmes de traduction automatique étaient supérieure à 35 millions de mots, au regard des 25 000 mots utilisés pour le test
des systèmes [Déchelotte et al., 2006].
2. Dans le cadre du projet TC-STAR, la taille des données de réglage était d’environ 20 000 mots, un
volume similaire aux données de test.
72
3.2. Phases d’évaluation
3.2.2.2
L’exemple de CESTA
En traduction automatique (par règles), l’adaptation à un domaine consiste bien souvent à un enrichissement terminologique. Dans CESTA, cette phase implique d’utiliser un
dictionnaire préexistant du domaine de la santé, d’extraire des termes du corpus représentatif fourni par les organisateurs et de les insérer dans un dictionnaire utilisateur, ou
encore d’adapter le système à partir d’un corpus parallèle.
Aucune contrainte n’était imposée quant à la procédure d’adaptation, le risque étant
par conséquent que les participants cherchent à obtenir davantage de données similaires
au corpus fourni et parviennent à se procurer les données de test elles-mêmes (par exemple
via Internet). Lorsque cela s’est produit, dans un seul cas, un accord avec les développeurs
du système a permis de revenir à une version du système non adaptée aux données de
test.
Un corpus d’adaptation a été envoyé aux participants, d’une taille de 20 000 mots. Ils
disposaient de deux semaines pour adapter leurs systèmes.
3.2.3
Phase de test à blanc
3.2.3.1
Description
La phase de test à blanc (ou dry-run en anglais) sert à valider le protocole, le format
des données et les échanges entre partenaires. Elle sert de « répétition » à la phase de test
à venir, à la différence près que le contenu des données est différent, que les résultats ne
sont pas toujours calculés entièrement (pour les mesures humaines par exemple) et qu’il
n’y a pas d’étude des résultats.
Au cours de cette phase, des données ayant un format similaire à celles du test sont
envoyées aux participants, et leur contenu importe peu. Les sorties des systèmes sont
renvoyées de la même manière que pour la phase de test. Elles sont validées à l’aide
d’outils afin de déterminer si leur format est correct. Par exemple, un système d’extraction
terminologique reçoit un corpus d’un domaine sur lequel il n’est pas préparé. Des termes
incohérents (compte tenu de la tâche) sont renvoyés par le système, mais seul le format
est validé.
En fin de phase, chaque participant reçoit une notification quant aux problèmes rencontrés. Ces vérifications valent aussi pour l’évaluateur. La durée de la phase de test à
blanc est assez variable, elle dépend souvent de la disponibilité des participants mais aussi
de la difficulté à adapter les formats.
En résumé, le test à blanc est destiné à vérifier que les participants récupèrent bien le
corpus d’évaluation, qu’ils arrivent à le lire et à le traiter, que le format des données est
correct et enfin qu’aucun problème ne survient lorsque les productions des systèmes sont
renvoyées.
Cette phase est souvent organisée de manière informelle mais elle reste rigoureuse
quant aux résultats attendus, puisque le bon déroulement de l’évaluation de test en dépend.
3.2.3.2
L’exemple de CESART
Pour construire les corpus du test à blanc, nous avons utilisé une partie du corpus du
test à blanc de la campagne CESTA. Au total, le corpus était constitué de cinq documents
73
Chapitre 3 : Le déroulement d’une évaluation
d’une taille d’environ 3 860 mots. Nous avons produit 40 termes amorces à partir du corpus
Eurovoc 1 en vérifiant manuellement leur présence dans le corpus.
La phase de test à blanc a débuté le 8 avril 2005 pour la tâche T1 et le 6 mai 2005 pour
la tâche T3. Elle a duré 3 semaines pour chaque tâche et tenait compte des obligations
respectives des participants. Quatre participants ont testé leur système pour la tâche T1,
deux participants pour la tâche T3.
Le protocole était le suivant. Pour la tâche T1, extraction de termes pour la création
de ressources terminologiques :
– ELDA envoie le jour J un corpus sur un domaine spécifique, au format de la DTD ;
– les participants envoient le jour J+2 une liste ordonnée de termes au format de la
DTD.
Pour la tâche T2, indexation contrôlée et enrichissement :
– le même corpus que celui de la tâche T1 est envoyé le jour J+4, accompagné du
thésaurus de termes. Ce thésaurus est la liste de termes et les descripteurs correspondants qui ont été envoyés par les participants lors de la tâche T1 ;
– les participants envoient au jour J+7 la liste de termes référant à chaque document
du corpus, susceptibles de l’indexer.
Pour la tâche T3, extraction de relations :
– ELDA envoie le jour J+9 le même corpus que celui de la tâche T1, une liste de
termes amorces et l’étiquetage morphosyntaxique du corpus ;
– les participants envoient le jour J+11 les triplets [terme source ; relation ; terme
cible] au format de la DTD.
D’une manière générale la campagne de test à blanc s’est bien déroulée. Il n’y a pas
eu de problème majeur dans les échanges entre les organisateurs et les participants, mis
à part quelques problèmes de construction de la DTD soulevés par des participants.
3.2.3.3
L’exemple de CESTA
La phase de test à blanc s’est déroulée de la fin du mois d’août au début du mois de
septembre 2004. Six systèmes de traduction automatique ont participé à cette campagne :
cinq pour la direction de l’anglais vers le français, un pour la direction de l’arabe vers le
français.
Le protocole était le suivant :
1. Chaque participant envoie un e-mail pour déclarer la ou les directions de traduction
qu’il souhaite traiter parmi les deux choix proposés : l’anglais vers le français, l’arabe
vers le français.
2. À une date J, le corpus de test à blanc est envoyé aux participants, dans un format
SGML et encodé en UTF-8, selon la DTD des documents sources définie par le
NIST. Un identifiant unique de système est fourni à chaque participant.
3. À la date J+7, tous les participants renvoient par e-mail leurs traductions automatiques, également au format NIST (SGML et encodé en UTF-8, selon la DTD des
documents cibles).
4. À partir de ce moment, les fichiers fournis sont vérifiés. Un retour des participants
est également attendu sur les problèmes qu’ils ont éventuellement rencontrés.
1. http ://europa.eu/eurovoc/PDF/dom_12_FR.pdf
74
3.2. Phases d’évaluation
Nous avons produit un rapport de recommandations faisant suite aux problèmes rencontrés aussi bien par les organisateurs que par les participants au test à blanc (cf. tableau 3.12).
Éviter la séquence «<» en début de segment source
Isoler les balises <SEG...> et </SEG> sur des lignes séparées du contenu
du segment
Ne pas ajouter de saut de ligne à l’intérieur d’un segment
Ne pas remplacer l’attribut sysid par system
Bien respecter l’attribut docid (ne pas transformer CESTA_0001 en
CESTA0001)
Ne pas traduire le contenu des attributs (ne pas transformer trglang="French" en trglang="Français")
Bien respecter le balancement des balises SGML (ne pas fermer la balise
ouvrante initiale <TSTSET...>par une balise fermante <SRCSET>)
Bien respecter la DTD attendue en sortie de traduction (DTD pour un
TSTSET)
Table 3.12 – Recommandations faisant suite au test à blanc CESTA.
D’une manière générale, la campagne de test à blanc s’est bien déroulée, il n’y a pas
eu de problème majeur dans les échanges entre les organisateurs et les participants. Seuls
quelques soucis de mise en forme ont été repérés et ont permis d’améliorer le déroulement
de la campagne.
3.2.4
Phase de test
3.2.4.1
Description
La phase de test est la phase majeure d’une évaluation et la dernière étape avant l’analyse des résultats. Il s’agit pour l’évaluateur d’estimer le niveau de performance atteint
par les systèmes évalués.
Dans un premier temps, les données de test sont envoyées aux participants. Ceux-ci
les traitent automatiquement via leur système. Le délai accordé pour ce traitement est
court : les systèmes ont été améliorés par l’apprentissage, puis réglés et adaptés lors des
précédentes phases, il n’y a dès lors qu’à utiliser les données comme le ferait un utilisateur
normal. Toutefois, quelques jours sont laissés aux participants afin de régler les derniers
détails (les données ne sont pas exactement les mêmes) et de leur donner suffisamment de
temps (l’évaluation des systèmes n’est pas leur seule activité !). Les données de test sont
inconnues des participants lorsqu’elles leur sont envoyées.
Les données traitées sont ensuite envoyées à l’évaluateur. Cela peut se faire par e-mail,
dans le cas de données de faible taille, ou par dépôt sur un serveur FTP. L’envoi sur CDROM, DVD-ROM ou disque dur est de moins en moins utilisé, compte tenu des avancées
technologiques pour transférer et stocker des données (mais cela peut encore se faire pour
des données volumineuses comme en multimodal).
Les données sont collectées par l’évaluateur et une notification est envoyée aux participants afin de confirmer la bonne réception des données. Puis, le format de ces données
75
Chapitre 3 : Le déroulement d’une évaluation
est validé. Cela se fait manuellement (et succinctement) ou automatiquement, cette seconde possibilité apportant une plus grande précision dans la validation. Une notification
des résultats de cette validation peut aussi être envoyée aux participants. Cette étape est
utile pour éviter toute erreur des outils d’évaluation, qui amène à de longues et fastidieuses recherches pour identifier la source du problème. L’outil de validation renvoie le
type de l’erreur et la localise parmi les données. Il peut aussi se retrouver intégré à l’outil
d’évaluation.
Après validation, les sorties des systèmes sont évaluées, si nécessaire après un reformatage pour les adapter au format utilisé par les outils d’évaluation. Deux cas se présentent :
l’utilisation de mesures automatiques ou l’utilisation de mesures humaines. Dans les deux
cas, il est préférable que les mesures se fassent le plus rapidement possible afin d’informer
les participants au plus tôt. En effet, le développement et l’amélioration des systèmes
dépendent souvent de l’émulation qu’il y a autour des résultats d’une évaluation ; obtenir
des résultats plusieurs mois après la phase de test n’est pas propice à cela : les participants
sont passés à d’autres travaux, sur d’autres projets. Cette émulation liée à la phase de
test s’essouffle facilement à cause des impératifs de chacun.
Dans le cas de jugements humains à grande échelle, il faut contacter un grand nombre
de personnes qui ne sont pas nécessairement expertes dans le ou les domaines concernés,
et faire connaître la tâche en cours partout où cela peut être pertinent. Par exemple,
pour la campagne de jugements humains sur l’espagnol du projet TC-STAR, nous avons
diffusé des annonces à la Cité Internationale Universitaire à Paris, contacté nos partenaires
Espagnols notamment en université, fait travailler le bouche-à-oreille lorsque des personnes
étaient recrutées. Dans ce genre de cas, le recrutement d’étudiants est le plus facile bien
que certains problèmes pratiques apparaissent : emploi d’étudiants étrangers en France,
accès Internet, disponibilité surtout en période d’examens, etc.
Lorsque les mesures ont été effectuées, un rapport d’évaluation est écrit et envoyé aux
participants (parfois, les résultats des mesures sont anonymisés).
3.2.4.2
L’exemple de CESART
La phase de test de la tâche T1 s’est déroulée de la manière suivante :
– Étape 1 - Extraction des candidats termes : le système d’extraction terminologique
retourne une liste ordonnée de termes, dont le respect de la DTD est vérifiée.
– Étape 2 - Appariement automatique : la première étape consiste à apparier automatiquement la sortie du système avec un thésaurus pré-existant.
– Étape 3 - Évaluation via des experts : la seconde étape consiste en une mesure
humaine, à partir du fichier renvoyé par l’appariement automatique et d’après les
critères définis au préalable. Pour CESART, seuls les 1 000 premiers termes étaient
jugés.
– Étape 4 - Calcul des scores : la dernière étape est le calcul des scores du système
à partir des jugements. La métrique adoptée lors de la campagne CESART est la
précision cumulée sur les n premiers candidats termes, qui estime les résultats du
système en fonction des scores de pertinence (cf. chapitre 5).
La phase de test de la tâche T3 s’est déroulée de la manière suivante :
– Étape 1 - Extraction des relations : le système d’extraction de relations retourne
une liste de triplets [terme source ; relation ; terme cible] respectant la DTD.
76
3.2. Phases d’évaluation
– Étape 2 - Préparation de l’évaluation : une première étape consiste à modifier le
format du fichier, afin de faciliter le travail des experts.
– Étape 3 - Évaluation via des experts : la seconde étape consiste à mettre en place
une mesure humaine, à partir du fichier envoyé lors de l’étape 2. Pour CESART,
seules les 1 000 premières relations étaient évaluées.
– Étape 4 - Calcul des scores : la dernière étape est le calcul des scores du système à
partir des jugements des experts en effectuant la moyenne des scores de pertinence
obtenus pour chaque relation.
Les résultats finaux de la campagne d’évaluation sont disponibles dans
[Timimi et Mustafa El Hadi, 2008].
3.2.4.3
L’exemple de CESTA
Les deux campagnes de test CESTA se sont déroulées de la manière suivante :
– Étape 1 - Envoi des données : le corpus est envoyé par e-mail aux participants.
– Étape 2 - Traduction des données : le système de traduction automatique retourne
les données traduites respectant la DTD.
– Étape 3 - Mesure d’évaluation automatique : les traductions des systèmes sont évaluées d’après les mesures automatiques.
– Étape 4 - Mesure d’évaluation humaine : chaque segment traduit par le système de
traduction automatique est jugé selon les critères d’adéquation et de fluidité.
– Étape 5 - Calcul des scores de l’évaluation humaine.
Une dernière étape de calcul des corrélations entre les mesures d’évaluation automatiques et humaines a eu lieu afin de méta-évaluer les mesures automatiques (cf. chapitre 5).
Les résultats de l’évaluation sont disponibles dans [Hamon et al., 2008c].
3.2.5
Phase d’analyse des résultats
Une fois les résultats calculés, il est temps d’en faire l’analyse et d’interpréter les
informations obtenues. La durée de l’analyse est très variable et dépend de la complexité
de la tâche, de la quantité de données, des mesures disponibles ou du nombre de systèmes
à analyser. Le niveau de profondeur de l’analyse est à définir très tôt et peut aller d’une
étude en surface (déduire des comportements suite à l’observation des résultats et d’après
les paramètres de l’évaluation) à une étude en profondeur (effectuer un diagnostic fin des
systèmes allant jusqu’au niveau linguistique).
Il est possible d’utiliser des outils autres que ceux servant au calcul des résultats, mais
ils ne sont pas indispensables. La plupart du temps, l’étude se fait manuellement en se
focalisant sur les parties des données évaluées ayant reçu des résultats particuliers.
Finalement, l’analyse des résultats donne lieu à un rapport d’analyse qui fait état des
points faibles et des points forts des systèmes évaluées et des conseils d’amélioration sont
prodigués.
3.2.6
Phase de retour d’expériences et d’adjudication des résultats
Quel que soit le niveau d’analyse, un rapport d’évaluation est envoyé aux participants
et contient les données de l’évaluation : les références, les résultats détaillés, voire les
77
Chapitre 3 : Le déroulement d’une évaluation
informations sur les participants anonymisées ou non. Suit alors la phase d’adjudication,
pendant laquelle les participants étudient ce rapport, comparent les analyses de l’évaluateur avec leurs propres analyses et renvoient leur point de vue à l’évaluateur. Parfois,
cette démarche s’effectue lors d’une réunion regroupant l’ensemble des partenaires (cf.
section 3.2.7), ou de manière moins formelle par des retours succincts.
La présentation des résultats révèle ici toute son importance : affichage de la validité
statistique des scores (par exemple avec un intervalle de confiance), description des résultats ou des mesures employées, manière d’afficher les scores, etc. Les résultats et les
analyses sont présentées de façon claire pour que les partenaires comprennent mieux ce
que l’évaluateur a fait durant l’évaluation, et de quelle manière. Cela aide les partenaires
à fournir plus facilement un retour à l’évaluateur.
Une adjudication a lieu sur les résultats et les données, selon que les résultats sont
déclarés corrects ou non. Quatre étapes successives forment cette adjudication :
1. Envoi du rapport d’évaluation, incluant les résultats et données ;
2. Étude du rapport par les participants et envoi de leurs commentaires à l’évaluateur ;
3. Correction des références ou des mesures d’évaluation selon les commentaires ;
4. Retour à l’étape de calcul des résultats (cf. section 3.2.4) s’il y a eu des corrections
des données.
L’adjudication terminée, les résultats sont déclarés corrects.
De plus, les participants fournissent habituellement un retour d’expérience, souvent
non formalisé mais allant de pair avec leurs commentaires. L’évaluateur recueille des
informations pertinentes quant au projet d’évaluation dans son ensemble : organisation,
analyse scientifique, moyens mis en œuvre, etc. Ainsi, les évaluations successives sont
régulièrement améliorées à l’aide de ces retours d’expériences. Par exemple, cela nous a
été particulièrement utile lors des deux campagnes CESTA en traduction automatique
suivies par les trois campagnes TC-STAR en traduction automatique de l’oral vers l’oral.
3.2.7
Phase de diffusion
Lorsque les résultats officiels sont finalisés 1 , ils sont diffusés à l’ensemble de la communauté scientifique afin de valoriser le projet et d’établir un état des lieux. Il faut toutefois
noter que la finalisation des résultats n’est pas un prérequis à toute publication. Comme
nous l’avons vu au cours des phases préliminaires, les possibilités de publication intermédiaire sont nombreuses : présentation du projet d’évaluation, description de la préparation
des données, diffusion de résultats intermédiaires, description de méthodologies, distribution de ressources, etc.
Différents aspects sont à en prendre en compte pour valoriser le projet d’évaluation :
– les listes de diffusion : elles entretiennent la réflexion autour d’une thématique et
servent à informer sur l’état d’avancement d’un projet ;
– les ateliers : ils sont souvent le moteur de la réflexion autour d’un thème précis car
ils réunissent les différents acteurs de ce thème. Chacun d’eux a l’occasion de donner
son avis, partager ses expériences, etc.
1. En pratique, la diffusion est souvent effectuée en parallèle de l’adjudication, compte tenu des délais
de publication.
78
3.2. Phases d’évaluation
– les conférences : les présentations lors de conférences ont l’avantage à la fois de faire
partager les détails d’un projet à une partie de la communauté (qu’elle soit ou non
initiée à la thématique du projet) et de découvrir d’autres méthodologies du même
thème ou proches ;
– les revues scientifiques : la diffusion à travers les revues scientifiques informe des
travaux effectués l’ensemble de la communauté scientifique de manière étendue,
tout en animant le débat autour d’une question précise ;
– la distribution de ressources : elle existe sous plusieurs formes telles que les « kits
d’évaluation » (contenant les données et outils d’évaluation, les rapports, etc.), les
technologies développées, les services déployés (sites Internet, serveurs d’évaluation),
les ressources produites, etc.
Un point important lors de la diffusion de résultats ou de ressources du projet d’évaluation concerne leur anonymisation. Il faut garder à l’esprit que les informations diffusées
sont accessibles par un nombre important d’individus ou d’institutions, et qu’elles sont
attentivement étudiées. C’est pourquoi il est nécessaire que les partenaires décident clairement, avant toute diffusion, si les données seront anonymisées, partiellement ou non, et
sous quelle forme. La crainte d’une identification des systèmes évalués est généralement
de voir certains utilisateurs déçus par les performances d’un système sur la seule base
d’une évaluation dans un contexte précis. Pourtant, cela ne saurait en aucun cas prouver
qu’il n’est pas capable d’accomplir une tâche correctement. L’anonymisation des résultats
est discutable et nous semble stérile. Mais elle est compréhensible car, sans vouloir être
réducteur, une simple évaluation ou un « benchmark » dans une revue de vulgarisation
scientifique peut provoquer de lourdes pertes sur les ventes d’une application industrielle.
Il est alors nécessaire de peser le pour et le contre d’une anonymisation des résultats. Toutefois, il faut garder à l’esprit que l’absence d’anonymat permet une meilleure lecture pour
comparer les approches des systèmes évalués. Notre sentiment est que l’aspect scientifique
de l’évaluation devrait primer : c’est à l’évaluateur de fournir le cadre de l’évaluation et
de faire comprendre au lecteur que les résultats sont obtenus dans un contexte précis.
Quant à l’anonymisation des ressources, elle est dans certains cas indispensable, pour
ne pas dire obligatoire. Prenons l’exemple d’un corpus d’e-mails contenant de la correspondance personnelle, tirés de la campagne EASY ([Vilnat et al., 2004a]) : il y a obligation
pour les producteurs de la ressource de supprimer les passages personnels, de modifier les
noms et les adresses électroniques, le tout relatif aux individus et afin de protéger leur
vie privée. C’est un travail fastidieux à construire, mais obligatoire. De même, en théorie,
pour les juges qui ont participé à des évaluations en proposant leurs jugements.
Enfin, la diffusion d’informations doit se faire avec rigueur. Il est nécessaire, par
exemple, de :
– indiquer la valeur et les intervalles de confiance des résultats : [%],[0-1],[1-5], etc. ;
– mettre un nombre significatif de décimales ;
– utiliser des mots corrects en limitant l’aspect subjectif : score plus haut plutôt que
score meilleur, score plus bas plutôt que score moins bon, etc. 1
Même si ces cas semblent triviaux, ils ont de manière évidente un impact sur la compréhension de l’évaluation et son interprétation.
1. Nous considérons ici que le jugement de la qualité se restreint à l’observation, et non à un quelconque
jugement de préférence.
79
Chapitre 3 : Le déroulement d’une évaluation
3.2.8
Niveau supérieur : pérennisation et recherche de synergie
La pérennisation d’évaluations et la recherche de synergie entre évaluations forment
une étape complémentaire d’un projet d’évaluation. Elle est presque indispensable lors de
l’évaluation d’un système et vivement conseillée lors d’une campagne d’évaluation.
Un des objectifs du programme Technolangue, et en particulier du projet EVALDA,
est de pérenniser les produits et de créer des synergies entre les différentes campagnes
d’évaluation du projet. Au-delà des ressources linguistiques, il est possible d’étendre cette
synergie aux méthodologies, aux outils d’évaluation, voire aux applications technologiques.
L’intérêt est double : la réutilisation de ressources et d’outils réduit les coûts de développement. Cela les rend plus robustes car ils sont utilisés et vérifiés dans différents
cadres, par différentes personnes, etc.
Avec l’ELDA, nous avons observé des synergies entre plusieurs projets d’évaluation,
au-delà des ressources humaines (sept campagnes d’évaluation avaient cours en même
temps à la même période). De fait, nous avons observé la pérennisation des ressources
utilisées sur plusieurs domaines différents [Choukri, 2005]. Par exemple, le corpus médical
de la campagne EQueR (question-réponse) a été réutilisé dans la campagne CESART
(extraction terminologique), dont une partie a été à nouveau réutilisée dans le cadre de la
campagne CESTA (traduction automatique). L’interface d’évaluation humaine (cf. chapitre 7) que nous avons développée pour les campagnes CESTA a été adaptée et réutilisée
pour la campagne EVASy (synthèse vocale) ainsi que pour le projet européen TC-STAR
et trois des technologies évaluées, représentant un total de six campagnes différentes. Les
outils d’évaluation et la méthodologie de la campagne CESTA ont également été partiellement repris dans le projet TC-STAR.
3.3
Conclusion
À travers ce chapitre, nous avons décrit le déroulement d’une évaluation (cf. figure 3.8).
Nous avons identifié huit phases pour l’organisation et la préparation d’une évaluation :
– Planifier l’évaluation ;
– Définir la tâche de contrôle et ses objectifs ;
– Cibler les participants et les acteurs ;
– Établir des critères de qualité ;
– Définir des mesures de la qualité ;
– Constituer les ressources ;
– Spécifier et organiser les interactions entre acteurs ;
– Préparer l’évaluation ;
L’analyse de ces phases nous donne un aperçu des différentes possibilités méthodologiques d’une évaluation.
Nous avons également identifié huit phases d’évaluation :
– la phase d’apprentissage ;
– la phase de réglage ;
– la phase de test à blanc ;
– la phase de test ;
– la phase d’analyse des résultats ;
– la phase de retour d’expériences et d’adjudication des résultats ;
80
3.3. Conclusion
– la phase de diffusion ;
– la phase de pérennisation et de recherche de synergie.
En comparant ces phases avec l’étude de ELSE (cf. chapitre 2) à ce sujet, nous notons
plusieurs différences. Il y a tout d’abord moins de phases dans ELSE : quatre au lieu de
huit. Nous avons sciemment choisi d’ignorer l’étude d’impact qui à notre sens se fait à un
niveau plus haut et ne fait pas réellement partie d’une évaluation pour un ou plusieurs
systèmes.
Quatre phases supplémentaires apparaissent : l’analyse des résultats, l’adjudication des
résultats, la diffusion et la pérennisation et synergie (que l’on peut rapprocher de l’étude
d’impact de ELSE). À cela s’ajoute une modification du sens de la phase de test à blanc.
Ainsi, ELSE appelle phase d’entraînement ce que nous nommons phase d’apprentissage
(des données). La phase d’apprentissage de ELSE (notre phase de réglage) est fusionnée
avec la phase de test à blanc. Elles nous semblent pourtant indépendantes : l’une sert à
adapter les systèmes, l’autre à tester le protocole. Nous décomposons également la phase
de test que ELSE considère comme une seule et même tâche : nous considérons l’analyse
des résultats, l’adjudication des résultats et leur diffusion comme des tâches à part entière.
Enfin, la phase d’adaptation n’est pas considérée dans ELSE.
Nous nous distinguons d’ELSE par notre souhait de mettre à disposition de la communauté un modus operandi pratique pour voir clairement les étapes et bonnes démarches
d’une évaluation réussie.
Il est possible d’éviter des étapes lorsque l’évaluation est conduite en interne. Par
exemple, la phase de test à blanc est liée au développement du système puisque l’évaluateur/développeur connaît le système et les formats utilisés. Par contre, conduite en
externe, l’évaluation d’un système isolé conserve l’ensemble des étapes d’une campagne
d’évaluation.
L’étude du déroulement d’une évaluation met en lumière les attentes d’une architecture
d’évaluation, à savoir :
– le respect des différentes phases de préparation et d’évaluation ;
– la mise en option des phases qui ne sont pas obligatoires ;
– la mise en place des caractéristiques (optionnelles ou non) des phases ;
– les interconnexions entre les différentes actions de l’évaluateur.
81
Chapitre 3 : Le déroulement d’une évaluation
Figure 3.8 – Phases préliminaires et phases d’évaluation. Les flèches pleines indiquent
les liens obligatoires, les flèches en pointillés les liens optionnels. De même, plus les boîtes
sont en pointillés, plus les phases sont optionnelles.
82
Chapitre 4
Les ressources linguistiques pour
l’évaluation
Il n’est pas envisageable de traiter du sujet de l’évaluation en traitement automatique
des langues sans aborder l’aspect des ressources linguistiques. Elles sont un des éléments
de base indispensable à toute évaluation, servant à la fois au développement des systèmes
et à leur évaluation. Même si l’emploi de ressources linguistiques n’est pas une finalité en
soi, leur choix et leur qualité sont cruciaux pour le bon déroulement d’une évaluation.
Nous l’avons vu dans les chapitres précédents, les ressources linguistiques occupent
une place importante dans l’organisation d’une évaluation : l’identification, la production,
le formatage ou la validation des données sont des étapes essentielles consommant une
grande partie du budget d’un projet d’évaluation. C’est pour cela que nous souhaitons
en comprendre les caractéristiques et les mécanismes d’utilisation avant de considérer
l’évaluation des systèmes.
De plus, le développement d’une architecture pour l’évaluation mérite d’en prendre
en compte tous les aspects. Les ressources linguistiques font partie intégrante d’une telle
architecture. Par ailleurs, la production ou la validation des données sont des composants
potentiels de l’architecture qui agissent comme des modules parallèles.
En premier lieu, nous précisons ce qu’est une ressource linguistique et quelle en est
notre définition. Nous précisons les limites de notre étude aux données textuelles essentiellement. L’objectif est l’intégration des contraintes associées aux ressources linguistiques
dans notre architecture d’évaluation. Nous effectuons un rapide état des lieux des systèmes possibles liés aux ressources linguistiques, puis nous explicitons les moyens de les
acquérir. Ensuite, nous abordons les aspects de standardisation des ressources et de validation de leur qualité. Ce sont des étapes indispensables dans notre contexte. Finalement,
nous revenons sur la place des ressources dans l’évaluation, leur pérennité et leur impact
sur les résultats.
4.1
Définition
Les ressources linguistiques représentent un ensemble de données relatives à la langue
et lisibles dans un format électronique. Dans notre contexte, elles sont utilisées principa83
Chapitre 4 : Les ressources linguistiques pour l’évaluation
lement pour le développement de systèmes et leur évaluation 1 .
4.1.1
Le développement de systèmes
Les systèmes de traitement automatique de la langue exploitent des ressources linguistiques afin d’accroître leurs performances en établissant des modèles de langage, des
règles, etc. Le champ d’utilisation des systèmes est étroitement lié à leur qualité. Les intérêts de leur utilisation sont multiples : extension du domaine des systèmes, amélioration
des performances, rapidité d’exécution, etc.
De nombreuses ressources sont ainsi utilisées pour le développement de systèmes :
corpus oraux, écrits, lexiques et dictionnaires, corpus bilingues et multilingues, corpus
parallèles, thésaurus, grammaires, etc. Dans un même temps, les systèmes développés
peuvent avoir un effet sur des ressources linguistiques lorsqu’ils en produisent, modifient
ou annotent.
La plupart des ressources sont utilisables par plusieurs technologies différentes. De
la même manière, la plupart des technologies se servent de plusieurs types de ressources linguistiques comme spécifié dans le Basic Language Resource Kit 2 (BLARK)
[Krauwer, 2003] comme nous le présentons dans le tableau 4.1 à travers quelques exemples
autour des ressources textuelles :
Technologie
Correction orthographique
Traduction automatique
Extraction terminologique
Extraction d’information
Résumé automatique
Indexation de documents
Recherche d’information
Reconnaissance de la parole
Synthèse
Monolingue
Lex. Term. Corp. Corp.
oral
écrit
X
X
X
X
X
X
X
X
X
X
X
X
Multilingue
Lex. Term. Corp. Corp.
oral
écrit
X
X
X
X
X
X
X
X
X
Table 4.1 – Aperçu des ressources utilisées en fonction des technologies (Lex. : Lexique ;
Term. : Terminologie ; Corp. : Corpus).
Par ailleurs, BLARK fournit un aperçu des ressources linguistiques utilisées ou nécessaires pour des modules de chaque technologie.
4.1.2
Évaluation de systèmes
Lorsqu’un système de traitement automatique des langues est évalué, des ressources
linguistiques sont nécessaires lors de la comparaison du système à une référence, ou de
1. Dans un contexte plus linguistique, par exemple, les ressources linguistiques peuvent être utilisées
pour une étude exclusive de la langue.
2. http ://www.elda.org/article26.html
84
4.2. Identification, production et négociation
l’observation par des juges. Tous les domaines du traitement automatique des langues
sont concernés : recherche d’information, traduction automatique, analyse terminologique,
analyse syntaxique, etc. C’est avant tout ici que se porte notre intérêt en particulier pour
les données touchant aux corpus textuels.
Lors d’une évaluation, les cas d’utilisation d’une ressource linguistique sont multiples
et comme nous l’avons présenté au chapitre 3 nous considérons :
– les données d’apprentissage ;
– les données de réglage ;
– les données de test ;
– les références pour les évaluations de test.
Chaque type de ressource est ainsi produit dans un but précis qui le différencie d’une
autre ressource.
4.2
Identification, production et négociation
Utiliser des ressources linguistiques signifie qu’il faut les acquérir. Nous distinguons
trois grandes étapes avant d’aboutir à une ressource utilisable : l’identification, la production et la validation des données. À cela, s’ajoute une étape de négociation des
droits d’utilisation ou de distribution. L’étude que nous fournissons dans cette section
repose avant tout sur l’expérience acquise au sein d’ELDA/ELRA, et de ses activités autour des ressources linguistiques. Elle est tirée en partie de [Arranz et al., 2007,
Arranz et Choukri, 2010].
4.2.1
Identification
L’acquisition de ressources linguistiques commence par une identification de l’existant
afin de réduire les efforts de production. L’objectif est de réutiliser des données déjà disponibles au sein de la communauté. En effet, dans le cadre d’une évaluation, des données
existantes sont potentiellement recyclables, pour une tâche différente ou dans une même
tâche, à condition qu’elles soient inconnues du système évalué. Par exemple, un corpus
parallèle bilingue d’apprentissage utilisé en traduction automatique est susceptible d’être
réutilisé pour l’évaluation de systèmes d’alignement ou pour l’évaluation d’un système de
traduction automatique, à condition que ce corpus n’ait pas déjà servi pour son apprentissage.
Les informations caractérisant les ressources identifiées sont de première importance
car elles déterminent leur cadre d’utilisation, en particulier lors d’une évaluation. Il faut
en premier lieu considérer le type de ressource, mais aussi des informations essentielles
telles que la taille, le domaine, le type d’annotations (le cas échéant), ou le format. Une
description succincte et un bref échantillon donnent déjà une idée d’une potentielle utilisation.
Par ailleurs, la relation entre évaluation et ressource linguistique peut aller dans les
deux sens : chercher à identifier la ressource adéquate pour une évaluation donnée, ou
bien adapter l’évaluation à une ressource disponible. En effet, l’évaluateur a tendance à
définir la tâche de contrôle en premier lieu, puis à chercher une ressource pour satisfaire
cette tâche. Par contre, lorsqu’un corpus est déjà disponible et proche du besoin de l’évaluateur, il faut considérer la possibilité de modifier légèrement la tâche. Bien souvent,
85
Chapitre 4 : Les ressources linguistiques pour l’évaluation
les ressources se trouvent adaptées au contexte de l’évaluation, avant tout au niveau du
format mais aussi par le biais d’annotations ou de modifications linguistiques (nettoyage,
enrichissement, etc.)
Par ses efforts d’identification de ressources linguistiques, ELRA a su enrichir son
propre catalogue de ressources 1 , mais aussi son « Catalogue Universel » 2 qui a pour but
de recenser l’ensemble des ressources linguistiques identifiées dans le monde. En effet,
il faut garder à l’esprit qu’une identification correcte ne se fait pas sans une recherche
constante des ressources susceptibles d’être pertinentes. Concrètement, un certain nombre
de méthodes d’identification sont pratiquées, entre autres à ELRA [Arranz et al., 2007] :
– assurer une veille des listes de diffusion (par exemple les listes LN, Linguist ou
Corpora) ;
– engager des experts dont la mission est d’identifier des ressources linguistiques ;
– coopérer avec des institutions qui produisent des ressources linguistiques ;
– participer à des projets de production de ressources linguistiques ;
– développer une expertise autour de programmes de recherche ou de « réseaux »
(comme par exemple le réseau d’excellence META-NET 3 ) ;
– participer à des évènements (conférences, ateliers, etc.) ;
– effectuer des recherches dans les publications et autres documentations ;
– pratiquer le bouche-à-oreille.
L’évaluateur ne se limite pas à ces activités et c’est aussi via des recherches Internet
que l’identification de ressources se fait. Se référer à des agences de distribution 4 (ou des
« agences d’identification » dans le cadre du Catalogue Universel) évite une charge de
travail conséquente.
4.2.2
Production
L’étape de production de données est aussi importante, sinon plus, que celle d’identification. Le renouvellement des ressources linguistiques et leur extension à d’autres domaines la rendent indispensable.
Concrètement, l’étape de production de données est longue et fastidieuse et prend une
grande part de l’effort lié à une évaluation, notamment lorsqu’il s’agit d’une campagne
d’évaluation où la réutilisation de données est moins fréquente. La durée de la production
dépend de la quantité de données à produire, du type de données, du type d’annotations
sur les ressources d’origine (les « données brutes »), ou encore de la provenance des
données. Nous faisons par exemple la distinction entre un corpus de plusieurs millions
de mots et un corpus de quelques milliers de mots, entre un corpus audio et un corpus
textuel, entre un corpus brut reformaté et un corpus annoté, entre un corpus issu de pages
Internet formatées correctement et un corpus issu de documents PDF. Ces exemples,
souvent extrêmes, montrent qu’il faut prendre en compte de nombreux paramètres pour
estimer la durée de production d’un corpus.
La plupart des actions de production sont communes aux différents types de ressources : gestion et coordination du projet de production, définition des formats de don1. http ://catalog.elra.info
2. http ://universal.elra.info
3. A Network of Excellence forging the Multilingual Europe Technology Alliance, http ://www.metanet.eu
4. ELRA, LDC, CCC, GSK, etc.
86
4.2. Identification, production et négociation
nées (incluant ceux des annotations) et leur spécifications, collecte des données brutes,
formatage des données, recrutement des annotateurs, annotations, validation, compilation, documentation.
La coordination d’un projet de production de ressources linguistiques est en relation
étroite avec l’ensemble des sections suivantes, allant des spécifications à la documentation
des données produites.
4.2.2.1
Spécification
Il est possible de classer les ressources linguistiques dans de nombreuses catégories
(par exemple dans le cas de l’utilisation de corpus textuels), leurs critères de définition
pouvant se réduire à :
– ses objectifs (entraînement, développement, évaluation, analyse, etc.) ;
– son contexte (domaine, langue, tâche, etc.) ;
– sa structure (monolingue, multilingue, parallèle, aligné, etc.) ;
– sa taille (en mots, phrases, documents, heures etc.) ;
– son format (brut, annoté, etc.) ;
– son origine (Web, transcriptions, journalistique, etc.).
La spécification d’une ressource linguistique passe par une étude préalable de son utilisation finale. Cela signifie que les données brutes sont acquises de manière à se rapprocher
le plus possible des données souhaitées, et de manière à coller au cadre de la tâche de
contrôle. Par exemple, un corpus utilisé pour l’évaluation de systèmes de question-réponse
sur des documents du domaine journalistique peut contenir des erreurs orthographiques :
la tâche de contrôle spécifie la correction du corpus avant de le fournir aux systèmes
ou, au contraire, laisse l’adaptation du système à ces conditions de manière plus réaliste.
Quelle que ce soit son utilisation finale, ce genre de spécification doit être convenu avant
le démarrage de la production d’une ressource linguistique.
En 1996, un des groupes de travail du projet EAGLES (TCWG - Text Corpora Working
Group) a eu pour but d’établir des recommandations sur la typologie des corpus textuels.
Certaines caractéristiques ont été établies avec des valeurs par défaut (le corpus devenant
spécialisé lorsque ces valeurs par défaut sont modifiées). Ces caractéristiques peuvent être
étendues à tout type de ressource linguistique :
– Sa taille : par défaut, elle est importante, en terme de mots. Elle doit par ailleurs
refléter la difficulté à établir ce corpus. D’une manière pragmatique, la taille d’un
corpus textuel utilisé pour un traitement automatique dépend de son utilisation,
mais aussi du domaine et des objectifs visés. Par exemple, un corpus d’un domaine
spécialisé de petite taille sera généralement plus pertinent qu’un corpus d’un domaine général volumineux pour de l’extraction terminologique.
– Sa qualité : par défaut, elle est authentique. Le langage employé est celui d’une
communication ordinaire, sans aucune circonstance artificielle. La frontière est complexe à identifier, toujours est-il qu’une quelconque intervention linguistique doit
être notifiée. De plus, un corpus imparfait ne doit pas être négligé, dès lors que ses
imperfections sont connues et prises en compte lors de l’interprétation des résultats.
– Sa simplicité : par défaut, il s’agit d’un texte brut. Concrètement, l’emploi du jeu de
caractères ASCII étendu ANSI est considéré comme valeur par défaut. Le critère de
simplicité a évolué depuis EAGLES, et s’est « complexifié » par la même occasion.
87
Chapitre 4 : Les ressources linguistiques pour l’évaluation
Il est dorénavant coutume d’employer des format balisés (SGML, XML, etc.) et le
jeu de caractères UTF-8, qui autorise l’emploi de caractères non latins.
– Sa documentation : par défaut, le corpus est documenté. Cela concerne les détails
sur les composants d’un corpus. Cette documentation est, de manière représentative,
fournie par la DTD des formats SGML ou XML qui procurent de manière séparée
du corpus les informations permettant de comprendre sa structure. Cela permet
aussi de séparer les données brutes de leurs annotations.
Dans le cadre de travaux d’évaluation de technologies, il est possible de distinguer de
façon simplifiée deux grandes catégories de ressources linguistiques. Certaines d’entre elles
sont utilisés pour l’apprentissage de systèmes et d’autres pour tester leurs fonctionnalités
post-développement dans un cadre d’évaluation clairement défini. La fonction principale
d’une ressource d’apprentissage est de présenter le maximum de possibilités linguistiques
(liées au contexte de l’évaluation) afin que le système s’adapte à un maximum de cas de
figure. La plupart des ressources linguistiques sont utilisées dans un but d’apprentissage
à partir de modèles probabilistes ou statistiques afin de développer des systèmes. À partir de calculs plus ou moins complexes, des probabilités sont déduites pour reproduire
des modèles de langues. En théorie, plus la taille des ressources utilisées est importante
meilleures sont les performances obtenues. A contrario, leur taille minimale est difficile à
déterminer puisqu’elle dépend le plus souvent de la tâche de contrôle et de sa complexité.
4.2.2.2
Collecte
La collecte des ressources linguistiques s’effectue de diverses manières et les moyens de
mise en œuvre sont multiples. Par exemple, l’enregistrement audio requiert des moyens
plus importants que la collecte de documents textuels. Le matériel d’enregistrement audio
peut-être composé d’une carte d’acquisition et du logiciel correspondant ou d’un microphone, matériel relativement coûteux. À l’inverse, la collecte de documents textuels est
souvent menée à partir de simples scripts collectant, puis formatant les données.
Certaines données sont collectées directement via Internet, en « aspirant » des pages
Web. Des opérations de sélection d’informations pertinentes sont conduites, plus ou moins
aisément du seul fait de l’aspect chaotique des structures HTML : chaque site possède sa
propre organisation, qui peut être différente pour chaque page du site. L’objectif est de
trouver un point commun à toutes les pages HTML, afin de rentabiliser le développement
d’un script spécifique (le « nettoyage » manuel est rarement envisageable). La plupart
du temps, lorsque le volume de données est suffisamment important pour envisager des
pertes, il est possible de restreindre la sélection des données.
D’autres données sont directement accessibles auprès d’un fournisseur ayant son propre
format. C’est par exemple le cas du corpus Le Monde 1 , les articles du journal étant
distribués (à travers ELRA) sous un format propriétaire.
Enfin, une troisième possibilité est la collecte de ressources linguistiques directement
auprès d’utilisateurs. Les moyens mis en œuvre sont alors plus conséquents, car ils nécessitent la mise en place d’un recrutement, parfois rémunéré, le développement d’outils de
collecte, et la gestion de toute une phase de collecte généralement sur plusieurs semaines.
C’est par exemple le cas dans [Fairon et al., 2006] où une collecte massive de SMS a eu
lieu en Belgique, permettant ainsi de recueillir quelques 30 000 SMS.
1. http ://catalog.elra.info/product_info.php ?products_id=438
88
4.2. Identification, production et négociation
Dans le projet TC-STAR [Van den Heuvel et al., 2006], des données audio et textuelles
ont été recueillies en utilisant ces trois méthodes de collecte. Les données audio pour
l’entrée des systèmes de reconnaissance vocale, à savoir les discours des députés européens,
étaient disponibles directement via le site Internet du Parlement Européen, sous forme de
fichier WAV. Les données audio provenant des interprètes (correspondant à la sortie des
systèmes de synthèse) étaient recueillies sur place par l’équipe de l’Université de Aachen
à l’aide de microphones. Enfin, nous avons collecté les données textuelles brutes, pour les
systèmes de traduction automatique, à partir du site Internet du Parlement Européen 1 .
Les discours recueillis devaient correspondre aux discours oraux déjà en notre possession.
Pour ce faire, nous avons téléchargé les pages HTML du Parlement Européen. Chaque
page contient, en plus des horaires et description des sujets débattus, une session plénière
avec pour chaque orateur différentes informations dont son discours transcrit et reformulé,
dans la langue originale de l’orateur. Puisque nous n’avions besoin que d’environ 25 000
mots en espagnol et en anglais, nous avons choisi de collecter manuellement les discours
dans les deux langues. Cela a pris tout au plus une heure de travail. Puis, nous avons
appliqué des scripts sur ces données brutes afin d’obtenir un corpus pré-formaté.
4.2.2.3
Formatage
Les données brutes collectées, il est ensuite nécessaire de les mettre au format spécifié
par l’évaluateur. Il s’agit par exemple, pour des données textuelles, d’appliquer un balisage
XML ou SGML conforme aux spécifications. Afin d’éviter toute erreur de manipulation,
cette étape se fait en général automatiquement. Toutefois un « nettoyage » des données
peut nécessiter une intervention manuelle lorsque les modifications sont trop complexes
pour qu’un outil puisse les faire automatiquement.
Dans le projet TC-STAR, les données pour l’évaluation des systèmes de traduction
automatique ont été formatées d’après les spécifications du NIST [NIST, 2003], un format
SGML qui décompose le texte en documents, eux-mêmes décomposés en phrases. Le
passage du format brut au format NIST n’est pas compliqué, mais il a tout de même fallu
une vérification manuelle, entre autres pour la séparation des phrases, des données brutes
contenant des approximations (comme des sauts de ligne mal placés). De plus, les fichiers
devant être encodés en UTF-8, une conversion et une validation de l’encodage ont été
effectuées.
L’exemple de TC-STAR semble simple mais ce n’est pas toujours le cas, notamment
lorsque la quantité de données est plus grande. Nous en avons fait l’expérience dans le
cadre du projet CESART, pour lequel un corpus de plusieurs millions de mots devait être
produit. Tiré d’un site Internet, le corpus contenait de nombreux problèmes d’encodage
de caractères, un formatage aléatoire des données brutes (extraites de pages HTML), la
présence de textes non pertinents (les menus des pages) ou mal formaté (les tableaux),
ou la mauvaise orthographe de certains mots (ce qui était gênant étant donné la tâche de
contrôle). Une phase de nettoyage automatique, puis manuel des données a été nécessaire.
Celle-ci a duré plusieurs semaines, montrant par ailleurs le coût énorme que représente le
nettoyage d’un tel corpus.
1. http ://www.europarl.europa.eu
89
Chapitre 4 : Les ressources linguistiques pour l’évaluation
4.2.2.4
Annotation
Passées les phases de collecte et de formatage des données, il arrive que ces dernières
soient « annotées », à savoir que des méta-données soient manuellement ajoutées aux
données. L’ajout se fait à partir de spécifications définies à l’avance afin de faciliter le
travail des annotateurs. Nous considérons que l’annotation est l’action de modifier les
données formatées. L’annotation se rapporte autant à l’ajout d’un étiquetage, par exemple
morphosyntaxique, sur les données originales qu’à la traduction du texte dans une autre
langue. Dans une moindre mesure, il est aussi possible de considérer les jugements humains
sur des sorties des systèmes comme une annotation.
Ces annotateurs sont recrutés afin d’annoter les données formatées, ils sont experts
ou non selon la tâche. Le recrutement n’est pas toujours chose facile, et le suivi ne l’est
pas moins. Il faut tout d’abord réussir à contacter des experts compétents pour la tâche,
qui sont rares ou qui ne sont pas disponibles. Cette phase peut se révéler assez longue et
nécessite parfois de nombreux contacts et entretiens.
4.2.2.5
Compilation et documentation
Une fois les données annotées et/ou mise au format final d’utilisation, il ne reste plus
qu’à rassembler les données et à les compiler, puis à décrire ces données et leur format dans
une documentation. Cela semble assez fastidieux, mais cette étape est indispensable non
seulement parce que les données sont susceptibles d’être réutilisées par la suite mais aussi
parce que le collecteur/producteur de données n’est pas forcément l’évaluateur. Parfois,
les deux phases de production et d’évaluation sont trop décorrélées dans le temps, ce
qui augmente le risque d’erreur dû à l’oubli de certains aspects des données comme leur
formatage, leur structure, etc.
4.2.3
Négociation
La disponibilité ou la productibilité des ressources linguistiques ne signifie en aucun
cas qu’elles sont utilisables, ou réutilisables, à souhait. Pour ce faire, des démarches sont
forcément à entreprendre. Leur durée et leur complexité est très variable. Elles dépendent
à la fois des données (coût, facilité d’accès, etc.), du fournisseur, du client et/ou du
négociateur des ressources lorsqu’il est différent.
L’évaluateur doit penser aux aspects contractuels d’une ressource linguistique. Cela
influe sur la planification du projet, par rapport au temps d’obtention des données et à
leur utilisation. Une ressource est censée n’être utilisable que si les droits de distribution
sont signés 1 .
Plusieurs aspects contractuels entrent en jeu : l’utilisation de données, leur distribution à des tiers et leur modification. Qu’elles soient au format brut ou dans un format
propriétaire, les données « appartiennent » à une ou plusieurs institution et elle(s) seule(s)
décide(nt) de l’accord d’utilisation et de distribution, même si ces données sont des pages
Internet. La plupart du temps, un processus assez long est nécessaire pour finaliser cet
accord. Face au coût parfois important de leur production, les propriétaires de données
ne veulent bien souvent les fournir qu’à prix d’or. Même une utilisation dans un cadre
dit « libre » a ses limites et ses contraintes. Par exemple, le site Internet du Parlement
1. Auxquels il faudrait ajouter la négociation des droits de distribution d’un package futur.
90
4.3. Validation
Européen qui laisse à disposition « librement » le contenu de ses pages précise que leur
utilisation est limitée, entre autres stipulations, à des fins non commerciales et moyennant
mention de la source 1 .
Que l’on considère un producteur de données (modification), un évaluateur (distribution) ou un participant à une évaluation (utilisation), il est soumis à des contraintes de
type juridique. Dans le meilleur des cas, les aspects contractuels sont déjà clairement définis et, après un premier contact, un contrat est signé et les données envoyées. Parfois, des
contraintes plus importantes nécessitent de réelles négociations (telles que des contraintes
financières, de propriété, etc.).
4.3
Validation
La qualité d’une ressource linguistique est un élément essentiel à retenir. Il est utilisé
par la suite et les résultats obtenus par les systèmes dépendent de son état. La question
de la qualité se pose aussi lorsque des informations sont perdues ou altérées, et lorsque
l’on vérifie la qualité de l’encodage et le format des données.
La validation des ressources linguistiques s’établit autour de trois axes majeurs : la
validation de la documentation, la validation formelle et la validation du contenu linguistique 2 . Mis à part quelques exceptions comme la validation du format, les validations se
font manuellement afin d’éviter tout risque d’erreur.
La validation de la documentation vérifie la conformité des documents fournis pour une
ressource donnée. Le contenu des spécifications de production est vérifié dans un second
temps. Les principales recommandations imposent qu’une documentation soit :
– claire et suffisante pour permettre l’utilisation de la ressource ;
– en anglais au minimum ;
– au minimum la description du copyright, de la personne à contacter, du formats
des fichiers et de l’encodage (comprenant les conventions pour nommer ces fichiers),
taille de la ressource, langues utilisées, domaine, technologie visée, ainsi que les
informations caractéristiques du domaine (la documentation d’un corpus pour la
traduction automatique n’est pas nécessairement la même que pour la recherche
d’information).
La validation formelle vérifie la facilité d’utilisation de la ressource par rapport à son
format et sa structure. Elle examine :
– l’accès à l’ensemble des données (les fichiers peuvent-ils s’ouvrir ?) ;
– l’absence de virus informatiques ;
– le format et l’encodage des fichiers par leur conformité avec la documentation et les
spécifications ;
– la taille du corpus, qui doit correspondre à la documentation ;
– la justesse des structures ;
– l’intégrité des données ;
– la validité d’un point de vue légal.
La validation du contenu mesure la fiabilité des données linguistiques brutes. Cette
validation se fait la plupart du temps sur un échantillon le plus représentatif possible de
1. http ://www.europarl.europa.eu/tools/disclaimer/default_fr.htm#copyright
2. La sous-section « Standards » des pages du site Internet d’ELRA (http ://www.elra.info dédiées à la
validation présentent notamment les standards à suivre pour les ressources écrites [Burnard et al., 1998].
91
Chapitre 4 : Les ressources linguistiques pour l’évaluation
la ressource. Elle dépend du type de ressource. Les vérifications portent sur :
– le balisage et la structure des données ;
– l’information morphologique ;
– l’information syntaxique ;
– l’information sémantique.
Des critères spécifiques sont définis dans un guide de validation. Chaque critère est
habituellement lié à un score qui synthétise les informations collectées manuellement par
un expert, le validateur.
Lorsque toutes les validations sont terminées, un rapport de validation est rédigé et
inclus à la compilation de la ressource.
4.4
Coût des ressources
Comme nous l’avons vu précédemment, de nombreux paramètres sont à prendre en
compte lors de la production ou de l’identification de ressources linguistiques. Chacun
des paramètres a un impact sur le coût d’une ressource. Il s’agit, dans certains cas, des
données brutes en elles-mêmes, qui peuvent être acquises auprès de la source. Mais cela
peut aussi être le coût de collecte, comme par exemple lors de collecte de données auprès
d’utilisateurs et la mise en place des instruments de collecte.
Ensuite, il faut prendre en considération le coût de modification des données : il s’agit
avant tout des annotations, mais aussi de l’effort lié au formatage des données qui peut
s’avérer relativement long. La gestion de l’ensemble a également un coût, car toutes ces
étapes ne peuvent s’effectuer sans un minimum d’organisation et de coordination, de
même que la compilation des données et leur documentation, qui sont généralement très
coûteuses. Enfin, l’impact de la validation n’est pas non plus négligeable : même si elle
ne fait office que de « vérification », elle nécessite une organisation propre et des moyens
particuliers qui accroissent le coût général de la production des données.
4.5
Standardisation
À travers la standardisation des ressources linguistiques, c’est leur utilisation par des
systèmes ou leur réutilisation dans d’autres évaluations qui sont prises en compte. Cette
standardisation est d’autant plus importante pour une campagne d’évaluation car les
systèmes utilisent de plus en plus de données dans un même format. Cet effort n’est pas
nouveau : l’action GRACE [Adda et al., 1999], par exemple, a su définir un référentiel
commun aux analyseurs morpho-syntaxiques.
D’autre part, la standardisation des ressources est utile à une architecture d’évaluation
générique. La généralisation à un format unique pour une ressource donnée permet à
l’ensemble des systèmes de s’y rattacher et de s’intégrer à l’architecture. À l’inverse, une
multitude de formats implique d’avoir autant d’outils de transformation et de prendre en
compte le plus de formats possibles. Un exemple sur les corpus textuels est disponible en
annexe D.
92
4.6. Impact des ressources sur l’évaluation
4.6
Impact des ressources sur l’évaluation
Les ressources linguistiques sont un des points centraux du traitement automatique
des langues et son évaluation en dépend. Cela affecte autant le niveau méthodologique de
ses évaluations que l’analyse et l’interprétation des résultats.
4.6.1
Impact méthodologique
Les ressources ont un impact sur la méthodologie d’un projet d’évaluation. Selon celles
qui sont disponibles et leurs caractéristiques, l’évaluation n’est pas agencée de la même
manière. Par exemple pour la campagne CESART, c’est la disponibilité d’un corpus de la
santé qui a fait que la campagne s’est déroulée en partie sur ce domaine. Mais auparavant,
il a fallu confirmer que les systèmes d’extraction terminologique étaient à même de traiter
ce type de données ou qu’ils s’y adapteraient.
4.6.2
Impact de la qualité
La qualité des ressources utilisées lors d’une évaluation est variable et dépend de
plusieurs facteurs : la manière de les produire, qui les a produites, leur validation, etc.
Par exemple, dans PASSAGE, les annotations manuelles en constituants et en relations
pour créer le corpus de référence sont validées par consentement mutuel des annotateurs.
Des accords inter-annotateurs ont été calculés afin de déterminer la cohérence entre les
annotateurs. C’est l’accord entre les annotateurs et le seuil que nous nous sommes fixé
qui détermine si les annotations sont valides ou non. Cette qualité des ressources va
avoir tendance à affecter les résultats d’une évaluation. Les systèmes étant comparés aux
références, plus la qualité sera haute, plus les résultats seront corrects.
Pourtant, nous présentons dans la section suivante un contre-exemple de validation
qui n’impacte pas les résultats de l’évaluation. Cet exemple, pris dans le cadre du projet
TC-STAR, a tout de même le mérite de présenter une méthodologie de validation de
ressources dans un contexte d’évaluation.
4.6.3
(Contre)-exemple en traduction automatique
En traduction automatique, les scores des métriques automatiques utilisées pour mesurer les performances dépendent fortement des traductions de référence. Nous souhaitons
déterminer à quel point les scores calculés avec une référence de mauvaise qualité divergent
de ceux calculés avec une référence de meilleure qualité. Après avoir défini notre méthode
de validation d’une traduction humaine (utilisée comme référence), nous étudions l’impact
de la qualité des références sur les évaluations automatiques du projet.
4.6.3.1
Contexte
Nous étudions dans cette section les nombreuses validations des traductions de référence qui ont été produites pour les deuxième et troisième campagnes d’évaluation du
projet TC-STAR. La technologie évaluée est la traduction automatique de la parole. Pour
chacune des deux campagnes, trois directions de traduction étaient utilisées : de l’anglais vers l’espagnol, de l’espagnol vers l’anglais et du chinois vers l’anglais. Les systèmes
93
Chapitre 4 : Les ressources linguistiques pour l’évaluation
pouvaient traiter trois sortes de données : les transcriptions automatiques provenant des
systèmes de reconnaissance de la parole (dénommées ASR, pour Automatic Speech Recognition), les transcriptions manuelles correspondantes (dénommées Verbatim) et les textes
correspondants fournis par le Parlement Européen (dénommés FTE pour Final Text Editions). Chaque type de données a ses propres caractéristiques et difficultés : l’ASR contient
les phrases erronées des systèmes automatiques, le Verbatim contient de la parole spontanée (c’est-à-dire des répétitions de mots, des hésitations, des corrections, etc.) et le FTE
contient des phrases reformulées. Seule la direction du chinois vers l’anglais n’a pas de
données Verbatim et les données ont été collectées à partir de données Voice of America 1 .
Types de données
ASR
Verbatim
FTE
Directions de traduction
anglais-espagnol espagnol-anglais chinois-anglais
X
X
X
X
X
X
X
X
Table 4.2 – Directions de traduction et types de données du projet TC-STAR.
4.6.3.2
Données
Au total, nous utilisons 14 ensembles de données, chaque ensemble étant composé du
document source à traduire, des traductions de référence traduites deux fois par deux
agences de traduction différentes et des traductions des systèmes automatiques. Chaque
ensemble représente environ 25 000 mots. Nous avons donc 28 traductions de référence si
l’on considère les évaluations et les directions de traduction pour les deux années d’évaluation. Les systèmes de traduction automatique sont évalués par la métrique BLEU
[Papineni et al., 2001] dans cette étude (cf. chapitre 5).
4.6.3.3
Validation
Des guides de validation ont été produits dans le cadre du projet TC-STAR. Ils ont été
discutés en interne, mais aussi avec le LDC (Linguistic Data consortium) qui a de l’expérience dans ce domaine. Les agences de traduction sont informées du contrôle de qualité de
leurs traductions. Des recommandations leur sont fournies, comme par exemple : le sens
et le style de la traduction doivent coller au mieux à ceux du document source ; aucune
annotation n’est ajoutée ; la casse est respectée avec attention, selon les conventions de
la langue cible ; les traductions de néologismes ou de mots inconnus prennent en compte
l’intention de l’orateur ; le format des dates suit les conventions établies de la langue cible.
Les fichiers traduits sont envoyés à une agence de validation 2 afin de vérifier leur qualité. Chaque traduction est validée en sélectionnant au hasard 1 200 mots (environ 5 %
du total) provenant de segments contigus. Les validateurs sont des traducteurs professionnels qui classent les erreurs selon des catégories déterminées à l’avance. Des points de
pénalités sont ensuite donnés aux traduction de référence selon des critères définis dans
le tableau 4.3.
1. http ://www1.voanews.com
2. L’agence SPEX (Speech Processing EXpertise) dans le contexte de TC-STAR.
94
4.6. Impact des ressources sur l’évaluation
Erreur
Points de pénalité
Année 2 Année 3
Syntaxique
4
3
Divergence avec le guide
3
Lexicale
2
3
Mauvais usage
1
1
Casse
1
Ponctuation / orthographe (max. 10)
0.5
0.5
Table 4.3 – Pénalités pour les erreurs de traduction.
Pour être considérée valide, une traduction de référence doit avoir moins de 40 points
de pénalité. Les traductions invalidées sont renvoyées à l’agence de traduction afin d’être
révisées et améliorées. Un rapport contenant les erreurs trouvées est également fourni à
l’agence.
Le passage de la seconde année à la troisième a vu l’amélioration du protocole de
validation en modifiant les critères et les points de pénalité (cf. tableau 4.3).
Nous donnons ci-dessous quelques exemples de traduction validées pour la direction
de l’espagnol vers l’anglais. La phrase source est présentée, puis sa traduction par un
professionnel et ensuite sa correction. Finalement, le type d’erreur est donné pour chacune
des erreurs (en gras).
Source (FTE) : Declaro reanudado el período de sesiones del Parlamento Europeo,
interrumpido el jueves 7 de julio de 2005.
Traduction : I declare resumed the period of sessions of the European Parliament,
broken off on Thursday, the 7th July 2005.
Erreur : lexicale
Correction : I declare resumed the period of sessions of the European Parliament,
interrupted on Thursday, the 7th July 2005.
Source (FTE) : Señor Presidente, como ha recordado el Comisario de Medio Ambiente, este verano hemos sido víctimas en la Unión Europea de catástrofes producidas por el fuego y por el agua, y mientras unas regiones están seriamente amenazadas
por la progresiva desertización, otras, sin embargo, temen las inundaciones.
Traduction : Mister President, as the Environment Commissioner reminded us of,
this summer we in the European Union were victims of disasters caused by fire and
by water, and while some regions see themselves seriously threatened by a progressive
growth of aridity, others, in change, fear the floods.
Erreur : mauvais usage de la langue, lexicale, lexicale
Correction : Mister President, as the Environment Commissioner reminded us,
this summer we in the European Union were victims of disasters caused by fire and
by water, and while some regions see themselves seriously threatened by a progressive
desertification, others, by contrast, fear the floods.
95
Chapitre 4 : Les ressources linguistiques pour l’évaluation
Source (Verbatim) : yo , evidentemente , estimo , por ejemplo , voy a ir con algunos
puntos ; ha hablado brevemente , pero ha hablado , de de , del FAD ¿ no ? , y de ,
de ese porcentaje en la ayuda al desarrollo , que es el , en estos momentos el
más bajo de los que representan los FAD dentro de ellas ¿ no ?
Traduction : , I , obviously , I think , for example , I shall come back to only a
few points ; you mentioned it in passing , but you mentioned it , the FAD , didn’t
you , and that development aid percentage , the lowest at these moments of those
represented in the FAD , isn’t it .
Erreur : Syntaxique, lexicale, ponctuation
Correction : I , obviously , I think , for example , I shall come back to only a few
points ; you mentioned it in passing , but you mentioned , the FAD , didn’t you ,
and that development aid percentage , which is the , the lowest at this time of
those represented in the FAD , isn’t it ?
4.6.3.4
Erreurs type
La plupart des erreurs identifiées sont avant tout d’ordre lexical, suivi par un mauvais
usage de la langue. Les erreurs de syntaxe et d’orthographe sont moindres. Le nombre
d’erreurs varie aussi en fonction du type de données : le nombre d’erreurs lexicales, d’orthographe et de syntaxe est plus important pour le FTE que pour le Verbatim. Par contre,
le nombre d’erreurs d’usage et les divergences avec le guide sont plus importantes pour le
Verbatim.
De même, il y a plus d’erreurs pour les traductions de l’anglais vers l’espagnol que
de l’espagnol vers l’anglais. Pour le chinois vers l’anglais, les traducteurs ont produit
beaucoup d’erreurs, en particulier des erreurs lexicales.
Nous présentons quelques exemples d’erreurs représentatives trouvées dans les traductions validées, pour la direction de l’espagnol vers l’anglais (la partie gauche de chaque
exemple présente le segment mal traduit, la partie droite sa correction).
Exemples d’erreurs syntaxiques :
– mauvais placement de l’adjectif (fruits and fresh vegetables / fresh fruits and vegetables) ;
– mauvais forme de pronom (from her explanation / from your explanation) ;
– erreur de conjugaison (did what it could / does what it can ; was used / has been
used ) ;
– utilisation d’un nom au lieu d’un adjectif (plenaries / plenary sessions).
Les déviations du guide de validation offrent moins de cas :
– omission de mots ou d’un morceau de phrase ;
– mauvaise traduction d’un nom propre (Serge / Sergio) ;
– qualité de la traduction / expression curieuse (few, no ? / few, aren’t there ? ; a little
moment / a brief moment ; since a few weeks / in the last few weeks).
Aussi, cette catégorie d’erreurs a été répartie dans d’autres catégories pour la troisième
année d’évaluation.
Les erreurs lexicales sont d’une plus grande variété, cela étant probablement dû au
vocabulaire spécifique utilisé :
– erreur de traduction d’acronymes (SICA / AECI ; WTO / OCM ) ;
– mauvais ordre de mots (period 2007-2013 / 2007-2013 period ) ;
96
4.6. Impact des ressources sur l’évaluation
– erreur de nombre (woman / women) ;
– traduction littérale (simply would / would just) ;
– mauvaise terminologie ou approximation (Euro-Asian / Eurasian ; growth of aridity
/ desertification ; Table / Board ) ;
– mauvaise préposition (in what / as ; of the world / in the world ; consists in /
consists of ) ;
– traduction contradictoire (of the United States or the Japanese / of the United States
or Japan).
Autres type d’erreurs :
– mauvaise ponctuation ;
– erreurs de frappe (thee / the ; nemgotiations / negotiations).
Toutes ces erreurs diminuent la qualité des traductions de référence et biaisent en
théorie l’évaluation. Le but de la validation est alors de réduire, autant que faire se peut,
leur impact afin d’améliorer l’évaluation des traductions automatiques.
4.6.3.5
Résultats
Plusieurs résultats sont disponibles dans cette expérimentation. Tout d’abord, nous
présentons les scores de validation pour toutes les traductions de référence. Puis, nous
ne conservons que les traductions qui ont été validées une seconde fois, après correction.
Ainsi, nous identifions les différences entre versions. Finalement, nous considérons les
corrélations entre les versions de références après le calcul des résultats des systèmes de
traduction automatique.
Dans les résultats ci-dessous nous adoptons la convention de notation des différents ensembles de données : « Année/Donnée_direction. Par exemple, « 3/EPPS-FTE_ESEN »
correspond à la troisième année d’évaluation pour la direction de l’espagnol vers l’anglais,
en utilisant les données FTE.
Sur la totalité des 14 ensembles de données, 10 ont été corrigés et validés à nouveau
au moins une fois (pour l’une ou les deux traductions de référence de l’ensemble). Le
tableau 4.4 fournit les scores de validation pour chacune des traductions. Le WER (Word
Error Rate, taux d’erreur sur les mots) est également fourni, entre une version intermédiaire et la version finale de chaque traduction de référence. Le score de gauche indique le
résultat pour la première traduction de référence d’un ensemble, le score de droite celui
pour la seconde traduction de référence du même ensemble. Les différentes lignes pour
un même ensemble sont les résultats de validation à différents niveaux (d’une traduction
intermédiaire non validée à la traduction finale validée). Comme cela, nous observons
l’évolution des validations. Une traduction avec un score de validation inférieur à 40 est
acceptée et n’est pas à nouveau corrigée.
Le score de validation moyen avant toute correction est aux alentours de 62, tandis
qu’après correction il est d’environ 23 : les traductions finales ne sont elles-mêmes pas
parfaites mais leur qualité est déclarée suffisante pour qu’elles soient utilisées comme
traductions de référence.
Un maximum de 130 est obtenu pour une traduction du chinois vers l’anglais dont la
traduction semble tout de même être plus difficile que pour les autres directions.
Nous observons également que le WER n’est pas forcément très haut et que beaucoup
de valeurs sont en dessous de 1%, ce qui signifie une forte proximité entre les versions.
97
Chapitre 4 : Les ressources linguistiques pour l’évaluation
Ensemble
3/EPPS-FTE_EsEn
3/Cortes-FTE_EsEn
3/Cortes-Verb_EsEn
3/VoA-Verb_ZhEn
2/EPPS-FTE_EnEs
2/EPPS-FTE_EsEn
2/EPPS-Verb_EnEs
2/Cortes-FTE_EsEn
2/Cortes-Verb_EsEn
2/VoA-Verb_ZhEn
Moyenne
Score de validation
Réf. 1
Réf. 2
59,5
104,5
18
73,5
18
38
43,5
120,5
34
70,5
34
35
54
67
26,5
22.5
130
129
53,5
37
27
37
23
31
23
23,5
18,5
33
18,5
17
59,5
17
11,5
17
42
61,5
6
9
69
54
18,5
0
84
38
39,5
38
62
23
WER / traduction finale
Réf. 1
Réf. 2
12,5
8,2
1,3
6,2
-
5,1
1,2
0,5
0,3
24,2
6,3
15,3
-
-
0,9
-
2,6
0,7
-
0,2
5,3
20,7
4,7
17,0
6,2
Table 4.4 – Scores de validation des traductions de référence et WER entre les traductions intermédiaires (lignes les plus hautes) et la traduction finale (lignes du bas) pour la
première traduction de référence (Réf. 1) et la seconde (Réf. 2) de chaque ensemble.
98
4.6. Impact des ressources sur l’évaluation
Nous comparons la différence de score de validation avec leur WER et le coefficient
de corrélation de Pearson est de 58%, ce qui est faible. Par exemple, une différence de
score de validation de 36 entre une traduction non validée et sa correction correspond à
un WER de 0,2, tandis qu’une autre différence de 26,5 correspond à un WER de 6,3. Il y
a a priori plus de corrélation entre la qualité des traductions de référence et le WER.
Nous pensons que, par extension, la mesure d’évaluation automatique est remise en
question : en effet, si le WER ne reflète pas une amélioration de la qualité, comment
pourrait-il être fiable pour l’évaluation des systèmes de traduction automatique ?
Nous comparons en figure 4.1 les corrélations entre les différences de score de validation
et les WER pour tous les ensembles.
Figure 4.1 – Comparaison des différences de score de validation et les WER entre les
traductions non validées et leurs corrections.
D’après nous, cela confirme que la qualité n’est pas bien corrélée avec le WER car il
n’y a aucune tendance générale. L’explication est double : l’amélioration d’une traduction
humaine n’implique pas nécessairement de nombreuses modifications ; le WER ne reflète
pas la qualité d’une traduction avec précision et est limité sur des problèmes cruciaux et
la finesse de la langue.
La métrique BLEU [Papineni et al., 2001] a été utilisée pour calculer les scores des
systèmes de traduction automatique. Pour chaque ensemble, les références de tous les
niveaux de validation ont été utilisés, qu’elles soient valides ou non. Nous présentons les
résultats des systèmes selon qu’il s’agit de traductions de référence intermédiaires ou de
traductions de référence finales. Nous obtenons deux sortes de résultats : soit les scores
sont presque identiques, comme il est possible de le voir en figure 4.2 pour l’ensemble
Cortes-Verbatim de la direction de l’espagnol vers l’anglais de la troisième année ; soit les
scores sont légèrement divergents comme il possible de le voir en figure 4.3 pour l’ensemble
Cortes-FTE de la direction de l’espagnol vers l’anglais de la seconde année.
Pour aller plus loin, nous calculons les corrélations sur les scores BLEU des systèmes
entre les traductions de référence intermédiaires et les traductions de référence finales.
Nous obtenons ainsi deux coefficients de corrélation lorsque deux traductions de référence
consécutives n’ont pas été validées. Le tableau 4.5 montre les coefficients de corrélation
pour toutes les traductions de référence intermédiaires, selon les scores BLEU et selon le
classement des systèmes.
Les corrélations sur les scores montrent des coefficients supérieurs à 99%. Cela signifie
que même si les scores diminuent ou augmentent, le classement des systèmes reste in99
Chapitre 4 : Les ressources linguistiques pour l’évaluation
Figure 4.2 – Résultats BLEU [%] pour l’ensemble Cortes-Verbatim de la direction de
l’espagnol vers l’anglais de la troisième année
Figure 4.3 – Résultats BLEU [%] pour l’ensemble Cortes-FTE de la direction de l’espagnol vers l’anglais de la seconde année
100
4.6. Impact des ressources sur l’évaluation
Ensemble
3/EPPS-FTE_EsEn
3/Cortes-FTE_EsEn
3/Cortes-Verb_EsEn
3/VoA-Verb_ZhEn
2/EPPS-FTE_EnEs
2/EPPS-FTE_EsEn
2/EPPS-Verb_EnEs
2/Cortes-FTE_EsEn
2/Cortes-Verb_EsEn
2/VoA-Verb_ZhEn
Corrélation sur
les scores BLEU
99,60
99,99
99,88
99,30
100
99,73
100
100
99,98
100
99,96
99,47
100
Corrélation sur
le classement
98,60
100
99,99
99,30
100
100
100
98,79
100
100
100
96,36
100
Table 4.5 – Corrélations sur les scores BLEU [%] et sur les classements des systèmes.
changée. Cela se confirme par la corrélation sur les classements car les coefficients sont
au-dessus de 96%. Ainsi, dans notre contexte, le fait d’améliorer la qualité des traductions de référence ne permet pas de mieux distinguer, via des mesures automatiques, les
systèmes de traduction automatique.
4.6.3.6
Discussion
Nous avons montré que la qualité des traductions de référence n’a pas nécessairement
un impact important sur une métrique automatique, en l’occurrence la métrique BLEU.
Le WER, certes moins utilisé en évaluation de la traduction automatique, a aussi montré
ses limites face à la qualité d’une traduction humaine. Ici, c’est l’évaluation utilisant les ngrammes qui est prise en défaut : même lorsque des traductions de référence de plus basse
qualité sont utilisées, les résultats restent similaires d’une traduction de référence à une
autre. De plus, d’importantes modifications de la traduction humaine (comme par exemple
la direction du chinois vers l’anglais de la troisième année) n’affectent pas concrètement
les résultats des systèmes automatiques. Toutes les directions et types de données testées
sont concernées.
Toutefois, il faut relativiser ces tests par deux points importants. D’une part, le
contexte de nos expériences utilise des métriques automatiques actuelles. L’impact sur
les résultats n’est pas si clair et il est même discutable lorsque l’on considère que l’objectif
est de comparer des systèmes : les scores n’évoluent pas selon la qualité des références
ce qui demeure un problème également lié aux mesures automatiques ; a contrario, le
classement des systèmes ne change pas non plus, ce qui aurait tendance à souligner la robustesse des métriques automatiques à distinguer les systèmes de la même manière quelles
que soient les références utilisées. D’autre part, il ne faut pas ignorer la qualité des traductions automatiques : comme cette qualité est faible, les modifications des traductions
de référence ont un impact faible sur les scores.
Par-delà la modification des scores, la validation des traductions de référence ouvre
101
Chapitre 4 : Les ressources linguistiques pour l’évaluation
plusieurs discussions :
– les critères de validation : bien que définis avec rigueur, ils ne sont pas toujours
faciles à appliquer par l’équipe de validation ;
– la cohérence entre traducteurs : les différences entre traductions de référence sont
parfois importantes, ce qui montre comment la traduction humaine varie en fonction
du traducteur ;
– les erreurs des traducteurs : elle sont parfois discutables, la validation étant difficile
selon le contexte, le type des données, etc.
Ces trois points doivent être pris en compte lors de la procédure de validation. Les
résultats des métriques automatiques devraient être étudiés en accord avec la variation
de la qualité et de la validation.
4.7
Conclusion
Nous avons présenté dans ce chapitre les ressources linguistiques telles qu’elles sont
utilisées au cours d’évaluations. La difficulté principale liée aux ressources linguistiques
réside dans leur coût qui influence le budget de l’évaluation.
Plusieurs phases ont lieu avant d’obtenir des ressources linguistiques utilisables : identification, production, négociation, standardisation, validation. La figure 4.4 présente le
cycle de vie d’une ressource linguistique en fonction de ces phases. La plupart de ces
phases sont relativement simples mais elles sont cruciales pour le développement d’une
ressource linguistique.
À chaque phase correspond un travail important qui ne doit pas être négligé dans
le processus d’évaluation. L’intérêt de l’évaluateur est d’avoir des données. Toutefois, il
ne faut pas oublier la question des droits légaux des ressources linguistiques. Dans notre
cas, il est nécessaire que notre architecture respecte les questions légales d’utilisation afin
qu’elle soit mise à disposition de tous, par le biais de licence d’utilisation notamment.
Dans un second temps, nous avons abordé l’aspect relatif à l’impact des ressources
sur l’évaluation et avons identifié deux répercussions sur l’évaluation : sur la méthodologie d’évaluation et sur la qualité des résultats obtenus. Ce dernier point, moins trivial,
a été étudié plus en détail dans le cadre d’un projet d’évaluation (TC-STAR) sur plusieurs campagnes d’évaluation, langues, domaines et systèmes. Bien qu’étant conscient
qu’il s’agit d’un contre-exemple, cette expérimentation a présenté une méthodologie pour
mesurer l’impact de ressources linguistiques sur les performances de système. Dans un
même temps, elle nous a permis de montrer les faiblesses des métriques automatiques
utilisées.
Les ressources linguistiques sont nécessaires aux systèmes mais aussi aux mesures
d’évaluation que nous étudions dans le chapitre suivant.
102
4.7. Conclusion
Figure 4.4 – Cycle de vie d’une ressource linguistique.
103
Chapitre 4 : Les ressources linguistiques pour l’évaluation
104
Chapitre 5
L’étude des mesures d’évaluation
La question des mesures d’évaluation se place à un tournant du processus d’évaluation.
C’est lors de leur utilisation que prennent corps toutes les phases d’organisation qui ont
précédé. Les mesures sont inévitables car elles permettent d’estimer le niveau de la qualité
atteint par les systèmes évalués. Dans un même temps, le fait de mesurer initialise l’analyse
des sorties des systèmes. Pour ce faire, une métrique est appliquée sur un jeu de données.
Cette métrique est l’organe exécutif de la mesure qui calcule les résultats. Le troisième
élément de la mesure, la méthode, représente la démarche qui va permettre d’arriver au
résultat final. La méthode est organisée par l’évaluateur, en accord avec les autres acteurs
de l’évaluation.
Deux types de mesures émergent : les mesures humaines, pour lesquelles la métrique est
à base de jugements ou d’expertise humains, et les mesures automatiques, pour lesquelles
la métrique dépend plus de programmes, d’algorithmes et de références. Comme nous
l’avons vu dans le chapitre 1 (figure 2.4), l’information donnée par les humains se fait
a posteriori dans le cas de l’évaluation humaine et a priori dans le cas de l’évaluation
automatique. Dans un même temps, le jeu de données n’est pas nécessairement le même et
la méthode est différente selon que la mesure est humaine ou automatique. L’interprétation
et l’analyse des résultats ne se fera pas de la même manière, leurs objectifs étant différents.
Dans ce chapitre, nous commençons par donner les notions de base sur les mesures
d’évaluation en TAL. Identifier et définir une mesure donne à l’évaluateur la possibilité
de formaliser les aspects de qualité attendus. Cela se fait par une réutilisation de mesures
existantes ou la définition d’une nouvelle mesure. Ensuite, nous fournissons un état des
lieux sur l’évaluation humaine et les moyens pour la mettre en place, puis nous faisons
de même pour l’évaluation automatique. Nous illustrons nos choix par des expérimentations concrètes. Finalement, puisque toute nouveauté doit être vérifiée, nous clôturons ce
chapitre par les aspects concernant la méta-évaluation des mesures et de leur métriques.
5.1
5.1.1
Description
Généralités et définitions
Les mesures d’évaluation représentent les moyens mis en œuvre pour estimer la qualité
d’un système. Elles utilisent une ou plusieurs références dans le cas d’une évaluation
105
Chapitre 5 : L’étude des mesures d’évaluation
automatique, ou les connaissances d’un ou plusieurs individus (les juges) dans le cas
d’une évaluation humaine. In fine, les mesures d’évaluation donnent une représentation
quantitative de la qualité pour permettre à l’évaluateur d’interpréter et d’analyser les
résultats.
L’usage de mesures d’évaluation passe par trois éléments fondamentaux :
– La méthode : en amont de la mesure, elle est issue de la réflexion sur l’évaluation
à conduire qui a eu lieu au cours de ses étapes préliminaires (voir chapitre 3). Elle
définit les critères d’évaluation, les éléments sur lesquels sont évalués les caractéristiques des systèmes, et elle spécifie les moyens à mettre en place pour le déroulement
de la mesure. La méthode d’évaluation fournit le contexte nécessaire à toute interprétation de résultats.
– Le jeu de données : ce sont les ressources linguistiques sur lesquelles porte l’évaluation. Elles ont été définies au préalable (voir chapitre 4) et sont spécifiques à la
méthode qui est employée, voire propres à la technologie. Le jeu de données comprend les données de test envoyées aux systèmes évalués et les références utilisées
pour les tester.
– La métrique d’évaluation : c’est le programme mis en place pour calculer les résultats de l’évaluation. La métrique quantifie la qualité. Il s’agit concrètement de
programmes de calculs ou d’algorithmes ramenant l’appréciation d’un critère à une
ou plusieurs valeurs. Cette notion de métrique est étroitement liée à celle de mesure
car la métrique est l’application technique de la mesure.
Mesurer permet de formuler une qualité. Au-delà d’un « simple chiffre », la qualité
d’un système est liée à une valeur, interprétable et non ambiguë. Il est ensuite possible
de la comparer à une autre valeur issue de l’évaluation d’un autre système dans un même
contexte, ou bien, dans certains cas, à l’état de l’art 1 .
Nous distinguons avant tout les mesures humaines des mesures automatiques.
La mesure humaine est dépendante de juges humains qui estiment la qualité en fournissant des jugements sous forme de valeurs. Ces jugements sont ramenés à du quantitatif,
ce qui permet d’agréger l’ensemble des jugements et d’avoir une valeur globale pour représenter la qualité perçue. Par contre, la conduite de jugements est la cause de la non
reproductibilité de la mesure, car des êtres humains ne reproduiront pas exactement les
mêmes jugements d’une évaluation à une autre : leur jugements sont subjectifs par nature.
La mesure automatique est, elle, dépendante de programmes ou d’algorithmes qui
comparent la sortie d’un système à une référence construite manuellement par un expert.
En cela, elle est dite objective car les résultats ne seront pas dépendants du couple juge/sortie comme pour l’évaluation humaine : la référence est construite « à l’aveugle », sans
que l’expert ait connaissance de la sortie du système.
Ainsi, l’évaluation humaine se déroule directement sur une sortie de système. Au
contraire, l’évaluation automatique contient une première étape certes manuelle mais elle
est désolidarisée de la sortie produite. De plus, l’humain a connaissance de la sortie des
systèmes dans le premier cas mais, généralement, pas dans le second.
Lorsque l’on cherche à mesurer les performances d’un système selon certains critères,
il est impératif de définir :
1. Attention toutefois à ne pas prendre la comparaison avec l’état de l’art au pied de la lettre. Comme
nous le verrons par la suite, cette comparaison ne peut se faire de manière formelle, les contextes étant
vraisemblablement toujours différents.
106
5.1. Description
– une méthode, qui détermine avec exactitude le déroulement de la mesure ;
– un jeu de données, qui représente en partie le contexte d’utilisation dans lequel la
mesure va s’exécuter ;
– la ou les caractéristiques du système, qui servent à spécifier le ou les phénomène(s)
mesuré(s) et définir les critères d’évaluation ;
– le modèle de qualité, qui lie les caractéristiques aux critères ;
– une métrique, qui calcule les performances du système évalué, selon les critères, à
l’aide d’opérations et suivant le modèle défini ;
– l’échelle de valeurs, qui permet d’interpréter les résultats.
C’est l’ensemble de ces aspects (figure 5.1) qui indique à l’évaluateur comment estimer
les performances d’un système et en interpréter les résultats.
Figure 5.1 – Différents aspects d’une mesure.
5.1.2
Identification des mesures
La qualité de la mesure elle-même est à prendre en compte lors de son utilisation.
Pour ce faire, il faut en premier lieu identifier correctement la mesure que l’on souhaite
utiliser. Par exemple, [King, 2005] définit les critères d’une bonne mesure comme étant :
– Valide : la capacité de la mesure à fournir des résultats pertinents et corrects est le
principal critère à retenir. En effet, la mesure doit fournir des résultats conformes
aux attentes de l’évaluateur. Dans le cas de mesures imparfaites ou approximatives,
il faut déterminer un intervalle de confiance qui est clairement précisé et pris en
compte lors de l’interprétation des résultats. Par exemple, lorsque l’on mesure la
fluidité d’un texte traduit avec des juges humains, on sait estimer un intervalle de
confiance en calculant l’accord inter-juges.
– Fiable : étroitement liée à la validité de la mesure la fiabilité d’une mesure détermine
sa reproductibilité dans un contexte donné et l’uniformité du calcul des performances
du système évalué. Par exemple, les taux d’erreurs sont uniformes quel que soit le
système évalué et la répétition de l’évaluation ne cause pas de modification dans les
résultats.
– Objective : aucun type de système ne doit être privilégié par la mesure. Dans bien
des évaluations, un des principaux intérêts est de comparer différentes approches
107
Chapitre 5 : L’étude des mesures d’évaluation
technologiques (statistique, à base de règles, de connaissances, etc.). Une bonne
mesure unanimement reconnue ne saurait favoriser l’une ou l’autre des méthodes.
– Économique : ce critère se rapporte au coût de la mesure en termes de production,
de développement, d’utilisation, etc. Même si une mesure ne doit effectivement pas
être trop coûteuse, ce critère nous semble discutable, car il peut amener à réduire
l’importance des autres critères.
– Informative : les résultats retournés par la mesure sont censés être les plus exhaustifs
possible, sans pour autant être rébarbatifs. L’évaluateur doit accéder à des résultats succincts et effectuer une analyse correcte. De plus, la mesure rend compte de
manière pertinente des performances d’un système.
Ces critères sont indispensables pour identifier la mesure idéale, la définir, ou développer la métrique qui lui correspond. Toutefois, il faut parfois faire des concessions sur
certains critères pour en privilégier d’autres car la « mesure parfaite » n’est, hélas, pas
courante. Par exemple, les mesures humaines ont tendance à fournir des résultats plus
valides que des mesures automatiques mais leur coût est plus élevé et leur fiabilité est
réduite.
Côté économique, une mesure est effectivement liée aux ressources qu’elle utilise dont
le coût influence par conséquent celui de la mesure, et donc de l’évaluation. Ce coût n’est
pas négligeable (cf. chapitre 4) et l’impact des productions humaines est de première
importance. Cela concerne autant la création d’une référence (par exemple la création
de jugements de pertinence sur une grande quantité de données pour la recherche d’information ou établir des traductions de référence pour la traduction automatique) que
l’implication de juges humains lors des évaluations ou l’exécution même de la métrique.
Enfin, le coût de la mesure restreint aussi le contexte de l’évaluation : on sait évaluer le
rappel des systèmes en recherche d’information, mais le coût d’un corpus de référence est
tellement important que la plupart du temps seule la précision est considérée, ou alors
combinée à un rappel partiel.
Finalement, l’utilisation de plusieurs mesures sur un même jeu de données est un point
essentiel pour l’optimisation des résultats. Une mesure unique peut introduire un biais
dans les résultats (en privilégiant une approche, en étant inadaptée à un domaine, etc.) et
par conséquent la corrélation de différentes mesures améliore la validité de l’évaluation.
5.1.3
Modélisation
La modélisation d’une métrique, en particulier lorsqu’elle est automatique, passe par
deux chemins parallèles et complémentaires (figure 5.2). Nous nous inspirons pour cela
de [Popescu-Belis, 2007]. Le premier chemin traite de la modélisation informatique d’une
métrique automatique, tandis que le second traite des productions manuelles effectuées
pour le bon fonctionnement de la métrique et incluant une métrique humaine. Nous faisons ici la synthèse des étapes de développement d’une métrique, au cœur de la mesure
d’évaluation.
Ainsi, l’évaluateur commence par sélectionner une caractéristique de performance à
évaluer qui permettra de modéliser la métrique. Il s’agit de focaliser l’évaluation sur une
caractéristique, un aspect fonctionnel d’un système. Cela nous amène ensuite à choisir
entre la définition d’une métrique automatique ou celle permettant à des humains d’apporter de l’information sur les données.
108
5.1. Description
Figure 5.2 – Modélisation d’une métrique d’évaluation.
La constitution d’une métrique automatique commence par la définition des critères de
pertinence relatifs à la caractéristique sélectionnée. Par exemple, ce critère est la proportion de constituants correctement annotés syntaxiquement dans le cas d’une évaluation
d’analyseurs syntaxiques, pour laquelle la caractéristique retenue est la capacité à annoter
en constituants.
Ensuite, la métrique est produite et développée pour fournir des valeurs automatiquement. En suivant l’exemple précédent, cette métrique permet de parcourir les données
pour comparer les analyses automatiques des systèmes à une référence produite manuellement. Une étape de méta-évaluation contrôle le bon fonctionnement de la métrique en
comparant ses résultats à ceux d’une métrique humaine. Finalement, une dernière étape
consiste à utiliser la métrique et à en analyser les résultats.
La seconde partie de notre modélisation consiste à effectuer manuellement des jugements sur les données renvoyées par les systèmes, ou bien à annoter manuellement les
données d’entrée de la même manière que le feraient les systèmes. L’évaluateur définit des
directives pour les juges ou les annotateurs qui effectueront le travail. Dans le cas d’une
évaluation humaine (sous-partie de gauche de la figure 5.2), des spécifications sont établies
pour faciliter la compréhension de la tâche par les juges. Ceux-ci procèdent ensuite aux
jugements selon les critères qui auront été définis dans les directives d’évaluation. Finalement, un accord inter-juges est calculé afin de veiller au bon déroulement de l’opération,
et l’analyse des résultats est effectuée.
L’évaluateur définit aussi des spécifications pour les annotateurs qui ajoutent de l’information aux données d’évaluation, ou les transforment. Une référence est ainsi créée et
109
Chapitre 5 : L’étude des mesures d’évaluation
est utilisée pour la comparer aux sorties des systèmes. Un accord inter-annotateur est
calculé et la référence est corrigée si besoin est.
Notre modélisation contient de nombreuses flèches pointillées renvoyant à des étapes
antérieures. Il s’agit de retours d’expérience qui modifient la définition de la métrique. Par
exemple, l’étape de méta-évaluation peut affecter l’étape de développement de la métrique
(si les résultats ne sont pas ceux attendus), qui elle-même peut affecter la définition des
critères de pertinence (s’il s’avère que les critères de pertinence n’étaient pas correctement
définis).
5.1.4
Métriques de base
Une métrique automatique mesure l’écart avec une référence qui symbolise les attentes
d’un utilisateur potentiel. Une comparaison est possible en utilisant une mesure de distance entre la sortie d’un système et la référence. La proximité calculée détermine le niveau
de performance du système. Il est aussi possible d’utiliser des métriques de précision et de
rappel : à partir d’une sortie de système, ces deux métriques fournissent respectivement
la pertinence de la réponse et sa couverture. Si l’on considère un objet comme étant la
plus petite unité utilisée par l’évaluateur pour mesurer la qualité des données renvoyées
par le système, la précision et le rappel se définissent comme :
précision =
nombre d′ objets pertinents renvoyés
nombre d′ objets renvoyés
(5.1)
Une précision de 100 % signifie que tous les objets renvoyés sont pertinents.
rappel =
nombre d′ objet pertinents renvoyés
nombre d′ objet pertinents de réf érence
(5.2)
Un rappel de 100 % signifie que tous les objets pertinents de la référence ont été
renvoyés.
La précision et le rappel sont des métriques complémentaires : aucune ne se suffit à
elle seule pour donner une indication des performances mesurées. En effet, une précision
de 100 % ne signifie pas que tous les objets de la référence ont été renvoyés car sinon il
suffit de ne renvoyer que quelques objets dont on est certain de la pertinence : le rappel
est alors très bas. De la même manière, un rappel de 100 % ne signifie pas pour autant
que d’autres objets n’ont pas été renvoyés, à tort, car sinon il suffit de renvoyer tous les
objets possibles : la précision est alors plus basse.
Afin de combler cette lacune, [van Rijsbergen, 1979] a introduit une métrique d’efficacité globale qui combine la précision et le rappel en une métrique unique, la f-mesure.
f − mesure = (β 2 + 1) ∗ (précision ∗ rappel)/(β 2 ∗ précision + rappel)
(5.3)
En supposant β > 0 et que le système ait renvoyé au moins 1 document pertinent.
β permet de pondérer la précision ou le rappel et ainsi de différencier leur poids dans
l’estimation des performances. Cette métrique, qui est en réalité la moyenne harmonique
de la précision et du rappel, est généralement utilisée sous la forme :
f − mesure = 2 ∗ (précision ∗ rappel)/(précision + rappel)
110
(5.4)
5.1. Description
Où la précision et le rappel sont pondérés équitablement.
L’utilisation de la f-mesure pêche par l’analyse binaire qui est faite d’un problème et
manque parfois de finesse pour juger la qualité d’un système. La pertinence d’un objet
renvoyé peut correspondre à un degré de pertinence sur une échelle plutôt qu’à un choix
entre deux valeurs. D’autres métriques doivent alors être employées.
Ces métriques « de base » sont considérées comme des métriques automatiques fonctionnant en tant que programme. Mais il ne faut pas oublier qu’elles nécessitent la participation de l’humain pour être exécutées. Cela se produit lorsque les références sont
constituées (traductions de référence, documents pertinents d’une base, etc.).
Une métrique humaine fournit des jugements de pertinence en fonction de l’avis d’un
juge, humain ou expert. Les métriques de base sont souvent spécifiques aux différentes
technologies mais consistent la plupart du temps à fournir un jugement sur une petite
unité de la sortie renvoyée (une phrase en traduction automatique, un terme en extraction
terminologique, une expression en question-réponse, etc.). Le jugement est donné sur une
échelle de valeurs prédéfinie et la moyenne des jugements est calculée pour établir un score
moyen par système.
Une grande majorité des métriques utilisées en évaluation du traitement automatique
des langues sont dérivées de ces trois mesures.
Dans les sections suivantes, les métriques d’évaluation de plusieurs technologies sont
abordées plus en détails et les mesures d’évaluation explicitées. Cette liste des technologies,
mesures et métriques n’est pas exhaustive mais traite différents aspects de l’évaluation en
traitement automatique des langues.
5.1.5
Applications
Dans les deux sections suivantes, nous appliquons notre modélisation sur des technologies particulières : nous prenons notamment comme support le détail des travaux conduits
sur les projets CESTA (cf. annexe A.2), pour l’évaluation de la traduction automatique,
et CESART (cf. annexe A.3), pour l’évaluation de l’extraction terminologique, ainsi que
les analyses qui en résultent. Pour plus de clarté et de compréhension, nous décrivons ici
les grandes lignes de ces projets, en particulier le protocole et les données d’évaluation.
Les détails concernant l’organisation et le déroulement des projets ont déjà été donnés
dans le chapitre 3.
5.1.5.1
Traduction automatique
Dans le projet CESTA, une première campagne visait à mesurer la qualité des traductions produites par des systèmes de traduction automatique dans un domaine général tout
en définissant un protocole d’évaluation clair et réutilisable. La seconde campagne, après
adaptation et ajustement du protocole d’évaluation, étudiait la capacité des systèmes à
s’adapter à un domaine spécialisé.
La seconde campagne d’évaluation avait pour objectif particulier d’observer l’adaptation des systèmes à un domaine, parfois appelé enrichissement terminologique, et son
impact sur les performances des systèmes. Deux séries de scores ont été établies avec le
protocole d’évaluation amélioré : l’une utilise des versions « génériques » des systèmes, et
l’autre utilise des versions adaptées au domaine choisi par les organisateurs de CESTA, à
savoir celui de la santé.
111
Chapitre 5 : L’étude des mesures d’évaluation
Au total, 13 systèmes ou versions de systèmes ont pris part à l’une ou les deux campagnes CESTA 1 . Les résultats des systèmes évalués ayant été diffusés de manière anonyme, les résultats sont présentés d’après les mêmes conventions : les différentes instances
des systèmes sont numérotées de S1 à S13, ce qui signifie que certains systèmes sont
dupliqués entre la première et la seconde campagne. En outre, nous précisons entre parenthèses la langue source (« en » pour l’anglais ou « ar » pour l’arabe) et le numéro de
la campagne (1, 2a ou 2b). La première campagne concerne ainsi les systèmes de S1(en,1)
à S5(en,1) pour l’anglais et les systèmes S6(ar,1) et S7(ar,1) pour l’arabe, alors que la seconde concerne les systèmes S8(en,2) à S12(en,2) pour l’anglais et S13(ar,2) pour l’arabe.
Pour la seconde campagne, déclinée en deux phases, les systèmes sont plus spécifiquement notés avec 2a (avant adaptation) ou 2b (après adaptation), par exemple S8(en,2a)
ou S13(ar,2b). Il n’est donc pas possible de comparer les performances entre les deux campagnes pour les systèmes ayant participé aux deux, mais il est possible de comparer les
performances d’un même système avant et après adaptation du domaine, dans la seconde
campagne, par exemple les scores de S9(en,2a) et S9(en,2b), ou S13(ar,2a) et S13(ar,2b).
Les données utilisées sont telles que décrites dans le chapitre 4.
5.1.5.2
Extraction terminologique
À l’origine, trois tâches ont été prévues : l’extraction des termes pour la construction d’un référentiel terminologique ; l’extraction des termes pour l’indexation contrôlée
et l’extraction des relations sémantiques. Faute de participants à la tâche d’extraction
des termes pour l’indexation contrôlée, la campagne d’évaluation s’est déroulée sur deux
tâches :
– Tâche T1 : Extraction des termes pour la création et construction d’un référentiel
terminologique. ;
– Tâche T2 : Extraction des relations sémantiques (synonymie) à partir d’une liste de
termes amorces.
Cinq systèmes ont participé à l’évaluation sur la tâche T1, tandis qu’un seul a participé
à l’évaluation sur la tâche T3 2 . Puisque les résultats étaient diffusés de manière anonyme,
ils seront présentés sous la forme Sys1, Sys2, etc.
Les ressources utilisées pour mener à bien la campagne d’évaluation sont décrites dans
le chapitre 4.
5.2
Évaluation humaine
L’objectif final des outils de traitement automatique des langues est avant tout de
satisfaire les utilisateurs de ces outils. Comme l’évaluateur cherche à connaître la qualité
d’un outil, il va en premier lieu s’adresser à des utilisateurs potentiels, ou des experts
utilisant la technologie de l’outil concerné. Cela se fait par le biais d’évaluations humaines
1. Les noms des systèmes et/ou des organisations les développant sont les suivants : Comprendium
(Translendium), MLTS (CIMOS), Ramses (RALI, Université de Montréal), Reverso (Softissimo), RWTH
Aachen, SDL Enterprise Translation Server, Systran et l’Université Polytechnique de Catalogne.
2. Les noms des organisations sont les suivants : CEA, EDF, TEMIS, Université de Montréal (RALI)
et Université Paris 13 (LIPN).
112
5.2. Évaluation humaine
qui sont entreprises par des juges, des personnes adéquates à qui l’on demande de déterminer la qualité d’un système. Habituellement, les jugements se font sur une partie des
résultats d’un système. Les juges sont sélectionnés ou recrutés selon différents critères en
rapport avec la tâche : niveau d’études, niveau d’expertise, langue, connaissance spécifique d’un domaine ou d’une technologie, etc. Plutôt que de leur demander directement ce
qu’ils pensent de la qualité d’un système, ils ont à leur disposition plusieurs critères avec
des échelles de valeur explicites pour juger des unités de base (par exemple une phrase
en traduction automatique plutôt qu’un document entier). Au final, c’est avant tout la
connaissance humaine, celle des juges sélectionnés, qui est utilisée pour analyser les sorties
du système.
Ces évaluations humaines se font en considérant les juges humains comme référence
pour la tâche qui leur est donnée. Toutefois, il est établi que les jugements de juges
différents varient, de même que les jugements d’un même juge au cours du temps : les
jugements sont dépendants de l’instant du jugement ou de ses conditions.
La variation des jugements, d’importance plus ou moins grande, amène l’évaluateur
à désigner les évaluations humaines comme étant subjectives. La terminologie employée
varie beaucoup d’une technologie à une autre, et même au sein d’une même communauté.
Les termes évaluation humaine, évaluation manuelle, évaluation subjective, tests subjectifs
sont les plus fréquents. Nous avons décidé dans cette étude d’employer le terme d’évaluation humaine tout d’abord par habitude 1 , mais aussi car les nuances avec les autres
termes nous semblent assez significatives : le terme d’évaluation manuelle est proche de
celui d’une annotation et ôte une partie de l’indépendance des jugements ; au contraire, le
terme d’évaluation subjective donne, à notre avis, une part trop forte à la subjectivité des
jugements qu’il faut tout de même relativiser (et dont on cherche par ailleurs à réduire la
portée). L’évaluation humaine est à mi-chemin entre les deux notions et permet de lisser
notre propos.
En suivant la chronologie de la vie d’un système, nous considérons que l’évaluation
d’un système part d’une observation non formelle des performances par ses développeurs.
Concrètement, il s’agit d’observer les sorties du système sans aucune échelle de pertinence
et en fonction de la simple perception du développeur. Pourtant, ce n’est pas la même
chose d’observer des sorties par soi-même que de les faire juger par des tiers : il faut se
rendre à l’évidence que des critères précis doivent être établis.
Toutefois, à partir du moment où l’opinion humaine est requise pour évaluer, la logique
s’efface rapidement devant l’esprit subjectif d’un juge, et deux juges évaluant les mêmes
données peuvent obtenir des jugements radicalement différents. Chaque humain pense
différemment, et cela se ressent directement lorsqu’une évaluation humaine est conduite.
S’il est toutefois possible de limiter l’impact subjectif, c’est à un coût accru en multipliant
les points de vue, les jugements, afin de minimiser l’impact des positions extrêmes.
Malgré leur coût et leurs imprécisions, il y a tout de même des avantages à mener des
évaluations humaines. En premier lieu, les critères de qualité sont la plupart du temps
difficilement quantifiables à partir d’un programme informatique (par exemple la fluidité d’un texte en français). Pour pallier les faiblesses techniques ou l’absence de mesure
automatique, seul le jugement d’un humain est possible. Le niveau de performance d’un
système est évalué, tel qu’il est perçu par l’humain. De plus, l’usage de jugements humains
1. Human Evaluation est beaucoup utilisé dans le domaine très anglophone de la traduction automatique.
113
Chapitre 5 : L’étude des mesures d’évaluation
nécessite peu de développement technique : c’est la connaissance des juges qui est utilisée
et seules les interfaces de jugement sont à développer, généralement simples et faciles à
utiliser. Les jugements humains effectués en profondeur donnent aussi les moyens d’analyser en détail la sortie d’un système, dans un contexte réel. Par exemple, en traduction
automatique, à chaque phrase correspond un ou plusieurs jugements : il est alors possible
pour l’évaluateur de déterminer quelles sont les phrases problématiques (pour le système
comme pour les juges) et d’en identifier les raisons.
Enfin, nous voyons aussi l’intérêt pour l’évaluateur d’être relativement proche des
besoins finaux pour un système donné : que ce soit l’avis d’utilisateurs potentiels ou
d’experts, les résultats apportés sont en relation directe avec les attentes du système.
5.2.1
Caractéristiques
5.2.1.1
Description
Différentes approches existent pour traiter de l’évaluation humaine. Elles sont directement dépendantes du détail des mesures d’évaluation et servent avant tout au calcul
synthétique des jugements pour que l’évaluateur puisse les interpréter. À notre sens, sept
caractéristiques bien distinctes sont à prendre en compte pour définir une mesure d’évaluation humaine. Ils représentent différents aspects de l’évaluation humaine et varient
selon l’approche adoptée.
Tout d’abord, le niveau d’expertise permet de choisir les individus qui effectuent
les jugements de pertinence. Il sert à définir correctement qui sont les acteurs des jugements, leurs caractéristiques et leur rôle. Le niveau d’expertise est pris en compte lors
de l’interprétation finale et de l’analyse des données collectées. Son échelle va du niveau
utilisateur potentiel au niveau expert, avec tous les intermédiaires possibles. Nous pensons
toutefois qu’il faut éviter de prendre des juges sans aucun lien avec le système évalué, car
l’évaluation nécessite des juges ayant les capacités requises pour estimer la qualité des
sorties. L’évaluateur veillera à collecter un maximum de caractéristiques pertinentes, afin
que les résultats de l’évaluation soient compris de personnes externes. Les caractéristiques
des juges peuvent être de différentes natures : niveau d’expertise, niveau d’étude, culture,
âge, genre, niveau d’apprentissage, etc. Par exemple, dans CESART, nous avons comparé
les jugements de deux documentalistes à deux d’un docteur en médecine et linguiste sur
une même tâche (voir section 5.3.3).
Ensuite, la description des critères de jugements et l’échelle de valeurs correspondante. Il s’agit de fournir l’explication la plus claire et succincte possible (l’évaluation
humaine restant par définition subjective) des critères qu’ont à utiliser les juges pour
estimer la pertinence des sorties. La description des critères donne un axe d’évaluation
commun à tous les juges et son échelle de valeurs délimite les paliers de qualité. Le système
de jugement est traditionnellement binaire, ternaire ou à 5 niveaux (appelé échelle de Likert [Likert, 1932]), mais cela peut être plus. Le choix du nombre de niveaux dépend de la
tâche et de sa difficulté. Un faible nombre de niveaux est généralement lié à un jugement
facile : plus la difficulté des jugements augmente, plus il y aura de niveaux. Une échelle
à niveaux impairs accorde un niveau central moyen, représentant un jugement neutre ou
« sans avis ».
Le volume des données évaluées fait état du travail effectué par les juges et par
conséquent des difficultés liées à la lourdeur de la tâche. De plus, cela donne une idée des
114
5.2. Évaluation humaine
proportions sur lesquelles le ou les systèmes ont été évalués. La proportion des données
sélectionnées est plus ou moins importante, allant jusqu’à la totalité des données, mais
elle doit toujours rester représentative de l’ensemble pour rester cohérente avec ce que
l’évaluateur cherche à évaluer. Le volume dépend de la tâche d’évaluation (par exemple,
la création d’un corpus à grande échelle dans PASSAGE a poussé les évaluateurs à ne
sélectionner pour l’évaluation qu’une partie d’un corpus de 100 millions de mots), mais
aussi des moyens mis à disposition : habituellement, la totalité des données renvoyées est
évalué, mais des contraintes de budget ou humaines poussent parfois l’évaluateur à ne
sélectionner qu’une moindre proportion. C’est par exemple le cas de la seconde campagne
CESTA où les systèmes de traduction automatique ont été évalués sur le tiers des données
renvoyées, car nous ne trouvions pas facilement, dans le temps imparti de juges pour les
textes spécialisés.
Selon les critères d’évaluation, les données évaluées sont accompagnées d’une référence, qui sert d’indicateur au juge concernant la qualité recherchée, supposée idéale, ou
le type d’information que devrait retourner le système. Lors de l’évaluation, le juge a sous
les yeux une ou plusieurs références, aucune référence (et ne se servir que de ses propres
connaissances) ou une « pré-référence » qui a subi un traitement automatique.
La plupart du temps, les jugements font l’objet d’une validation. Le plus souvent, cela
sert à prouver le bon déroulement de l’évaluation et à relativiser l’impact des différences
entre systèmes (en calculant un intervalle de confiance par exemple). Les jugements sont
validés ou non, partiellement ou en totalité, ou comparés (automatiquement ou non)
avec d’autres jugements. Nous étudions ce point plus en détail dans la section 5.2.3, la
validation faisant partie du processus même de l’évaluation et du travail de l’évaluateur
a posteriori.
Un contrôle du juge peut être mis en place. L’évaluateur décide de surveiller le
travail du juge en temps réel même si le risque est d’influencer son travail. Il cherche à
évacuer toute idée de subjectivité en normalisant les jugements à travers le point de vue
d’un expert ou d’un comité d’expertise, ayant pouvoir de décision sur les jugements. Ce
dernier regroupe plusieurs juges qui prennent une décision unique sur un jugement. A
contrario, les juges peuvent être libres d’effectuer les jugements de pertinence comme ils
l’entendent, l’évaluateur vérifiant a posteriori leurs jugements (voir section 5.3.3.5).
À cela s’ajoutent les conditions de l’évaluation : interfaces, lieux, entraînement des
juges, anonymisation des données, etc. Elles rendent compte des difficultés que les juges
rencontrent et aident l’évaluateur à expliquer des résultats inattendus.
Chaque combinaison de ces sept caractéristiques définit une approche spécifique de
l’évaluation humaine. Sa description est utile pour l’interprétation des résultats afin de
connaître les conditions de l’évaluation.
Le tableau 5.1 résume les caractéristiques à prendre en compte pour définir une mesure
d’évaluation humaine, les valeurs possibles, ainsi qu’un exemple en traduction automatique à partir de nos connaissances acquises au cours des projets CESTA et TC-STAR.
5.2.1.2
Application : CESTA
Les deux campagnes d’évaluation du projet CESTA ont comporté une étape d’évaluation humaine afin d’une part de mesurer la qualité des systèmes et d’autre part de
méta-évaluer des métriques automatiques en comparant les scores humains aux scores automatiques. Deux critères d’évaluation ont été retenus, la fluidité et l’adéquation, d’après
115
Chapitre 5 : L’étude des mesures d’évaluation
Caractéristique
Niveau d’expertise des
juges
Critères de jugements
et échelle de valeurs
Volume des données
évaluées
Utilisation de référence(s)
Validation des jugements
Contrôle du juge
Conditions
tion
d’évalua-
Valeurs possibles
D’utilisateur final à expert d’un domaine
N niveaux, généralement
N étant fixé à 2, 3, ou 5
Proportion représentative du total des données
ou ensemble des données
Une à plusieurs références ou pré-références
Oui/Non/Partiellement
Exemple
Utilisateur final d’un domaine
spécialisé
Adéquation et échelle de Likert
Un tiers du corpus
Une référence utilisée pour la
mesure d’adéquation
Calcul d’un accord inter-juges
Oui/Non, a priori /a pos- Validation a posteriori
teriori
Ensemble de l’environne- Interface d’évaluation, anonyment d’évaluation
misation des données, travail à
domicile des juges
Table 5.1 – Caractéristiques de définition d’une mesure humaine, valeurs possibles et
exemples en traduction automatique.
les campagnes d’évaluation DARPA [White et al., 1994].
Pour que les juges puissent évaluer les traductions automatiques, nous avons spécialement développé une interface accessible via Internet 1 . À l’aide de cette interface, chaque
segment traduit (correspondant à une phrase la plupart du temps) est évalué par deux
juges différents. Les segments de toutes les traductions disponibles sont mélangés, pour
que les juges ne puissent pas mémoriser des informations sur deux segments adjacents. En
effet, cela risque de biaiser l’évaluation dans le sens ou les juges pourraient inconsciemment deviner la signification d’un segment à partir d’autres segments vus précédemment.
C’est ce que nous avons aussi observé lors d’une évaluation en cascade d’un système de
traduction de l’oral vers l’oral [Hamon et Mostefa, 2008a]. En effet, la tâche d’évaluation
est limitée à la traduction automatique seule et en devinant le contenu d’une phrase, le
juge ne ferait pas uniquement état de la qualité en traduction.
Pour chacun des deux critères les évaluateurs répondent à une seule question. Pour la
fluidité, la question posée est : « Ce texte est-il écrit en bon français ? ». Les juges ont
alors à choisir une note sur une échelle de cinq valeurs, allant de « français impeccable »
(note égale à 5) à « français incompréhensible » (note égale à 1). Pour l’adéquation, la
question posée est : « À quel point le sens exprimé dans la traduction à noter est le même
que celui du texte de référence ? ». Une échelle de cinq valeurs est également proposée aux
juges, allant de « tout le sens » (note égale à 5) à « aucun sens » (note égale à 1).
Dans un premier temps, les échelles de valeurs intermédiaires sont nommées explicitement lors de la première campagne. Mais il a finalement été décidé de laisser le libre arbitre
aux juges des valeurs intermédiaires en ne spécifiant par leurs noms, mais seulement les
1. Plus de détails sur cette interface sont disponibles dans le rapport du projet CESTA [Hamon, 2007b]
disponible à l’adresse : http ://www.technolangue.net/IMG/pdf/Rapport_final_CESTA_v1.04.pdf.
116
5.2. Évaluation humaine
valeurs des scores (2, 3, 4) pour la seconde campagne. De plus, les jugements de la fluidité
et de l’adéquation ont été effectués en même temps pour la première campagne, mais de
manière séparée pour la seconde : les juges évaluaient à la suite tous leurs segments selon
la fluidité, puis selon l’adéquation. La dernière modification entre les deux campagnes
d’évaluation concerne l’évaluation de la traduction officielle en plus des traductions automatiques lors de la seconde campagne. En effet, seules les traductions automatiques ont
été évaluées pour la première campagne.
5.2.1.3
Application : CESART
Les sorties des extracteurs se trouvent sous la forme de candidats termes triés par un
ordre de pertinence (par défaut par fréquence décroissante). L’évaluation de l’extraction
terminologique consiste à effectuer dans un premier temps l’appariement automatique
de la sortie des extracteurs avec la référence sans aucune variation terminologique dans
l’appariement (c’est-à-dire en conservant les termes tels quels, sans lemmatisation ou
autre modification). Les experts analysent ensuite les candidats termes en s’aidant de la
référence terminologique représentative du domaine du corpus analysé. Ils procèdent à
une évaluation hors contexte en comparant les candidats aux termes certifiés.
Pour chaque candidat terme en sortie d’un système, l’expert a le choix entre 5 valeurs
de jugement. Elles prennent en considération les mots composant un candidat terme, qui
se trouve souvent être une expression composée :
– Valeur 1 (score=4) : le candidat terme est présent dans la terminologie (appariement
automatique) ;
– Valeur 2 (score=3) : le candidat terme est valide, mais n’est pas dans la terminologie ;
– Valeur 3 (score=2) : tous les composants du candidat terme sont certifiés individuellement dans la terminologie ;
– Valeur 4 (score=1) : un seul composant du candidat terme est certifié dans la terminologie ;
– Valeur 5 (score=0) : aucun composant du candidat terme n’est certifié dans la
terminologie.
L’expert suit l’ordre des valeurs. Ainsi, si le candidat terme expertisé ne correspond
pas à la valeur 1, l’expert teste la valeur 2, et ainsi de suite.
5.2.2
Déroulement
Les évaluations humaines sont à encadrer strictement, du fait de leur grande consommation financière, humaine et en temps. Des lacunes dans le protocole ne font qu’accentuer
les difficultés de l’évaluateur, des juges, et des agents externes cherchant à comprendre les
résultats. Les différentes étapes de l’évaluation humaine sont à identifier clairement. Elles
doivent être suivies avec précaution. Le protocole que nous proposons est relativement
simple et se déroule en sept grandes étapes :
1. Sélection des données à évaluer ;
2. Mise en place des données dans la ou les interfaces de jugement ;
3. Jugement des données sélectionnées ;
4. Collecte et formatage des jugements ;
117
Chapitre 5 : L’étude des mesures d’évaluation
5. Vérifications et corrections le cas échéant ;
6. Calcul des résultats ;
7. Interprétation et analyse des résultats.
Les étapes sont plus au moins longues et certaines se déroulent en parallèle à partir de
l’étape 3, comme le montre la figure 5.3. Le calcul de résultats intermédiaires est possible
afin de vérifier que les jugements humains sont bien réalisés.
Figure 5.3 – Déroulement d’une évaluation humaine.
5.2.3
Validation des jugements humains
La conduite d’évaluations humaines semble être un gage de pertinence des jugements.
Cependant, nous avons déjà expliqué que les juges ne sont pas toujours d’accord entre
eux, ni même d’accord avec eux-mêmes au cours du temps. Quels que soient le domaine
et la tâche, il y aura toujours des variations dans les jugements car l’usage de la langue
n’est pas déterministe. Ainsi, les variations de jugements sont souvent dues à une erreur
d’appréciation, mais aussi à de réelles divergences de point de vue entre juges ou l’influence
de l’environnement d’évaluation sur ceux-ci. L’évaluation humaine reste subjective, mais
nous écartons l’idée que le désaccord entre juges est synonyme d’erreur : le point de vue
peut être différent sans toutefois être faux. Ainsi, nous soulignons l’intérêt de multiplier le
nombre de juges et de jugements lors d’une évaluation humaine. C’est le moyen de réduire
l’intervalle de confiance (c.-à-d. le degré de confiance des valeurs obtenues) et de tendre
vers un écart-type (c.-à-d. la dispersion des valeurs autour de la moyenne) acceptable.
À titre d’exemple, les évaluations de la campagne CESART ont donné lieu à un test
de corrélation entre trois juges. Deux d’entre eux étaient documentalistes, le troisième
118
5.2. Évaluation humaine
docteur en médecine et linguistique. Leur tâche était d’évaluer la pertinence des cent premiers termes renvoyés par un système d’extraction terminologique, selon les cinq critères
décrits en section 5.2.1.3. Une référence était à leur disposition, le MeSH. À l’issue des
jugements, les jugements étaient très disparates selon les paires de juges. L’accord entre
les deux documentalistes était relativement bon, bien que 15 termes aient été jugés de
manière différente sur les 100 termes. L’accord entre les documentalistes et le médecin
linguiste était par contre beaucoup plus réduit, avec 65 et 67 termes en désaccord. Même
si quelques termes étaient redondants (présence de variantes de termes au pluriel et au
singulier) et la distance entre deux jugements était de un ou 2 sur une échelle de 5, cet
exemple met en lumière la difficulté pour des juges à dire la même chose, quand bien
même ils sont experts.
Ainsi, comme nous l’avons fait dans CESART, l’évaluateur doit analyser et interpréter
les résultats des évaluations humaines en prenant en compte les désaccords entre juges. Son
objectif est soit de réduire la variabilité des jugements, soit d’interpréter les résultats en
conséquence et en nuançant son propos. Plusieurs mesures existent pour estimer le niveau
d’accord entre juges et agir en conséquence. Nous en décrivons certaines, de manière non
exhaustive, dans la section suivante en nous appuyant sur des exemples réels. Pour la
plupart d’entre elles, de nombreux paramètres sont à prendre en compte : nombre de
juges, modalités d’évaluation, taille de l’échantillon, etc. De plus, nous définissons un bon
calcul d’accord comme étant :
– objectif : aucun juge ne doit être privilégié, de même que la période des jugements
(dans le cas de comparaisons au cours du temps) ;
– robuste : le calcul d’accord est reproductible à l’identique sans que les résultats
changent ;
– informatif : la description de l’accord doit être compréhensible et donner le maximum
d’informations pertinentes à l’évaluateur ;
– fiable : les résultats du calcul représentent au mieux l’état de l’accord.
Par ailleurs, il faut noter que la distinction entre la validation des jugements humains
et la méta-évaluation, que nous verrons par la suite, est bien réelle, même si la frontière
est très fine. À l’instar de la différence entre évaluation et validation, la méta-évaluation
prouve à quel point une métrique est pertinente. La validation des jugements humains,
elle, détermine s’il est approprié de se fier aux résultats, subjectifs, obtenus par évaluation
humaine. De plus, la validation des jugements humains ne compare pas une métrique
humaine à une autre métrique, mais observe intrinsèquement la robustesse et la fiabilité
des jugements.
5.2.3.1
Accord inter-juges simple
L’accord inter-juges « simple » permet d’observer la concordance entre les juges. Il est
moins utilisé que d’autres calculs d’accord, car la mesure est binaire et ne permet pas de
comparer des juges sur une échelle de plusieurs valeurs. De plus, seul l’accord entre deux
juges est observé. Il est tout de même possible de calculer des accords deux à deux pour
plusieurs juges sur un même échantillon.
Pour N jugements, l’accord inter-juges entre un juge a et un juge b se définit par :
119
Chapitre 5 : L’étude des mesures d’évaluation
N
1 X
accord =
δ(Sia = Sib )
N i=1
(5.5)
L’accord inter-juges correspond au rapport entre la somme des jugements concordants
et le nombre total des jugements effectués par deux juges. Les jugements concordants sont
statués par la différence entre le premier jugement Sia d’un échantillon S, et son second
jugement, Sib . L’accord inter-juges est compris entre 0 et 1, plus généralement indiqué
sous forme d’un taux entre 0 % et 100 %.
Par exemple, deux juges du projet Infile [Besançon et al., 2008] avaient à déterminer
la pertinence de documents pour une tâche de veille technologique. Les documents étaient
alors soit pertinents, soit non-pertinents. Les résultats pour 608 documents en français
sont présentés dans le tableau 5.2.
Juge 1
Juge 2
Pertinent Non pertinent
347
18
51
192
398
210
Pertinent
Non pertinent
Total
Total
365
243
608
Table 5.2 – Concordance des jugements de pertinence sur les mêmes documents, pour
608 documents portant sur le français lors du projet Infile.
Ainsi, 347 documents ont été jugés pertinents à la fois par les deux juges et 192 non
pertinents, soit 347 + 192 = 539 documents concordants. L’accord inter-juges est alors de
539/608 = 0, 89. Les juges concordent donc pour 89 % de leurs jugements. L’évaluateur
sait par ailleurs que 11 % des documents sont à vérifier.
5.2.3.2
Coefficient Kappa simple
C’est certainement la mesure la plus utilisée en traitement automatique des langues
pour quantifier l’accord entre deux juges. Il se définit, pour r modalités de jugement et
un échantillon de N jugements [Cohen, 1960] comme suit (nii correspondant au nombre
de jugements de valeur i donné par les deux juges) :
κ=
Où :
Po =
Et :
Po − Pe
1 − Pe
(5.6)
r
1 X
nii
N i=1
r
1 X
ni. ∗ n.i
Pe = 2
N i=1
En d’autres termes, le test de Kappa exprime une différence relative entre la proportion
d’accord observée Po et la proportion d’accord aléatoire Pe divisée par la quantité disponible au-delà de l’accord aléatoire. C’est-à-dire que le test de Kappa prend en compte
120
5.2. Évaluation humaine
l’effet du hasard pour ajuster l’accord maximum entre deux juges s’ils avaient agi de
manière aléatoire.
La valeur minimale du coefficient Kappa est de -1, lorsque le désaccord est total entre
les juges (Po = 0 et Pe = 0,5). Sa valeur maximale est de 1, lorsque l’accord est total entre
les juges (Po = 1 et Pe = 0,5). Une valeur de 0 signifie l’indépendance des jugements (Po
= Pe ), autrement dit que le seul lien entre les jugements est dû au hasard.
[Landis et Koch, 1977b] ont fourni un classement pour interpréter les valeurs du coefficient Kappa (tableau 5.3) :
Kappa
Interprétation
0,81 – 1,00 Accord quasi-parfait
0,61 – 0,80
Accord important
0,41 – 0,60
Accord moyen
0,21 – 0,40
Accord juste
0 – 0,20
Accord faible
<0
Aucun accord
Table 5.3 – Interprétation des valeurs du coefficient Kappa.
Même s’il est communément admis et utile pour la compréhension du coefficient
Kappa, ce classement possède quelque défauts. Ainsi, l’interprétation du coefficient Kappa
est avant tout celle que l’évaluateur en fait. Les valeurs négatives sont toutes considérées
comme un accord nul : on peut pourtant parler de désaccord plus ou moins faible, même
s’il intéresse moins l’évaluateur (à partir du moment où il n’y a pas d’accord, les résultats de l’évaluation sont déjà discutables). De plus, l’échelle linéaire (une interprétation
représente 20 points de coefficient Kappa) est issue d’expérimentations et non de calculs
formels.
En reprenant l’exemple précédent d’Infile (tableau 5.2), nous calculons le coefficient
Kappa simple :
Po =
Et :
Pe =
1
(347 + 192) = 0, 887
608
1
(365 ∗ 398 + 243 ∗ 210) = 0, 531
6082
Soit :
κ=
0, 887 − 0, 531
≈ 0, 759
1 − 0, 531
D’après le tableau 5.3, l’accord est important entre les juges, ce qui confirme la bonne
tenue des évaluations estimées lors du calcul de l’accord inter-juges. Bien que le coefficient
Kappa paraisse plus faible que l’accord inter-juges, les deux valeurs restent proche si l’on
rapporte le premier à l’échelle du deuxième ( c’est à dire 88 % pour le Kappa, contre 89 %
pour l’accord inter-juges).
Toutefois, [Feinstein et Cicchetti, 1990] ont présenté les limites du coefficient Kappa,
dont les valeurs sont faibles, alors que l’accord est tout de même important. De plus, à
notre sens, deux juges ayant des résultats proches, mais différents, sont trop pénalisés si
121
Chapitre 5 : L’étude des mesures d’évaluation
l’on compare à deux juges ayant des résultats bien distincts : la proximité des jugements
n’est pas considérée par le coefficient Kappa qui agira de la même manière dans l’un
et l’autre des cas. On retrouve ce cas en traduction automatique, où bien souvent les
jugements humains sont, sur une échelle de 5 valeurs, proches mais différents.
Un dernier cas problématique concerne les erreurs systématiques entre juges (et un
déséquilibre entre les désaccords) amenant à un coefficient plus élevé puisque Pe serait
alors plus faible. Les tableaux 5.4 et 5.5 fournissent deux exemples pour comparer d’une
part des résultats avec des désaccords équilibrés entre les juges et d’autre part des résultats
avec des désaccords déséquilibrés entre les juges.
Juge 1
Pertinent
Non pertinent
Total
Juge 2
Pertinent Non pertinent
40
20
20
20
60
40
Total
60
40
100
Table 5.4 – Exemple de résultats avec des désaccords équilibrés.
Juge 1
Pertinent
Non pertinent
Total
Juge 2
Pertinent Non pertinent
40
35
5
20
45
55
Total
75
25
100
Table 5.5 – Exemple de résultats avec des désaccords déséquilibrés.
Si l’on compare les tableaux 5.4 et 5.5, on s’aperçoit que la taille de l’échantillon en
désaccord est la même, mais elle n’est pas équilibrée de la même manière dans les deux
cas. Bien que les effectifs en désaccord soient du même nombre, 40 dans les deux cas, les
deux coefficients Kappa sont différents, respectivement de 0,167 (Po =0,600 et Pe = 0,520)
et de 0,238 (Po = 0,600 et Pe = 0,475). Les différences récurrentes entre juges amènent
donc à des valeurs Kappa plus élevées.
5.2.3.3
Coefficient Kappa global
Une autre limite du coefficient de Kappa simple est l’impossibilité d’estimer un
« Kappa global », lorsque plus de deux juges ont effectué des jugements sur un même
échantillon. L’intérêt du Kappa global est de déterminer l’accord sur l’ensemble des juges,
plutôt que d’agir par couple de juges. Un désaccord global amène ensuite à une étude plus
profonde pour cibler les juges en réel désaccord.
[Landis et Koch, 1977b] ont ainsi défini le coefficient Kappa global qui permet de mesurer l’accord entre n juges pour r critères de jugements en prenant en compte la chance
que les juges donnent le même jugement sur un même segment :
κg =
Po − Pe
1 − Pe
122
5.2. Évaluation humaine
Où :
Et :
N
r
X
1 X
1
Po =
nij (nij − 1)
N i=1 n(n − 1) j=1
N
r
X
1 X
nij )2
Pe =
(
Nn i=1
j=1
Le nombre de juges évaluant le ie échantillon selon le j e critère est représenté
par nij . Le problème principal réside dans la comparaison exacte des jugements
[Feinstein et Cicchetti, 1990].
Nous prenons comme exemple les données des deux campagnes CESTA en traduction automatique de l’anglais vers le français, pour les évaluations humaines de fluidité
et d’adéquation. Pour la première campagne d’évaluation, 112 juges ont évalué 3 950
segments (deux fois), soit environ 71 segments par juge. Pour la seconde campagne d’évaluation, 48 juges ont évalué 3 456 segments (deux fois), soit environ 72 segments par juge.
Le nombre d’évaluations effectuées par juge était similaire d’une campagne à l’autre. Les
valeurs des coefficients Kappa global sont présentées dans le tableau 5.6.
Évaluation
Campagne 1
Campagne 2
Fluidité
Adéquation
Fluidité
Adéquation
Po
0,394
0,364
0,516
0,566
Pe
0,233
0,215
0,267
0,280
κg
0,210
0,189
0,340
0,398
Table 5.6 – Coefficients Kappa global κg [0-1] pour les évaluations en fluidité et adéquation des deux campagnes d’évaluation CESTA.
Les résultats montrent un accord assez faible entre les juges. Ici, les faibles valeurs
obtenues nous paraissent être plus dues à un manque de flexibilité du coefficient Kappa
et à la comparaison binaire des jugements, plutôt qu’à une mauvaise compréhension de
la tâche de la part des juges.
5.2.3.4
Accord inter-juges relatif (ou n-agreement)
Nos précédentes conclusions sur le coefficient Kappa global nous amènent à penser
qu’il est nécessaire d’adopter une certaine flexibilité dans l’accord inter-juges en ajustant
la proximité des jugements.
Plutôt que de calculer un accord inter-juges strict s’appuyant sur un accord binaire
(pour lequel deux évaluateurs sont en accord ou en désaccord sur le jugement d’un même
segment 1 ), nous choisissons de mesurer un accord inter-juges relatif, ou n-agreement,
pour lequel n est la différence entre la valeur de deux jugements sur un même segment
[Hamon et al., 2008a].
1. Ici, nous basons notre propos sur la notion de segment, car nos illustrations sont prises à partir
d’exemples de traduction automatique : les entités minimales sont différentes pour d’autres domaines,
telles que des termes en extraction terminologique, des réponses en question-réponse, des documents en
veille technologique, etc.
123
Chapitre 5 : L’étude des mesures d’évaluation
Pour N segments, le n-agreement se définit comme :
où :
N
1 X
δ(|Sia − Sib | ≤ n)
n − agreement(n) =
N i=1
δ(|Sia
−
Sib |
≤ n) =
(5.7)
1 if |Sia − Sib | ≤ n
0 if |Sia − Sib | > n
Autrement dit, le n-agreement calcule le ratio du nombre de segments pour lesquels la
valeur absolue de la différence entre le premier jugement d’un segment S, Sia , et son second
jugement, Sib , est inférieure ou égale à n. La valeur maximale est de 1, lorsque tous les
juges sont d’accord entre eux à n près, la valeur minimale est de 0, lorsque tous les juges
sont en désaccord entre eux à n près. Si n = 0, alors le n-agreement se rapporte à l’accord
inter-juges simple. Même si l’accord relatif permet d’affiner l’observation de l’accord interjuges, son défaut majeur réside dans sa limitation à deux jugements comparés 1 .
Comme précédemment, nous prenons comme exemple les deux campagnes CESTA en
traduction automatique. Les résultats pour la fluidité et l’adéquation du n-agreement sont
présentés dans le tableau 5.7.
Évaluation
Fluidité
Adéquation
Fluidité
Campagne 2
Adéquation
Campagne 1
0
0,39
0,36
0,41
0,47
n-agreement
1
2
3
0,84 0,97
1
0,76 0,93 0,99
0,78 0,94 0,99
0,80 0,93 0,99
4
1
1
1
1
Table 5.7 – n-agreement [0-1] pour les deux campagnes d’évaluation CESTA.
Les juges ont donné des scores strictement identiques pour environ 40 % des segments :
cela nous semble refléter la subjectivité des jugements humains, car les juges ont plus
tendance à être en désaccord qu’en accord 2 .
Toutefois, lorsque n > 0, le n-agreement donne une bien meilleure idée de l’accord
entre juges. L’évaluation nous paraît alors plus fiable et les jugements plus stables entre
les différents juges, contrairement à ce que l’on pourrait penser avec un simple accord
inter-juges. La tendance est similaire pour les résultats des deux campagnes d’évaluation,
bien que les données soient différentes dans les domaines et les lexiques employés.
La perception de ce qu’est une « bonne » traduction est différente d’un juge à l’autre,
expert ou utilisateur, et, par conséquent, nous sommes convaincu qu’il n’est pas concevable
d’atteindre un 0-agreement de 100 %. C’est à l’évaluateur de pallier cette réalité des
jugements humains en associant les résultats des évaluations aux accords inter-juges. Mais
un accord binaire n’est pas la bonne solution, comme dans notre cas présenté ci-dessus :
1. Toutefois, on pourrait très bien concevoir un n-agreement global de la même manière qu’il existe
un Kappa global.
2. Au passage, nous remarquons que, contrairement à ce que l’on pourrait penser, il n’y a pas de
critère d’évaluation plus subjectif qu’un autre : l’adéquation n’est a priori pas plus difficile à évaluer que
la fluidité, tout du moins les divergences entre juges ne sont pas très importantes.
124
5.2. Évaluation humaine
il est parfois nécessaire de nuancer les différences entre juges. Avec les résultats de ces
deux campagnes, les juges sont à première vue en désaccord, ils ont très souvent la même
opinion sur la qualité d’un segment sans qu’elle soit strictement identique. Montrer un
1-agreement supérieur à 80 % nous semble plus significatif, notamment dans les cas où
la part de subjectivité est importante, que de montrer un accord strictement inférieur à
40 %. De même, dire que le 2-agreement est supérieur à 90 % nous permet de préciser
que les évaluations données sont dans la même zone de valeurs.
Pour aller plus loin, nous cherchons à comparer les résultats du n-agreement à ceux du
coefficient Kappa global présentés dans le tableau 5.6. Le point majeur reste le manque
de flexibilité du coefficient Kappa global : si le 0-agreement (l’accord inter-juges simple)
permet d’interpréter les résultats de la même manière que le Kappa global (un accord
relativement faible), le 1-agreement et les n-agreement successifs apportent plus d’information quant à la proximité des juges sur leurs jugements de qualité. Le Kappa global
nous paraît alors être dédié à des tâches moins subjectives, pour lesquelles les juges n’ont
pas à hésiter sur leur propre jugement.
Les mêmes expérimentations dans le cadre du projet TC-STAR [Hamon et al., 2008a]
nous ont amené aux mêmes conclusions, sur différents types de données et domaines.
5.2.3.5
Accord intra-juge
L’accord intra-juge mesure la cohérence intrinsèque d’un juge que ce soit au cours du
temps ou lors d’une même évaluation. Typiquement, l’accord intra-juge se mesure en deux
temps : le juge effectue tout d’abord ses jugements sur des échantillons, puis un certain laps
de temps (à définir, selon la tâche) est laissé et le juge effectue à nouveau ses jugements
sur les mêmes échantillons. Toute la problématique de la méthode réside dans le temps
laissé entre les deux jugements : plus la durée est courte, plus le calcul de l’accord est
biaisé car le juge a plus de chance de se souvenir, inconsciemment ou non, des jugements
précédemment effectués. À l’inverse, plus la durée est longue, plus il y a de chance que
la manière de penser soit modifiée radicalement. D’un point de vue plus pratique, le juge
peut ne plus être disponible après une certaine durée. Il faut donc allier intérêt scientifique
et difficultés pratiques pour calculer un accord intra-juge. Parallèlement à ces aspects, le
juge ne doit pas avoir conscience de refaire le même travail, ce qui est particulièrement
complexe à mettre en place : même après un long laps de temps, notre expérience en
traduction automatique montre que les juges arrivent à se souvenir de certains segments
évalués. Reste à savoir si les jugements sont effectués de la même manière et à identifier
les difficultés rencontrées par les juges.
En ce qui concerne la mesure de l’accord intra-juge, elle se fait de la même manière que
pour l’accord inter-juges en ne considérant qu’un seul juge effectuant les mêmes jugements.
On se trouve donc dans un cas particulier d’accord inter-juges simple, de coefficient Kappa,
d’accord inter-juges relatif, etc.
Nous prenons comme cas d’étude l’observation de juges dans le cadre du projet
CESTA.
Dans [Callison-Burch et al., 2007], les auteurs utilisent 10 % du jeu d’évaluation d’un
juge, évalué deux fois par le même juge, au cours d’une même session. Nous estimons le
délai insuffisant pour que le juge ne soit pas influencé par ses jugements précédents. Tout
au plus, cette méthode permet de vérifier l’attention du juge, et non la cohérence de ses
jugements.
125
Chapitre 5 : L’étude des mesures d’évaluation
Dans le cadre de CESTA, nous avons demandé à plusieurs juges de répéter leurs
évaluations, sans qu’ils le sachent, après un délai se situant entre quatre et douze mois selon
les évaluations. Pour ce faire nous avons utilisé les données des deux campagnes du projet
CESTA. Malheureusement, l’étude pêche par le nombre de juges, puisque seulement trois
juges ont pu reproduire leurs deux évaluations (seuls quatre de l’ensemble des juges étaient
communs aux deux évaluations). Les résultats nous donnent toutefois des indications sur
l’accord intra-juge du projet. L’objectif est double : nous voulons tout d’abord observer
l’accord intra-juge de manière stricte avec les résultats de la seconde campagne, mais nous
voulons également tester l’impact de l’interface d’évaluation sur les jugements, avec les
résultats de la première campagne. En effet, deux interfaces étaient disponibles : celle de
la première campagne d’évaluation et celle de la seconde campagne d’évaluation qui est
une modification de la première. Elle diffère de deux manières : les jugements de fluidité
et d’adéquation sont effectués de manière distincte, et l’échelle de 5 valeurs de jugements
n’est nominative que pour les bornes supérieures et inférieures plutôt que pour chaque
valeur.
Compte tenu du nombre de juges, nous avons tout d’abord testé la représentativité
des trois juges sélectionnés (nommés par la suite « Juge A », « Juge B » et « Juge C ») en
observant la corrélation de Pearson de leurs propres résultats, système par système, avec
les résultats officiels. Seuls les résultats de fluidité du Juge B pour la première campagne
d’évaluation présentent une corrélation faible de 60 %. Le reste des résultats montre des
corrélations au-dessus de 80 %, et plus généralement au-dessus de 90 %. Tout en prenant
les résultats suivants avec beaucoup de précautions, nous avons considéré les trois juges
comme étant représentatifs.
Les évaluations ont été croisées afin d’observer les différences de jugements, et selon
le protocole suivant :
– les juges mènent une première évaluation pendant la première campagne en utilisant
la première interface d’évaluation ;
– les juges mènent une première évaluation pendant la seconde campagne en utilisant
la seconde interface d’évaluation ;
– un délai de quelques mois est laissé après les deux évaluations ;
– les juges évaluent à nouveau les données de la première campagne en utilisant la
seconde interface d’évaluation ;
– les juges évaluent à nouveau les données de la seconde campagne en utilisant la
seconde interface d’évaluation.
Ainsi, la double évaluation de la seconde campagne nous permet de calculer un accord
intra-juge et d’observer les différences de jugement pour un même juge. La double évaluation de la première campagne en utilisant une interface différente nous permet, elle,
d’observer l’influence de l’interface d’évaluation sur les jugements.
Nous calculons ensuite les corrélations entre les premières et secondes évaluations à
l’aide du score des systèmes (tableau 5.8) et de leur rang (tableau 5.9).
En ne prenant en compte que les résultats de la seconde campagne afin de n’observer
que l’accord intra-juge, les corrélations sont hautes, comprises entre 90 % et 99 %. Toutefois, elles indiquent que les juges varient leurs jugements au cours du temps. Le défaut
du calcul de corrélation étant de ne pas voir les dégradations ou les améliorations des
valeurs, nous avons observé les scores des systèmes évalués. Au final, ces scores diffèrent
en moyenne et de manière absolue entre 0,08 et 0,42 point (sur 4 points au maximum)
126
5.2. Évaluation humaine
Juges
Juge A
Juge B
Juge C
Campagne 1
Fluidité Adéquation
0,47
0,63
0,96
0,66
0,98
0,62
Campagne 2
Fluidité Adéquation
0,96
0,99
0,97
0,92
0,90
0,89
Table 5.8 – Accord intra-juge [0-1] pour les deux campagnes, mesuré à partir du score
des systèmes.
Juges
Juge A
Juge B
Juge C
Campagne 1
Fluidité Adéquation
0,60
0,60
0,90
0,50
1
0,50
Campagne 2
Fluidité Adéquation
0,92
1
0,95
0,98
0,92
0,89
Table 5.9 – Accord intra-juge [0-1] pour les deux campagnes, mesuré en fonction du rang
des systèmes.
que ce soit pour la fluidité ou l’adéquation. Cela représente une variation relativement importante, la différence maximale trouvée sur un système étant de 1,08 point. La tendance
des scores est à la baisse lors de la seconde évaluation, en particulier pour l’adéquation.
L’expérience des juges joue probablement un rôle ici, d’autant plus que les juges nous ont
fait part de leur souvenir d’avoir déjà jugé telle ou telle phrase, sans toutefois se souvenir
du jugement donné.
Concernant les corrélations sur le rangs des systèmes, elles sont toujours très proches de
100 % pour la seconde campagne d’évaluation (les deux évaluations se sont alors déroulées
dans le même contexte). Lorsque variation il y a, elle est souvent due à l’inversion de deux
systèmes ou à l’égalité entre deux systèmes lorsque leur qualité est très proche.
Nous avons ensuite calculé l’accord relatif sur les résultats de la seconde campagne
entre les jugements des deux évaluations (tableau 5.10). De cette manière, nous affinons
les observations sur chacun des juges.
Évaluation
Fluidité
Adéquation
Juge
Juge
Juge
Juge
Juge
Juge
A
B
C
A
B
C
0
0,44
0,44
0,47
0,63
0,43
0,56
n-agreement
1
2
3
0,88 0,99
1
0,74 0,86 0,96
0,86
1
1
0,93
1
1
0,74 0,88
1
0,97
1
1
Table 5.10 – Accord relatif intra-juge [0-1] pour la seconde campagne d’évaluation.
Comme auparavant, si l’on excepte n=0, les accords sont très hauts, plus que pour
l’accord inter-juge. Plus de la moitié des jugements ne sont pas identiques mais les résultats
127
Chapitre 5 : L’étude des mesures d’évaluation
sont tout de même très proches. Même si le juge B (le juge le moins représentatif) semble
être en décalage avec les deux autres juges, d’une manière générale le maximum est presque
atteint pour n=2, tandis qu’il faut attendre n=3 pour l’accord inter-juge. De la même
façon que nous l’avons observé pour l’accord inter-juge, il semble plus difficile de conserver
les mêmes jugements pour la fluidité que pour l’adéquation. L’explication nous semble être
la même : l’absence de référence.
Finalement, un dernier point nous paraît intéressant à observer, même si le contexte
(seulement trois juges étudiés) limite nos conclusions : l’impact de l’interface sur les résultats et la corrélation intra-juge. Pour les évaluations concernant la première campagne
d’évaluation, deux paramètres ont été modifiés : la fluidité et l’adéquation sont évaluées
indépendamment et l’échelle de 5 valeurs n’est nominative que pour les extrêmes. Le fait
de changer deux paramètres à la fois peut être discutable (sauf à considérer le changement
dans sa globalité), alors nous supposons que :
– Modifier l’ordre d’évaluation n’affecte que les jugements pour la mesure d’adéquation : dans la première évaluation, le juge porte son attention sur deux critères à la
fois, toujours en commençant par la fluidité ; dans la seconde évaluation, le juge se
focalise sur un critère, mais les jugements d’adéquation ne sont plus influencés par
ceux de fluidité ;
– Modifier la définition de l’échelle de valeurs devrait affecter à la fois l’adéquation et
la fluidité, puisque les deux échelles des critères sont modifiées de la même manière.
Ainsi, nous supposons que l’adéquation sera plus affectée par les modifications que la
fluidité. En observant les tableaux 5.8 et 5.9, les corrélations permettent de comparer des
évaluations entre celles utilisant une interface modifiée (campagne 1) et celles utilisant
une interface qui ne l’est pas (campagne 2). Nous observons que les corrélations sur l’adéquation de la première campagne sont plus basses pour les trois juges, tandis qu’un seul
juge obtient une plus basse corrélation pour la fluidité. Dans un même temps, toutes les
corrélations sont très hautes pour la seconde campagne.
À première vue, modifier l’interface influence le jugement des critères de fluidité et
d’adéquation. Les changements pour l’adéquation sont plus prononcés que ceux de la
fluidité. Sans savoir quelle interface est la plus pertinente, nous aurons tendance à penser
que l’ordre d’affichage des critères affecte beaucoup les jugements d’adéquation, tandis que
l’échelle de valeurs ne l’affecte que très peu. Même s’il ne s’agit que d’une supposition,
ces résultats nous amènent toutefois à confirmer que les modifications d’une interface
d’évaluation, même mineures, affectent les résultats de l’évaluation.
5.2.3.6
Du double intérêt des calculs d’accord
Mise à part l’observation du comportement des juges, les accords inter-juges, ou intrajuges fournissent un diagnostic des problèmes relatifs à l’évaluation humaine : mauvaise
compréhension des spécifications, problème dans les données, etc. Un mauvais accord peut
aussi signifier que la tâche est mal définie, ou que les juges ont des difficultés avec celle-ci.
Avant toute chose, il est d’usage de ne pas dire aux juges qu’un accord est calculé à
partir de leurs jugements. Se savoir comparé influe logiquement sur le comportement d’un
juge, d’autant plus si les juges se connaissent entre eux. Une réaction d’adaptation a lieu,
un juge pensant, inconsciemment ou non, à ce que va juger « l’autre » qu’à prendre en
compte son jugement propre. L’évaluation s’en trouve alors biaisée et l’on s’éloigne d’un
scénario « proche de l’utilisateur ».
128
5.2. Évaluation humaine
Nous l’avons vu au cours des descriptions des différentes mesures d’accord, il n’y a
pas de mesure « parfaite ». Chaque mesure est plus ou moins adaptée à un problème, il
convient de l’interpréter en fonction du contexte précis de son utilisation.
De plus, l’analyse des accords entre juges affine ou nuance les résultats des systèmes
en replaçant les scores obtenus dans le contexte des jugements effectués. Par exemple, des
systèmes ayant des résultats distincts, mais dans le cadre d’une évaluation où les juges
sont en profond désaccord relativise l’écart entre les systèmes ; à l’inverse, des systèmes
ayant des résultats très proches, évalués par des juges en accord parfait donne la certitude
du classement des systèmes. Le tout réside dans la nuance dans les résultats selon le
comportement des juges.
5.2.3.7
Vote majoritaire
Même si le vote majoritaire n’agit pas exactement comme une validation de mesure
d’évaluation humaine, il lisse les résultats d’une évaluation. Pour ce faire, il nécessite un
nombre impair de juges pour chaque jugement, supérieur ou égal à trois. Cela permet
de décider de la valeur définitive d’un jugement, si par hasard un des juges a agi de
manière plus arbitraire ou s’il existe un désaccord non soluble entre juges. De plus, par un
calcul typique d’accord entre juges, l’évaluateur peut observer les points litigieux d’une
évaluation.
Lors du projet Infile (cf. section 5.2.3.1), les documents litigieux, pour lesquels les
deux juges étaient en désaccord, ont été jugés par un troisième juge. Ce dernier a donc
été en quelque sorte « l’arbitre » entre les deux premiers juges. Sur les 69 documents ne
concordant pas, 37 ont été jugés pertinents, 32 non pertinents par ce troisième juge. Cela
nous a alors donné un taux de pertinence des documents jugés de 63 %, tandis qu’il aurait
été de 64 % si les documents litigieux avaient été supprimés (avec une variation allant de
60 % à 65 % selon qu’on eût fait confiance à l’un ou l’autre des deux premiers juges).
Cela nous donne aussi la possibilité de voir si l’un des deux juges fournit des jugements plus arbitraires que l’autre. En l’occurrence, les deux juges étaient au même niveau,
puisque le troisième juge a confirmé 34 des documents pour le premier juge, et 35 pour le
second (soit une répartition de 50 % 1 ).
5.2.4
Identification de juges « problématiques »
Comme nous l’avons déjà mentionné, l’important lors d’une évaluation humaine est
d’analyser l’accord inter-juges. Cette analyse permet d’une part d’estimer la subjectivité et la fiabilité des jugements et d’autre part d’aider l’évaluateur à identifier les juges
problématiques (outliers). Nous définissons ces juges problématiques comme étant trop
divergents par rapport aux autres juges. Cela ne signifie pas nécessairement que leurs
jugements sont erronés, ils peuvent avoir une opinion de l’utilisation d’un système très
distincte des autres juges. Nous justifions cette identification par la gêne que peut causer
une diversité trop grande dans les jugements pour l’analyse des résultats. Quand bien
même l’évaluateur cherche à disposer d’un panel de juges afin de réduire la subjectivité,
1. Il faut toutefois noter que ce taux de 50 % pourrait parfaitement signifier que le troisième juge a
jugé les documents litigieux de manière totalement hasardeuse. D’autres jugements ont été faits par ce
même juge qui laissent penser que ce n’est pas le cas.
129
Chapitre 5 : L’étude des mesures d’évaluation
il n’a pas besoin de données perturbant la « pensée commune » : le but de la plupart des
évaluations est d’obtenir une idée moyenne de la qualité d’un système et non de savoir
si un juge en particulier a un point de vue radicalement différent. Ainsi, nous acceptons
une frange de diversité acceptable, mais sans qu’il y ait aberration dans les résultats. Cela
peut amener à éliminer les juges pour les remplacer ou réduire l’échantillon évalué en le
rendant plus objectif et précis, et ainsi affiner l’analyse. Identifier les juges problématiques
revient aussi à catégoriser les juges afin d’observer leurs résultats plus en détail.
Lorsque des jugements sont effectués, il n’est pas facile de savoir s’ils ont été effectués
de manière correcte ou non. C’est particulièrement le cas si les juges ne sont pas des
experts ou que leur nombre est grand. Les juges font la plupart du temps un travail très
contraignant et l’évaluateur ne s’aperçoit pas toujours des difficultés liées à leur tâche.
Un travail répétitif sur plusieurs heures n’est pas toujours homogène.
Nous distinguons trois méthodes principales pour identifier les juges problématiques :
– calculer la moyenne d’un juge sur un échantillon et la comparer à celle des autres
juges sur un même échantillon ;
– calculer l’accord moyen d’un juge par rapport aux autres juges sur un même échantillon ;
– placer des « pièges » dans l’évaluation, comme insérer des répétitions dans l’échantillon (pareil à une intra-évaluation, section 5.2.3.5), ajouter des portions d’échantillons « faciles » pour observer facilement des résultats aberrants, etc.
Si les deux premières méthodes calculent une distance sur les jugements entre juges,
la troisième utilise des données linguistiques plus concrètement. Pour chaque méthode,
un seuil de tolérance est défini afin de distinguer les juges les plus divergents. De manière
évidente, moins il y aura de juges, moins les deux premières méthodes seront utilisables.
À la suite de notre étude sur l’accord inter-juges relatif et le coefficient Kappa global,
nous avons utilisé les résultats afin d’identifier les juges problématiques sur les données
des projets TC-STAR et CESTA. En effet, les résultats obtenus nous amènent à nous
demander si les juges étaient fiables ou non : certains d’entres eux ont pu se tromper en ne
comprenant pas la tâche ou, plus problématique, en ne faisant pas les jugements de manière
sérieuse. Plusieurs aspects d’une évaluation entravent la bonne conduite des jugements
humains : tâche mal définie ou non explicite, fatigue, perturbations extérieures, etc. Nous
nous ne cherchons pas ici à accabler tel ou tel juge, mais plutôt à comprendre pourquoi
des résultats d’un juge auraient tendance à diverger de ceux d’autres juges.
Nous détaillons ci-dessous les expérimentations et résultats obtenus lors de la seconde
campagne TC-STAR d’évaluation [Hamon et al., 2008a]. L’évaluation portait sur des systèmes de traduction automatique pour la direction allant de l’anglais vers l’espagnol.
5.2.4.1
Score moyen par juge
Chacun des 125 juges évalue un sous-ensemble d’environ 163 segments, construit de
manière aléatoire parmi 10 180 segments afin d’être le plus représentatif du corpus évalué. Chaque segment est évalué par deux juges différents, selon les critères de fluidité et
d’adéquation sur une échelle de 5 points. De cette manière, il est possible de calculer un
score moyen pour chaque juge sur son sous-ensemble de segments, et de le comparer avec
le score moyen obtenu sur le même sous-ensemble pour tous les autres juges.
Les figures 5.4 et 5.5 montrent les scores moyens par juge obtenus pour les mesures
de fluidité et d’adéquation. Les juges sont présentés en abscisse selon leur score moyen
130
5.2. Évaluation humaine
croissant et ainsi classés du plus bas score moyen au plus haut.
Figure 5.4 – Score moyen par juge pour les jugements de fluidité et score moyen pour
les jugements correspondants provenant des autres juges.
Figure 5.5 – Score moyen par juge pour les jugements d’adéquation et score moyen pour
les jugements correspondants provenant des autres juges.
La variation des scores moyens est similaire pour les deux mesures : le score de chaque
sous-ensemble pour tous les autres juges (courbe pleine oscillant) est très proche du score
global de l’ensemble des segments (droite pointillée). Nous estimons que cela traduit
la représentativité des sous-ensembles par rapport à l’ensemble des jugements. Elle est
nécessaire pour pouvoir comparer les juges entre eux. Plus surprenant, le score moyen par
juge (courbe pointillée) varie beaucoup selon les juges, certains juges ayant de très basses
ou très hautes moyennes comparées à celles des autres juges sur le même échantillon.
Nos explications sont diverses : les juges peuvent avoir mal compris l’échelle de 5
points proposée, ne pas avoir fait assez attention à l’évaluation, ou avoir été trop – ou
131
Chapitre 5 : L’étude des mesures d’évaluation
trop peu – stricts. Les juges divergents, ici présentés au dessus et en dessous de l’écart type
(droites pointillées), pourraient parfaitement être supprimés des calculs afin d’homogénéiser les jugements. L’évaluateur pourrait aussi leur redemander de produire de nouveaux
jugements.
Cette méthode a pour avantage de comparer les scores moyens de chaque juge par
rapport aux scores moyens des sous-ensembles de segments respectifs et ainsi d’observer
la divergence des juges. Toutefois, il s’agit d’un score moyen et le score moyen d’un juge
donné peut être proche du score moyen du reste des autres juges, avec des scores sur les
segments pris un à un très divergents : tous les juges problématiques ne sont pas forcément
détectés par cette méthode.
5.2.4.2
Accord moyen par juge
Chaque segment évalué par un juge est comparé à celui évalué par un autre juge. Pour
un même juge, la distance moyenne est calculée entre tous les jugements de ses segments
et les seconds jugements provenant des autres juges. De ce calcul résulte un accord interjuges moyen pour un juge donné avec l’ensemble des autres juges. Les figures 5.6 et 5.7
montrent les résultats sur chacun des juges, obtenus de manière à présenter les juges par
accord croissant.
Figure 5.6 – Accord moyen par juge pour les jugements de fluidité.
Les courbes de fluidité et d’adéquation augmentent de la même manière que pour le
score moyen, bien que la courbe pour l’adéquation augmente plus rapidement, lorsque
l’accord est plus important. Pour certains juges, l’accord moyen est au-dessus de 1,5
points, ce qui est relativement important compte tenu d’une distance maximale de 4
points. Autrement dit, certains juges sont en désaccord avec les autres juges de 1,5 points
en moyenne : sans pour autant déclarer que leurs jugements sont erronés, nous observons
qu’ils ont été effectués d’une manière plus sévère et stricte que d’autres.
132
5.2. Évaluation humaine
Figure 5.7 – Accord moyen par juge pour les jugements d’adéquation.
5.2.4.3
Segments simples et pièges
La plupart des évaluations contiennent des parties plus « simples » que d’autres.
C’est souvent le cas en traduction automatique. La simplicité d’un jugement se situe
dans la longueur de ces phrases, mais aussi correspond à un lexique moins étoffé, une
structure syntaxique moins élaborée, etc. De cette manière, il nous est possible d’observer
les jugements et de les valider ou non en ne retenant que ces segments simples. Ils ne posent
pas de problèmes aux systèmes de traduction automatique. Ainsi, une grande majorité des
segments sélectionnés doit atteindre la valeur maximale lors des évaluations humaines (ce
qui simplifie d’autant plus cette « validation sur jugements simples »). Par conséquent,
un de ces segments ayant reçu une valeur plus faible de la part d’un juge est analysé plus
finement afin de savoir dans un premier temps si le système a correctement traduit, puis
de déterminer si le juge s’est trompé dans son jugement ou non dans un second temps.
Par exemple, les segments simples sont décrits comme contenant peu de mots, tel que
le segment gracias (merci ). Un autre critère concerne la répétition de segments dans le
jeu de test, comme les phrases ci-dessous.
¿ podría hacer más la Comisión ?
gracias , Presidente .
la respuesta es compleja .
gracias .
Dans les données de la seconde campagne TC-STAR, un total de 80 segments simples
ont été identifiés manuellement, nous permettant de déterminer si des juges ont effectué
des évaluations incohérentes. Suite à l’étude que nous avons faite, il apparaît que quelques
segments ne sont pas jugés correctement, ce qui ne signifie pas nécessairement que tous les
jugements des juges associés soient incorrects également : ces jugements restent localisés et
leur valeur peut être due à de multiples raisons telles que la fatigue, une baisse d’attention.
D’autres raisons peuvent être davantage liées à la tâche même qu’aux compétences du juge
en question.
133
Chapitre 5 : L’étude des mesures d’évaluation
L’étude des segments simples est coûteuse en temps et relativement complexe à mettre
en place. Pour cela, elle doit se faire au niveau du segment, manuellement, et dans notre
cas n’avoir que deux évaluations par segment ne nous a pas facilité les choses.
Il faut toutefois noter que le volume de ces segments (80 au total) n’est pas important.
Cela montre les limites de l’expérimentation, mais il faut reconnaître que la proportion
des segments se retrouve noyée dans la masse totale des segments jugés. Certains juges
ont toutefois tendance à juger de manière incorrecte un nombre plus significatif de ces
segments.
Ainsi, nous avons défini une troisième méthode pour identifier des juges problématiques. Elle est relativement coûteuse à la base, mais permet d’identifier rapidement ces
juges par la suite. Sa fiabilité n’est pas pour autant meilleure : il arrive que des jugements
soient erronés ponctuellement par le simple fait que les juges ne sont pas toujours à 100 %
de leurs moyens. Toutefois, nous considérons que la méthode peut s’appliquer facilement
à d’autres évaluations, comme par exemple en ajoutant des termes évidents dans une terminologie, en plaçant des questions « faciles » en entrée d’un système de question-réponse
ou en ajoutant des références supposées recevoir les jugements les plus hauts.
5.2.4.4
Identification des juges divergents
Pour chacune des trois méthodes, l’écart-type nous permet d’observer la dispersion
statistique des juges par rapport à la moyenne générale. Nous choisissons de mettre de côté
les juges figurant au-dessus de l’écart-type positif (pour le score moyen et l’accord moyen)
et en-dessous (pour le score moyen) de l’écart-type négatif. Notre premier objectif est
bien sûr d’identifier les juges problématiques mais il s’agit aussi d’identifier une certaine
portion de juges divergents et ainsi d’homogénéiser l’évaluation vers des résultats plus
généraux en supprimant leurs jugements.
La suppression de certains juges fait courir le risque de réduire l’originalité des jugements. Cependant, dans ce type d’évaluation nous ne cherchons pas à identifier l’originalité, mais bien à obtenir une estimation moyenne de la qualité, telle qu’un utilisateur
moyen la percevrait.
A contrario, le fait de seulement isoler ou de mettre en évidence certains juges rend
l’analyse des jugements plus fine. Un diagnostic plus détaillé aide l’évaluateur à comprendre les raisons de leurs jugements.
Sur le même exemple, le tableau 5.11 permet de comparer le nombre de juges identifiés
pour chacune des trois méthodes en considérant les mesures de fluidité et d’adéquation,
ainsi qu’une combinaison des deux mesures d’évaluation.
Fluidité
Adéquation
Fluidité + adéquation
Score moyen
45
45
30
Accord moyen
23
18
10
Segments simples
9
10
4
Table 5.11 – Nombre de juges divergents identifiés pour chacune des méthodes de validation.
20 juges sont identifiés en combinant les méthodes de score moyen et d’accord moyen
pour la fluidité, tandis que 15 le sont pour l’adéquation. La plupart font partie de la
134
5.2. Évaluation humaine
portion haute du score moyen (17 juges pour la fluidité, 5 pour l’adéquation), le reste de
la portion basse (respectivement 3 et 10 juges). Nous en concluons que si les juges sont
plus tolérants pour la fluidité, ils sont plus stricts pour l’adéquation. Ce comportement
s’explique dans la manière d’évaluer les segments. En effet, les juges n’ont que le segment à
évaluer de visible pour la fluidité, mais ils ont un segment de référence comme comparaison
pour l’adéquation.
De ce fait, les juges sont plus flexibles sans avoir de comparaison à faire, les possibilités
de jugements subjectifs sont plus nombreuses. En comparant le segment à une référence
pour l’adéquation, les juges ont tendance à vouloir apparier les deux segments, même
involontairement. Par ailleurs, ils ont aussi tendance, à juste titre, à tolérer des erreurs
syntaxiques dans une traduction plutôt que des erreurs qui modifient le sens du segment
d’origine.
La suppression des juges problématiques revient dans cet exemple à réduire d’un tiers
le nombre de juges pour le score moyen, à diviser leur nombre par 6 pour l’accord moyen,
ou encore à diviser par 13 pour les segments simples. Nous avons testé quelles seraient
les modifications sur les résultats des systèmes en les supprimant. Pour ce faire, nous
avons tout d’abord supprimé les juges, recalculé les scores, puis calculé une corrélation de
Pearson avant et après la suppression des juges (cf. section 5.4.2). Le tableau 5.12 présente
les résultats obtenus.
Fluidité
Adéquation
Score moyen [%]
98
99
Accord moyen [%]
99
100
Segments simples [%]
98
99
Table 5.12 – Corrélations de Pearson entre les scores originaux et les scores après suppression des juges problématiques.
Les corrélations de Spearman (cf. section 5.4.2) sur le classement des systèmes sont
au-dessus de 99 % pour chaque méthode. Les résultats obtenus sur le score moyen ne nous
surprennent pas vraiment : les juges qui ont les plus hauts et les plus bas scores ont été
supprimés, mais leurs résultats se complétaient dans les résultats avant suppression.
Les résultats sur l’accord moyen sont, eux, plus surprenants, les suppressions ne se
faisant que sur la fourchette haute des juges et les jugements étant en grand désaccord
avec ceux des autres juges.
En comparant les juges supprimés aux juges qui ne le sont pas, on s’aperçoit que les
scores moyens sont proches : 3,47 contre 3,24 pour la fluidité, 3,26 contre 3,91 pour l’adéquation. Les juges supprimés sont donc encore représentatifs du jeu d’évaluation dans son
ensemble, bien que certains d’entre eux puissent réellement être des juges problématiques.
Le fait de noyer ces derniers dans la masse des juges réduit la possibilité de biaiser les
résultats. Cela justifie d’autant plus d’avoir un grand panel de juges lors d’une évaluation.
Cela montre également qu’un désaccord important entre plusieurs juges ne signifie pas
nécessairement que leurs moyennes respectives ne sont pas similaires.
Les segments simples ne changent en rien les résultats, probablement du fait que peu
de juges ont été supprimés par rapport au nombre total de juges. Les jugements ne sont
pas réellement divergents et n’ajoutent pas plus d’informations dans ce cas précis.
Finalement, nous avons testé si les juges supprimés fournissent réellement des résultats
135
Chapitre 5 : L’étude des mesures d’évaluation
erronés suite à leur désaccord avec les autres juges conservés. Pour ce faire, nous avons
calculé la corrélation de Pearson entre les résultats officiels et les seuls résultats des juges
supprimés. Cela donne une corrélation de 84 % pour la mesure de fluidité et de 96 %
pour celle d’adéquation. Ces résultats ne montrent pas de différences importantes, mais
de petits écarts, plus faibles pour l’adéquation que pour la fluidité.
On s’aperçoit que, dans ce cas précis, conserver l’ensemble des juges affecte peu les
résultats, en particulier le classement des systèmes que ce soit pour la fluidité ou l’adéquation. Les scores sont pourtant, d’une manière générale, plus bas comme le montre la
figure 5.8.
Figure 5.8 – Résultats officiels des systèmes comparés aux résultats après suppression
des juges problématiques.
Les tests effectués pour l’identification des juges problématiques du projet CESTA
nous ont donné des résultats du même ordre.
5.2.5
Calcul et analyse des résultats de l’évaluation humaine
5.2.5.1
CESTA
Nous présentons les résultats humains des systèmes de la première campagne d’évaluation pour la direction de l’anglais vers le français dans le tableau 5.13.
Il présente la moyenne des scores obtenus sur les segments des systèmes, où 5 est le
score d’une traduction idéale. Les mesures d’accords nous ont permis de juger de la fiabilité
de ces scores. Les résultats des mesures de fiabilité obtenus par échantillonnage sur les
segments évalués conduisent à des écarts-type compris entre 0,03 et 0,09 pour la fluidité
et l’adéquation. Nous avons calculé des intervalles de confiance à partir des scores des
segments pour chaque système, sans passer par l’échantillonnage : ils sont compris entre
±0,05 et ±0,07 pour les différents scores et les différents systèmes. La même technique
136
5.2. Évaluation humaine
Système
S1(en,1)
S2(en,1)
S3(en,1)
S4(en,1)
S5(en,1)
Fluidité
Score
Classement
2,41±0,05
5 (p=1)
3,04±0,06 1 (p=0,99)
3,01±0,06 2 (p=0,99)
2,67±0,06
4 (p=1)
2,84±0,07
3 (p=1)
Adéquation
Score
Classement
2,96±0,06
5 (p=1)
3,54±0,06
1 (p=1)
3,43±0,06
2 (p=1)
3,18±0,07 4 (p=0,89)
3,24±0,06 3 (p=0,89)
Table 5.13 – Résultats des jugements humains pour la première campagne : scores sur
une échelle de 1 à 5 (5 étant la meilleure note et 1 la moins bonne) avec leurs intervalles
de confiance, et classements avec leurs probabilités.
d’échantillonnage nous permet d’ailleurs de calculer la probabilité du classement observé
pour chaque système, qui est indiquée dans le même tableau 5.13 à partir des scores
moyens (l’utilisation des rangs moyens pour chaque échantillon réduit quelque peu cette
probabilité).
L’évaluation humaine indique donc avec une fiabilité suffisante le même classement
des systèmes selon la fluidité et l’adéquation de leurs traductions. Toutefois, nous constatons que les deux meilleurs systèmes, S2 et S3, paraissent impossibles à départager avec
certitude, car les intervalles de confiance à 95 % ont une intersection non nulle. De même,
S4 et S5 présentent une différence non significative de scores d’adéquation ainsi que des
scores de fluidité proches. Enfin, notons que l’adéquation est globalement plus élevée que
la fluidité pour la plupart des systèmes.
En recueillant les jugements humains, nous établissons dans un même temps des classements en fonction des juges. Chaque juge établit de fait son propre classement des
systèmes évalués, ce qui nous permet de calculer un rang moyen par système. Nous présentons les résultats dans le tableau 5.14 pour la mesure de fluidité et le tableau 5.15 pour
la mesure d’adéquation. Pour chaque système, nous fournissons le nombre de juges l’ayant
classé 1er, 2e, etc., son rang moyen et son classement final en fonction du rang moyen.
Système 1er
S2(en,1) 43
S3(en,1) 31
S5(en,1) 22
S4(en,1) 16
S1(en,1) 0
2e
36
44
17
11
4
3e
18
17
41
25
11
4e 5e Rang moyen
11 4
2,08
18 2
2,25
21 11
2,87
30 30
3,42
32 65
4,41
Classement
1
2
3
4
5
Table 5.14 – Rang moyen des systèmes en fonction des classements par juge pour la
mesure de fluidité de la première campagne.
Nous observons que les résultats sont plus nets pour la fluidité, car l’écart entre les
rangs moyens de chaque système est plus marqué. De plus, quel que soit le score ou le
rang moyen, les classements des systèmes sont identiques pour la fluidité et l’adéquation
de la première campagne.
Les performances de la seconde campagne ne sont présentées que pour les résultats des
137
Chapitre 5 : L’étude des mesures d’évaluation
Système 1er
S2(en,1) 42
S3(en,1) 29
S5(en,1) 19
S4(en,1) 17
S1(en,1) 5
2e
28
39
19
19
7
3e
21
23
25
18
25
4e 5e Rang moyen
16 5
2,23
13 8
2,39
26 23
3,13
28 30
3,31
29 46
3,93
Classement
1
2
3
4
5
Table 5.15 – Rang moyen des systèmes en fonction des classements par juge pour la
mesure d’adéquation de la première campagne.
systèmes adaptés (campagne 2b) dans le tableau 5.16, puisque les systèmes non adaptés
(campagne 2a) n’ont pas été évalués par des juges. Les moyennes des scores obtenus, avec
leurs intervalles de confiance calculés directement sur l’ensemble des segments traduits par
chaque système sont accompagnées des classements correspondants et de leurs probabilités
(ou fréquences) calculées également par échantillonnage.
Système
Fluidité
Score
Classement
S8(en,2b) 2,28±0,10
5 (p=1)
S9(en,2b) 3,19±0,11 3 (p=0,51)
S10(en,2b) 3,30±0,10 2 (p=0,95)
S11(en,2b) 3,19±0,10 3 (p=.51)
S12(en,2b) 3,57±0,09
1 (p=1)
Adéquation
Score
Classement
2,84±0,11
5 (p=1)
3,15±0,10
4 (p=1)
3,44±0,11 2 (p=0,88)
3,38±0,11 3 (p=0,88)
3,78±0,09
1 (p=1)
Table 5.16 – Résultats des jugements humains pour la seconde campagne après adaptation des systèmes au domaine : scores sur une échelle de 1 à 5 avec leurs intervalles de
confiance, et classements avec leurs probabilités.
On constate que les résultats les plus élevés sont obtenus par le système S12, alors que
les performances des systèmes S9, S10 et S11 sont très proches, parfois indiscernables, et
que le système S8 est loin derrière. Dans la plupart des cas, l’adéquation des traductions
est supérieure à leur fluidité.
Les juges ont aussi évalué (sans explicitement le savoir) la traduction officielle de
chaque segment (c’est-à-dire celle disponible sur le site d’origine) à des fins de comparaison
avec les résultats des systèmes. Pour la direction allant de l’anglais vers le français, la
traduction officielle a obtenu un score de fluidité de 4,55 et un score d’adéquation de
4,20. Le score maximal étant de 5, on constate que les valeurs de fluidité sont proches du
maximum, mais que l’adéquation se situe bien en dessous, avec des valeurs étonnamment
faibles pour une traduction humaine. Plusieurs explications peuvent être envisagées, sans
que l’on puisse les départager : sévérité des juges, compréhension trop littérale par les
juges de la notion d’adéquation, faible qualité intrinsèque des traductions officielles, ou
différences linguistiques entre les juges français et les traductions québécoises (provenant
du site de Santé Canada).
Les scores de fluidité et d’adéquation des traductions officielles sont toujours supérieurs
à ceux des meilleurs systèmes, bien que la distance ne soit pas toujours très grande. À
138
5.2. Évaluation humaine
l’inverse des systèmes de traduction automatique, les traductions humaines reçoivent de
bien meilleures notes pour leur fluidité que pour leur adéquation, ce qui renforce peutêtre la deuxième hypothèse ci-dessus, celle d’une compréhension trop restrictive de la
notion d’adéquation. Cette différence peut être également due à la fréquence plus élevée
des reformulations dans les traductions humaines, alors que les systèmes traduisent plus
souvent en suivant l’ordre du texte.
5.2.5.2
CESART
Nous ne donnons ici que les résultats de la tâche T1, qui est la seule tâche à avoir
réellement donné lieu à une évaluation comparative, la tâche T3 n’ayant reçu la participation que d’un seul système. Les statistiques sur les sorties des systèmes sont présentées
dans le tableau 5.17 :
Système
Sys1
Sys2
Sys3
Sys4
Sys5
Santé Canada
Spirale
Candidats termes Avec variations Candidats termes Avec variations
26 053
37 936
3 447
4 609
108 074
168 484
60 695
67 944
286 018
286 022
41 377
41 377
10 000
11 620
10 000
10 000
50 848
50 848
–
–
Table 5.17 – Statistiques des candidats termes renvoyés par les systèmes pour la tâche
T1 de CESART et par corpus d’évaluation.
Si l’on excepte l’extracteur Sys4 (la limite inférieure du nombre de candidats termes
renvoyés demandée par les organisateurs était en fait de 10 000), on peut d’ores et déjà
observer la grande variabilité dans le volume des réponses des extracteurs. De plus, sur
les 5 extracteurs, deux ont réellement distingué les termes de leur variation, ce qui pose
la question de la légitimité d’une telle tâche, à savoir s’il faut mélanger l’évaluation de
l’extraction terminologique à celle concernant l’identification des variations ou s’il faut en
faire deux tâches bien distinctes [Nazarenko et al., 2009].
Après l’analyse des experts et l’appariement des candidats termes avec la liste de
termes de référence, les précisions sur les N premiers candidats termes sont calculées. La
mesure retenue repose sur la notion classique de précision, que nous pouvons considérer
comme étant :
Cscore=S
(5.8)
N
Où Cscore=S est le nombre de candidats termes corrects parmi les N premiers retournés
ayant un score égal à S
Les précisions sur les N premiers candidats termes retournés par les extracteurs sont
données pour N = {10, 100, 1000}, les experts ayant jugés les 1 000 premiers candidats
termes de chaque extracteur.
Un appariement automatique rudimentaire (c’est-à-dire une simple comparaison de
chaînes de caractères) ayant été fait pour aider les experts, nous dressons les résultats
P (N, S) =
139
Chapitre 5 : L’étude des mesures d’évaluation
automatiques (S = 4) des extracteurs en terme de précision, comme par exemple sur le
corpus de la santé (cf. tableau 5.18).
N
Sys1
10
0
100
15
1000
9
Max
3
Sys2
40
30
27
4
Sys3
1
12
6
1
Sys4
0
0
1
1
Sys5
20
20
14
14
Table 5.18 – Précision [%] des extracteurs sur le corpus de la santé d’après l’appariement automatique aidant les experts, sur les N premiers candidats termes renvoyés (Max
correspond à l’appariement sur l’ensemble des candidats termes renvoyés).
L’aide apportée par l’appariement automatique aux experts n’est pas négligeable. Il
permet de minimiser le coût d’évaluation en réduisant le nombre de candidats termes à
juger. Ce gain est allé de 1 % des candidats termes jusqu’à 27 % selon les systèmes (sur
les 1 000 premiers termes).
La mesure d’évaluation est établie à partir de la précision cumulée ces N premiers
candidats termes en considérant les différents critères d’évaluation décrits précédemment
et définie par :
4
X
(P (R, S))
P C(R, S) =
(5.9)
s=S
Ainsi les résultats de PC(R,4) proviennent des R premiers candidats termes ayant le
score 4, PC(R,3) de ceux ayant les scores 3 et 4, etc. Par exemple :
PC(R,3) = 20 % de P4 + 10 % de P3 = 30 %
PC(R,2) = 20 % de P4 + 10 % de P3 + 0 % de P2 = 30 %
PC(R,1) = 20 % de P4 + 10 % de P3 + 0 % de P2 + 30 % de P1 = 60 %
Le tableau 5.19 présente les résultats de l’évaluation humaine en prenant en compte
différentes variations de PC(R,S).
D’après les résultats, l’extracteur Sys4 est assez éloigné des autres extracteurs, qui
obtiennent des précisions cumulées relativement correctes bien qu’elles soient rarement
au dessus de 50 %. D’une manière générale, les résultats sont assez faibles lorsque S=4,
mais s’améliorent de manière conséquente pour S={1,2,3} : sans pour autant valider les
candidats termes par rapport au référentiel, cela représente un degré de pertinence pouvant
s’avérer intéressant pour le terminologue. De plus, nous constatons que les résultats ont
tendance à décroître lorsque R augmente : plus il y a de termes renvoyés, moins les
termes renvoyés sont pertinents, ce qui valide quelque peu le classement fourni par les
extracteurs. Au contraire, l’extracteur Sys1 n’a pas de bonnes performances lorsqu’il y
a peu de candidats termes (N=10), mais s’améliore beaucoup plus rapidement que les
autres extracteurs lorsque le nombre de candidats termes augmente. Autre cas de figure,
les extracteurs Sys2 et Sys5 sont beaucoup plus homogènes et leurs résultats varient moins
que les autres extracteurs lorsque N est modifié.
140
5.3. Évaluation automatique
Précision cumulée
PC(10,4)
PC(10,3)
PC(10,2)
PC(10,1)
PC(100,4)
PC(100,3)
PC(100,2)
PC(100,1)
PC(1000,4)
PC(1000,3)
PC(1000,2)
PC(1000,1)
Sys1
0
20
20
30
17
41
48
52
11
34
47
52
Sys2
50
60
60
70
31
37
38
43
29
34
36
39
Sys3
20
30
30
60
20
29
33
59
9
15
21
36
Sys4
0
0
0
10
0
2
3
15
0
3
10
29
Sys5
20
50
50
50
26
46
47
52
17
44
47
50
Table 5.19 – Précision cumulée [%] des extracteurs sur le corpus de la santé.
5.3
Évaluation automatique
Les caractéristiques de l’évaluation automatique se rapprochent de celles des systèmes
du traitement automatique des langues. Des raccourcis existent, notamment via l’utilisation d’une référence créée manuellement, mais le problème de savoir estimer la qualité
des systèmes est lié aux difficultés de comprendre le langage naturel. Accéder à une mesure d’évaluation implique d’avoir une métrique, un programme déterministe calculant
un score [Blanchon et Boitet, 2007] dont les caractéristiques principales sont d’éviter les
désaccords entre juges et la variation dans le temps des résultats.
Nous faisons la distinction avec une évaluation entièrement automatique, c’est-à-dire
sans aucune intervention humaine :le programme ou l’algorithme créé pourrait alors être
intégré au système évalué et biaiserait irrémédiablement l’évaluation et les résultats obtenus. Il faut donc réfléchir à la manière de minimiser la partie humaine de l’évaluation
lorsque l’on cherche à automatiser l’évaluation, tout en gardant à l’esprit la nécessité
d’une intervention humaine dans le processus. L’emploi du terme « semi-automatique »
serait plus judicieux. Mais par facilité le terme « automatique » est plus largement utilisé
au sein de la communauté. Il insiste ainsi sur le côté reproductible de l’évaluation dû à
cette automatisation via un programme. Nous utilisons donc dans notre thèse le terme de
« mesure automatique ».
De plus, nous faisons une différence entre le développement d’une mesure en vue d’évaluer un critère précis défini par l’évaluateur et l’automatisation d’une mesure humaine,
afin de pallier l’utilisation de juges.
5.3.1
Objectifs
Les développeurs de systèmes ont besoin d’observer régulièrement les performances
de leurs systèmes. Au-delà de leur simple observation, il est également utile, à certains
niveaux du développement, de procéder à une évaluation plus formelle. La mise en place
141
Chapitre 5 : L’étude des mesures d’évaluation
d’une évaluation humaine est souvent compliquée du fait de son coût. L’évaluation automatique, lorsqu’elle est possible, est alors un bon substitut à l’évaluation humaine.
L’évaluation automatique ne vaut pas une évaluation humaine, il s’agit donc de trouver un compromis entre la rapidité et la reproductibilité des mesures automatiques et
l’assurance d’un point de vue utilisateur de l’autre. Comme nous l’avons vu dans la section 5.2, l’évaluation humaine n’est pas nécessairement un gage de fiabilité, pas plus que
l’évaluation automatique la plupart du temps.
Le but premier en définissant des mesures automatiques est donc de suppléer l’évaluation humaine. Nous dressons ci-dessous les quatre caractéristiques les plus importantes
quant au déploiement d’une mesure automatique, en fonction des objectifs de l’évaluateur.
La vitesse d’exécution. Là où les évaluations humaines sont longues, les mesures
automatiques permettent de conduire des évaluations plus rapides au niveau applicatif.
Toutefois, la vitesse d’exécution doit être relativisée en fonction des performances des
programmes développés et des algorithmes utilisés dans le processus d’évaluation. Il arrive
que des programmes prennent jusqu’à plusieurs heures pour fournir des résultats, mais
ils restent en-deçà des délais d’une évaluation humaine. L’objectif est d’avoir une mesure
rapide, sans toutefois que cela ne viennent perturber la fiabilité des résultats.
Par ailleurs, un point souvent oublié concerne le développement de la ou des références.
Cette étape fait partie du processus d’évaluation et sa réalisation doit être prise en compte.
En traduction automatique, par exemple, un traducteur professionnel peut traduire de
600 à 1 200 mots par jour selon le type de documents à traduire, le domaine, etc. Cela
représente d’ores et déjà une quinzaine de jours minimum pour un corpus de 20 000 mots
auquel il faut ajouter une relecture par un autre traducteur professionnel, une validation,
des corrections si nécessaire, etc. Malgré tout, la rapidité d’exécution reste un avantage
compte tenu de l’aspect reproductible d’une mesure automatique (voir ci-dessous).
L’objectivité. L’objectivité des mesures automatiques reste toute relative : le choix
de la référence, l’adaptabilité de la métrique à un domaine ou à une tâche, ou l’algorithme
utilisé sont autant de paramètres dont les résultats dépendent, allant même jusqu’à les
biaiser. Du reste, les mesures automatiques s’attachent souvent à n’évaluer que certains
aspects de la qualité d’un système, la plupart du temps via la comparaison à une référence
humaine. Le tout est de savoir analyser et interpréter les résultats de l’évaluation : peu
importe qu’ils proviennent d’une évaluation humaine ou automatique, dès lors qu’ils sont
pertinents il suffit de prendre en compte leurs avantages et leurs inconvénients. Dans le cas
du développement d’un système notamment, ce n’est pas tant les résultats ou « scores » qui
comptent que les moyens mis en place pour analyser les sorties sur des points particuliers
et ainsi améliorer les systèmes.
Bien souvent, les mesures automatiques ont pour but de remplacer des mesures humaines et subjectives, en ôtant justement le caractère subjectif des résultats. Cela signifie
que les résultats ne varient pas dans le temps (ce que l’on peut assimiler à un accord
intra-juge parfait) et qu’ils ne sont pas dépendants d’un point de vue (ce que l’on peut
assimiler à un accord inter-juges parfait). Les mesures d’évaluation doivent, en théorie,
éviter de favoriser tel ou tel système, telle ou telle stratégie (statistique ou à base de
règle par exemple). L’enjeu est de diminuer la part de subjectivité dans l’évaluation, les
mesures automatiques utilisées doivent donc être objectives.
Le coût. Lorsque l’on compare l’évaluation humaine à l’évaluation automatique, on estime généralement que la première est largement plus coûteuse que la seconde. Ce point de
142
5.3. Évaluation automatique
vue n’est pas aussi simple, et nous considérons qu’il est même faux dans certains cas. Pour
qu’une évaluation automatique soit moins coûteuse, il faut qu’elle soit reproduite, avec les
mêmes données, un certain nombre de fois. De plus, comparée à une évaluation humaine,
plus il y a de sorties évaluées et plus elle est rentable. En effet, comme nous l’avons vu précédemment, l’utilisation d’une mesure automatique nécessite le développement d’une ou
plusieurs références, ce qui prend du temps et est coûteux financièrement. Nous prenons
exemple en traduction automatique, autour de la première campagne CESTA, pour laquelle deux évaluations, humaine et automatique, ont eu lieu [Hamon, 2007a]. La production des quatre traductions de référence pour l’évaluation automatique a coûté 8 000 euros,
avec un temps d’attente de 3 semaines (avant la collecte des sorties des systèmes). Le coût
des juges évaluant les systèmes a été de 3 000 euros, avec un temps d’attente de 4 semaines
(après la collecte des sorties de systèmes), sachant qu’une traduction de référence était en
plus nécessaire à l’évaluation pour la mesure d’adéquation. Ici, seul le coût de l’évaluation
humaine varie, en fonction du nombre de systèmes évalués et du nombre d’évaluations
conduites. Le coût de production des références reste le même, seule l’application de la
métrique (habituellement peu coûteuse) est répétée. On voit clairement ici l’intérêt de
développer une mesure reproduisant les évaluations humaines, moins coûteuse à terme,
puisqu’il suffirait d’une seule série de jugements (vs. une seule production de références)
pour pouvoir reproduire à volonté des évaluations.
La reproductibilité. Les développeurs ont besoin de reproduire des évaluations, tout
comme l’évaluateur pour observer l’adaptabilité à un domaine des systèmes par exemple.
Trois cas apparaissent dans un cycle de développement de systèmes [Giménez, 2008] :
– l’analyse d’erreurs : en affinant l’évaluation automatique, les développeurs mènent
des évaluations peu coûteuses et identifient des erreurs précises pour améliorer leurs
systèmes ;
– la comparaison de systèmes : indispensable dans le cadre d’une campagne d’évaluation, mais aussi pour comparer deux versions différentes d’un même système
[Callison-Burch et al., 2006], ou comparer un système à un système de l’état de
l’art ;
– l’optimisation de systèmes : pour optimiser, ou adapter un système, les développeurs
ont besoin de mesurer les performances régulièrement afin d’adapter les paramètres
de fonctionnement.
L’évaluation humaine rejoint difficilement ces cas de figure du fait de sa non reproductibilité.
5.3.2
Formalisme et approches
D’une manière générale, une métrique d’évaluation automatique compare la sortie d’un
système à une ou plusieurs références produites par des humains. Une référence est censée
être la sortie idéale que devrait fournir un système. C’est rarement le cas, car la langue
est telle que plusieurs possibilités s’offrent aux systèmes. En traduction automatique, par
exemple, une solution apportée est de collecter plusieurs références afin d’offrir une plus
grande gamme de possibilités. À l’inverse, en reconnaissance automatique de la parole,
les possibilités sont réduites et une seule référence est suffisante.
La comparaison automatique entre la ou les références et la sortie d’un système se
définit selon la technologie évaluée ou le critère de performance recherché. La précision, le
143
Chapitre 5 : L’étude des mesures d’évaluation
rappel et la f-mesure (voir section 5.1.4) sont certainement les mesures les plus utilisées
en évaluation humaine et sont également à la base de nombreuses mesures automatiques.
D’autres métriques utilisent la mesure de distance pour comparer des objets (phrases,
mots, caractères, n-grammes, etc.) entre eux. Une représentation vectorielle au niveau de
l’objet évalué est utilisée pour ensuite calculer une mesure de distance. Cela permet alors
de déterminer si la ou les références et la sortie du système sont séparées par une faible
distance ou non. Plus la distance est faible, plus elles se ressemblent.
De manière assez proche, un troisième type de métrique utilise la similarité entre
documents : en se servant de la représentation vectorielle des documents, la mesure de
similarité détermine si leurs deux vecteurs ont des directions semblables ou si les extrémités
sont proches en calculant l’angle qui existe entre eux.
Ces trois types de métriques (précision/rappel/f-mesure, mesure de distance, mesure
de similarité) s’appliquent à une grande majorité de cas. Bien qu’imparfaites, elles sont
suffisantes pour estimer la qualité d’un système.
Nous prenons comme exemple la distance d’édition (appelée aussi distance de Levenshtein [Levenshtein, 1966]) qui mesure l’importance des différences entre deux séquences,
habituellement deux chaînes de caractères. Elle se définit par le nombre minimal d’opérations nécessaires pour obtenir une séquence par rapport à une autre, les trois opérations
étant l’insertion, la suppression ou la substitution. Chaque opération a la possibilité d’être
pondérée différemment (par exemple, la substitution est considérée comme une suppression suivie d’une insertion et a un coût deux fois plus grand que les deux autres opérations),
même si le poids de chaque opération est habituellement fixé à 1.
Utilisées en premier lieu pour l’évaluation en reconnaissance de la parole, les métriques
calculant les taux d’erreurs (sur les mots ou les caractères) sont dérivées de la distance
de Levenshtein. Elles fournissent le taux de mots erronés par rapport à un document de
référence. Ainsi, le taux d’erreur sur les mots (Word Error Rate – WER – en anglais) est
calculé d’après l’équation suivante :
(5.10)
W ER = (I + D + S)/N
Où I est le nombre d’insertions, D le nombre de suppressions, S le nombre de substitutions
et N le nombre de mots de référence.
Le taux d’erreur sur les mots a été adapté pour les besoins de la traduction automatique
et à donné lieu à plusieurs nouvelles mesures.
La pertinence de la mesure réside dans sa capacité à distinguer une sortie d’un système
et la référence. Une sortie identique obtient des résultats maximaux, mais une sortie
différente doit être pondérée selon le degré de différence. Pour cela, l’évaluateur définit
avant tout ce qu’il cherche à évaluer et sur quels critères, à commencer par les traits
linguistiques (syntaxiques, sémantiques) qui sont utilisés.
Pour affiner notre exemple, nous poursuivons dans le domaine de la traduction automatique pour lequel de nombreuses métriques automatiques existent. Des stratégies de
calcul de similarité avec des traductions de référence sont habituellement utilisées. Dans
CESTA, trois métriques ont particulièrement été étudiées 1 : BLEU, NIST et WNM. La
métrique BLEU (BiLingual Evaluation Understudy) est une métrique automatique, développée par IBM [Papineni et al., 2001]. Comme pour sa variante élaborée par le NIST
1. De nombreuses autres
Callison-Burch et al., 2009].
métriques
existent
144
en
traduction
automatique
[Estrella, 2008,
5.3. Évaluation automatique
[Doddington, 2002], le principe est de comparer les phrases sorties du système de traduction automatique aux phrases de référence correspondantes sur la base de séquences de
n-grammes (une séquence ordonnée de n mots).
D’une manière simplifiée, il faut considérer que ces métriques comptent le nombre de
mots d’une phrase contenus dans une ou plusieurs phrases de référence. Une traduction est
d’autant meilleure qu’elle partage un grand nombre de n-grammes avec une ou plusieurs
de ces traductions de référence. BLEU applique une pénalité aux traductions ayant une
différence de taille importante par rapport à la traduction de référence afin d’éviter qu’un
mot apparaisse plus fréquemment dans le document traduit que dans le document de
référence, et d’empêcher ainsi des scores trop importants. La méthode NIST applique
différentes pondérations aux n-grammes, et utilise le gain d’information (qui calcule à
quel point un n-grammes fournit de l’information en donnant plus d’importance aux ngrammes plus rares) et une pénalité sur la taille du document traduit. La méthode BLEU
et sa variante NIST, même si elle sont contestées, restent actuellement les mesures les plus
utilisées dans le domaine de la traduction automatique. Les raisons de contester BLEU
et NIST sont multiples : elles biaisent les résultats en favorisant les systèmes statistiques,
la corrélation avec les juges humains n’est pas robuste et est finalement peu fréquente, on
ne sait pas exactement ce qu’elles mesurent, etc.
La méthode qui utilise le WNM (Weighted N-gram Model) [Babych et Hartley, 2004]
part du principe que, étant donné la variation légitime inhérente à toute traduction,
chaque mot à des besoins et des droits différents pour être préservés par un processus de
traduction. Tout en adoptant la formule des n-grammes, elle introduit une pondération
pour les mots identifiés comme significatifs, cette identification se faisant sur la base de
leur fréquence relative à l’intérieur d’un document par rapport à toute une collection de
documents (il s’agit d’une variante du score tf.idf utilisé en recherche d’information).
WNM calcule trois types de scores : la précision, le rappel et la f -mesure. On peut considérer que le rappel correspond à l’adéquation, tandis que la f -mesure correspond à la
fluidité.
5.3.3
Déroulement
Un des intérêts de l’évaluation automatique se situant dans sa reproductibilité, il
convient d’en définir les grandes étapes afin généraliser les procédures. Nous avons identifié
sept étapes, que nous utiliserons par la suite pour définir notre plate-forme d’évaluation :
1. sélection des données à évaluer ;
2. préparation de la référence ;
3. adaptation des métriques automatiques aux données ;
4. collecte et reformatage des données à évaluer ;
5. calcul des résultats ;
6. tests de validité ;
7. interprétation et analyse des résultats.
La troisième étape est optionnelle selon la tâche, la technologie et les données évaluées.
Il arrive qu’au cours de la quatrième étape les données elles-mêmes soient modifiées, en
145
Chapitre 5 : L’étude des mesures d’évaluation
plus de leur format. Par exemple, il est possible de lemmatiser les sorties avant de les envoyer vers la mesure (dans les faits, cette tâche peut être effectuée à l’aide de la métrique).
C’est à prendre en compte lors de l’analyse des résultats, puisque ce prétraitement risque
d’influer sur l’évaluation : le choix d’un outil (le lemmatiseur par exemple) plutôt qu’un
autre doit être justifié et l’information doit être prise avec soin lors de l’interprétation des
résultats.
5.3.4
Calcul et analyse des résultats de l’évaluation automatique
Pour illustrer le calcul et l’analyse des résultats d’une évaluation automatique, nous
prenons comme exemple le cas de la traduction automatique autour des campagnes
CESTA pour la direction de l’anglais vers le français.
Les résultats obtenus lors de la première campagne d’évaluation sont indiqués dans le
tableau 5.20 ci-dessous, en utilisant les n-grammes jusqu’à 4 pour la mesure BLEU, et
jusqu’à 5 pour la mesure NIST et en tenant compte de la casse des mots pour les deux
mesures. La mesure WNM est présentée ici avec ses valeurs de f-mesure (notées WNMf)
qui sont en réalité la moyenne des scores WNMf obtenus en considérant tour à tour chaque
traduction humaine comme référence [Hamon, 2007b]. Le tableau fait figurer également les
écarts-types des scores, obtenus par échantillonnage des segments [Estrella et al., 2007].
Système
S1(en,1)
S2(en,1)
S3(en,1)
S4(en,1)
S5(en,1)
BLEU
%
cl.
37,60±2,6 5
44,76±1,7 3
57,33±2,0 1
46,64±1,9 2
43,87±2,9 4
NIST
v.a.
cl.
9,03±0,30 5
9,78±0,22 3
11,03±0,25 1
9,98±0,25 2
9,65±0,53 4
WNMf
v.a.
cl.
49,48±0,33 5
55,57±0,39 3
57,29±0,39 1
56,98±0,35 2
53,22±0,42 4
Table 5.20 – Scores des métriques automatiques pour les traductions de la première
campagne d’évaluation CESTA : valeurs, en pourcentage (%) ou en valeur absolue (v. a.),
écarts-types (±) et classements (cl.).
Les résultats des mesures apparaissent particulièrement homogènes, non tant par leurs
valeurs que par les classements identiques qui en résultent. Les écarts-types, affichés ici
à la place des intervalles de confiance, indiquent une proximité assez grande de S4, S2 et
S5, alors que S3 se démarque comme ayant les scores les plus élevés, et S1 les plus bas.
La seconde campagne se proposait, de manière entièrement originale par rapport à des
campagnes précédentes, de mesurer la capacité des systèmes à s’adapter rapidement à un
domaine spécifique, ici celui de la santé. Nous en présenterons d’abord les performances
enregistrées par les mesures automatiques pour les systèmes non adaptés (campagne 2a)
dans le tableau 5.21.
Les résultats avant adaptation au domaine obtenus grâce aux métriques sur les ngrammes conduisent encore une fois à un classement concordant, ce qui permet d’accorder
à ces résultats une confiance acceptable. L’un des systèmes, S9(en,2a) se détache particulièrement, suivi du groupe S10-S11, puis du groupe S8-S12. Au sein de ces deux paires,
il semble difficile de départager de manière fiable les systèmes. Pour la paire S8-S12 une
146
5.3. Évaluation automatique
Système
S8(en,2a)
S9(en,2a)
S10(en,2a)
S11(en,2a)
S12(en,2a)
BLEU
%
cl.
32,83 4
37,96 1
33,80 3
35,19 2
25,61 5
NIST
v.a. cl.
7,76 4
9,14 1
8,58 3
8,71 2
7,38 5
WNMf
v.a. cl.
48,09 4
51,37 1
50,02 2
49,79 3
48,06 5
Table 5.21 – Scores des métriques automatiques pour les résultats de la seconde campagne avant adaptation au domaine (2a).
différence très notable est toutefois observée pour la métrique BLEU, mais celle-ci n’est
pas confirmée par le score WNMf.
Les résultats de l’évaluation après adaptation des systèmes sont présentés dans le
tableau 5.22.
Système
S8(en,2b)
S9(en,2b)
S10(en,2b)
S11(en,2b)
S12(en,2b)
BLEU
%
cl.
33,04±3,00 2
38,07±2,70 4
36,60±2,40 5
35,74±4,60 3
40,43±1,00 1
NIST
v.a.
cl.
8,35±0,40 5
9,13±0,34 2
8,97±0,31 3
8,77±0,49 4
9,27±0,17 1
WNMf
v.a.
cl.
50,05±0,66 4
51,50±0,71 3
52,47±0,68 2
50,59±0,66 5
56,25±0,77 1
Table 5.22 – Scores des métriques automatiques pour les résultats de la seconde campagne CESTA après adaptation au domaine (2b).
Le tableau 5.23 reproduit à des fins de comparaison les résultats des mesures automatiques pour les traductions produites par les systèmes avant (tableau 5.21) et respectivement après (tableau 5.22) l’adaptation au domaine.
Système
S8
S9
S10
S11
S12
BLEU
NIST
WNMf
avant après avant après avant après
32,83 33,04 7,76
8,35 48,09 50,05
37,96 38,07 9,14
9,13 51,37 51,50
33,80 36,60 8,58
8,97 50,02 52,47
35,19 35,74 8,71
8,77 49,79 50,59
25,61 40,43 7,38
9,27 48,06 56,25
Table 5.23 – Comparaison des scores des métriques automatiques pour les résultats de
la seconde campagne CESTA avant et après adaptation au domaine.
Cette comparaison illustre les difficultés à s’adapter correctement à un domaine de
spécialité. La plupart des scores augmentent bien après l’adaptation, pour les systèmes
147
Chapitre 5 : L’étude des mesures d’évaluation
S9, S10 et S11 mais l’amélioration reste toutefois faible, ce qui peut être dû à un niveau de
qualité initial déjà élevé. Mais nous préférons considérer la difficulté d’adapter le système
eu égard à la faible taille des données d’adaptation (20 000 mots) ainsi qu’aux délais
relativement brefs accordés pour l’adaptation (une semaine).
Nous notons toutefois que le système S12, et dans une moindre mesure S10, parviennent à s’adapter au domaine avec une grande efficacité. Le cas de S12, passant de
la dernière à la première place, est particulièrement édifiant. On peut penser que ce système peut atteindre d’excellentes performances si le domaine d’application a été bien
appréhendé initialement.
5.3.5
Expérimentations en traduction automatique
5.3.5.1
Problème
La plupart des métriques automatiques en traduction automatique utilisent des traductions humaines, de référence afin de comparer les traductions des systèmes. Ces métriques, telle que BLEU [Papineni et al., 2002], utilisent un maximum de références disponibles, tandis que d’autres, plus récentes, limitent la comparaison à une traduction de
référence (WNM [Babych et Hartley, 2004], METEOR [Banerjee et Lavie, 2005]). L’objectif est d’éviter les évaluations humaines, coûteuses, mais n’empêche pas l’emploi de
l’humain pour créer les traductions de référence qui sont elles-mêmes coûteuses. La métrique X-Score, originellement imaginée par [Rajman et Hartley, 2001] s’appuie sur la distribution de traits linguistiques élémentaires, tels que les catégories morphosyntaxiques ou
les relations de dépendance syntaxique. L’hypothèse des auteurs est de considérer que la
distribution de ces traits linguistiques est similaire d’un texte à un autre dans une langue
donnée.
Le X-Score se limite à l’évaluation de la grammaticalité d’un texte traduit, bien que
sa fonctionnalité puisse s’étendre à n’importe quel texte dans une langue donnée. Selon
la nature et le niveau des traits linguistiques choisis, la précision de la métrique variera :
travailler sur des relations de dépendance syntaxique est plus précis que de travailler sur
des catégories morphosyntaxiques, mais aussi plus complexe.
L’avantage souligné par les auteurs est que la métrique n’a pas besoin du texte source
pour être utilisée : seul le texte traduit est utilisé. Comme nous l’avons précédemment
mentionné, cela peut constituer un problème en soi : si la métrique et les données utilisées
sont connues des systèmes évalués, les développeurs peuvent parfaitement l’intégrer aux
systèmes. Comme nous le verrons par la suite, il est nécessaire d’étendre la métrique à
d’autres perspectives. Autre point faible de la métrique, elle suppose que la grammaticalité
du document source est correcte, puisque le niveau de grammaticalité d’un texte est censé
être conservé durant la traduction (qu’elle soit humaine ou automatique, la traduction
ne passe vraisemblablement pas par une amélioration du contenu de départ). Ce n’est
toutefois pas toujours le cas, il suffit pour cela de prendre exemple de la traduction
de documents oraux. Il nous semble nécessaire de tenir compte des documents sources
dans un premier temps, et d’avoir un corpus d’apprentissage (voir ci-dessous) adapté aux
documents évalués, et non pas générique comme le rapportent les auteurs.
À partir de l’étude que nous avons faite dans [Hamon et al., 2006], nous proposons
ici un algorithme faisant suite aux travaux de [Rajman et Hartley, 2001] pour calculer
un score de grammaticalité d’un texte traduit. Il s’appuie sur le principe suivant (cf.
148
5.3. Évaluation automatique
figure 5.9) : notre choix de traits linguistiques se porte sur les catégories morphosyntaxiques ; un modèle des catégories morphosyntaxiques est tout d’abord calculé d’après un
corpus représentant la langue cible et dont les phrases sont annotées selon un score de fluidité (ce critère étant très proche de la grammaticalité d’après [Rajman et Hartley, 2001]).
Puis le nombre d’occurrences des catégories morphosyntaxiques est calculé sur ce même
corpus, appelé « corpus d’apprentissage ». À partir de ces deux résultats, nous obtenons
un prédicteur linéaire capable de déduire un score de fluidité à partir de n’importe quelle
liste de fréquence de catégories morphosyntaxiques issue d’un document traduit. Les tests
que nous avons menés sont effectués à partir des données du projet CESTA.
Figure 5.9 – Déroulement de la métrique X-Score.
5.3.5.2
Prétraitement
Avant de démarrer toute évaluation, il est nécessaire de procéder à une première étape
qui consiste à créer manuellement un « corpus de fluidité » : il est composé de documents
dans lesquels chaque phrase est associée à un score de fluidité. Dans notre cas, nous avons
utilisé le corpus issu de la campagne d’évaluation DARPA 94 [White et al., 1994] qui est
similaire à celui sur lequel les tests ont eu lieu, pour la direction de l’anglais vers le français
de la première campagne d’évaluation CESTA. Le volume des données est d’environ 30 000
mots. Nous avons mené une évaluation consistant à fournir un score de fluidité sur chacune
des phrases du corpus traduit par plusieurs systèmes de qualités différentes 1 afin d’avoir
1. La traduction de référence de DARPA 94 a été conservée et plusieurs systèmes de traduction
automatique commerciaux disponibles sur Internet ont été utilisés.
149
Chapitre 5 : L’étude des mesures d’évaluation
une gamme de qualité suffisante. Les scores de fluidité obtenus (deux par phrase, dont
nous avons calculé la moyenne) permettent de construire le modèle grammatical associé
au langage cible en fonction des catégories morphosyntaxiques des documents du corpus.
5.3.5.3
Modèle grammatical et phase d’apprentissage
Même si nous gardons à l’esprit qu’une grammaire n’est pas figée pour une langue
donnée (elle dépend notamment du domaine d’application, du style d’écriture, etc.), nous
considérons ici que le modèle grammatical est établi à partir du corpus d’apprentissage une
fois pour toute. Un étiqueteur morphosyntaxique est appliqué sur chaque document du
corpus et le nombre d’occurrences des catégories morphosyntaxiques obtenues est calculé.
La fréquence d’apparition de chaque catégorie k par document i est alors calculée d’après
l’équation :
fk (i) =
dk (i)
N
(5.11)
Où :
– dk (i) est le nombre d’occurrences de la catégorie k pour le document i
– N est le nombre total de types de catégories morphosyntaxiques
Ainsi, nous obtenons un vecteur de fréquences des catégories pour chaque document,
et une liste de vecteurs pour l’ensemble du corpus. [Rajman et Hartley, 2001] définissent
le score de fluidité d’un document i comme linéairement dépendant des fréquences de
catégories :
Fi =
X
(ak fk (i)2 )
(5.12)
k
Où :
– fk (i) est la fréquence de la catégorie k dans le document i
– ak est le coefficient linéaire pour la catégorie k
La seule variable inconnue est alors le coefficient linéaire ak , qui justifie le calcul du
prédicteur linéaire afin de définir le coefficient pour chaque catégorie, de telle manière que
l’équation suivante soit minimale :
X
(Fi )
(5.13)
i
Cela implique que les coefficients sont les mêmes pour tous les documents du corpus.
Le vecteur des coefficients minimaux est défini par :
b = (X ′ X)ˆ(−1)(X ′ Y )
(5.14)
Où :
– X est la liste des vecteurs de fréquence
– Y est le vecteur des scores de fluidité
Le vecteur b constitue la liste des coefficients minimaux qui est utilisée par la suite pour
évaluer des documents traduits et prédire un score de fluidité à partir de ce prédicteur
linéaire.
150
5.3. Évaluation automatique
5.3.5.4
Phase de test
La troisième étape du calcul du X-Score a pour but de calculer le score de fluidité
d’un document traduit à partir du prédicteur linéaire. À partir du vecteur des coefficients
minimaux, nous projetons le score de fluidité associé aux catégories morphosyntaxiques
d’un corpus représentatif de la langue sur celles d’un document traduit.
Le même processus de transformation est appliqué au document traduit : un étiqueteur
morphosyntaxique est appliqué, puis les fréquences des catégories sont calculées d’après
l’équation 5.11, pour obtenir un vecteur de fréquence de catégories. Finalement, les coefficients minimaux calculés lors de la phase d’apprentissage sont projetés sur ce vecteur
pour obtenir le score de fluidité Fd du document d évalué, d’après l’équation :
Fd =
X
(ak fk (d)2 )
(5.15)
k
Où :
– fk (d) est la fréquence de la catégorie k dans le document d
– ak est le coefficient linéaire minimal pour la catégorie k
La valeur minimale du X-Score est de 0, tandis que la valeur maximale est de 1.
Plus haut est le score, meilleur est le système. Par contre, le X-Score n’a pas vocation
à exprimer un score tel quel pour un système, mais plutôt de chercher à comparer des
systèmes entre eux : nous privilégierons donc le classement des systèmes étudiés plutôt
que leurs scores.
5.3.5.5
Résultats
Les tests présentés ici utilisent les données des deux campagnes d’évaluation CESTA.
De nombreux paramètres sont susceptibles de modifier la métrique, à commencer par
les traits linguistiques sélectionnés. Ici, nous considérons les catégories morphosyntaxiques. Par conséquence, les résultats dépendent également de l’étiqueteur morphosyntaxique choisi. Dans nos expériences, nous avons effectué des tests avec l’étiqueteur Brill
[Brill, 1995] pour le français 1 et le Treetagger [Schmid, 1994] 2 . Nous présentons ci-dessous
les résultats calculés à l’aide de l’étiqueteur Brill, du fait de résultats décevants rencontrés
lors des premières versions du X-Score utilisant le Treetagger [Hamon et al., 2006].
Dans un premier temps, nous avons étudié les coefficients de la matrice de prédiction
faisant suite à la phase d’apprentissage, ainsi que la fréquence d’apparition des catégories
morphosyntaxiques de Brill, présentés dans le tableau 5.24 par ordre décroissant de poids
rapporté au nombre total des fréquences de catégories morphosyntaxiques.
La figure 5.10 présente les poids de chacune des catégories rapporté au nombre total
des fréquences.
Nous avions choisi en premier lieu de ne considérer que les catégories morphosyntaxiques les plus pertinentes de manière assez subjective (nom, verbe, etc.), mais le graphique résultant ne nous donne pas vraiment d’indication sur les catégories à utiliser ou
à enlever pour le calcul du X-Score. Par conséquent nous avons choisi de conserver toutes
les catégories morphosyntaxiques pour calculer les scores.
1. http ://www.atilf.fr
2. http ://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/
151
Chapitre 5 : L’étude des mesures d’évaluation
Catégorie
Signification
Poids
DTN
SBC
CAR
SBP
PREP
DTC
COO
ADJ1PAR
VCJ
ACJ
ANCFF
Déterminants Nominaux
Substantifs (noms communs)
Cardinaux
Substantifs (noms propres)
Prépositions
Déterminants Contractés
Coordonnants
Participes Passés derrière un verbe être
Verbes forme conjuguée
Verbe avoir forme conjuguée
Verbe avoir forme non conjuguée infinitif
Mots Étrangers
Particules
Verbe être forme conjuguée
Verbe être forme non conjuguée gérondif ou participe présent
Préfixes
Verbe avoir forme non conjuguée gérondif ou participe présent
Symboles
Pronoms non supportés par le verbe
Noms propres
Participes Passés du verbe être
Relatifs
Participes Passés du verbe avoir
Noms communs
Participes Passés autres
Verbes forme non conjuguée gérondif
ou participe présent
Verbes forme non conjuguée infinitif
Verbe être forme non conjuguée infinitif
Subordonnants
Participes Passés (hormis être et avoir )
Adjectifs
Subordonnant que (ambigu)
Pronoms supportés par le verbe
Adverbes
0,927
0,253
0,908
0,664
0,274
0,951
0,789
2,097
0,690
0,714
5,333
Fréquence Poids
rapporté
6876
0,14582
9952
0,05760
2244
0,04661
2892
0,04393
6417
0,04022
1508
0,03281
1790
0,03231
429
0,02058
1158
0,01828
516
0,00843
10
0,00122
5,311
0,081
0,003
-0,226
8
61
507
9
0,00097
0,00011
0,00003
-0,00005
-4,753
-4,972
4
4
-0,00043
-0,00045
-5,044
-0,039
-2,385
-0,311
-0,118
-3,800
-0,817
-0,176
-0,500
4
519
9
107
422
15
79
610
286
-0,00046
-0,00046
-0,00049
-0,00076
-0,00114
-0,00130
-0,00148
-0,00246
-0,00327
-0,165
-1,083
-0,410
-1,149
-0,104
-1,511
-0,842
-0,805
973
153
594
273
3048
289
731
1214
-0,00367
-0,00379
-0,00557
-0,00718
-0,00725
-0,00999
-0,01408
-0,02236
FGW
PUL
ECJ
ENCNT
PFX
ANCNT
SYM
PRO
NNP
EPAR
REL
APAR
NN
ADJ2PAR
VNCNT
VNCFF
ENCFF
SUB
VPAR
ADJ
SUB$
PRV
ADV
Table 5.24 – Poids des catégories morphosyntaxiques pour le calcul du X-Score.
152
5.3. Évaluation automatique
Figure 5.10 – Poids catégories morphosyntaxiques rapporté au nombre total des fréquences du X-Score.
Nous présentons ci-dessous les résultats obtenus sur les données des deux campagnes
CESTA (cf. tableau 5.25 pour la première campagne et le tableau 5.26 pour la seconde
campagne) auxquels nous avons associé les scores de fluidité correspondant aux systèmes
évalués.
Système
S1(en,1)
S2(en,1)
S3(en,1)
S4(en,1)
S5(en,1)
X-Score
%
Cl.
40,87 1
40,20 3
40,53 2
37,97 5
38,91 4
Fluidité
[1-5] Cl.
2,41 5
3,04 1
3,01 2
2,67 4
2,84 3
Table 5.25 – Scores et classement X-Score et fluidité des systèmes de la première campagne CESTA.
Les résultats obtenus ne sont pas réellement concluants et ils sont le plus souvent éloignés des scores de fluidité. Les coefficients de corrélation sur les scores sont respectivement
de 2,46 pour la première campagne et de 51,69 pour la seconde campagne. Les classements
ne correspondent pas non plus, avec même pour la première campagne le premier système
selon le classement de la fluidité qui se retrouve dernier selon le classement du X-Score.
153
Chapitre 5 : L’étude des mesures d’évaluation
Système
X-Score
%
Cl.
S8(en,2b) 35,58 5
S9(en,2b) 36,71 4
S10(en,2b) 38,50 1
S11(en,2b) 38,15 2
S12(en,2b) 37,30 3
Fluidité
[1-5] Cl.
2,28 5
3,19 3
3,30 2
3,19 3
4,28 1
Table 5.26 – Scores et classement X-Score et fluidité des systèmes de la seconde campagne
CESTA.
5.3.5.6
Discussion
Les résultats du X-Score nous ont permis de détecter les limites de la métrique, en
particulier la trop forte dépendance de la métrique aux poids des étiquettes. Ainsi, si
un système privilégie, à tort, une étiquette ayant un poids fort, ce système obtiendra
forcément un score plus haut que d’autres systèmes favorisant d’autres étiquettes. Nous
comparons par exemple les traductions du segment source « Subject : Commission buildings » de chaque système d’après le score obtenu à l’aide de la métrique X-Score (cf.
tableau 5.27).
Système
S1(en,1)
S2(en,1)
S3(en,1)
S4(en,1)
S5(en,1)
Traduction
Étiquetage Brill
Sujet
:
construcSBC SBC ADJ PREP SBC
tions(bâtiments) de commission
Objet : Les bâtiments de la SBC DTN PRO PREP PRO SBP
Commission
Le sujet : les bâtiments de DTN SBC DTN PRO PREP SBP
Commission
Objet : la Commission bâtiSBC DTN SBP SBC
ments
Sujet : Constructions de
SBC SBP PREP SBC
commission
Score [%]
18,56
33,99
50,08
52,41
36,09
Table 5.27 – Exemple de résultats du X-Score.
A priori, la meilleure traduction est celle du système S2(en,1), la référence étant « Objet : Bâtiments de la Commission ». Mais le meilleur score est celui accordé au système
S4(en,1), suivi de très près par le système S3(en,1), tandis que les trois autres systèmes ont
des scores beaucoup plus faibles. Or, si l’on observe la matrice de prédiction, la catégorie
ayant le poids le plus important est celle des déterminants nominaux (DTN). Ainsi, plus
les sorties des systèmes contiennent de DTN, plus hauts sont les scores.
Sur l’ensemble du corpus évalué, la traduction du système S1(en,1) contient beaucoup
plus de DTN que les autres systèmes, ce qui explique sa première position dans les résultats
généraux.
154
5.3. Évaluation automatique
Il est certain que le X-Score comporte actuellement des limitations et reste une métrique expérimentale. D’une part, tous les étiqueteurs morphosyntaxiques disponibles sur
le marché n’opèrent pas de la même manière et par conséquent ne produisent pas les
mêmes étiquetages qui par ailleurs sont de qualités différentes. Les résultats de la métrique s’en ressentent. Ensuite, le choix du corpus d’apprentissage est déterminant et les
catégories morphosyntaxiques peuvent être différentes selon le domaine du corpus utilisé,
même si pour un même domaine la répartition des catégories semble être homogène. Mais
ces problèmes, inhérents à la métrique n’expliquent pas les résultats décevants que nous
avons obtenus.
À travers les expérimentations que nous avons conduites, il apparaît que deux paramètres sont manquants. Tout d’abord, il est nécessaire de calculer le X-Score en pondérant
chaque étiquette par l’ensemble des catégories présentes dans chacune des phrases de la
phase d’apprentissage. Cela réduit le poids des catégories trop prédominantes. Autrement
dit, il est nécessaire de travailler sur des fréquences de catégories plutôt que sur des catégories. L’équation 5.11 est alors remplacé par l’équation suivante calculant les fréquences
de ratios entre les catégories k et k ′ pour chaque couple d’étiquette :
fk−k′ (i) =
dk
dk′
N
(5.16)
Où :
– dk est le nombre d’occurrences de la catégorie k pour le document i
– dk′ est le nombre d’occurrences de la catégorie k ′ pour le document i
– N est le nombre total de ratios calculés
Ainsi, une catégorie en surnombre ne biaise pas la métrique.
Autre paramètre manquant, la métrique ne tient pas compte du nombre et de l’ordre
des catégories. Il nous semble nécessaire d’ajouter la notion de n-grammes de catégories,
tout du moins de bi-grammes. L’inconvénient principal concerne le volume des données à
stocker dû au nombre déjà important de catégories, mais aussi à l’utilisation des ratios
sur bi-grammes. En effet, cela consisterait à utiliser les bi-grammes ou les n-grammes
d’étiquettes nous paraît très lourde à gérer. C’est d’autant plus le cas si nous utilisons les
fréquences de ratios de catégories (équation 5.16) plutôt que les fréquences de catégories
uniquement (équation 5.11). Avec les 35 étiquettes de Brill pour le français, cela représente
1 225 ratios de catégories, un maximum de 1 225 bi-grammes de catégories et le nombre
de ratios de bi-grammes de catégories dépasse les 1,5 millions d’entrées. Sans compter le
nombre de segments d’apprentissage, ce qui pose la question de mener l’apprentissage et
l’évaluation au niveau du document. Ce dernier point réduirait la finesse de la métrique
ainsi que l’analyse des données afin de corriger les systèmes de traduction automatique.
Nous avons toutefois calculé les résultats sur les données des deux campagnes pour le
premier paramètre ajouté, en considérant les ratios d’unigrammes (cf. tableau 5.28).
Ces nouveaux résultats ne nous permettent pas d’améliorer la métrique, puisque si
la corrélation avec les scores de fluidité s’améliore légèrement pour les résultats de la
première campagne (corrélation de 0,31), elle diminue pour ceux de la seconde campagne
(corrélation proche de 0). Les résultats sur les bi-grammes ne sont pas plus concluants.
Bien d’autres paramètres viennent complexifier la définition de cette métrique d’évaluation et les dépendances des résultats sont nombreux : choix du corpus d’apprentissage,
choix de l’étiqueteur, choix des étiquettes et de leur pondération, nombre et ordre des
155
Chapitre 5 : L’étude des mesures d’évaluation
Système
X-Score
%
Cl.
S1(en,1)
25,33 4
S2(en,1)
29,91 3
S3(en,1)
35,33 1
S4(en,1)
33,96 2
S5(en,1)
20,85 5
S8(en,2b) 25,16 3
S9(en,2b) 20,00 5
S10(en,2b) 20,39 4
S11(en,2b) 33,46 1
S12(en,2b) 25,58 2
Fluidité
[1-5] Cl.
2,41 5
3,04 1
3,01 2
2,67 4
2,84 3
2,28 5
3,19 3
3,30 2
3,19 3
4,28 1
Table 5.28 – Scores et classement X-Score des systèmes des deux campagnes CESTA en
considérant les ratios d’unigrammes.
mots, etc. Le choix de l’étiqueteur est particulièrement problématique : il peut biaiser
l’évaluation en favorisant l’un ou l’autre des systèmes, mais il peut aussi introduire des
erreurs d’annotation.
Les différents tests que nous avons effectués ne nous ont pas encore permis de finaliser
une métrique d’évaluation pertinente. Cela reflète, nous semble-t-il, la complexité de la
métrique imaginée au départ de manière théorique. À plus grande échelle, de telles expérimentations viennent montrer la difficulté d’évaluer automatiquement en essayant de se
rapprocher le plus possible des jugements humains.
5.3.6
Expérimentations en extraction terminologique
5.3.6.1
Problème
Notre seconde expérimentation pour définir et développer une métrique d’évaluation
automatique a pour cadre l’extraction terminologique. Nous l’avons testée sur les données
du projet CESART. La conception d’une métrique automatique pour évaluer les extracteurs terminologiques est complexe [Zargayouna et al., 2007], et les différents travaux réalisés mettent en évidence les difficultés pour une telle tâche [Amar et al., 2001]. Certains
travaux ont toutefois proposé des méthodes d’évaluation prometteuses justifiant les recherches dans ce domaine. Par exemple, alors que [Bourigault et Habert, 1998] évaluent les
extracteurs terminologiques en comparant leurs sorties, [Mustafa El Hadi et Jouis, 1998]
comparent la sortie d’un système à une terminologie. Nous avons choisi de partir dans
cette seconde direction, c’est-à-dire de comparer la sortie d’un système à une référence.
Notons d’emblée que comparer des outils terminologiques se révèle problématique
[Hamon et Hû, 2002] du fait des différentes méthodes d’extraction utilisées par ceux-ci.
Une autre grande difficulté concerne l’adéquation entre le vocabulaire issu du corpus et
celui de la terminologie. En général, les outils d’extraction de terminologie reposent sur
l’analyse de corpus en proposant des candidats termes au sein d’un corpus donné. Or,
il est impossible d’avoir un corpus ne couvrant qu’un seul domaine : un corpus ne peut
156
5.3. Évaluation automatique
être représentatif que d’une partie des phénomènes visés [Nazarenko et Poibeau, 2004]. La
référence qu’est la terminologie est donc un point d’observation qui permet de comparer
la production des systèmes à une idée que l’on se fait d’une terminologie d’un domaine à
un moment donné. Cette référence est le reflet du domaine du corpus sur lequel les outils
travaillent [Daille, 2002] : il existe nécessairement une différence de vocabulaire entre la
référence et le corpus. Un candidat terme peut être valide sans être présent dans le référentiel et de la même façon un terme certifié de la terminologie peut ne pas être présent
dans le corpus.
Cette constatation nous a amené à effectuer deux types de calculs. D’une part le calcul
des taux de précision et de rappel des outils par rapport à une terminologie du domaine, et
d’autre part le calcul du taux de rappel des outils sur une terminologie réduite au corpus.
Cette terminologie réduite est constituée des termes à la fois présents dans la terminologie
complète et dans le corpus. Elle est de ce fait représentative de la couverture du corpus
sur la terminologie du domaine.
L’autre difficulté porte sur la forme des termes. Les variations d’un terme dans le
corpus peuvent être difficiles à apparier avec le référentiel contenant des termes sous
une forme canonique. Par exemple, si un corpus contient le terme infirmières, comment
l’apparier automatiquement avec le terme infirmier contenu dans la terminologie ? La
comparaison entre les candidats termes du corpus d’évaluation et les termes certifiés
du référentiel terminologique pose ainsi de nombreux problèmes [Ninova et al., 2005] et
nécessite de prendre en compte les variations des termes.
5.3.6.2
Prétraitement
Les données utilisées sont de trois types : celui de la base terminologique, du corpus
et de la sortie de l’outil d’extraction à évaluer. Pour pouvoir apparier les données, il faut
les transformer en une forme comparable. Nous effectuons les mêmes opérations pour les
trois types de données. Le premier formatage consiste à supprimer les balises XML, afin
de n’avoir que des données textuelles brutes à utiliser.
Nous avons choisi dans une seconde étape de lemmatiser l’ensemble des données afin
de nous affranchir de certaines variations terminologiques notamment des variations morphologiques. Ce traitement facilite avant tout les comparaisons entre le corpus et la base
terminologique mais n’est pas sans poser certains problèmes. Des ambiguïtés mal résolues
lors de la lemmatisation peuvent mettre en échec l’appariement. Par exemple, le nom produit peut être lemmatisé par le verbe produire s’il n’est pas en contexte, comme ce peut
être le cas avec les candidats termes, alors qu’il peut s’agir du substantif correspondant.
En dernier lieu, les termes lemmatisés sont normalisés selon les catégories morphosyntaxiques, afin d’optimiser l’appariement du corpus avec la terminologie. Ainsi, nous
éliminons une partie des catégories grammaticales, comme par exemple les déterminants.
Il faut toutefois bien faire attention à ne pas supprimer des catégories utiles. Par exemple
les verbes ne font pas à première vue partie de la terminologie. Or, le verbe exprimer
sous la forme d’un participe passé se retrouve dans le terme gènes exprimés synonyme du
terme expression des gènes. Il est ainsi primordial de sélectionner avec soin les catégories
grammaticales à exclure. Par ailleurs, nous estimons que les formes canoniques sont bien
construites, les systèmes ne sont pas jugés ici sur leur capacité à les fournir. De fait, notre
méthode à l’heure actuelle se révèle incapable de procéder à tous les appariements car
certaines variations sont difficiles à traiter. C’est le cas par exemple des préfixes (cf. le
157
Chapitre 5 : L’étude des mesures d’évaluation
terme cardiaque est préfixé cardio).
5.3.6.3
Protocole
Le principe de notre méthode automatique prend appui sur le protocole de l’évaluation
humaine établi dans le cadre du projet CESART. Pour notre évaluation automatique,
seules les valeurs 1 (le candidat est présent dans la terminologie), 3 (tous les composants
du candidat sont certifiés individuellement dans la terminologie), 4 (un seul composant
du candidat est certifié dans la terminologie) et 5 (aucun composant du candidat n’est
certifié dans la terminologie) ont été retenues. La deuxième valeur est en effet la seule
qu’il n’est pas possible d’évaluer automatiquement : décider si une expression absente de
la terminologie de référence est un terme valide demande en effet des compétences qui ne
nous semblent pas formalisables et leur automatisation l’est encore moins.
Une alternative possible consiste à établir manuellement la terminologie à partir du
corpus, sans utiliser la terminologie du domaine. Cette méthode est évidemment très
coûteuse, mais offre l’avantage de limiter le volume des termes de référence.
5.3.6.4
Appariement des données pour l’évaluation automatique
Nous avons utilisé deux terminologies, l’une pour l’évaluation et l’autre pour l’appariement des candidats termes. Dans les deux cas, les taux de rappel et de précision des
extracteurs sont calculés. Dans le premier cas, l’évaluation est effectuée à partir de la terminologie du domaine sans considération du corpus. Dans le second cas, la terminologie
prise en compte est une terminologie réduite aux termes présents dans le corpus de test.
En toute logique, la précision de l’outil est la même dans les deux cas, mais le rappel
doit être beaucoup plus faible dans le cas de la terminologie complète, les termes certifiés
n’étant pas forcément tous dans le corpus. Cependant, les classements entre les différents
systèmes évalués doivent être similaires. Si un système obtient des résultats supérieurs à
ceux d’un autre sur la terminologie complète cela doit aussi être le cas sur la terminologie
réduite, à moins que le corpus n’introduise un biais différencié selon les systèmes (et par
conséquent ne soit pas représentatif de la terminologie). Notons également que le rappel
rend compte de phénomènes différents selon la terminologie utilisée. Pour la terminologie
complète, le rappel rend compte de l’adéquation entre le vocabulaire du corpus et celui de
la terminologie. Pour la terminologie réduite, le rappel met en évidence la capacité d’un
système à extraire l’ensemble des termes certifiés.
La figure 5.11 présente le principe d’évaluation automatique que nous avons adopté.
Le point 1 consiste à apparier la terminologie et la sortie du système. Après lemmatisation et normalisation, les termes sont comparés entre eux selon les mêmes critères que
ceux de l’évaluation humaine, à l’exception du critère 2 qui n’est pas pris en compte. Mis
à part ce dernier cas de figure, nous obtenons le même format de sortie que celui produit
par l’expert. La liste des candidats termes annotés nous permet alors de calculer les taux
de rappel et de précision de la sortie du système sur la terminologie du domaine.
Le point 2 consiste à construire la terminologie réduite à partir du corpus. Elle est le
reflet de la couverture du corpus par la terminologie complète. Pour ce faire, nous testons
pour chaque terme de la terminologie, lemmatisé et normalisé, s’il est présent ou non dans
le corpus qui a été préalablement segmenté en « phrases », mais également lemmatisé et
normalisé. Un terme est considéré comme étant dans la terminologie s’il est directement
158
5.3. Évaluation automatique
Figure 5.11 – Évaluation automatique sur les terminologies complète et réduite.
apparié, ou si les composants du terme sont proches dans le texte, en l’occurrence s’il n’y
a qu’un autre mot entre deux composants du terme.
Cette étape permet de passer à la suivante, le point 3 du schéma. Pour ce dernier point,
les calculs sont exactement les mêmes que ceux du premier point. Les taux de précision
et de rappel sont calculés mais cette fois-ci sur la terminologie réduite au corpus.
5.3.6.5
Résultats
La lemmatisation et l’étiquetage morphosyntaxique ont été faits à l’aide du lemmatiseur Brill pour le français. Les catégories grammaticales suivantes ont été supprimées :
DTC (déterminants contractés), PREP (prépositions), PRO (pronoms), DTN (déterminants nominaux). Le problème s’est posé dans le cas de l’appariement des « composants
proches » d’un terme. Comme nous l’avons mentionné pour le X-Score, le choix d’un
lemmatiseur particulier pose déjà la question de son influence sur les résultats finaux.
Nous présentons les résultats selon la terminologie complète, les calculs sur la terminologie réduite n’ayant pas encore été réalisés. De plus, les experts ayant évalué les 1 000
premiers termes renvoyés par les systèmes, nous n’avons effectué la comparaison entre
l’évaluation automatique et l’évaluation humaine que sur ces 1 000 premiers termes.
Nous présentons dans le tableau 5.29 les résultats obtenus pour l’évaluation automatique, en considérant les termes ainsi que toutes leurs variations. Il s’agit de la précision
cumulée sur les n premiers candidats termes extraits par un outil. Ainsi, la colonne V1
présente les précisions des systèmes selon la valeur 1, V2 selon les valeurs 1 et 2, etc. La
première colonne P(1000) concerne les précisions cumulées pour 1 000 termes. La seconde
P(MAX) et la troisième colonne R(MAX) indiquent respectivement la précision et le rappel pour le maximum de termes que les systèmes ont renvoyés. Le rappel est calculé en
considérant la valeur V1 comme étant valide et correspond à la proportion de termes du
domaine que les outils ont renvoyés. La précision correspond aux candidats termes faisant
159
Chapitre 5 : L’étude des mesures d’évaluation
partie de la terminologie du domaine.
Système
Sys1
Sys2
Sys3
P(1000) [%]
V1 V2
V3
5,9
–
62,3
18,8 –
25,2
5
– 40,69
P(MAX) [%]
R(MAX)
V4
V1 V2
V3
V4
V1 [%]
96,8 2,36 – 48,59 91,30
2,7
69,6
3
– 30,07 73,62
14,2
85,7 0,47 – 19,59 82,24
6
Table 5.29 – Résultats de l’évaluation automatique sur CESART.
D’après notre métrique, la performance des extracteurs n’est pas très bonne. En effet
les précisions selon V1 sont très basses. Mais cette contre-performance est à relativiser,
étant donné les précisions en V4, qui montre que les systèmes ont des difficultés à trouver
les termes exacts de la terminologie. Nous notons toutefois que la précision maximale est
au dessus de 90 %.
La couverture de la terminologie établie par les systèmes, représentée par le taux de
rappel, est plutôt mauvaise également, située entre 2,7 % et 14,2 %. Mais cela peut être
dû au fait que la terminologie n’est pas représentative du corpus, comme nous pourrons
le montrer avec les résultats obtenus sur la terminologie réduite.
On peut voir dans le tableau 5.30 les comparaisons des taux de précision entre les
évaluations automatiques et humaines pour les trois outils, sur les 1 000 premiers termes.
Système
Sys1
Sys2
Sys3
Évaluation
V1 V2
5,9
–
18,8 –
5
–
automatique [%]
V3
V4
62,3
96,8
25,2
69,6
40,7
85,7
Évaluation
V1
V2
10,6 34,3
28,8 34,1
8,5 14,6
humaine [%]
V3
V4
47,3 52,1
35,7 38,5
20,7 36,1
Table 5.30 – Résultats de l’évaluation automatique sur CESART.
Nous constatons que les précisions entre les deux types d’évaluation présentent des
écarts pour tous les critères. Ainsi, pour le critère V1 la précision de l’évaluation humaine
est supérieure à celle de l’évaluation automatique, mais ce constat se trouve inversé en ce
qui concerne les critères V3 et V4. De plus, cet écart est beaucoup plus grand pour V4
que pour V3.
Le taux de précision sur V1 devrait être a priori le même pour les deux évaluations.
Ce n’est pourtant pas le cas, alors qu’il s’agit d’un simple appariement avec la base terminologique. Nous expliquons ces écarts de deux manières. Du côté de l’évaluation humaine,
certains termes absents de la terminologie ont été placés en V1 alors qu’ils devaient l’être
en V2. Du côté de l’évaluation automatique, certaines variations des termes (variation
typographique comme le tiret par exemple) empêchent les candidats de s’apparier correctement.
En ce qui concerne les écarts sur les critères V3 et V4, nous avançons également deux
explications. L’évaluation automatique est trop peu contraignante puisqu’il suffit qu’un
candidat terme ait un mot en commun avec un terme pour que l’appariement réussisse
160
5.3. Évaluation automatique
même si ce mot n’est pas central. Les experts ont de leur côté des difficultés à distinguer
les critères V3, V4 et la non pertinence d’un candidat terme.
Prenons l’exemple du candidat terme abus sexuel. Il devrait a priori être présent
dans la terminologie, hors seul abus sexuel chez l’enfant est certifié. Lors de l’évaluation
automatique, le candidat terme est jugé selon la valeur 3, car tous les composants du
terme sont présents dans le terme principal, alors que l’expert l’a jugé valide, c’est-à-dire
selon la valeur 1. La difficulté pour l’expert est qu’il ne peut pas parcourir la terminologie
entièrement pour des raisons de temps et doit faire appel à sa propre connaissance du
domaine.
Le tableau 5.31 présente les corrélations de Pearson pour chaque système entre l’évaluation automatique et le jugement des experts, pour les listes de scores produites à partir
des 1 000 premiers candidats termes renvoyés.
Système
Sys1
Sys2
Sys3
Corrélation [%]
38
68
46
Table 5.31 – Corrélations de Pearson pour chaque système entre les évaluations automatique et humaine.
La corrélation moyenne est de 43 %, avec une corrélation maximale de 68 %. À première
vue, ces corrélations ne sont pas très bonnes, mais comme nous l’avons évoqué, elles sont
dues au fait que les deux évaluations ne rendent pas toujours compte de la même chose
et de la même façon.
5.3.6.6
Discussion
Plusieurs voies d’améliorations sont envisagées. Le premier point concerne les étapes
de normalisation et de lemmatisation. Ces différentes transformations ne permettent pas
de rendre compte de la capacité des systèmes à fournir les formes canoniques des termes.
Deux systèmes proposant respectivement expression des gènes et expressions gènes sont
par exemple jugés équivalents alors que l’un des candidats est plus proche de la forme
canonique du terme. Un système mesurant la distance entre l’expression d’un terme et sa
forme canonique pourrait pallier ce problème. Par ailleurs, la prise en compte de certaines
variations (typographie, préfixation) devrait améliorer l’efficacité de cette étape.
Le second point concerne la réduction de la terminologie. Déceler automatiquement si
un terme est présent dans un texte nécessite de repérer ses variations. À l’heure actuelle,
seule l’insertion d’un mot dans un terme composé et les variations morphologiques sont
prises en compte. L’amélioration consiste à déceler d’autres variations comme la coordination ou le changement de catégorie d’un composant comme pour système d’audition et
système auditif.
La méthode proposée ici nous semble ouvrir de nouvelles perspectives pour l’évaluation
des extracteurs terminologiques. Non seulement cette méthode est applicable dans le cadre
de l’évaluation automatique, mais elle peut également permettre de soutenir le travail
des experts dans le cadre de l’évaluation humaine. Elle peut affecter automatiquement à
chaque candidat terme une pertinence qui reste à corriger manuellement.
161
Chapitre 5 : L’étude des mesures d’évaluation
Nous sommes allé plus loin dans [Nazarenko et al., 2009] en étudiant plusieurs pistes
pour l’évaluation des extracteurs terminologiques et notamment la problématique de la
variation des termes. L’objectif est toujours d’adapter la sortie des systèmes pour qu’elle
soit ajustée à la référence. Cette dernière différencie la liste plate de termes de référence et
les variantes de termes. Le protocole se distingue alors en comparant les candidats termes
extraits automatiquement aux termes de la liste plate, puis en comparant les variantes
de termes après calcul de variation par les systèmes. Ainsi, le fait de distinguer les deux
tâches que sont l’extraction terminologique et le calcul de variation permet de les évaluer
de manière autonome et plus particulièrement de simplifier l’évaluation en extraction
terminologique. Reste la problématique de la distance entre termes et la question de leur
comparaison. L’approche d’une distance terminologique utilisant la distance d’édition sur
les chaînes de caractères et sur les termes (pour pouvoir comparer les termes complexes
entre eux) ne nous paraît toutefois pas complètement satisfaisante. En effet, il peut s’avérer
que des chaînes de caractères très proches ne correspondent pas à des termes eux-mêmes
proches (comme par exemple les termes chevaux et cheveux ). L’approche se justifie tout
de même par l’appréciation d’une liste complète de termes. L’ensemble des termes évalués
doit être à même d’atténuer le poids des rapprochements incohérents. De plus, il ne faut
pas oublier l’aspect pratique, à savoir que le domaine d’une extraction terminologique est
généralement assez spécifique pour ne pas rencontrer deux chaînes de caractères proches
sans que les termes ne le soient eux-mêmes.
5.4
5.4.1
Méta-évaluation
Généralités
L’évaluation en traitement automatique des langues est une chose, mais n’a aucun
sens si elle n’est pas évaluée elle-même. L’évaluateur a besoin de connaître le degré de
pertinence d’une mesure pour deux principales raisons : choisir la mesure la plus adéquate
et interpréter les résultats selon ses performances. C’est l’un des points les plus importants
lors du développement d’une mesure automatique, voire de son utilisation. Il s’avère aussi
utile dans le cadre de l’étude d’une évaluation humaine. Cette « évaluation de l’évaluation » est plus souvent désignée sous le terme de méta-évaluation. Avec la méta-évaluation
d’une mesure, l’évaluateur cherche à étudier le degré de corrélation des résultats de cette
mesure avec les critères de qualité qu’elle est censée mesurer. Il évalue son propre travail.
Nous distinguons ici la méta-évaluation de la validation, qui cherche plus à estimer la
pertinence d’une mesure dans un contexte donné par rapport à un seuil. La limite est très
fine entre les deux notions, mais le niveau de complexité et d’étude est plus important
pour la méta-évaluation.
L’état de l’art en ce qui concerne la méta-évaluation est assez limité. D’après nous,
l’étude la plus aboutie au sujet de la méta-évaluation est celle de [Stufflebeam, 1974],
même si elle a pour cadre le domaine de l’éducation. Toutefois, la méthodologie et les
critères de méta-évaluation sont intéressant et peuvent facilement s’appliquer au traitement automatique des langues. En traduction automatique, [Callison-Burch et al., 2007]
étudie quelques mesures d’évaluation du domaine. Globalement le domaine du traitement
automatique des langues ne s’est que peu intéressé au sujet, du moins spécifiquement,
jusqu’à ces dernières années où la question s’est timidement développée.
162
5.4. Méta-évaluation
D’après [Stufflebeam, 1974], la méta-évaluation tourne autour de trois standards totalisant 11 critères pour développer une méthodologie de méta-évaluation, que nous adaptons
au traitement automatique des langues :
– L’adéquation technique :
– La validité interne : la mesure doit produire au minimum une réponse précise
au problème d’évaluation pris en considération. Elle doit également proposer des
résultats sans équivoque.
– La validité externe : détermine si la mesure peut se généraliser et si les résultats
valent pour le cas particulier étudié ou si l’on peut les extrapoler à d’autres cas.
– La fiabilité : concerne la robustesse de la mesure, c’est-à-dire que reproduire l’évaluation ne devrait pas changer les résultats.
– L’objectivité : les résultats ne devraient pas dépendre du choix des données 1 , des
juges ou de l’algorithme utilisé par les systèmes.
– L’utilité :
– La pertinence : la mesure doit répondre aux objectifs de l’évaluation, et aux
attentes des acteurs.
– L’importance : l’évaluateur choisit d’utiliser les données qui seront les plus représentatives pour le bon déroulement de l’évaluation.
– La portée : les informations que procure la mesure ont une ampleur qui ne se
limite pas à certains aspects du critère étudié, mais prend en compte le maximum
de caractéristiques.
– La crédibilité : la confiance en la mesure doit être suffisante pour que l’audience
suppose que l’évaluation évite tout biais. Les auto-évaluations sont à exclure ainsi
que l’évaluateur ou les juges qui sont impartiaux et externes aux systèmes évalués.
– Délai de réponse : la mesure doit fournir des résultats dans les délais escomptés.
– L’omniprésence : les résultats de l’évaluation sont fournis aux acteurs adéquats
afin d’être utilisés de la meilleure manière possible.
– Le coût et l’efficacité : l’évaluateur a besoin de maintenir l’évaluation à un coût le
plus bas possible sans sacrifier la qualité des résultats.
Ces critères s’appliquent à tous les niveaux de l’évaluation : protocole, méthodologie,
mesure, métrique, etc. Il est toutefois plus simple d’observer la qualité de la mesure ou
de la métrique puisque les résultats en sont mesurables. Le protocole, ou la méthodologie,
ont des résultats plus abstraits et fonctionnels. La décomposition en plusieurs critères
permet bien souvent de les améliorer, sans toutefois apprécier des valeurs formelles. La
mesure et la métrique, elles, fournissent des résultats quantifiables, et donc en théorie
comparables avec d’autres résultats quantifiés. Le tout est de connaître exactement ce
qui est méta-évalué, évalué, et de savoir comparer les résultats entre eux. D’un point
de vue plus pratique, nous conservons par la suite le standard d’adéquation technique.
Il permet davantage de décider quelle métrique choisir pour officialiser les résultats de
l’évaluation, pour analyser un système en détails ou pour observer l’amélioration de ses
versions successives.
La méta-évaluation regroupe un ensemble de procédures et de méthodes pour juger
l’évaluation et la confronter à ce qui est considéré comme une bonne évaluation. Mais que
dire de l’évaluation de la méta-évaluation, et son évaluation, etc. ? La régression est infinie
et nous ne nous intéresserons ici qu’au premier degré de méta-évaluation. De plus, la méta1. Paramètre discutable puisque la plupart des technologies dépendent du domaine de la tâche.
163
Chapitre 5 : L’étude des mesures d’évaluation
évaluation reste une évaluation en elle-même, et les principes de l’évaluation développés
précédemment s’y rapportent donc.
5.4.2
Procédure et méthodes
Trois grandes étapes précèdent la procédure de méta-évaluation. En premier lieu, l’évaluateur définit ce qu’il cherche à méta-évaluer et ses objectifs. Ensuite, il définit le cadre
dans lequel aura lieu la méta-évaluation : le type des données, le type d’évaluation, etc.
La troisième étape correspond au déroulement de l’évaluation elle-même et à la collecte
des résultats, tels que nous les avons présentés auparavant. Après quoi, la méta-évaluation
peut commencer. Elle a pour but de comparer les résultats de l’évaluation aux résultats
attendus et sert à les interpréter.
Nous identifions deux méthodes pouvant être entreprises pour méta-évaluer et juger la
pertinence d’une métrique. Outre la comparaison des résultats obtenus, il existe le calcul
de robustesse qui se fait souvent via l’échantillonnage des données (bootstrapping). Ce
dernier permet la mesure de la fiabilité d’une métrique. L’échantillonnage est en particulier
utilisé dans le cas de métriques humaines, dont les résultats sont difficilement comparables
à une référence [Efron et Gong, 1983].
La comparaison de deux métriques, l’une méta-évaluée et l’autre servant de référence,
se fait sur un jeu de données similaire à celui d’une évaluation. L’échantillon choisi est
représentatif de ce que l’on cherche à évaluer afin de vérifier un maximum de cas de figure.
Après avoir sélectionné les données, plusieurs systèmes 1 traitent les données et renvoient
leurs résultats. À partir de ces sorties de systèmes, les différentes métriques sont ensuite
appliquées et leurs résultats collectés.
Finalement, la comparaison effective des métriques se fait en calculant un coefficient de
corrélation. Les principales mesures de corrélation utilisées sont celles de Pearson, Spearman ou Kendall. Elles mesurent le degré de dépendance qui existe entre deux variables.
Le coefficient de corrélation de Pearson est celui le plus utilisé pour mesurer la liaison
linéaire (c.-à-d. la corrélation de scores dans notre cas), mais les coefficients de corrélation
de Spearman et Kendall sont plus pertinents lorsque les variables sont ordinales ou discrètes (dans notre cas, lorsqu’il s’agit de coefficients de corrélation calculés sur des rangs).
Il ne reste plus qu’à interpréter les résultats, voire à analyser les données plus en détails.
Pour comparer le classement des systèmes, un calcul de proximité peut être également possible, comme la distance de Hamming [Hamming, 1950], par exemple dans
[Rajman et Hartley, 2001] sur des métriques de traduction automatique.
Le calcul de robustesse permet de mesurer la capacité intrinsèque des métriques à
produire des scores constants pour des données de qualité constante. Le but est notamment
d’observer la stabilité des métriques par rapport à la variation des données, à qualité
supposée constante. La meilleure façon de mesurer cette stabilité, lorsque les données sont
limitées, est de rééchantillonner les données par un tirage avec remise, afin d’obtenir une
grande quantité d’ensembles de traductions différents. L’hypothèse est que des échantillons
différents produits par un même système auront une « qualité stable », qui doit être mise
1. En effet, nous estimons qu’une méta-évaluation ne peut se conduire qu’avec l’évaluation d’un nombre
relativement important de systèmes et, si possible, utilisant plusieurs stratégies de traitement. Cela permet
d’une part de comparer le classement obtenu par les différentes métriques, et d’autre part d’avoir accès
à un nombre suffisant de résultats différents en multipliant les cas de figure pour la méta-évaluation.
164
5.4. Méta-évaluation
en évidence par une métrique stable. Les échantillons étant généralement de la même
taille que l’ensemble de départ, de nombreuses données sont par conséquent dupliquées
dans chaque échantillon.
Le rééchantillonnage permet d’étudier la distribution d’une variable par approche statistique [Efron et Gong, 1983]. Les jeux de données utilisés sont créés en faisant une
sélection aléatoire parmi les données d’origine en autorisant la répétition des données
sélectionnées. De nombreux échantillons sont ainsi créés. Plus il y aura d’échantillon,
plus la probabilité des résultats observés se rapprochera des données réelles. L’algorithme de rééchantillonnage, simple à mettre en place, se présente sous la forme suivante
[Estrella et al., 2007] :
– à partir d’une population X = (x1 , x2 , ..., xn ),
– B échantillons sont tirés, notés Xb∗ = (x∗1 , x∗2 , ..., x∗n ), où chaque x∗i est tiré avec
remise parmi les xi ,
– pour chaque échantillon d’un système a donné, le score ma (Xb∗ ) de la métrique
méta-évaluée, m, est ensuite calculé,
PB
(m (X ∗ ))
– pour le système a, la moyenne des scores des échantillons ma = b=1 Ba b est
calculée,
q
PB
(m (X ∗ )−m2 )
a
a
b=1
est calculé.
– pour le système a, l’écart-type σa =
B
La difficulté restante concerne le choix de la taille de B, le nombre d’échantillons
sélectionnés. En effet, la taille de l’échantillon doit être représentative de l’ensemble
du jeu de données d’origine. D’après la littérature [Efron et Gong, 1983, Koehn, 2004,
Bisani et Ney, 2008, Zhang et Vogel, 2004, Estrella et al., 2007], il apparaît qu’une sélection d’un segment pour vingt est un échantillonnage suffisant.
5.4.3
Méta-évaluation de l’évaluation manuelle
Aussi peu rigoureuse qu’elle soit, une des premières méthodes pour méta-évaluer une
métrique humaine est liée à la connaissance de l’évaluateur ou du développeur. Par
exemple, dans le cadre d’une campagne d’évaluation, le classement des systèmes peut
ne pas paraître cohérent. Autre exemple, un développeur « sait », ou a une idée de l’évolution du système qu’il développe : des résultats improbables peuvent donner lieu à une
vérification de la pertinence de la métrique utilisée (en plus du fonctionnement du système).
Pour méta-évaluer plus formellement les jugements humains, la méthode la plus simple
est de tester la robustesse des jugements produits par échantillonnage. En traduction automatique, dans le projet CESTA, nous avons choisi de créer 100 échantillons (figure 5.12).
Nous échantillonnons les documents de deux manières différentes : en considérant la
distribution à partir d’une part des segments et d’autre part à partir des juges. Cela signifie
que dans le premier cas le tirage se fait en répétant les segments, et dans le second cas en
répétant tous les segments d’un même juge. L’échantillonnage à partir des juges évalue
par ailleurs la cohérence des juges en comparant les résultats à ceux de l’échantillonnage
à partir des segments.
Pour chaque système, quatre types de résultats sont calculés pour les deux échantillonnages, selon :
– le score moyen sur l’ensemble des échantillons ;
– le rang moyen sur l’ensemble des échantillons ;
165
Chapitre 5 : L’étude des mesures d’évaluation
Figure 5.12 – Échantillonnage des jugements pour tester la robustesse de l’évaluation
humaine.
– le classement des scores moyens sur l’ensemble des échantillons ;
– le classement des rangs moyens sur l’ensemble des échantillons.
Puisque deux critères d’évaluation sont considérés (la fluidité et l’adéquation), nous
obtenons seize mesures différentes pour tester la robustesse de l’évaluation humaine. Les
résultats de la première campagne d’évaluation CESTA sont contenus dans le tableau 5.32.
Les probabilités d’obtenir les classements de l’évaluation selon les deux critères sont
très bonnes, même si elles sont toujours meilleures si l’on échantillonne sur les segments
plutôt que sur les juges. En effet, elles sont pour la plupart proches de 100 %. Seules
les probabilités sur les deux systèmes arrivant dans les deux premières positions sont
un peu plus faibles, signifiant que les rangs de ces deux systèmes sont très proches. Au
niveau des scores, les écarts-types sont eux très faibles. Les écarts-types sur les juges
sont proches du double des écarts-types sur les segments et approximativement les mêmes
pour tous les systèmes. Au total, nous en déduisons que l’évaluation humaine s’est bien
déroulée, puisque la variation des scores est très faible, que l’on prenne les résultats selon
les segments ou selon les juges.
5.4.4
Méta-évaluation de l’évaluation automatique
Comme nous l’avons déjà exprimé précédemment, la méta-évaluation des métriques
automatiques se fait essentiellement par comparaison et/ou, plus rarement, par échantillonnage. La comparaison des métriques automatiques se fait habituellement par rapport aux métriques humaines, supposées correctes et utilisées comme référence. Même si la
comparaison avec des métriques déjà validées reste possible, seuls les scores humains nous
166
5.4. Méta-évaluation
Évaluation
Fluidité
Score
moyen
Cl.(segment)
Cl.(juges)
[1-5](segment)
[1-5](juges)
Rang
moyen
Cl.(segment)
Cl.(juges)
[1-5](segment)
[1-5](juges)
Adéquation
Score
moyen
Cl.(segment)
Cl.(juges)
[1-5](segment)
[1-5](juges)
Rang
moyen
Cl.(segment)
Cl.(juges)
[1-5](segment)
[1-5](juges)
S1
5
(1,00)
5
(1,00)
2,41
±0,03
2,42
±0,06
5
(1,00)
5
(1,00)
4,13
±0,09
4,40
±0,11
5
(1,00)
5
(0,98)
2,95
±0,03
2,97
±0,07
5
(1,00)
5
(0,99)
3,79
±0,09
3,93
±0,14
S2
4
(1,00)
4
(0,95)
2,67
±0,03
2,68
±0,06
4
(1,00)
4
(0,99)
3,34
±0,09
3,44
±0,17
4
(0,99)
4
(0,72)
3,18
±0,03
3,19
±0,07
4
(0,80)
4
(0,79)
3,20
±0,08
3,31
±0,18
S3
3
(1,00)
3
(0,91)
2,83
±0,03
2,85
±0,06
3
(1,00)
3
(0,98)
2,82
±0,09
2,85
±0,15
3
(0,99)
3
(0,71)
3,24
±0,03
3,25
±0,07
3
(0,80)
3
(0,80)
3,11
±0,08
3,14
±0,17
S4
1
(0,89)
1
(0,62)
3,04
±0,03
3,06
±0,06
1
(0,68)
1
(0,83)
2,31
±0,08
2,08
±0,13
1
(1,00)
1
(0,83)
3,54
±0,03
3,55
±0,07
1
(0,96)
1
(0,78)
2,34
±0,08
2,23
±0,15
S5
2
(0,89)
2
(0,58)
3,00
±0,03
3,03
±0,07
2
(0,68)
2
(0,82)
2,40
±0,09
2,23
±0,13
2
(1,00)
2
(0,78)
3,43
±0,03
3,44
±0,06
2
(0,96)
2
(0,78)
2,56
±0,10
2,39
±0,13
Table 5.32 – Résultats de l’échantillonnage des jugements humains pour la première
campagne d’évaluation CESTA : scores sur une échelle de 1 à 5 (5 étant la meilleure note
et 1 la moins bonne) avec leurs intervalles de confiance (±), et classements avec leurs
probabilités (entre parenthèses).
167
Chapitre 5 : L’étude des mesures d’évaluation
paraissent réellement valables. De la même manière, la méta-évaluation permet d’estimer
la variabilité des métriques par rapport aux scores humains, notamment en définissant un
intervalle de confiance.
En utilisant les données du projet CESTA, nous reprenons tout d’abord les échantillons
humains obtenus précédemment sur les segments, puis nous calculons les mêmes résultats
sur les scores moyens. Le tableau 5.33 fournit par exemple les résultats obtenus avec la
métrique BLEU.
BLEU
Classement
Score [%]
S1
S2
S3
S4
S5
5 (0,82)
3 (0,89)
1 (0,99)
2 (0,89)
4 (0,83)
35,58±2,9 47,18±1,7 54,41±2,0 49,40±1,9 39,06±2,6
Table 5.33 – Résultats de l’échantillonnage sur les scores moyens pour la métrique BLEU
(cumul. 4-gram avec casse) pour la première campagne CESTA.
Nous cherchons maintenant à comparer les résultats des métriques automatiques à
ceux des métriques humaines, à partir des tableaux de résultats obtenus dans les sections
précédentes. Les corrélations de Pearson pour les métriques BLEU, NIST, WNMf avec la
fluidité et l’adéquation sont affichées dans le tableau 5.34.
Évaluation
Fluidité
Adéquation
BLEU
0,69
0,69
NIST
0,63
0,64
WNMf
0,72
0,72
Table 5.34 – Corrélation de Pearson (échelle -1 à 1) entre les métriques automatiques et
les juges humains de la première campagne CESTA.
Les corrélations sont acceptables, mais plus faibles que celles observées dans la littérature pour ces mêmes métriques appliquée à l’anglais cible. Le classement établi par les
juges humains correspond à (S4>S5)>(S3>S2)>S1, les parenthèses indiquant des scores
comparables. Or, le classement des trois métriques automatiques est S3>S4>S2>S5>S1,
ce qui diffère en plusieurs points. La fiabilité des métriques automatiques n’est donc pas
parfaite. Comme annoncé par ses auteurs, la métrique WNMf [Babych et Hartley, 2004]
est relativement plus proche des juges humains que BLEU ou NIST.
Enfin, pour expliquer la différence de classement observée entre les juges humains et
les métriques automatiques – (S4 > S5) > (S3 > S2) > S1 contre S3 > S4 > S2 > S5 > S1
– nous faisons l’hypothèse que les métriques automatiques à base de n-grammes favorisent
le système S4, qui utilise en réalité un modèle de langage pour sélectionner les phrases
traduites, et que les performances de S2 et S3 sont objectivement trop proches pour être
distinguées. Dans tous les cas, les différences majeures entre les systèmes semblent bien
capturées par les métriques automatiques, bien que leur fiabilité paraisse moindre lorsque
le français est la langue cible que lorsqu’il s’agit de l’anglais, par comparaison avec les
résultats disponibles dans la littérature.
168
5.5. Conclusion
5.5
Conclusion
Dans ce chapitre, nous avons analysé la place des mesures dans l’évaluation en traitement automatique des langues. Leurs paramètres et variations (des outils, métriques,
méthodes, etc.) sont tels que l’évaluateur n’a que l’embarras du choix. La principale caractéristique d’une mesure d’évaluation est d’être soit humaine, soit automatique. L’opposition entre les deux types d’évaluation n’est pas évidente en soi. Mais nous considérons que
le choix d’utiliser l’un, ou l’autre, ou les deux, doit se faire en amont de la planification
d’une évaluation. Pour des raisons de coût, mais aussi d’organisation, de délais, etc., ce
choix va profondément influer sur le reste de l’évaluation.
Aucun des deux types d’évaluation, humaine ou automatique, n’a finalement d’avantage sur l’autre. Chacun présente des avantages et des inconvénients, il faut alors peser
le pour et le contre pour savoir celle(s) qui convien(nen)t le mieux pour une évaluation
donnée. Nous avons une préférence pour les mesures humaines : facilité d’étude, mise
en place, interactions, justesse jusqu’à un certain point, etc. Les évaluations humaines
sont nécessaires, c’est pourquoi nous cherchons par la suite à intégrer des composants
spécifiques dans notre architecture. Toutefois, il ne faut pas oublier que les mesures automatiques permettent la reproductibilité des opérations et l’objectivité (souvent apparente
puisque les mesures dépendent de références établies manuellement) des résultats. En ce
sens, elles ont plus de place dans notre architecture d’évaluation. Il s’agit par ailleurs d’un
type d’évaluation indispensable à certaines évaluations (comme pour l’analyse syntaxique
qui en pratique peut difficilement se passer de mesures automatiques).
Nous avons vu dans le chapitre 3 les différents chemins que peut prendre une évaluation
d’un point de vue méthodologique. Ici, c’est d’un point de vue fonctionnel que les mesures
affectent l’organisation de l’architecture d’évaluation.
Concrètement, ce chapitre nous permet d’établir les bases de notre architecture où
nous distinguons les mesures d’évaluation humaine des mesures d’évaluation automatique.
Pour les premières, des interfaces de jugement doivent être mises à disposition et leur
déroulement ne se fait pas dans la continuité du processus : il faut attendre que les
juges aient terminé leur tâche pour calculer les résultats et les rendre visibles (même
s’il est techniquement possible d’afficher les résultats en cours d’évaluation). Pour les
évaluations automatiques, les résultats sont calculés immédiatement, même si un délai
peut être également nécessaire (les temps de calculs sont parfois longs). Ce délai n’est
cependant pas dépendant d’un facteur humain et est facilement estimé en fonction du
volume des données.
D’autre part, le point de vue technique n’est pas le seul à considérer pour incorporer des
métriques d’évaluation à notre architecture. Encore faut-il qu’elles soient performantes et
fiables : la méta-évaluation justifie notre intérêt pour déterminer quelles sont les métriques
« utiles », et quelles sont celles qui le sont moins. C’est en termes de performance, fiabilité
ou encore de délais que nous pourrons décider d’accepter telle ou telle métrique pour
le calcul des résultats. Nous avons également pour objectif d’intégrer à l’architecture
des composants spécifiques de méta-évaluation, appelant diverses métriques à des fins de
comparaison, ou permettant un échantillonnage des données afin de déterminer un niveau
d’acceptation des métriques, voire des mesures, pour les conserver dans l’architecture
d’évaluation.
Finalement, nous avons posé la question du côté générique des mesures d’évaluation,
169
Chapitre 5 : L’étude des mesures d’évaluation
à savoir l’uniformisation de certains aspects des mesures d’évaluation pour les associer à
plusieurs technologies du TAL. C’est ainsi que nous pourrons plus facilement augmenter
le volume des champs auxquelles notre architecture touche. Pour ce faire, nous étudions
les similarités entre évaluations de ces technologies dans le chapitre suivant.
170
Chapitre 6
Les similarités entre évaluations de
technologies du TAL et les
combinaisons de technologies
Les chapitres précédents amènent à réfléchir aux similarités entre les différentes technologies du TAL, du point de vue de l’évaluation. Tout porte à croire qu’elles sont nombreuses. Nous commençons par synthétiser les similarités entre technologies, puis entre
leurs évaluations. Nous passons par une illustration et une hiérarchisation des grandes
familles d’approches et de méthodologies. À partir de ce constat, nous rassemblons les
éléments communs avec pour objectif la définition d’un cadre général d’évaluation. Ce
dernier se caractérise de manière à distinguer les méthodes, mesures et métriques qui sont
réutilisables d’une technologie à une autre, de celles qui sont propres à une technologie
uniquement. Nous cherchons à clarifier ces différences et similarités en vue d’incorporer
des mécanismes génériques dans notre architecture d’évaluation. Nous nous plaçons dans
un contexte d’évaluation technologique, c’est-à-dire sans prendre en compte des critères
tels que l’ergonomie ou l’utilisabilité des systèmes. La partie conceptuelle de l’évaluation
a déjà été vue dans les chapitres 2 et 3, et sa partie technique dans le chapitre 5. Nous
appuyons notre synthèse sur des faits observés lors de nos expérimentations sur plusieurs
technologies. Sans être exhaustif, nous essayons d’explorer un maximum de cas de figure.
6.1
Objectifs
En premier lieu, nous cherchons à mettre en évidence les aspects communs et les
aspects divergents des mesures et métriques de plusieurs technologies du TAL. Notre
objectif est d’établir un formalisme d’évaluation générique qui s’adapte à ces technologies.
Ce formalisme d’évaluation est avant tout nécessaire pour la modélisation de l’architecture
d’évaluation et pour limiter les coûts de mise en place. Il vise à concilier les aspects propres
à chaque mesure d’évaluation, voire chaque technologie : les formats d’entrée et de sortie,
les données nécessaires à la conduite de l’évaluation, l’apport humain, etc.
Dans un second temps, ce chapitre vise à analyser le niveau de difficulté des mesures
et à identifier leurs avantages ou leurs faiblesses. Il est possible d’établir une hiérarchie
de types de mesures non pas dans un objectif de comparaison mais de mutualisation.
171
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
Les différentes technologies du traitement automatique des langues ne sont pas toujours
évaluées de la même manière, pourtant nous avons le sentiment que certaines d’entre
elles sont plus « simples » à évaluer que d’autres. Cela est dû à un niveau de maturité
plus avancé comme à de réelles facilités techniques. Toutefois, l’étude des similarités entre
mesures ne se fait sans d’abord observer quelles sont les similarités entre technologies.
Dans une dernière partie, nous étudions la combinaison de technologies. Cela se rapproche de la similarité entre évaluations de technologies différentes dans le sens où l’on
cherche à obtenir un concept commun d’évaluation entre celles-ci. En effet, l’évaluation
en cascade permet d’étudier le comportement propre à chaque technologie, mais aussi
l’impact d’une technologie sur une autre en aval. Cet impact ne peut se mesurer qu’en
identifiant des caractéristiques de qualité communes.
6.2
Similarités entre technologies
D’un point de vue général, les technologies du traitement automatique des langues se
comportent de la même manière au cours de trois phases au cours desquelles se déroulent
successivement : l’analyse les données qui sont fournies au système en entrée et leur représentation formelle ; le traitement de ces représentations formelles et leur transformation
selon la tâche à accomplir ; la génération de nouvelles données en sortie du système.
De manière plus fine, [Popescu-Belis, 2007] a classifié les principaux champs de recherche en traitement automatique des langues selon la place des données linguistiques en
entrée et/ou en sortie, d’après [Dale et al., 2000, Mitkov, 2003]. Cependant, nous considérons que la sortie des systèmes permet de distinguer les technologies dans un contexte
d’évaluation, au contraire de leur entrée. En effet, deux natures de données en entrée sont
généralement possibles, quel que soit leur format : un corpus audio ou un corpus textuel.
En se plaçant du point de vue de l’évaluateur, et non celui du développeur de technologies, nous proposons une classification différente des technologies d’après leur fonction de
traitement et leur type de données en sortie.
Nous séparons les technologies du TAL en quatre catégories :
– Génération des données en language naturel : le système traite les données en entrée
pour en créer de nouvelles en langage naturel. Par exemple, un système de résumé
automatique renvoie un texte qui n’existait pas auparavant.
– Analyse des données en language naturel : le système modifie l’information linguistique des données sans en ajouter, les données sont transformées. Par exemple, un
aligneur de textes analyse des portions de données dans une langue source et dans
une langue cible et cherche à les relier entre elles. Les données analysées ne sont pas
nouvelles, mais une information supplémentaire leur a été ajoutée.
– Annotation des données linguistiques : le système traite les données et y ajoute
des méta-données. Celles-ci sont clairement définies à l’avance et leur nombre est
fini. Par exemple, un analyseur syntaxique annote un corpus en constituants et en
relations. L’action d’annoter ne modifie pas le contenu des données traitées mais
leur apporte des traits linguistiques supplémentaires.
– Extraction des informations linguistiques : le système renvoie des portions de données selon leur pertinence à la tâche de contrôle. Par exemple, un extracteur terminologique renvoie des termes représentatifs du corpus traité. En extrayant des
données pertinentes, les systèmes améliorent l’accès au corpus.
172
6.2. Similarités entre technologies
La plupart de ces catégories se décomposent en deux sous-catégories selon le format
des données produites. Les catégories de génération et d’analyse se décomposent selon que
le format de sortie des systèmes est textuel (texte généré, texte analysé) ou audio (texte
synthétisé, son analysé), et la catégorie d’extraction selon que la sorties des systèmes est
sous la forme d’une liste de documents ou sous la forme d’une liste d’informations. Pour la
catégorie d’annotation, qui n’est pas décomposée en sous-catégories, le format des données
en sortie dépend de celui des données en entrée par l’ajout de méta-données.
En répartissant les technologies dans ces différents catégories, nous cherchons à les
classifier pour les relier ensuite aux mesures d’évaluation, si possible similaires (cf. tableau 6.1). Ainsi, nous distinguons les technologies selon un premier niveau établissant le
traitement qu’elles effectuent et un deuxième niveau selon les résultats produits en sortie.
Traitement
Génération
Format des données en sortie
Texte généré (TG)
Texte synthétisé (TS)
Analyse
Texte analysé (TA)
Son analysé (SA)
Annotation Documents annotés (DA)
Extraction
Liste de documents (LD)
Liste d’informations (LI)
Exemple de technologie
Traduction automatique
Résumé automatique
Question-réponse
Synthèse vocale
Traduction oral-oral
Segmentation
Alignement textuel
Reconnaissance de la parole
Analyse syntaxique
Analyse sémantique
Analyse morphosyntaxique
Indexation automatique
Recherche d’information
Fouille de texte
Extraction terminologique
Extraction d’information
Table 6.1 – Technologies classifiées selon le traitement effectué et le format des résultats.
Nous explicitons ci-dessous un exemple de technologie par catégorie :
– les systèmes de traduction automatique (TG) génèrent des données écrites dans une
langue cible à partir de données écrites dans un langue source ;
– les systèmes de synthèse vocale (SS) produisent des documents audio à partir de
documents textuels qu’ils traitent.
– les systèmes d’alignement textuel (TA) relient deux corpus entre eux ;
– les systèmes de reconnaissance automatique de la parole (SA) transcrivent des mots
ou des groupes de mots à partir du traitement de documents audio ;
– les systèmes d’analyse sémantique (DA) produisent un corpus étiqueté par classe
sémantique ;
– les systèmes de recherche d’information (LD) renvoient des documents pertinents
pour une requête donnée dans un domaine spécifique ;
– les systèmes d’extraction terminologique (LI) renvoient des termes pertinents pour
une tâche donnée et un corpus spécifique.
173
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
6.3
Similarités entre mesures ou métriques
Après avoir identifié les similarités entre technologies, nous nous intéressons aux similarités dans leur évaluation. Nous identifions en particulier les similarités entre les différentes
mesures et métriques du TAL.
6.3.1
Mesure humaine vs mesures automatiques
Nous considérons que les mesures se séparent en deux catégories principales, selon
qu’elles sont humaines ou automatiques. Leur distinction se tient dans la construction de
jugements. Dans le cas d’une mesure humaine, les jugements sont fournis aux métriques
et sont utilisés pour un calcul d’agrégation des jugements afin d’obtenir un niveau de
qualité d’ensemble. Dans le cas d’une mesure automatique, les jugements sont construits
par la métrique qui effectue dans un second temps un calcul d’agrégation. Le type d’une
mesure, humain ou automatique, se définit par la disposition des jugements. C’est cette
particularité qui influe sur le protocole d’évaluation. Nous la mettons en avant car elle est
une caractéristique déterminante pour l’organisation de notre architecture.
La tâche des métriques se résume la plupart du temps à calculer une moyenne de
jugements, à mesurer le rappel/précision/f-mesure ou bien à calculer une distance avec
une référence. D’autre part, les métriques se distinguent de par leurs valeurs reçues en
entrée, qu’elles soient à valeurs multiples (un ou plusieurs critères sur des échelles de n
valeurs, n étant supérieur à 2) ou binaire (le choix entre un jugement pertinent ou non
pertinent).
6.3.2
Catégories
Nous proposons dans le tableau 6.2 d’associer les technologies du tableau 6.1 à des
catégories de métriques. Il fait état des mesures habituellement utilisées dans le monde
du traitement automatique des langues.
6.3.3
Métriques humaines
Nous faisons la distinction entre les métriques humaines appliquant leurs critères selon
une échelle sur plusieurs valeurs (HM) et celles n’appliquant qu’une échelle binaire (HB)
pour trois raisons. La première est due à l’approche différente qu’en ont les juges : plus il
y a de valeurs, plus la réflexion est importante pour les juges, et plus les cas limites seront
importants. Une échelle binaire nécessite moins de prises de décision et seules celles qui
sont à la frontière des deux valeurs sont parfois difficiles à prendre. Le nombre de ces cas
limites dépendent du niveau des spécifications de la tâche de contrôle. La seconde raison
de distinguer ces deux sous-catégories de métriques humaines réside dans le calcul des
jugements. La moyenne arithmétique est la plupart du temps calculée lorsque l’échelle est
binaire. Par contre, l’utilisation d’un plus grand nombre de valeurs oblige à d’autres sortes
de calculs. Enfin, les interprétations sont également différentes et opposent une analyse
manichéenne à une analyse nuancée.
Les métriques humaines se différencient d’autant plus en considérant la subjectivité
des jugements : certaines tâches sont plus subjectives que d’autres. La décision pour
174
6.3. Similarités entre mesures ou métriques
Mesures
Humaine
Métriques
Mesure sur n valeurs (HM)
Mesure binaire (HB)
Automatique
Mesure de distance (AMD)
Précision / Rappel / F-mesure (APR)
Apprentissage automatique (AAA)
Exemples
Traduction automatique
Question-réponse
Synthèse vocale
Traduction oral-oral
Extraction terminologique
Recherche d’information
Extraction d’information
Extraction terminologique
Traduction automatique
Reconnaissance de la parole
Alignement textuel
Résumé automatique
Traduction oral-oral
Segmentation
Traduction automatique
Analyse sémantique
Analyse morphosyntaxique
Analyse syntaxique
Indexation automatique
Extraction syntaxique
Fouille de texte
Extraction d’information
Recherche d’information
Extraction terminologique
Traduction automatique
Table 6.2 – Classification de mesures pour l’évaluation de technologies du traitement
automatique des langues.
juger une réponse correcte ou non dans le cas de l’évaluation d’un système de questionréponse nous semble plus simple que celle pour juger la fluidité d’un système de traduction
automatique sur une échelle de 5 valeurs. Cependant, il est difficile de voir des similarités
entre métriques à ce niveau là : la subjectivité des résultats est très liée à la complexité
même de la résolution des problèmes technologiques.
6.3.4
Métriques automatiques
La catégorisation des métriques automatiques se fait plus facilement : les différences de
calcul sont plus claires et leur nature les pousse à utiliser une approche et un algorithme
spécifiques. C’est pour cela que nous distinguons les métriques utilisant la précision, le
rappel et la f-mesure (APR) des métriques utilisant une mesure de distance (AMD). Un
troisième type de métriques automatiques utilise des algorithmes qui apprennent à reconnaître un comportement relatif à une tâche en observant les données de corpus spécifiques
(AAA). Des modèles sont constitués à partir d’informations pertinentes collectées pour
175
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
l’apprentissage et appliqués aux données renvoyées par les systèmes. À notre connaissance,
ces métriques en sont encore à un stade expérimental plutôt que dans état utilisable. La
principale difficulté de ce type de métrique concerne la définition d’algorithmes pour déterminer la structure des composants de base étudiés. Ils sont sujets aux mêmes difficultés
que des systèmes de TAL car il faut souvent conjuguer subjectivité et complexité de la
langue naturelle. En théorie, le corpus utilisé pour l’apprentissage est conçu de telle manière à permettre à un algorithme de produire des modèles. Mais en pratique, ce corpus
contient souvent du bruit gênant la structuration de modèles performants. Nous avons
étudié ce type de métrique en section 5.3.5 avec le X-Score.
Le rappel et la précision sont des mesures imparfaites qui se complémentent via la
f-mesure. Les deux types de métriques que sont les mesures de distance et la mesure de
rappel-précision ont pour base la comparaison avec une référence sur lequel se comparer.
Cependant, elles se distinguent par leur symétrie. En effet, les résultats du rappel et
de la précision sont dissymétriques : la référence évaluée contre une sortie de système
ne donnera pas les mêmes résultats que l’évaluation inverse. Au contraire, les résultats
d’une mesure de distance sont, eux, symétriques. Nous constatons ainsi qu’une mesure de
distance correspond à un calcul de proximité entre deux objets, tandis que la précision
et le rappel sont des mesures de quantité de réponses correctes renvoyées. En d’autres
termes, les mesures de distance permettent de déterminer la proximité entre deux objets
pour lesquels les résultats devraient être identiques 1 . Les mesures de précision/rappel
permettent, elles, de calculer la proportion d’objets retournés étant pertinents (précision)
et la proportion d’objets pertinents étant retournés (rappel).
Par conséquent, lorsque les deux types de métriques s’appliquent sur les mêmes types
de données, leur interprétation n’en est pas la même. Ils ne sont d’ailleurs que très rarement
employés en même temps pour évaluer une même technologie 2 .
6.3.5
Synergies
Nous observons à partir du le tableau 6.2 qu’une technologie utilise parfois plusieurs
types de métriques et que certaines technologies utilisent certaines catégories de mesures
plutôt que d’autres. Dans ce dernier cas, il existe toutefois des exceptions qui sont souvent
le fait d’expérimentations suite à des rapprochement entre technologies. C’est par exemple
le cas de l’extraction terminologique (LI) située dans la catégorie « mesure sur n valeurs »
(HM) : l’évaluation en traduction automatique a inspiré les critères des jugements humains
pour déterminer si les candidats termes étaient corrects ou non (selon différents niveaux
de jugement) [Timimi et Mustafa El Hadi, 2008].
Nous rapprochons les types de mesures identifiées dans le tableau 6.2 avec les formats
de données en sortie identifiés dans le tableau 6.1 (cf. tableau 6.3). Il est indiqué les types
de technologies dont un type de mesure connu (par la communauté) est appliqué pour au
moins une technologie à notre connaissance.
À l’exception des mesures APR, cela confirme que la grande majorité des types de
mesures sont confinées à certaines technologies. À vrai dire, seule la catégorie LI utilisant
1. Ce qui pose par exemple problème en traduction automatique, avec les calculs de taux d’erreur,
puisqu’il est reconnu qu’une traduction n’est pas unique.
2. Un contre-exemple de technologie employant les deux types de mesures est la traduction automatique, même si certains ne voient que peu d’intérêt à utiliser des taux d’erreurs – une mesure de distance
– sur les traductions.
176
6.4. Formalisme
Mesures
TG
Mesure sur n valeurs (HM)
X
Mesure binaire (HB)
Mesure de distance (AMD)
X
Précision / Rappel / F- X
mesure (APR)
Apprentissage automatique X
(AAA)
TS
X
TA
SA
DA
X
X
X
X
X
X
LD LI
X
X X
X
X
Table 6.3 – Types de mesures selon les types de traitement et formats de données en
sortie des technologies du TAL (TG : Texte généré ; TS : Texte synthétisé ; TA : Texte
analysé ; SA : Son analysé ; DA : Documents annotés ; LD : Liste de documents ; LI : Liste
d’informations).
les mesures de type HM amoindrie cette hypothèse, même s’il s’agit plus d’expérimentations que de réels standards au sein de la communauté. En ce qui concerne APR, les
mesures sont utilisées par presque toutes les technologies (APR n’est pas pertinent pour
les technologies SA).
6.4
Formalisme
D’après [Popescu-Belis, 1999], une mesure d’évaluation automatique se décompose en
un cadre formel de trois phases : la mesure de la capacité à traiter des données, l’appréciation du résultat mesuré et le bilan intégrant les appréciations de plusieurs mesures. La
mesure de la qualité est accompagnée de différents critères de cohérence tels que les bornes
inférieure et supérieure, l’indulgence ou la sévérité, la monotonie, etc. Nous regrettons que
le modèle proposé repose uniquement sur des métriques comparant la sortie d’un système
avec une référence et nous cherchons à aller plus loin en étendant le principe à l’ensemble
des types de métriques présentées en section 6.3.
Pour cela, nous nous appuyons sur les cinq catégories de métriques : humaine à échelle
binaire (HB), humaine à valeurs multiples (HM), automatique utilisant une mesure de
distance (AMD), automatique utilisant précision et rappel (APR) et automatique avec
apprentissage automatique (AAA).
[Popescu-Belis, 1999] décrit une métrique pour le calcul d’une distance comme étant
calculable automatiquement à l’aide de la réponse attendue (à savoir la référence) selon :
mAM D (rep(Di )) = min{d(rep(Di ), k(Di ))kk ∈ K(Di )}
Où :
–
–
–
–
(6.1)
Di est la donnée i servant à l’évaluation ;
K(Di ) est l’ensemble des références établies par des experts ;
rep(Di ) est la réponse, la sortie du système sur la donnée Di ;
d est la distance calculée entre la sortie du système et une des références, sa valeur
est comprise dans l’intervalle [0, 1].
177
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
La « variable humaine », k(Di ), donne un caractère non déterministe aux mesures
de distance car elle apporte de la subjectivité à la mesure. Nous allons voir que cette
variable reste présente sous des formes différentes dans le formalisme de chaque catégorie
de métriques. Afin d’homogénéiser les notations, nous avons conservé les variables de
l’équation 6.1 : nous cherchons à établir m(rep(Di )) de la même manière pour les quatre
autres catégories de métriques.
Pour les métriques HB, m(rep(Di )) est calculable à partir de jugements. Ils ne sont
pas construits au préalable par des experts mais font partie de la connaissance personnelle
et subjective de chaque juge. Nous avons ainsi pour les n juges :
Pn
j=1 ({e(rep(Di ), c(Jj ))kc ∈ C(Jj )})
mHB (rep(Di )) =
(6.2)
n
Où :
– Di est la donnée i servant à l’évaluation ;
– C(Jj ) est l’ensemble des connaissances du juge j qui lui permet de juger la réponse ;
– rep(Di ) est la réponse, la sortie du système sur la donnée Di ;
– e correspond au jugement du juge j, avec e ∈ {0, 1}.
Pour les métriques HM, seule la valeur de e change de manière formelle, puisque
e ∈ {0, v} avec v comme valeur maximale, et peut être pondéré en fonction de v :
Pn
j=1 ({pv ∗ e(rep(Di ), c(Jj ))kc ∈ C(Jj )})
mHM (rep(Di )) =
(6.3)
n
Au niveau pratique, la connaissance C(Jj ) n’est pas la même que pour les autres
métriques car la connaissance requise par le juge n’est a priori pas la même.
Les métriques APR sont calculables automatiquement, à partir d’une référence, tout
comme le sont celles de type AMD selon l’équation 6.1. Cela donne l’équation suivante :
m
si rep(Di ) ∈ R(D)
mAP R (rep(Di )) =
(6.4)
n
sinon
Où :
– Di est la donnée i servant à l’évaluation ;
– R(D) est le ou les ensembles de référence établis par des experts sur l’ensemble des
données D servant pour l’évaluation ;
– rep(Di ) est la réponse, la sortie du système sur l’ensemble de donnée D ;
– m et n sont les valeurs à attribuer selon que rep(Di ) trouve une correspondance
dans la référence ou non.
Pour les métriques AAA, le calcul de mAAA (rep(Di )) se fait en deux temps. L’apprentissage se fait tout d’abord à partir de couples (Xn , Yn ) de manière à déterminer
Yn = h(Xn ), tel que h(Xn ) soit minimale. Lorsque h(Xn ) est connu, on calcule alors :
mAAA (rep(Di )) = f (rep(Di ), h(xn ))kxn ∈ rep(Di )})
Où :
–
–
–
–
(6.5)
Di est la donnée i servant à l’évaluation ;
rep(Di ) est la réponse, la sortie du système sur la donnée Di ;
xn représente l’ensemble des composants évalués ;
f est l’application de la fonction h(xn ), pondérée ou non sur la réponse rep(Di ).
178
6.5. Difficultés et « hiérarchie » des technologies
6.5
Difficultés et « hiérarchie » des technologies
En généralisant le problème au traitement automatique des langues et à l’ensemble de
ses technologies, la question centrale de cette section s’appuie sur la difficulté d’évaluer en
fonction de la métrique utilisée et surtout en fonction de la technologie évaluée. Autrement
dit : y a-t-il des domaines du TAL plus faciles à évaluer que d’autres ? Au delà de la
volonté, politique, scientifique ou commerciale, de s’intéresser à des technologies plutôt
qu’à d’autres, ou à des méthodes d’évaluation en particulier, nous nous apercevons qu’il
existe une réelle difficulté propre à l’évaluation de chacune d’entre elles. Explorer cet
aspect de l’évaluation a pour intérêt sa mutualisation. D’autre part, la combinaison de
technologies ou évaluation en cascade doit tenir compte des difficultés à évaluer chacune
des technologies intégrées.
6.5.1
Subjectivité
La difficulté d’évaluer n’est vraisemblablement pas liée aux difficultés technologiques.
Les systèmes produisent des résultats et, quelle que soit la manière, seuls les résultats
sont explorés. À notre sens, c’est la nature même des résultats retournés qui crée la
problématique de l’évaluation.
Nous avons déjà vu dans le chapitre 5 les difficultés inhérentes à l’aspect subjectif de
l’évaluation humaine. Cela peut s’étendre à l’évaluation automatique lorsque l’on considère la complexité à construire une référence. Les accords inter-juges ou les validations
montrent l’étendue des difficultés rencontrées par les juges et les experts. Même si l’idée
est tentante, il n’est pas très pertinent de comparer des accords sur des technologies différentes car les données évaluées sont de natures distinctes. Au mieux, cette comparaison
montrerait à quel point il est difficile d’évaluer certaines données.
6.5.2
Diversité des réponses possibles
La diversité des réponses possibles correspond aux variations des cas de traitement par
les systèmes ou par un humain. Quel que soit le type de métrique, l’estimation de la qualité
pose des problèmes cognitifs lorsque l’ensemble des réponses correctes est insuffisamment
défini. Il est lié aux possibilités multiples de réponses, par exemple pour les technologies
de génération de texte (en traduction automatique, une phrase en langue source peut se
traduire en de nombreuses phrases en langue cible). La connaissance des juges est dans
une certaine mesure à même de surmonter cela, selon leur degré d’expertise. Par contre,
la construction de la référence pose plus de problèmes tout comme son intégration à
une métrique automatique puisqu’elles ont tendance à réduire le nombre de réponses à
comparer. Certains résultats posent moins de problèmes, par exemple avec l’évaluation sur
des documents annotés : la diversité des réponses possibles est finie, de par la définition
des jeux d’annotations. Toutes les possibilités d’annotations sont alors connues et il ne
reste plus qu’à les comparer aux données d’évaluation, même si ce n’est pas une moindre
difficulté.
La figure 6.1 schématise d’après notre expérience la difficulté cognitive d’évaluer en
fonction du nombre de réponses possibles et selon qu’il est fini ou non, à partir de positionnements relatifs. Nous distinguons les deux types de mesures, humaine et automatique.
179
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
Figure 6.1 – Schématisation de la difficulté cognitive d’évaluer en fonction du nombre
des réponses possibles et de son caractère fini.
Il nous semble évident qu’une diversité finie des réponses possibles permet une évaluation plus simple qu’une diversité non finie. Par exemple, les possibilités limitées d’annotations d’un analyseur syntaxique pour un terme facilite l’évaluation, contrairement à
la multitude de possibilités que peut renvoyer un système de synthèse vocale. Dans le
cas d’une diversité finie, l’évaluation humaine est menée plus facilement que l’évaluation
automatique lorsqu’il existe peu de réponses possibles mais cette tendance s’inverse dès
lors que leur nombre augmente. La difficulté croît beaucoup plus lorsque la diversité des
réponses possibles n’est pas finie que lorsqu’elle l’est : il est plus difficile de « stocker »
toutes les possibilités dans le premier cas.
6.5.3
Non comparabilité
Nous avons identifié deux problèmes : la subjectivité des résultats produits en langage
naturel et la diversité des réponses possibles.
En plus de cela, nous distinguons la « non comparabilité » qui considère la difficulté à
comparer la sortie automatique avec la ou les références et surtout à déterminer quel est
le niveau de perturbation acceptable. La non comparabilité se situe strictement dans un
contexte d’évaluation automatique et de calculs.
6.5.4
Complexité
Nous définissons la complexité Ω de l’évaluation d’une technologie t comme fonction
de la subjectivité Σ, de la diversité des réponses possibles ∆ et de la non comparabilité Γ :
180
6.5. Difficultés et « hiérarchie » des technologies
(6.6)
Ω(t) = σΣ(t) + δ∆(t) + γΓ(t)
Nous rapportons ces variables aux parties humaine et automatique d’une évaluation,
telles que :
– Σ, la subjectivité, se rapproche des caractéristiques de choix des jugements, mais
aussi pour la création de références ;
– ∆, la non comparabilité, se rapproche des caractéristiques automatiques de l’évaluation, car elle représente la difficulté à calculer la perturbation (ou proximité) de
la sortie d’un système par rapport à sa référence ;
– Γ, la diversité des réponses possibles, regarde le nombre de références possibles dans
le cas d’une mesure automatique, et de l’étendue des connaissances d’un juge dans
le cas d’une mesure humaine.
6.5.5
Synthèse et hiérarchisation
Même si déterminer Σ, ∆ et Γ pour chacune des technologies de la langue peut paraître
très abstrait en soi, nous avons choisi d’explorer notre hypothèse sur certaines d’entre
elles en tenant compte de notre expérience en la matière (cf. tableau 6.4). Les valeurs
sont données de manière subjective sur une échelle de difficulté croissante allant de 1 à 5.
Technologie
Σ ∆
Traduction de l’oral vers l’oral 5 4
Synthèse vocale
5 2
Résumé automatique
4 5
Traduction automatique
4 5
Extraction d’information
4 4
Extraction terminologique
3 4
Recherche d’information
3 3
Analyse syntaxique
3 2
Question-réponse
2 3
Alignement textuel
2 1
Analyse morphosyntaxique
1 1
Reconnaissance de la parole
1 1
Γ
5
5
5
2
4
3
3
1
4
1
2
1
Table 6.4 – Difficulté d’évaluations de différentes technologies, d’après les indices [1-5]
de subjectivité (Σ), de diversité des réponses possibles (∆) et de non comparabilité (Γ)
(plus les valeurs sont élevées, plus l’évaluation est complexe).
Les technologies très subjectives telles que la traduction de l’oral vers l’oral, la synthèse vocale ou le résumé automatique font partie de celles dont peu ou pas de mesures
automatiques ont été définies. Lorsqu’elles existent (comme la traduction automatique)
leur utilité est discutable. Au contraire, les technologies à faible subjectivité, comme l’alignement textuel ou la reconnaissance de la parole, ont des mesures automatiques établies
et reconnues par la communauté depuis longtemps. Le domaine des questions-réponses
fait exception, car aucune mesure automatique n’existe à ce jour : cela s’explique par la diversité relativement importante des réponses possibles (vaste choix de réponses – rédigées
181
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
– possibles) et la comparabilité faible (mesure de distance entre deux réponses d’autant
plus complexe !).
Les technologies ayant une diversité de réponses possibles importante (traduction automatique, résumé automatique) sont celles dont les résultats prêtent à discussion du
fait d’un nombre élevé de possibilités. À l’inverse, les technologies ayant peu de réponses
correctes possibles (reconnaissance de la parole, analyse morphosyntaxique, etc.) ont généralement des évaluations sans équivoque, la phase d’adjudication ne servant à corriger
que les erreurs dans la référence.
Un haut niveau de non comparabilité est surtout lié à des technologies vocales (traduction de l’oral vers l’oral, synthèse vocale) ou à un apport cognitif plus important (résumé
automatique). Les valeurs basses, elles, concernent des technologies dont les perturbations
sont très distinctes les unes des autres (comme par exemple un substantif annoté au lieu
d’un groupe verbal en analyse syntaxique).
Nous illustrons cette hiérarchisation des technologies à l’aide de la figure 6.2.
Figure 6.2 – Hiérarchisation des évaluations de technologies du traitement automatique
des langues. Plus les valeurs sont élevées, plus l’évaluation est complexe.
Les trois niveaux de difficulté vont souvent de pair, mais de faibles variations permettent de distinguer les technologies entre elles. Ainsi, nous constatons qu’il y a des
technologies globalement plus complexes (la traduction de l’oral vers l’oral, le résumé
automatique et l’extraction d’information étant parmi les plus complexes) que d’autres
(la reconnaissance de la parole, l’alignement textuel ou l’analyse morphosyntaxique étant
parmi les moins complexes). Il existe aussi des technologies dont les trois critères de difficulté se retrouvent assez distincts, comme la synthèse vocale (Σ = 5, Γ = 5, mais ∆ = 2)
ou la traduction automatique (Σ = 4, ∆ = 5, mais Γ = 2). Pour d’autres technologies, ces
valeurs sont homogènes (recherche d’information, reconnaissance de la parole, extraction
d’information).
182
6.6. Combinaison de technologies
Par cette hiérarchisation des technologies en fonction de la difficulté à les évaluer, nous
identifions leurs particularités propres et surtout leurs caractéristiques pour améliorer
leurs mesures. Ainsi, il nous paraît plus intéressant de nous arrêter sur la construction
d’une référence et les moyens de la comparer en question-réponse, plutôt que de chercher
à réduire sa subjectivité. De plus, les difficultés propres aux technologies ne sont pas à
négliger lorsque l’on s’attelle à combiner des technologies, comme nous le présentons dans
la section suivante.
6.6
Combinaison de technologies
L’évaluation de technologies combinées est un cas à part en évaluation du traitement
automatique des langues. Cette évaluation qui n’est ni de type boite noire, ni de type
boite transparente est également appelée évaluation en cascade (cf. 2.2.4.2). Les technologies combinées font office de nouvelle technologie à part entière, analysant des données
en entrée et générant des données en sortie, et composées de deux ou plusieurs composants technologiques qui sont eux-même évalués. Ces composants technologiques sont des
systèmes produisant des données utilisables et compréhensibles par l’humain. Il ne faut
pas les confondre avec les modules d’un système.
6.6.1
Généralités
L’objectif et l’avantage d’évaluer la combinaison de plusieurs technologies est de
connaître l’impact d’une technologie sur l’ensemble de la chaîne de traitement et sur
les technologies la suivant dans cette chaîne. Deux méthodes d’évaluation sont possibles :
– évaluation en fin de chaîne (évaluation de type boite noire pour déterminer le ou
les composants les plus adaptés) en modifiant l’impact des composants intermédiaires, par exemple en remplaçant un-à-un les composants par d’autres de même
technologie ;
– évaluation des composants séparément au cours du traitement en articulant entrées
et sorties des composants suivants dans la chaîne (mesure de l’impact d’un ou de
plusieurs composants sur la chaîne). Cette évaluation se fait généralement selon les
méthodes propres aux technologies, mais aussi, de préférence, à l’aide d’une méthode
commune à toutes les technologies afin d’accéder à une évaluation objective de
l’évolution des résultats.
Quelle que soit la méthode d’évaluation, les résultats des mesures sont normalisés afin
de rendre comparables les résultats des technologies respectives et de faciliter l’interprétation sur l’ensemble de la chaîne de traitement. Cela veut dire que l’évaluateur est capable
soit de modifier les composants technologiques à loisir, soit d’obtenir des résultats intermédiaires pour les évaluer indépendamment les uns des autres. Il faut tout de même avoir
conscience des risques de la première méthode car elle ne prévient pas de la « récupération d’erreurs » par un composant suivant celui produisant ces erreurs. En effet, il est très
simple d’imaginer deux systèmes comparés via un même composant effectuant tous les
deux un traitement erroné sur le même échantillon de données, mais le second composant
corrigeant le premier. Il est plus probable que l’évaluateur repère l’erreur avec la seconde
méthode d’évaluation qu’avec la première.
183
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
Concernant la seconde méthode, chaque composant est évalué de deux manières différentes : en recevant une première fois la sortie du composant précédent et en recevant
une seconde fois des données de format similaire mais produites manuellement. Ainsi
l’impact du premier composant est clairement visible en comparant les deux résultats
(cf. figure 6.3). L’inconvénient de procéder autrement, en observant la sortie finale de la
chaîne de traitement, est d’avoir un composant robuste qui compenserait les défauts d’un
composant précédent.
Figure 6.3 – Calcul de l’impact de la sortie d’un composant sur un autre pour une
évaluation en cascade.
Chaque composant utilisé a un effet, propre à la technologie employée, sur la chaîne de
traitement et le résultat final. Dans le même esprit, il est possible de comparer les résultats
locaux des composants, les résultats intermédiaires ou les résultats globaux au sortir de
la chaîne de traitement : cela donne également une idée de l’évolution des performances
au fur et à mesure de l’enchaînement des composants.
Il faut également prendre en compte le cas de composants non disjoints n’utilisant pas
uniquement la sortie du composant les précédant, mais également des données propres. Il
est fréquent, en prenant l’exemple d’une traduction de l’oral vers du texte, qu’un composant de traduction automatique utilise l’arbre de décision d’un composant de reconnaissance de la parole en vue d’améliorer ses performances : le système modifie le parcours de
l’arbre en fonction des possibilités de traduction.
Il y a ainsi plusieurs intérêts à conduire des évaluations en cascade. L’amélioration des
performances n’est plus propre à la qualité intrinsèque d’une technologie, mais s’inscrit
dans un cadre plus large. Son utilisation ne doit pas influer sur d’autres technologies en
aval. Il est également question de modularité de technologies, où l’on peut imaginer qu’un
système est plus performant qu’un autre de même technologie au sein d’une chaîne de
traitement. Par conséquent, il n’est pas impensable que certains systèmes aient tendance
à mieux se combiner que d’autres.
184
6.6. Combinaison de technologies
6.6.2
Expérimentation
L’illustration que nous proposons concerne l’évaluation en cascade (end-to-end ) du
projet TC-STAR [Hamon et al., 2008a, Hamon et Mostefa, 2008a] qui utilise une évaluation selon la seconde méthode que nous avons décrite plus haut. Au cours du projet, une
évaluation en cascade d’un système de traduction de l’oral vers l’oral a été mise en place.
Le système résulte de la combinaison d’un composant de reconnaissance automatique de
la parole, d’un composant de traduction automatique de la parole et d’un composant de
synthèse vocale. L’objectif est de traduire un discours oral dans une langue source vers un
discours oral dans une langue cible. Dans notre cas, la langue source utilisée est l’anglais,
tandis que la langue cible est l’espagnol. L’évaluation des technologies correspondant aux
trois composants est également effectuée durant le projet. Pour la reconnaissance automatique de la parole, l’évaluation est conduite à l’aide d’une mesure de distance, le Word
Error Rate (WER). Pour la traduction automatique, des métriques automatiques et humaines sont utilisées, telles que BLEU [Papineni et al., 2001], le multireference Word Error Rate (mWER) [Niessen et al., 2000], ou la fluidité et l’adéquation [White et al., 1994].
Pour la synthèse vocale, une indication numérique de la qualité perçue est fournie à l’aide
de tests subjectifs appelés Mean Opinion Score (MOS) [ITU-T, 1993]. Nous étudions dans
cette section les résultats de la première évaluation en cascade de TC-STAR.
6.6.2.1
Résumé des résultats de l’évaluation des composants
Nous présentons brièvement dans cette section les résultats des composants individuels (reconnaissance automatique de la parole, traduction automatique de la parole et
synthèse vocale) afin de mettre en relief l’évaluation en cascade dans le contexte des résultats propres à chaque composant [Mostefa et al., 2006]. Trois directions de traduction
sont évaluées : de l’anglais vers l’espagnol, de l’espagnol vers l’anglais et du chinois vers
l’anglais. Pour chaque direction, trois tâches sont organisées correspondant au format des
données utilisées en entrée par les systèmes de traduction automatique de la parole : la sortie des systèmes de reconnaissance automatique de la parole (ASR pour Automatic Speech
Recognition), la transcription manuelle des mêmes données (Verbatim) qui contient les répétitions, les hésitations des locuteurs, etc., et la transcription réécrite officiellement (FTE
pour Final Text Edition). Nous n’étudions que les résultats obtenus pour la direction de
l’anglais vers l’espagnol, qui correspond à notre évaluation en cascade. Le tableau 6.5
compare les résultats acquis à l’aide de mesures automatiques du système utilisé pour
l’évaluation en cascade (TC-STAR, qui est la combinaison de plusieurs systèmes) d’une
même technologie et le meilleur système de la campagne d’évaluation (Top 1 ).
Les résultats du meilleur système individuel de reconnaissance de la parole sont relativement faibles avec un taux d’erreur de 8,2 % tandis que le système TC-STAR obtient
de meilleurs résultats avec un taux d’erreur de 6,9 %. En traduction automatique de la
parole, les résultats sont meilleurs pour le système TC-STAR également.
Par ailleurs, le tableau 6.6 présente les résultats de l’évaluation humaine en traduction
automatique de la parole. Pour cette évaluation, deux évaluations par segments ont été
effectuées par 130 juges natifs de l’espagnol, pour un total de 20 360 segments évalués.
Les résultats des deux systèmes automatiques sont relativement hauts avec des scores
situés au-dessus de 3 points. Toutefois, la différence avec la référence humaine reste assez
importante. Le système TC-STAR obtient des résultats inférieurs à ceux du meilleur des
185
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
Système
Top 1
TC-STAR
Reconnaissance automatique
de la parole [%]
8,2
6,9
Traduction automatique
ASR [%] Verb. [%] FTE [%]
35,97
46,61
49,81
47,53
50,74
Table 6.5 – Résultats des mesures automatiques de la seconde campagne TC-STAR pour
les composants de reconnaissance automatique de la parole avec le WER (plus le score est
bas, meilleure est la transcription) et de traduction automatique de la parole avec BLEU
(plus le score est haut, meilleure est la traduction). Les résultats du meilleur système (Top
1 ) et du système (TC-STAR) sont présentés.
Métrique
Fluidité
Adéquation
Top 1
ASR Verb. FTE
[1-5] [1-5] [1-5]
3,06 3,39 3,63
3,13 3,54 3,79
TC-STAR
Verb. FTE
[1-5] [1-5]
3,32 3,46
3,55 3,72
Réf.
Verb. FTE
[1-5] [1-5]
4,31 4,56
4,31 4,44
Table 6.6 – Résultat des mesures humaines de la seconde campagne TC-STAR pour le
composant de traduction automatique de la parole (SLT ) avec les scores de fluidité et
d’adéquation (plus le score est haut, meilleure est la traduction) ; les résultats du meilleur
système (Top 1 ), de la combinaison de systèmes (TC-STAR) et d’une référence humaine
(Réf.) sont présentés.
systèmes évalués mais la différence n’est pas significative. Nous notons par ailleurs que
les scores d’adéquation sont situés au-dessus de ceux de la fluidité pour les systèmes
automatiques, tandis que c’est l’inverse qui est de mise pour la référence humaine. Cela
s’explique par des scores plus élevés pour cette dernière et le rapprochement des niveaux
de score.
Enfin, le tableau 6.7 présente les résultats de l’évaluation humaine en synthèse vocale
selon la qualité globale (de nombreux autres critères étaient également utilisés, que nous
ne détaillerons pas ici). Les jugements ont été faits par 20 juges natifs de l’espagnol sur
le meilleur système de la campagne d’évaluation (Top 1 ) et une voix humaine.
Système
Top 1
Voix humaine
Synthèse vocale
[1-5]
4,33
4,66
Table 6.7 – Résultat des mesures humaines de la seconde campagne TC-STAR pour le
composant de synthèse vocale avec la qualité globale (plus le score est élevé, meilleure
est la synthèse) ; les résultats du meilleur système (Top 1 ) et d’une voix humaine sont
présentés.
La voix humaine obtient de meilleurs résultats que le système automatique, même si
les deux performances sont au final très proches.
186
6.6. Combinaison de technologies
6.6.2.2
Tâche de contrôle et critères d’évaluation
De nombreux concepts sont mis en jeu lors d’une évaluation en traduction de l’oral vers
l’oral. Ils amènent beaucoup de subjectivité aux jugements apportés. Le fait d’impliquer
trois composants différents accroît la difficulté pour estimer les performances du système.
Deux critères ressortent dans la littérature : mesurer la conservation de l’information
depuis l’entrée jusqu’à la sortie (l’adéquation), et déterminer à quel point la traduction est
compréhensible (la fluidité). Plusieurs évaluations de ce type ont été menées à bien, comme
par exemple dans les projet JANUS [Gates et al., 1996], Verbmobil [Nübel, 1997] et TCSTAR [Hamon et al., 2007b]. Ce sont les mêmes critères qui sont définis mais l’approche
diffère en terme de préparation des données, de classification des critères, de protocole, etc.
Les données utilisées pour cette expérimentation sont celles des Sessions Plénières du
Parlement Européen (EPPS, pour European Parliament Plenary Session) pour les orateurs en langue anglaise. Les enregistrements audio ont été sélectionnées sur la période
courant de septembre à décembre 2005 des débats parlementaires. Nous n’avons sélectionné que les discours en anglais des politiciens (vs les interprètes), qui ont été traités
par le système TC-STAR. Les données d’évaluation sont composées de 20 segments de 3
minutes chacun. Cela représente au total une heure de documents audio et environ 8 000
mots anglais. L’interprétation dans plusieurs langues des sessions plénières par les interprètes professionnels du Parlement Européen nous a fourni les segments correspondants
en espagnol, dans des formats texte et audio. De cette manière, nous comparons les résultats de l’interprétation automatique (le système TC-STAR) à ceux de l’interprétation
humaine.
Le système TC-STAR évalué combine les composants suivants :
– Reconnaissance automatique de la parole, résultant de la combinaison de plusieurs
systèmes [Lamel et al., 2006] à l’aide d’une méthode de Recognizer Output Voting
Error Reduction (ROVER) [Fiscus, 1997] ;
– Traduction automatique de la parole, fourni par l’Université de Aachen (RWTH)
[Matusov et al., 2006] ;
– Synthèse vocale, fourni par l’Université Polytechnique de Catalogne (UPC)
[Bonafonte et al., 2006].
Pour chaque fichier audio (en anglais), le composant de reconnaissance automatique
de la parole produit une transcription automatique en anglais, puis le composant de traduction automatique traduit ce texte en espagnol, et finalement le composant de synthèse
vocale synthétise le texte espagnol pour donner un fichier audio en espagnol (cf. 6.4). Les
données sont transférées d’un composant à un autre manuellement, sans aucune forme de
modification supplémentaire.
6.6.2.3
Protocole d’évaluation
Notre
approche
d’évaluation
se
distingue
des
précédents
travaux.
[Somers et Sugita, 2003] ont demandé aux juges d’écrire une paraphrase de ce qu’ils
avaient retenus du document audio traduit, tout en sachant que le document était
synthétisé. Les réponses étaient jugées sur une échelle à 7 points, pour la traduction
automatique et la synthèse, tandis que la reconnaissance automatique de la parole était
jugée à partir d’un taux d’erreur sur les morphèmes (Morpheme Error Rate, MER).
Cette échelle à 7 points a également été retenue dans le cadre du projet LC-STAR
187
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
Figure 6.4 – Le processus de traduction de l’oral vers l’oral.
[Banchs et al., 2006] pour une évaluation sur les énoncés. À chaque fois, les juges
produisent et évaluent des sorties audio sans évaluer leurs propres productions.
Nous avons choisi une approche différente en nous plaçant du point de vue de la
traduction automatique de la parole plutôt que de celui de la synthèse vocale. D’autre
part, nous pensons qu’il n’est pas nécessaire de présenter aux juges les documents audio
comme étant produits automatiquement : cela influence leur perception, involontairement
ou non, et biaise les résultats. Enfin, bien que le fait de paraphraser les traductions
orales soit intéressant, il ajoute une perturbation des résultats avec cette étape subjective
supplémentaire (celle des juges effectuant les paraphrases) et technique (le calcul de taux
d’erreurs).
Dans un deuxième temps, l’objectif de cette évaluation est de comparer le système
automatique aux interprètes du Parlement Européen. Pour ce faire, les documents audio
correspondant ont été collectés directement sur place par l’Université de Aachen. Sans
que ce soit spécifié aux juges, la répartition est égale entre les sorties audios du système
automatique et ceux des interprètes. De cette manière, les juges agissent comme des
utilisateurs finaux, en jugeant la conservation et la qualité de l’information pour les deux
types d’entrée.
Nous avons vu qu’en traduction automatique les deux critères couramment utilisés
pour l’évaluation humaine sont l’adéquation et la fluidité, qui utilisent une échelle de valeur
à 5 points. Nous avons spécifié une approche similaire à partir d’un premier questionnaire
de qualité (fluidité de la sortie audio) et d’un second questionnaire de compréhension
(adéquation de la sortie audio avec l’entrée correspondante). De plus, les juges ont un
profil d’utilisateur potentiel plutôt qu’expert, si possible non bilingues, et qui ne sont pas
particulièrement spécialistes du domaine de la traduction comme du domaine de l’oral.
Afin de mesurer la conservation du contenu entre le source en anglais et la sortie en
espagnol (cf. 6.5), nous avons préparé des questionnaires de compréhension composés
de 10 questions par échantillon. Pour ce faire, la transcription manuelle de l’anglais est
utilisée afin d’obtenir 10 questions par échantillon dont les réponses (les réponses de réfé188
6.6. Combinaison de technologies
rence) sont conservées pour les comparer aux réponses des juges.
Par exemple, pour une partie d’un échantillon en anglais, Of course the nature of our
societies has changed dramatically over these years, economically, socially and technologically (Bien sûr, la nature de notre société a changé de façon significative au cours de
ces années, économiquement, socialement et technologiquement), la question What has
changed dramatically over these years ? (Qu’est-ce qui a changé de manière significative
au cours de ces années ? ) est créée tandis que la réponse de référence est The nature of
our societies (La nature de notre société).
Figure 6.5 – L’évaluation de la traduction de l’oral vers l’oral.
Ensuite, les questions et les réponses de référence sont traduites en espagnol. Les
jugements sont effectués en utilisant une interface spécifique via Internet. On demande
aux juges de lire le questionnaire, puis d’écouter le document audio proposé, d’écouter
une seconde fois, et enfin d’écrire leur réponse en ayant la possibilité d’arrêter l’écoute
pour plus de facilité d’écriture.
Lorsque tous les jugements sont terminés, un expert natif hispanophone compare les
réponses des juges aux réponses de référence. Puisque les réponses de référence ne sont
pas exactement identiques à celles des juges, il est demandé à l’expert d’être « flexible ».
Par exemple, à la question ¿Qué publicación concierne al grupo del ponente ? (Quelle
publication concerne le groupe du locuteur ? ), la réponse de référence est La publicación
del código de conducta para las organizaciones no lucrativas (La publication du code de
conduite pour des organisations à but non lucratif ), tandis que le juge répond el código
de conducta sobre las organizaciones sin ánimo de lucro (le code de conduite au sujet des
organisations à but non lucratif ).
Il est évident que seul un expert est capable de noter les réponses comme correctes
ou incorrectes au contraire d’une métrique automatique : chaque réponse a une forme
différente, même si la réponse est correcte. Cela dépend du style d’écriture, d’une réponse
formulée par une phrase ou par un mot, de la synonymie des termes etc. De plus, les
189
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
traductions évaluées peuvent être différentes et entraîner des variations dans les réponses.
Ainsi, l’expert, qui observe à la fois les réponses de référence et les réponses des juges,
doit particulièrement faire attention au sens des questions.
À la fin de chaque questionnaire de compréhension, les juges remplissent le questionnaire de qualité censé observer la fluidité des documents audio. Ils jugent alors la qualité
audio selon 4 critères, présentés dans le tableau 6.8, ici en anglais.
Critère
Understanding
Fluent Speech
Effort
Overall Quality
Question
Do you think that you have understood the message ?
(Pensez-vous avoir compris le message ? )
1 - Not at all (pas du tout)
5 - Yes, absolutely (Oui, tout à fait)
Is the system fluent ?
(Est-ce que le système est fluide ? )
1 - No, it is very bad ! (Non, il est très mauvais ! )
5 - Yes, it is perfect Spanish (Oui, il est en parfait espagnol)
Rate the listening effort
(Estimez le niveau d’effort pour l’écoute)
1 - Very high (Très élevé)
5 - Low, as natural speech (Faible, comme un discours naturel)
Rate the overall quality of this translation system
(Estimez le niveau global de qualité de ce système de traduction)
1 - Very bad, unusable (Très mauvais, inutilisable)
5 - It is very useful (C’est très utile)
Table 6.8 – Questionnaire de qualité pour l’évaluation en cascade de TC-STAR.
Chaque question est associée à une échelle de 5 valeurs possibles : de manière similaire à
nos expérimentations en traduction automatique, seules les marques extrêmes sont définies
et vont du plus bas niveau de qualité (1) au plus haut (5). Lorsque l’évaluation est
terminée, les moyennes des jugements sont calculées pour chacun des critères. De cette
manière, 8 scores sont disponibles avec les deux « systèmes » (à savoir les interprètes et
le système TC-STAR).
Pour le déroulement de l’évaluation, nous avons sélectionné 20 échantillons en anglais
de 3 minutes chacun, d’un même locuteur. 20 hispanophones natifs ont été recrutés pour
les jugements. Contrairement à des expériences précédentes [Banchs et al., 2006], ils ne
sont pas experts des technologies concernées par l’évaluation et sont payés pour leur
travail. L’objectif est de se rapprocher le plus possible d’un scénario réel d’utilisation.
Chaque juge évalue trois échantillons différents dont un, au moins, provient du système
automatique et un autre d’un interprète. Aucune distinction n’est faite entre les deux
sorties, mais les juges n’évaluent pas deux fois le même échantillon provenant soit du
système automatique soit d’un interprète. Puisqu’il y a 40 échantillons à évaluer (20
provenant des interprètes et 20 du système automatique), certains ont été évalués deux
fois afin de calculer un accord inter-juges.
190
6.6. Combinaison de technologies
6.6.2.4
Résultats
Nous calculons un accord inter-juges à l’aide des 20 échantillons qui sont évalués
deux fois par deux juges différents. Sur un total de 200 réponses de compréhension (10
par échantillon), 153 sont identiques, c’est-à-dire lorsque les deux juges ont trouvé une
réponse correcte ou qu’ils ont tous les deux trouvé une réponse incorrecte. Les juges sont
en accord pour 77 % des questions posées : certaines questions posent problème. Que ce
soit les jugements pour le système automatique ou ceux pour les interprètes, l’accord est
quasiment identique (79 % pour le système TC-STAR contre 75 % pour les interprètes).
Concernant les questionnaires de fluidité, les accords inter-juges sont relativement
bons, comme le montre le tableau 6.9 pour les réponses dont la différence des scores ne
diffère pas plus de 1 (c’est-à-dire le 1-agreement).
Système
Ensemble
Interprète
TC-STAR
Understanding [%]
95
100
89
Fluent Speech [%]
75
64
89
Effort [%]
75
91
56
Overall Quality [%]
80
73
89
Table 6.9 – 1-agreement [%] du questionnaire de qualité pour l’évaluation en cascade de
TC-STAR.
Le tableau 6.10 détaille les résultats en adéquation de l’évaluation selon trois types de
scores pour l’évaluation de la compréhension :
– les résultats subjectifs (Eval. Subj.) effectués par les juges et montrant le pourcentage de bonnes réponses validées par l’expert ;
– les résultats objectifs (Eval. Obj.) effectués par l’expert en ayant les réponses
de référence sous les yeux. Les sorties audio sont vérifiées afin de savoir si elles
contiennent les réponses aux questions ou non. Cela montre le pourcentage maximal
de réponses qu’auraient dû trouver les juges.
– la même vérification objective cette fois-ci effectuée sur les sorties du composant
de traduction automatique de la parole (Trad) et du composant de reconnaissance
automatique de la parole (Reco). Cela permet de déterminer à quel niveau de
traitement l’information a été la plus perdue.
Système
Interprètes
TC-STAR
Sortie audio
Eval. Subj. Eval. Obj.
50
72
58
83
Trad.
Reco.
83
91
Table 6.10 – Résultats des tests d’adéquation [%] pour l’évaluation en cascade de TCSTAR.
Les résultats obtenus sur les sorties des interprètes sont bien plus bas pour l’évaluation
subjective que pour l’évaluation objective. Autrement dit, les juges ont trouvé 50 % des
réponses, alors qu’ils auraient pu en trouver 72 %. Ce dernier résultat nous fait penser
que, a priori, on peut considérer que 28 % de l’information originale n’a pas été traduite
par les interprètes.
191
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
Le système automatique semble avoir de meilleurs résultats que l’interprète puisque
le pourcentage de réponses trouvées est de 58 %, et que 83 % des réponses auraient pu
être trouvées : le système automatique traduit plus de contenu que les interprètes. Ces
résultats sont vraisemblablement dus au fait que le système automatique « colle » au
contenu et traduit l’ensemble des informations apportées par le flux audio. Au contraire,
les interprètes sont obligés de résumer leur discours, autant que de le reformuler.
Plusieurs faits peuvent expliquer les meilleurs résultats du système automatique :
– la difficulté des questions est trop focalisée sur un contexte bien précis : un (très)
court passage sert généralement pour les créer ;
– le filtrage de l’information par les interprètes : encore une fois, l’interprète a supprimé
de l’information par manque de temps ou par inutilité (supposée ou non) ;
– la reformulation faite par les interprètes cause une ambiguïté du discours : les interprètes reformulant une bonne partie de leurs traductions, il est possible que l’interprétation ne soit pas exactement ce que l’orateur dit.
La perte d’information du système automatique est due principalement aux composants de reconnaissance automatique de la parole et au composant de traduction automatique 1 . La qualité de l’audio a fait perdre 25 % de l’information en plus, par le seul fait
du caractère subjectif de l’évaluation.
Afin de comparer plus équitablement les résultats des interprètes et ceux du système
automatique, nous avons conservé uniquement les questions pour lesquelles les réponses
sont incluses dans les échantillons des interprètes. Notre hypothèse est de considérer les interprétations humaines comme étant limitées à l’information principale et « importante ».
Ici, l’objectif est d’atteindre notre objectif réel, l’estimation du niveau de qualité, et comparer ce qui est comparable. L’idée d’origine est de comparer les deux interprétations
selon les qualités intrinsèques des systèmes en faisant abstraction de la perte d’information qui amène beaucoup de bruit dans l’évaluation de la qualité. Un sous-ensemble de
144 questions a été composé dont les réponses sont présentes dans la sortie des interprètes
(c.-a-d. Eval_obj.(interprete) = 100%). Les résultats sont présentés de la même manière
dans le tableau 6.11.
Système
Interprètes
TC-STAR
Sortie audio
Eval. Subj. Eval. Obj.
67
100
63
86
Trad.
Reco.
86
95
Table 6.11 – Résultats des tests de compréhension [%] pour l’évaluation en cascade de
TC-STAR, restreints au sous-ensemble des questions pour lesquelles les réponses sont
trouvées dans les sorties des interprètes.
Les résultats sont ici plus hauts, même si la quantité d’information que les juges
identifient est plus faible que pour l’ensemble complet des questions. En considérant que
la perte d’information est nulle pour l’interprète dans ce cas, le système automatique
1. Il faut noter que pour d’autres expérimentations, même le composant de synthèse vocale a fait perdre
de l’information au système automatique [Hamon et al., 2009] : par exemple, la traduction automatique
de qualité très faible associée aux pauses mal placées de la synthèse vocale ont donné une sortie audio
incompréhensible.
192
6.6. Combinaison de technologies
obtient des résultats assez hauts en ne perdant que 14 % de l’information. Toutefois, la
« perte subjective », due à l’intervention des juges est de 37 % pour la sortie TC-STAR,
tandis qu’elle est de 33 % pour la sortie des interprètes. Les résultats des interprètes
sont finalement plus hauts que ceux du système automatique. Toutefois, ce dernier a plus
tendance à interpréter tout le discours du locuteur anglais.
La perte objective du système TC-STAR se décompose en 5 % provenant du composant
de reconnaissance automatique de la parole et 9 % provenant de celui de traduction automatique. Cela confirme, comme lors d’expériences antérieures [Somers et Sugita, 2003],
que la traduction automatique est le maillon faible d’un tel système.
Nous pouvons déterminer à l’aide de telles expériences quelles sont les faiblesses d’un
système combinant des technologies. Une identification plus fine des problèmes permettrait certainement d’améliorer ses performances [Hamon et al., 2009] et laisse présager des
améliorations futures. Deux solutions nous viennent à l’esprit pour pallier les problèmes
récurrents de la traduction automatique dans ce genre de système : ou bien tout miser sur
cette technologie, en faisant abstraction des deux autres qui obtiennent des résultats vraisemblablement corrects ; ou bien fournir de meilleures données en entrée du composant de
traduction automatique en améliorant la reconnaissance automatique de la parole, mais
aussi en fournissant d’autres données pour obtenir un composant plus élaboré (tels que le
sont déjà les arbres de décision).
Le tableau 6.12 présente les résultats de fluidité qui utilisent les questionnaires de
fluidité, à la fois pour les interprètes et le système automatique.
Système
Interprètes
TC-STAR
Understanding
3,45
2,34
Fluent Speech
3,48
1,93
Effort Overall Quality
3,19
3,52
1,55
1,93
Table 6.12 – Résultats des tests de fluidité [1-5] pour l’évaluation en cascade de TCSTAR.
Les résultats des interprètes sont élevés, mais n’atteignent toutefois pas les scores
maximaux. Les conditions d’interprétation expliquent ces résultats : traduction en temps
réel, discours anglais original en arrière-plan, bruits variés tels que des respirations ou des
bruits de table, etc. Le système automatique obtient, lui, des résultats nettement plus
bas, puisqu’un quart des échantillons sont estimés comme n’étant pas fluides et difficiles
à écouter.
À partir des performances obtenues par les interprètes, nous analysons deux principales
situations de dégradation :
– Bruits lors de l’enregistrement : bien que les documents audio ne contiennent pas
le discours de l’orateur, il est légèrement audible en arrière-plan. À cela s’ajoute
divers bruits de fond dans les documents, comme des cognements contre une table,
la respiration de l’interprète, etc. Ces bruits de fond ne sont pas présents dans la
sortie du système TC-STAR, ce qui le rend plus audible et plus agréable à l’écoute.
– Hésitations de l’interprète : contrairement au système TC-STAR, l’interprète écoute
l’orateur en même temps que lui-même parle. Cela pose évidemment problème pour
parler normalement. Par exemple, dans certains échantillons, l’interprète hésite
beaucoup, fait souvent des pauses, commence à parler puis se reprend, prolonge
193
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
certaines syllabes, ou encore fait des erreurs avec le début de certains mots, etc. Il
ne faut pas non plus accabler les interprètes : leur tâche est difficile, et la qualité
de ce que produit peut elle-même être faible (les problèmes étant grosso modo les
mêmes que ceux des interprètes...).
De la même manière, nous observons trois situations de dégradation pour le système
TC-STAR :
– Problèmes d’accords grammaticaux (en genre, nombre et temps de verbes) et problèmes de syntaxe au sein des phrases. Par exemple, dans la phrase suivante, nous
observons une combinaison d’erreurs qui accentue la difficulté de compréhension du
juge :
Phrase source (issue du composant de reconnaissance automatique de la parole) :
that this debate is attended by French , German , Austrian , Belgian , British and
and other colleagues . (que ce débat est suivi par des français, des allemands, des
autrichiens, des belges, des britanniques et et d’autres collègues .)
Phrase traduite automatiquement et synthétisée :
que este debate es *la* que *asistieron* francés alemán *austríaca* belga y británico
y colegas de otros . (que ce débat est celle qui sont assistés par français allemand
autrichien belge britannique et collègues d’autres .)
Le manque d’accord entre « débat » (masculin) et « la » (féminin) force le juge à un
effort supplémentaire pour comprendre ce qui est dit. C’est aggravé par le fait que
le verbe est à la troisième personne du pluriel tandis que le nom est à la troisième
personne du singulier, sans déterminant pour l’indiquer. La structure syntaxique a
également été modifiée : la construction, passive à l’origine (« is attended by ») a
été transformée en une forme active inversée (« es la que asistieron ») en espagnol,
ce qui est en fait plus commun qu’une construction passive en espagnol, mais qui
a posé plus de difficultés au système pour retrouver le bon accord en genre et en
nombre.
Enfin, il y a aussi un changement de structure syntaxique entre l’anglais « other colleagues » et l’espagnol « colegas de otros », ce qui change quelque peu le sens en fin
de phrase.
– Pause entre deux phrases : l’interprète marque une pause entre deux phrases, tandis
que le système TC-STAR a tendance à concaténer les phrases à l’oral, sans les
distinguer. Lorsque deux phrases sont prononcées comme une seule phrase, suivre
le discours est plus difficile pour le juge.
– Mots de connexion moins naturels : le système TC-STAR produit à l’oral des connecteurs entre les mots dont la prononciation sonne moins naturellement que par un
humain, tels que les mots « well », « so », etc. Cela perturbe le juge, car si les
mots eux-mêmes n’ont pas une bonne prosodie, les connecteurs semblent contribuer
significativement au sens de la phrase, alors que tel n’est pas le cas. Encore une fois,
le juge produit un effort supplémentaire pour ne pas prendre en compte ces mots
afin de mieux comprendre ce qui est dit.
Bien que toutes ces erreurs paraissent mineures prises individuellement, elles posent
de gros problèmes aux juges quand elles sont regroupées de la sorte. Ils ont besoin d’un
effort accru pour suivre et comprendre la traduction orale et sont facilement distraits en
essayant de trouver une association entre les mots dont l’accord est erroné ou en recréant
la structure de la phrase.
194
6.7. Conclusion
Par ailleurs, nous avons comparé ces résultats avec ceux des évaluations isolées des
différents composants : le score de fluidité pour la traduction automatique, et le score de
Word Error Rate pour la reconnaissance automatique de la parole (cf. tableau 6.13).
Système
Interprètes
TC-STAR
Sortie audio [1-5] Trad [1-5] Reco [%]
3,48
4,31
1,93
3,38
6,90
Table 6.13 – Résultats des tests de qualité pour chaque composant de l’évaluation en
cascade de TC-STAR.
La dégradation se situe à chaque composant, en particulier avec l’apparition du composant de synthèse vocale. Nous avons conduit d’autres expériences qui ont mené à des
résultats similaires [Hamon et Mostefa, 2008a, Hamon et al., 2009].
6.6.2.5
Discussion
Nous avons présenté une méthodologie d’évaluation pour une combinaison de technologies, la traduction de l’oral vers l’oral. Plusieurs critères ont été définis, afin d’évaluer
autant la sortie d’un interprète que celle d’un système automatique. Pour ce faire, de
nombreuses informations ont été analysées.
La méthodologie n’est pas parfaite, les critères d’évaluation sont notamment à affiner,
mais nous avons démontré que l’évaluation d’une chaîne de plusieurs technologies est possible, en prenant en compte l’évolution des performances. Ainsi, il ressort de cette étude
que le système automatique est encore loin des performances d’un interprète. Toutefois,
un point positif majeur est à souligner : si l’interprète ne traduit qu’une partie de l’information, quelquefois n’atteignant pas la qualité souhaitée, le système automatique, lui,
traduit toute l’information apportée par le locuteur source. C’est un avantage indéniable
du traitement automatique, même si la qualité et la compréhension de la traduction n’est
pas encore satisfaisante.
6.7
Conclusion
Nous avons observé dans ce chapitre les caractéristiques d’évaluation de différentes
technologies du traitement automatique des langues afin d’y trouver des ressemblances.
Cela s’est fait en regroupant dans un premier temps les technologies elles-mêmes. Dans
un second temps, nous avons classifié ces technologies en fonction de leur similarités, puis
leurs mesures types, communes à plusieurs technologies.
À partir de cela, nous avons alors établi un premier bilan en ce qui concerne une hiérarchisation des technologies en terme d’évaluation. L’évaluation est plus complexe à mettre
en place pour des technologies comme la traduction de l’oral vers l’oral, le résumé automatique, la synthèse vocale ou l’extraction d’information. À l’inverse, la reconnaissance
de la parole, l’analyse morphosyntaxique ou l’alignement textuel sont des technologies
dont l’évaluation est plus simple à réaliser. La complexité de l’interprétation des résultats
varie en conséquence de cette complexité.
195
Chapitre 6 : Les similarités entre évaluations de technologies du TAL et les
combinaisons de technologies
En fin de chapitre, nous avons étudié la combinaison de technologies et son évaluation
en cascade. C’est un cas particulier de l’évaluation qui permet d’estimer l’impact d’une
technologie sur une autre. Autour d’une expérimentation, nous avons ainsi pu identifier,
par exemple, les effets d’une traduction automatique de faible qualité sur un système de
synthèse de la parole.
Nous avons besoin pour la conception de notre architecture de ce genre d’étude, non
pas à un niveau conceptuel (pour le développement de la plate-forme), mais à un niveau
fonctionnel. En effet, avec la possibilité d’effectuer des combinaisons de technologies, il faut
pouvoir effectuer les opérations adéquates et savoir interpréter les résultats de manière
correcte.
Hiérarchiser les technologies et identifier les effets de combinaisons a pour objectif de
prendre de la hauteur et de connaître l’état des lieux en TAL : quels sont ses atouts et ses
lacunes, quelles sont les technologies matures et celles dont la pertinence des résultats est
moins certaine. C’est autant d’efforts qui permettront de mettre en place une architecture
d’évaluation adaptée à la situation pour chaque technologie.
196
Chapitre 7
Vers une architecture d’évaluation
générique et pérenne en TAL
Dans un contexte de multiplication des évaluations, de synergie de données, protocoles
et métriques ou de recherche d’automatismes, l’évolution du traitement automatique des
langues justifie le développement d’architectures d’évaluation.
L’idée d’une architecture est inspirée par les progrès constants des différentes technologies. Cela comprend à la fois ceux de l’informatique pure (protocoles de transfert de
fichiers, langages de programmation, serveurs de données, etc.) et ceux du traitement automatique des langues (serveurs de corpus, partage d’outils, distribution de données, etc.).
Les expériences des deux domaines réunis sont complémentaires : elles apportent d’un
côté le cadre technique d’architectures interconnectant des systèmes et d’un autre côté la
gestion des données linguistiques à travers les différents standards.
De plus, si une telle approche de l’évaluation en traitement automatique des langues
semblait peu envisageable il y a 20 ans, le développement d’Internet, la multiplication des
technologies d’interopérabilité de services et l’apparition du Web 2.0 permettent dorénavant d’imaginer des architectures bien moins coûteuses.
Le traitement automatique des langues a besoin d’architectures d’évaluation car elles
facilitent en particulier :
– le parcours des différentes étapes de l’évaluation ;
– l’accès aux ressources linguistiques ;
– l’accès aux métriques d’évaluation et leur automatisation ;
– la combinaison de technologies et leur évaluation.
Dans les chapitres précédents, nous avons ainsi établi différents cas de figure pour
lesquels une architecture d’évaluation a tout à fait sa place. Le retour d’expérience lors
de l’organisation de campagnes d’évaluation ou d’évaluation de systèmes isolés nous a
également fourni les éléments nécessaires quant aux fonctionnalités qu’une architecture
d’évaluation pérenne et générique doit offrir. L’évaluation de systèmes de TAL pose des
problèmes liés tant à son organisation qu’aux contraintes propres au protocole adopté et
à la mesure.
La plupart des étapes d’une évaluation (chapitre 3) sont à inclure dans notre architecture. Les étapes des phases d’évaluation sont plus concernées que les étapes des phases
préliminaires.
197
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
L’intégration dans l’architecture des ressources nécessaires à l’évaluation (chapitre 4)
impose également certaines contraintes : outre les coûts de développement et de maintien,
cela nécessite le respect des standards existants ou la standardisation des formats le cas
échéant. En effet, l’utilisation de ressources par des systèmes hétérogènes dans une même
structure est facilitée en évitant la spécification de formats multiples.
L’étude des mesures d’évaluation (chapitre 5), point central de l’architecture d’évaluation, nous a permis d’identifier différentes techniques d’évaluation et les approches à
définir pour mettre en place l’architecture. Cette étape a été confortée par l’étude des
similarités en terme d’évaluation de technologies (chapitre 6), justifiant en cela le développement d’une architecture générique. En effet, les mesures d’évaluation se séparent en
deux grandes familles (automatiques et humaines) mais, au sein de ces familles, le principe de fonctionnement des métriques est globalement le même. L’architecture peut donc
satisfaire l’évaluation de nombreuses technologies sur des mêmes principes, moyennant un
choix de métriques différent.
Dans ce chapitre, nous fixons les objectifs de notre architecture, puis nous présentons
nos premières expérimentations autour du développement d’architectures d’évaluation et
discutons de résultats obtenus. Enfin, nous proposons la modélisation de notre architecture
type avant de conclure.
7.1
Objectifs
Notre proposition repose sur une architecture utilisant le réseau afin de faire interagir des systèmes de TAL et les métriques à distance. L’indépendance des programmes
utilisés doit être garantie quelles que soient leurs caractéristiques comme le langage de
programmation, la localisation, le format de données en entrée et en sortie.
Notre objectif principal est de mettre en place une architecture générique, capable de
rassembler plusieurs types de technologies et leurs mesures, et pérenne, qui puisse être
réutilisée pour d’autres évaluations dans le futur. Le choix d’une architecture d’évaluation
est d’ordinaire propre à une technologie : nous cherchons à mutualiser les technologies au
sein d’une architecture générique. Nous justifions cela par les besoins en pérennisation
du TAL (réutilisation des moyens comme les protocoles, les données, les outils, les métriques, etc.). L’évaluation est coûteuse mais doit pouvoir être reproductible au cours du
temps. L’architecture doit donc inclure les différents types, niveaux et méthodes d’évaluation décrits dans le chapitre 2.
En pratique, nous avons plusieurs attentes :
– Qu’il s’agisse d’une campagne d’évaluation ou de l’évaluation d’un système isolé,
les interactions avec les participants ou les développeurs de systèmes sont très nombreuses, à toutes les étapes de l’évaluation. L’automatisation de certaines procédures
(par exemple la validation du format des données) est un bénéfice non négligeable
pour l’évaluateur (effort réduit) comme pour le participant (temps d’attente réduit).
– Il faut limiter les opérations manuelles (validation, calcul des résultats, manipulation
de données, etc.) qui apparaissent régulièrement au cours d’une évaluation et qui
augmentent le risque d’erreur.
– L’accent doit être mis sur le transfert des données d’évaluation qui est fastidieux,
autant pour leur envoi que pour leur réception. Les points à risque sont nombreux et
augmentent en fonction du nombre de systèmes à évaluer et de la taille des données.
198
7.1. Objectifs
– Les formats de données doivent être respectés. Dans le meilleur des cas, l’architecture
pousse à une standardisation des formats de données. Sinon, l’architecture permet
la gestion de plusieurs formats différents pour une même technologie.
– Le calcul des résultats est long, fastidieux et sujet à erreurs : l’automatisation résoud
une partie des problèmes, mais il faut tout de même encadrer les calculs par des
règles strictes.
– Les évaluations manuelles sont complexes et gagneraient à être automatisées. Il y a
tout d’abord un gain à attendre des interfaces d’évaluation humaine et la réalisation
des jugements. Ce sont des opérations d’évaluation qui peuvent être automatisables,
au mieux en remplaçant des jugements humains par des métriques automatiques
aussi efficaces.
– Les délais sont difficiles à respecter, ce qui ne donne pas toujours une bonne image de
l’évaluateur. Ce dernier se trouve en fin de parcours d’évaluation dans la plupart des
projets et les attentes sont souvent inversement proportionnelles à la durée restante
pour l’évaluation. Automatiser les procédures rendrait la tâche plus rapide.
Ainsi, l’architecture doit être pourvue de fonctions automatisées : démarrage des différentes étapes d’évaluation (entraînement des systèmes, test, etc.), appel aux programmes
de calcul des résultats automatique, intégration des données aux métriques humaines,
dépôt des données, etc.
L’automatisation de l’évaluation dans notre architecture semble, de fait, aller à l’encontre des mesures d’évaluation humaine : l’intégration de mesures nécessitant une intervention humaine semble relativement lourde à mettre en place. Cependant, nous considérons qu’il est possible d’intégrer les mesures d’évaluation humaines en adaptant le protocole avec des interfaces appropriées. Il faut alors prendre en compte les différents aspects
de ces mesures : délais d’attente, calcul des résultats, mesures d’accord inter-juges, etc.
L’utilisation des deux types de mesures (automatique et humaine) permettrait alors de
mener une méta-évaluation. Les mesures automatiques sont aussi concernées par l’automatisation au sein d’une architecture : l’objectif est de se soustraire totalement aux parties
manuelles (déplacement des données, lancement des métriques, etc.) du fait de leur automatisation déjà avancée. Nous souhaitons tout de même proposer une architecture qui
supporte ces deux types de mesures.
De plus, la place des ressources linguistiques est à améliorer par rapport à une évaluation « standard » : l’architecture doit les centraliser. Bien sûr, les données sources, les
mesures et les références sont communes à l’ensemble des systèmes évalués dans un même
contexte. Mais nous privilégions aussi la mise en commun des données pour une même
technologie (cf. chapitre 6) et le stockage de l’ensemble des ressources linguistiques sur un
serveur de données couplé à une gestion des droits d’accès et d’utilisation.
Les principes informatiques sont communs à toutes les technologies du traitement
automatique des langues :
– La gestion des données, des systèmes, du serveur, etc. se fait à travers l’architecture :
compte tenu de la taille parfois importante des données, elles ne sont pas forcément
stockées (par défaut, les dernières données utilisées peuvent être conservées comme
historique minimal) ; un historique des transferts et données utilisées est conservé.
– Les interfaces utilisateurs sont généralement accessibles à distance, via Internet, et
sont intuitives et complètes. Les interfaces sont de plusieurs types et sont dédiées
aux développeurs de systèmes, aux évaluateurs, aux juges, etc. Dans le cadre d’une
199
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
campagne d’évaluation, les participants accèdent aux mêmes types de données, aux
mêmes mesures et aux mêmes types de résultats. Les interfaces sont normalement
multi plate-forme ou adaptables facilement 1 .
– Les accès sont sécurisés : les utilisateurs d’une même architecture n’ont, en théorie, pas accès aux données des autres utilisateurs, ni aux résultats obtenus. Des
agents extérieurs ne sont pas autorisés à avoir accès à l’architecture et aux données
librement.
– La récupération des résultats d’évaluation (jugements et calculs automatiques) et
le calcul des scores se font avec le moins de manipulations humaines possibles.
Les processus sont robustes et respectent les principes d’évaluation décrits dans
les chapitres précédents.
– Des interfaces d’analyse des résultats sont susceptibles d’être intégrées à l’architecture.
Le codage de l’architecture est lui-même sujet à toute sorte d’aléas : charge mémoire
ou physique, injections SQL, failles CSRF, gestion de sessions, code source, etc. Des bancs
de test suffisants auront été établis avant de déployer l’architecture.
De même, les types d’utilisateurs de l’architecture sont nombreux, pour chacune des
technologies :
– Les propriétaires ou développeurs de systèmes : ils ont accès aux résultats de leurs
systèmes, aux données disponibles et lancent des expérimentations comme évaluations de développement ou d’expérimentation.
– Les organisateurs d’évaluations : ils ont accès aux informations relatives aux évaluations les concernant. Cela va des statistiques d’utilisation aux résultats pour lesquels
ils ont les droits d’accès. Par contre, il faut noter que les organisateurs d’évaluations
sont susceptibles de faire partie de la catégorie précédente, dans le cas de l’évaluation
d’un système isolé par exemple.
– Les administrateurs de l’architecture : ils gèrent la base de données des évaluations
et l’utilisation de l’architecture à partir d’une interface logicielle.
– Les développeurs de l’architecture : ils ont un accès restreint aux services d’évaluation pour mettre à jour le code ou pour effectuer des tests et corriger les éventuelles
erreurs.
– Des visiteurs extérieurs : on peut facilement imaginer que les résultats d’une évaluation puissent être mis à disposition d’agents extérieurs (commissions, public, etc.)
sans qu’ils aient pour autant le pouvoir de modifier les données.
Chaque type d’utilisateur possède des droits spécifiques. Il faut encore souligner l’importance de la sécurisation de l’architecture, tant au niveau interne (les différents utilisateurs) qu’externe (les agents extérieurs).
L’ensemble de ces objectifs vise à établir des évaluations pérennes et reproductibles
pour une même technologie ou pour des technologies combinées.
1. Dans le cadre d’une campagne d’évaluation par exemple, les participants n’ont pas nécessairement
la même configuration de travail.
200
7.2. Premières expériences
7.2
Premières expériences
Nous avons conçu et développé deux types d’architectures que notre modèle d’architecture finale devra regrouper :
– les architectures pour l’évaluation automatique se limitant à l’utilisation de mesures
automatiques ;
– les architectures pour l’évaluation humaine se composant d’interfaces d’aide aux
jugements humains.
Ces architectures, simples, sont à la base de notre architecture finale.
7.2.1
Architectures pour l’évaluation automatique
Comme nous l’avons mentionné précédemment, l’intérêt de développer des architectures pour l’évaluation automatique réside dans la limitation des risques d’erreurs et le
gain de temps.
Nous faisons ici état de deux expériences, la première au cours du projet TC-STAR
avec la mise en œuvre d’une chaîne de traitement en traduction de l’oral vers l’oral et
la seconde au cours du projet PASSAGE avec la mise en place d’un service d’évaluation
pour une campagne d’évaluation sur des systèmes d’analyse syntaxique.
7.2.1.1
TC-STAR
L’architecture déployée dans le projet TC-STAR repose sur le Framework UIMA, une
des premières versions développées par IBM. L’objectif était alors de créer une chaîne de
traitement expérimentale pour la traduction de l’oral vers l’oral. Elle est composée de six
Annotators :
– un pour la reconnaissance automatique de la parole ;
– un pour la traduction automatique ;
– un pour la synthèse vocale ;
– enfin, trois Annotators pour l’évaluation des trois composants précédents.
Les trois Annotators d’évaluation sont limités à la reconnaissance automatique de la
parole et la traduction automatique, auquel s’ajoute un Annotator final pour résumer et
afficher les résultats à l’utilisateur.
À travers ces technologies, UIMA permet la distribution de plusieurs systèmes et de
créer des chaînes de traitements à partir de systèmes situés sur des machines distantes.
Dans TC-STAR, plusieurs systèmes de chaque technologie étaient disponibles, autorisant
la mobilité d’un ou de plusieurs composants et le test de nombreuses chaînes de traitement
variantes.
Au-delà de l’intérêt technique, l’intérêt scientifique se trouvait dans le test et la comparaison de plusieurs chaînes fixées à l’avance et dont l’évaluation permettait d’observer
les performances en termes de qualité et de vitesse d’exécution 1 . De plus, l’architecture
étant modulaire, elle permet une évaluation en cascade de manière à observer l’impact
de technologies ou de systèmes sur d’autres. UIMA a aussi été une bonne solution pour
utiliser des systèmes ou des outils ayant été développés dans des langages distincts : C++,
Java, mais aussi Perl, Python, etc.
1. Les résultats n’étant pas publics, ils ne sont pas présentés ici.
201
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
Concernant l’accès aux données, nous avons développé à ELDA un serveur de téléchargement pour que les Annotators de composants, via le serveur central, puissent obtenir
les données à traiter en entrée et renvoyer les données en sortie. Les données étaient
continuellement stockées sur un serveur de données. Une série d’authentifications était
nécessaire pour pouvoir effectuer des actions sur le serveur, comme le montre la figure 7.1.
De plus, les transferts de données étaient sécurisés à l’aide du protocole HTTPS et de
règles de pare-feu définies pour les serveurs de chaque partenaire.
Figure 7.1 – Schéma d’utilisation du serveur de données dans TC-STAR.
Le développement des Annotators a été conduit par chaque participant pour la ou les
technologies le concernant. Nous nous sommes chargé du développement des Annotators
d’évaluation. Cela a nous a demandé de déployer un Analysis Engine spécifique pour
évaluation, puisque la version d’origine d’UIMA prévue pour TC-STAR était spécifique
aux Analysis Engine englobant les Annotators des trois technologies évaluées (des « Light
Annotators », sortes d’Annotators permettant aux développeurs d’inclure rapidement
leurs systèmes). Simple d’utilisation, le code existant a été partiellement réutilisé.
Après avoir déployé l’Analysis Engine spécifique aux évaluations, les Annotators d’évaluation sont développés en C++, en appelant des routines Perl puisque la majeure partie
des métriques d’évaluation sont développées dans ce langage de programmation. Les trois
Annotators d’évaluation se répartissent entre :
– un Annotator pour la reconnaissance automatique de la parole, calculant les scores
WER des sorties provenant de l’Annotator du composant correspondant en considérant ou non la casse ;
– un Annotator pour la traduction automatique, calculant les scores BLEU, WER et
202
7.2. Premières expériences
PER des sorties provenant de l’Annotator du composant correspondant en considérant la casse ;
– un Annotator pour le formatage des données, qui collecte les scores obtenus par
chaque composant dans le CAS et les affiche sur une page HTML ; de plus, les
moyennes globales de tous les documents traités par la chaîne sont calculées, des
figures affichent les courbes de résultats au moyen de la librairie Gnuplot, et enfin
des liens envoient vers les documents traités (les fichiers d’alignement pour la reconnaissance automatique de la parole, les traductions et la référence correspondante
pour la traduction automatique, la sortie audio pour la synthèse vocale).
Les trois Annotators d’évaluation sont appelés séquentiellement, après ceux de la
chaîne de traitement.
Les métadonnées des quatre composants ont été fixées au début du projet, puis améliorées en fonction de futurs besoins. Elles respectent les standards des trois technologies
évoquées et les formats typiques utilisés pour leur évaluation. Cette standardisation a été
le rouage essentiel pour la mise en place des systèmes issus de plusieurs institutions dans
une même architecture.
Un ensemble de tests à blanc a permis d’améliorer l’ensemble de l’architecture (allant
des systèmes à l’architecture UIMA en passant par l’interface d’utilisation). Certaines
caractéristiques de l’architecture n’avaient pas été imaginés au départ : organisation des
chaînes de traitement et des évaluations, limitations technologiques (performances du
réseau, des ordinateurs et des serveurs, etc.) ou de sécurité (pare-feux, disponibilité des
Annotators distants, etc.), etc. Nous mettons par la suite tous ces aspects à profit pour
définir notre architecture d’évaluation.
7.2.1.2
PASSAGE (première campagne d’évaluation)
Dans le cadre du projet PASSAGE (Produire des Annotations Syntaxiques à Grande
Échelle pour aller de l’avant), traitant de l’évaluation des analyseurs syntaxiques du français, une plate-forme d’évaluation a été déployée [Hamon et al., 2008b] afin d’aider les
participants et les organisateurs dans leurs tâches d’évaluation 1 . Le projet fait suite aux
deux campagnes EASY [Paroubek et al., 2007] qui ont aidé à mettre en place un protocole
d’évaluation prenant en compte de manière séquentielle :
– la création d’un large corpus de textes ;
– la définition d’un guide d’annotation ;
– la constitution d’une annotation de référence sur une partie du corpus servant au
test des systèmes ;
– l’utilisation du corpus de test par des systèmes participants ;
– l’évaluation des sorties de ces systèmes sur la partie annotée du corpus de test ;
– l’extension des annotations sur l’ensemble du corpus de test en fusionnant les sorties
des analyseurs syntaxiques.
Nous ne traiterons pas ici des mesures d’évaluation [Vilnat et al., 2004b] mais de leur
intégration dans la plate-forme.
L’évaluation officielle de la première campagne d’évaluation PASSAGE adhère strictement au protocole de la campagne d’évaluation EASY [Paroubek et al., 2005] et fixe pour
1. Les différentes tâches étaient l’entraînement des systèmes d’analyse syntaxique, les tests d’interface
ou l’évaluation à proprement parler et son adjudication.
203
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
les corpus une segmentation en mots et en phrases que les participants doivent obligatoirement respecter. Les données utilisent le format XML avec une DTD 1 dérivée de celle
de la campagne d’évaluation EASY.
Le corpus utilisé comprend 40 000 énoncés (généralement une phrase) dont un sousensemble de 4 000 énoncés annotés a servi de référence lors de la campagne EASY. Le
corpus et ces annotations sont connus des participants et utilisés par eux pour améliorer
les performances de leur système pendant la phase de développement. À ce corpus de
4 000 énoncés, un complément d’annotations manuelles pour 400 énoncés pris dans la
partie du corpus EASY non encore annotée a été ajouté spécifiquement pour l’évaluation.
Ce complément de corpus permet de s’assurer, en partie, que les systèmes n’ont pas été
surentraînés sur le corpus de développement en vérifiant à la fin de la phase de développement que les performances obtenues sur l’ancienne référence EASY et celles obtenues
sur son complément apporté pour PASSAGE sont corrélées. Bien entendu, la validation
eût été meilleure si au lieu de réaliser des annotations de référence à partir d’énoncés
déjà connus des participants nous avions apporté un nouveau matériau annoté ; dans une
campagne d’évaluation le corpus de test doit toujours être disjoint du corpus de développement. Mais ce critère de validation nous a néanmoins paru suffire car, d’une part, les
participants n’ont de leur propre aveu pas eu le temps de modifier leur système depuis
la fin de la campagne EASY et, d’autre part, la suite des activités de PASSAGE après
cette première campagne, n’utilisera plus de segmentation en mots et en phrases définie a
priori. Pour ces raisons, il nous a paru suffisant de nous contenter d’un test de validation
sur des annotations complémentaires portant sur un matériau connu des participants.
Pour résumer, le corpus de référence de cette première campagne EASY se décompose en
trois parties :
1. Le corpus annoté manuellement, utilisé en phase de développement (quantité
moyenne : 4 000 énoncés dont le texte et les annotations sont connus des participants).
2. Le corpus complémentaire annoté manuellement, utilisé en phase de test (quantité
faible : 400 énoncés dont seul le texte est connu des participants).
3. Le corpus non annoté (quantité importante : 40 000 énoncés), qui sera utilisé pour
mener une annotation automatique de l’ensemble du corpus à l’aide de la fusion de
l’ensemble des sorties de système selon un algorithme de vote majoritaire.
C’est la première phase de développement qui est capitale et qui a nécessité la création d’une plate-forme d’évaluation accessible depuis un serveur Web commun. En effet,
un tel processus d’évaluation implique des expérimentations à répétition de la part des
participants. Celles-ci deviennent très rapidement fastidieuses à réaliser et nécessitent
l’installation et l’utilisation de la chaîne d’évaluation. La plate-forme d’évaluation leur
sert donc pour répéter ces évaluations de développement. À tout point négatif son point
positif, si nous prenons le risque d’évaluer des analyseurs surentraînés sur le corpus EASY,
nous gagnons un temps précieux lors de la phase de test. En effet, le matériau devant être
étiqueté par les participants est déjà à la disposition des participants, puis téléchargé
par leurs soins sur le serveur commun lors de chaque mesure effectuée pendant la phase
de développement ; et ainsi, la phase de test se résume simplement à lancer la chaîne
d’évaluation sur le corpus de référence complet réunissant l’ancienne référence EASY et
1. Document Type Definition.
204
7.2. Premières expériences
les annotations complémentaires ajoutées pour la première campagne d’évaluation PASSAGE (ce qui peut être fait automatiquement et quasi instantanément).
L’impact de l’intervention de l’évaluateur est ainsi non négligeable alors que nous le
souhaitons minimal dans notre cas : la plate-forme d’évaluation doit être à même d’effectuer un maximum de tâches sans aucune intervention manuelle. Nous limitons aussi à
trois tâches les manipulations humaines des participants nécessaires aux expérimentations
sur leurs données de développement :
– envoi des fichiers destinés à être évalués ;
– démarrage d’une évaluation de développement ;
– visualisation des résultats de l’évaluation.
Le risque d’erreur potentiellement introduit par un participant lors du développement
en est d’autant réduit.
Pour la première campagne d’évaluation PASSAGE, 13 systèmes d’analyse syntaxique
ont été testés et tous ont apprécié les apports du serveur d’évaluation, à tel point que
dès la phase de test terminée, certains ont spontanément demandé à ce que le serveur
d’évaluation soit ouvert à nouveau afin de poursuivre leurs expérimentations avec les
corpus de référence et la chaîne d’évaluation. Cela a été rendu possible en conservant les
données de la campagne d’évaluation puisque le serveur d’évaluation permet de définir
plusieurs campagnes d’évaluation fonctionnant en parallèle. Plusieurs critères sont retenus
et associés à une campagne : possibilité d’établir une phase de développement, date limite
de soumission, métrique utilisée, etc.
Notre serveur d’évaluation est purement orienté Internet, si bien que les participants à
la campagne d’évaluation n’ont besoin que d’un navigateur Internet pour pouvoir charger
leurs soumissions, lancer les évaluations et obtenir les résultats. Toutes les tâches sont
effectuées à même le serveur. La plate-forme se décompose en trois parties (cf. figure 7.2).
Le serveur d’évaluation figure en partie centrale. À ce serveur se rattache le serveur de
stockage des données. Les navigateurs des participants complètent la structure, en tant
que clients : ils permettent le téléchargement des données, le démarrage des évaluations
et la consultation des résultats.
Les détails de la base de données utilisée peuvent être trouvés dans
[Hamon et al., 2008b], de même que la description des interfaces utilisateurs. Le téléchargement des données sur le serveur se fait de manière simple via des formulaires, les
données étant cryptées par transfert HTTPs. Un fichier de soumission dans un format
compressé est téléchargé, placé dans un répertoire spécifique au participant et à un identifiant d’évaluation. Le fichier est ensuite décompressé, soumis à une validation XML et
les scores sont calculés à l’aide de scripts présents eux-aussi sur le serveur. Les fichiers
d’enregistrement des résultats sont également entreposés sur le serveur d’évaluation.
Tout ceci se fait une fois que le participant s’est authentifié sur le serveur, à l’aide
d’un identifiant et d’un mot de passe. L’utilisation de l’interface d’évaluation est limitée
à une période précise pour la phase de développement 1 . Au-delà de cette date, seuls les
résultats des précédentes soumissions de développement et de la soumission de test sont
accessibles, plus aucune modification sur les soumissions effectuées n’est autorisée. De
plus, pour des contraintes d’espace disque, le nombre de soumissions de développement
était limité.
1. La date limite de soumission pour la première campagne PASSAGE était le 21 décembre 2007, à
23 h 59 CET.
205
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
Figure 7.2 – Architecture de la plate-forme d’évaluation.
Mis à part les fichiers XML soumis, les données relatives à l’évaluation (informations
sur les participants, résultats des évaluations, etc.) sont stockées dans une base de données
MySQL.
Techniquement parlant, la plate-forme PASSAGE est déposée sur un serveur avec des
disques RAID 1 comprenant un processeur Pentium 4 HyperThreading 3,2 GHz, une mémoire de 512 Mo, sous une distribution Linux Debian 4.0. Un espace disque de 120 Go est
alloué au serveur d’évaluation et l’interface réseau a un débit descendant de 20 Mo/s et
un débit montant de 1 Mo/s. Le débit réseau doit être suffisamment important pour des
raisons évidentes d’attente utilisateur, mais l’espace disque est aussi une des caractéristiques les plus importantes. En effet, la taille des données s’avère rapidement imposante,
d’autant que l’ensemble des données (fichiers soumis par les participants, résultats de
l’évaluation, etc.) est conservé et archivé sur le serveur d’évaluation.
Pour la première campagne PASSAGE, une seule soumission d’un système représente
environ 120 Mo, les résultats de l’évaluation prenant quant à eux, environ 70 Mo d’espace
disque. Dix évaluations de développement étant autorisées en plus de l’évaluation de test, il
est donc indispensable de réserver au minimum 30 Go rien que pour la première campagne
d’évaluation, totalisant 13 participants.
De plus, différents outils sont utilisés au sein même de la plate-forme pour les besoins de
l’évaluation : tar 1 et gzip 2 pour désarchiver et décompresser automatiquement les archives
soumises par les participants, xmllint 3 pour valider les fichiers XML soumis, Gnuplot 4
pour l’affichage des résultats en mode graphique, un script pour valider l’ordre des énoncés
contenus dans les fichiers XML, l’outil d’évaluation des annotateurs syntaxiques de la
1.
2.
3.
4.
http
http
http
http
://www.gnu.org/software/tar/tar.html
://www.gzip.org
://xmlsoft.org/xmllint.html
://www.gnuplot.info/
206
7.2. Premières expériences
campagne EASY, ainsi que crontab 1 en tant que planificateur de tâches pour le démarrage
automatique de la phase de test.
Le serveur d’évaluation a été testé au niveau client avec les systèmes d’exploitation
Windows (versions 2000, XP), Linux (distributions Debian, Redhat) et Mac Os. Les navigateurs Firefox (version 2.0.0.8), Internet Explorer (version 6) et Epiphany (version
2.14.3) ont servi pour ces tests. Le développement du site initial a nécessité environ 80
heures de développement, auquel il faut ajouter les modifications ultérieures.
Finalement, la plate-forme d’évaluation PASSAGE a été très utilisée avec au total 167
expérimentations pour la phase de développement sur le mois et demi de disponibilité.
Les résultats des soumissions pour la phase de test ont été calculés automatiquement dès
la clôture de la phase de développement et les résultats étaient disponibles après moins
d’une heure. L’évaluation s’est ainsi faite de manière transparente et autant les participants que les organisateurs avaient accès à toutes les données relatives à l’évaluation. La
phase d’adjudication a également été rendue possible en permettant aux organisateurs de
recalculer automatiquement l’ensemble des résultats après modification de la référence.
Si le développement de notre serveur d’évaluation a été effectué pour une campagne
d’évaluation spécifique aux analyseurs syntaxiques, les principes peuvent en être étendus
à d’autres technologies, même celles utilisant éventuellement des jugements humains.
7.2.2
Architectures pour l’évaluation humaine
L’utilisation et le développement d’interfaces pour procéder à des jugements humains
permettent une réflexion quant à leur intégration dans l’architecture d’évaluation. C’est
à partir de ces expériences que nous aborderons leur mise en place dans une architecture
de plus grande importance.
A priori plus simples à mettre en place que les architectures d’évaluation automatique,
les architectures pour l’évaluation humaine n’en ont pas moins de multiples aspects. À
vrai dire, les expérimentations décrites ci-dessous sont plus des interfaces, voire des outils
en ligne, que de véritables architectures. Leur intérêt est d’amener à réduire très fortement
le risque d’erreurs. On peut aussi considérer qu’elles réduisent le travail conduit par les
juges et par l’évaluateur pour la mise en place des données, les jugements, etc.
Les expérimentations, décrites succinctement, concernent quatre interfaces développées dans le cadre de plusieurs campagnes d’évaluation. Trois des interfaces sont assez
similaires et ont été développées dans le cadre des projets CESTA, TC-STAR et EVaSY
pour l’évaluation en traduction automatique, l’évaluation en traduction de l’oral vers
l’oral et l’évaluation en synthèse de la parole. La dernière interface a été développée dans
le cadre du projet EQueR pour l’évaluation de systèmes de question-réponse et réutilisée
dans le cadre du projet CLEF.
7.2.2.1
Traduction automatique
Le projet CESTA a donné lieu au développement d’une interface pour la conduite des
jugements humains des deux campagnes d’évaluation. Celle-ci a été réutilisée et adaptée
pour les campagnes d’évaluation du projet TC-STAR. Nous en décrivons ici les différentes
caractéristiques.
1. http ://fr.wikipedia.org/wiki/Crontab
207
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
Notre interface d’évaluation a pour but d’aider les juges à estimer la qualité de textes
traduits qui leur sont présentés, selon les critères d’adéquation et de fluidité. Un ensemble
de phrases est donné à chaque juge qui estime phrase par phrase la qualité selon la fluidité
dans un premier temps et selon l’adéquation dans un second temps. Outre la présentation
de la phrase à juger et d’une traduction de référence (dans le cas des jugements d’adéquation), cinq choix lui sont proposés correspondant aux cinq valeurs de chaque critère.
L’objectif de développer une telle interface est de disposer à distance d’un moyen
fiable de collecter des jugements. Les juges n’ont pas nécessairement des connaissances en
informatique et l’utilisation de l’interface doit être la plus intuitive possible. Après avoir
été codée en PERL/TK [Hamon, 2004a], notre interface a été recodée en PHP/MySQL
afin de fournir à distance l’outil de collecte des jugements. L’intégration dans une base de
données à également facilité son utilisation. L’éloignement des juges ainsi que leur grand
nombre impliquaient le développement de cette interface spécifique accessible via Internet
à l’aide d’un simple navigateur. Un juge peut y accéder depuis n’importe quel système
d’exploitation Unix ou Windows. L’interface a été testée sous différentes distributions
Linux, plusieurs versions de Windows et plusieurs navigateurs tels que Netscape, Mozilla
Firefox ou Internet Explorer. En plus de la partie utilisateur, permettant la collecte des
jugements, une partie d’administration de l’interface d’évaluation a été développée en
R 1 dans un premier temps, distribuée sous licence
adaptant la solution OsCommerce
OpenGPL. Elle nous a permis de gérer les données relatives à une évaluation à savoir les
juges enregistrés, les phrases à évaluer et les jugements correspondants.
Les figures 7.3 et 7.4 montrent les pages concernant respectivement le jugement de
fluidité et le jugement d’adéquation. C’est dans ces pages que les juges estiment la qualité
des segments proposés selon les deux critères précités.
Figure 7.3 – Interface d’évaluation humaine CESTA - jugement de fluidité.
1. http ://www.oscommerce-fr.info/portail/
208
7.2. Premières expériences
Figure 7.4 – Interface d’évaluation humaine CESTA - jugement d’adéquation.
Dans les deux cas, le segment à juger s’affiche dans la partie supérieure de la page. Pour
l’évaluation selon l’adéquation, un segment de référence, traduction du segment à juger,
s’affiche dans le bas de la page. Le juge peut alors cocher un des choix qui lui sont proposés,
parmi cinq valeurs ou niveaux de qualité. L’évaluation selon la fluidité se déroule sur la
totalité des segments proposés au juge, puis l’évaluation selon l’adéquation est effectuée
sur les mêmes segments. Mis à part les jugements à effectuer, la seule possibilité qu’a le
juge est de passer au segment suivant ou de quitter l’interface d’évaluation. Les jugements
sont enregistrés à chaque chargement d’un segment afin de ne pas perdre d’information.
Enfin, le bas de la page contient des informations sur le nombre de segments déjà jugés
ainsi qu’un lien pour envoyer un mail si le juge a une question ou un problème.
La figure 7.5 montre la page d’administration des segments à juger avec leurs identifiants, le système de traduction automatique auquel ils se rattachent, le texte correspondant, etc. Outre cette page, il est possible de gérer les informations sur les juges
(identifiant de connexion, mot de passe, mail, etc.), les évaluations conduites (faisant la
correspondance entre les identifiants de segment et les identifiants de juges, et où l’on
peut voir les jugements effectués), les informations sur les administrateurs de l’interface
ou des informations techniques sur le serveur utilisé. Plusieurs opérations sont possibles,
comme l’insertion ou la suppression de juges, de segments et de jugements, offrant ainsi
une réelle gestion de l’évaluation. L’exportation vers un fichier XML des jugements est
également possible afin de calculer les résultats par la suite.
Dans le cadre du projet TC-STAR, l’interface d’évaluation a été réutilisée et adaptée
à l’espagnol (les jugements se faisant pour la direction de traduction de l’anglais vers
l’espagnol). Au total, de nombreux jugements ont été effectués à travers cette interface et
plus de 400 juges l’ont utilisée au cours des deux projets et quatre campagnes d’évaluation.
209
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
Figure 7.5 – Interface d’évaluation humaine CESTA - partie administration.
7.2.2.2
Synthèse de la parole
L’interface utilisée pour les jugements de traduction automatique a été réutilisée, toujours dans le cadre du projet TC-STAR, pour l’évaluation des systèmes de synthèse de
la parole. L’adaptation a été relativement facile puisque les principes généraux restent
les mêmes : les juges écoutent des documents audio et estiment leur qualité en pointant
des valeurs sur des critères préalablement définis. Les critères étaient plus nombreux (de
l’ordre d’une dizaine), mais la principale difficulté fut d’adapter l’interface de manière à
lire les documents audio, sans perte de qualité et de manière à ne pas gêner le déroulement
de l’évaluation. Le développement d’une simple interface HTML permet de réaliser cela de
manière relativement simple, mais il faut garder à l’esprit les problèmes de compatibilité.
Dans ce cas précis, il a été décidé de n’utiliser l’interface qu’à partir de Mozilla Firefox
et non Internet Explorer, la compatibilité des deux navigateurs en termes audio restant
assez limitée puisque certaines balises à employer sont différentes.
La notion de qualité audio est aussi liée aux juges et à leur matériel : bonne écoute
à l’aide d’un casque audio et bande passante suffisamment correcte pour ne pas gêner
la lecture des documents audio. La solution utilisée et permettant la lecture en continu
(streaming) a profondément diminué les problèmes d’écoute. En effet, cette technologie
permet de compenser les faiblesses du protocole IP en permettant de démarrer l’écoute
avant que la totalité des données ne soit téléchargée.
L’interface a également été adaptée pour l’évaluation de systèmes de synthèse de la
parole dans le cadre de la campagne EVaSY [D’Alessandro et al., 2008].
210
7.2. Premières expériences
7.2.2.3
Traduction de l’oral vers l’oral
Toujours dans le cadre du projet TC-STAR, la même interface a été réutilisée pour
l’évaluation en cascade de traduction de l’oral vers l’oral. L’objectif étant de répondre à des
questions à partir de document audio, l’évolution de l’interface n’était pas très complexe
puisqu’en lieu et place des valeurs de jugement se trouvent des boîtes de dialogue pour
répondre aux questions posées. En effet, chaque juge répond tour à tour aux questions de
trois échantillons audio différents, avec un total de 40 échantillons à juger.
L’interface, ici en espagnol, se présente sous la forme montrée dans la figure 7.6. Les
juges disposent en haut de la page des commandes pour lire le document audio, puis, en
dessous, les questions sont présentées et combinées avec des boites de dialogue pour y
répondre.
Figure 7.6 – Interface de réponse aux questionnaires TC-STAR pour l’évaluation de la
traduction de l’oral vers l’oral (en espagnol).
Il est demandé aux juges de lire le questionnaire dans un premier temps, puis d’écouter
le document audio dans un second temps, et enfin de lire le questionnaire une seconde
fois pour répondre aux questions. Ils ont également la possibilité de stopper la lecture afin
d’écrire leurs réponses.
Finalement, en bas de la page, un questionnaire de fluidité est proposé et permet de
juger de la qualité audio des documents écoutés. Quatre critères sont proposés, à chaque
fois à juger sur une échelle de cinq valeurs.
211
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
7.2.2.4
Question-réponse
Dans le cadre de la campagne EQueR, il nous a paru nécessaire de développer un
outil permettant à des juges d’estimer si des systèmes de question-réponse répondent aux
critères d’évaluation. Depuis une dizaine d’années, il existe plusieurs campagnes dédiées
à cette tâche : les campagnes TREC 1 au niveau international, les campagnes CLEF 2 au
niveau européen et la plus récente campagne française EQueR 3 . Dans ces campagnes,
les jugements sont souvent effectués manuellement. Mais lorsqu’il s’agit de traiter des
centaines, voire des milliers de documents, cette tâche se révèle alors difficile, d’autant
plus que les réponses aux questions comportent de nombreux jugements possibles.
Nos attentes envers outil d’aide aux jugements étaient multiples : conduire des jugements plus rapidement et aisément, systématiser l’évaluation, et finalement accroître
sa fiabilité grâce à l’automatisation de son environnement. Une interface était nécessaire
pour permettre aux juges de bénéficier d’un affichage automatique des informations de
référence par rapport aux sorties des systèmes.
À notre connaissance, un seul outil d’aide à l’évaluation de tels systèmes existe à ce
jour mais son utilisation n’est en théorie pas publique et réservée à l’institut NIST aux
États-Unis. Néanmoins, notre équipe a pu utiliser cet outil lors de la première tâche d’évaluation question-réponse de la campagne CLEF 2003. Plusieurs difficultés nous étaient
alors apparues :
– en premier lieu, cet outil ne fonctionne que sous environnement UNIX, tandis qu’au
moment où s’est déroulée la campagne d’évaluation les évaluateurs ne disposaient
que d’ordinateurs fonctionnant sous environnement Windows ;
– de plus, les fichiers nécessaires au déroulement de l’évaluation sont dépendants des
droits alloués aux juges, et de ce fait, chaque évaluateur doit posséder ses propres
fichiers, contrairement aux spécifications des tâches d’évaluation de EQueR ;
– enfin, il nous fallait adapter un outil spécifique aux campagnes TREC en fonction
des critères d’évaluation des campagnes EQueR ou CLEF, ce qui n’est pas une chose
aisée et requiert un travail conséquent.
Dans ce contexte, nous avons donc décidé de développer notre propre outil d’aide
à l’évaluation des systèmes de question-réponse : QASTLE 4 [Moreau et al., 2010]
(Question-Answering Systems TooL for Evaluation, pour « Outil pour l’Évaluation de
Systèmes de Question-Réponse »).
En évaluation de systèmes de question-réponse, la validité d’une réponse contient une
part de subjectivité. Il demeure difficile d’établir une réponse de référence, tout au plus
une liste non exhaustive, établie à partir de plusieurs systèmes. Pour la plupart des cas,
la réponse est dépendante du document dans lequel elle est trouvée. Par exemple, à la
question « Qui a gagné la Coupe du Monde de football ? », la réponse pourra dépendre de
l’année du document. Ainsi, le principe de l’évaluation des systèmes de question-réponse
paraît simple, d’un premier abord : il s’agit de décider si, pour une question donnée, la
réponse renvoyée automatiquement par un système est correcte ou non. Mais plusieurs
paramètres apparaissent et introduisent des variations dans les jugements selon :
– le type de réponse (réponse courte ou passage) ;
1.
2.
3.
4.
http
http
http
http
://trec.nist.gov
://clef.isti.cnr.it
://www.elda.org/article139.html
://www.elda.org/qastle
212
7.2. Premières expériences
– le type de question (factuelle, liste, définition, etc.) ;
– le nombre de réponses par question que peut renvoyer le système ;
– la dépendance de la réponse au document (une réponse est alors considérée comme
correcte uniquement si elle est justifiée par un document) ;
– les jugements possibles (correct, incorrect, inexact ou incomplet, non justifié, etc.)
pour les réponses courtes et les passages ;
– l’absence d’une réponse valide dans le corpus de documents (la réponse renvoyée
par le système est alors « NIL »).
L’ensemble de ces paramètres a été pris en compte lors du développement de QASTLE
et chacun d’eux peut être utilisé sous forme d’option.
Pour utiliser l’interface, les données sont dans un premier temps préparées de manière
à installer le corpus de documents, le corpus de questions, de même que les soumissions à
évaluer. Ensuite, les documents sont indexés afin de permettre un accès plus rapide lors
de l’utilisation de l’outil. Finalement, lorsque ces deux premières étapes sont terminées,
l’outil est utilisé en chargeant un fichier de soumission.
L’interface, présentée dans la figure 7.7, se décompose en deux parties principales. La
partie gauche de l’interface permet le jugement des réponses courtes et des passages. La
partie droite permet l’affichage du document correspondant à la réponse et au passage
renvoyés par le système évalué.
Figure 7.7 – Interface d’évaluation QASTLE pour les systèmes de question-réponse.
Ainsi, le juge a accès à la question posée, à l’ensemble des réponses possibles à cette
question dans l’ordre de soumission du système évalué, au passage de la réponse sélectionnée, ainsi qu’aux boutons permettant de statuer sur le(s) jugement(s). Il peut naviguer
213
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
dans l’interface en choisissant la question précédente, la question suivante, ou encore en
sélectionnant directement un numéro de question. Toutefois, afin qu’aucune réponse ne
soit oubliée, un bouton permet d’accéder à l’ensemble des réponses et passages restant
encore à juger. La première réponse non jugée apparaît alors directement dans l’interface.
D’autre part, le document est affiché immédiatement après la sélection d’une nouvelle
réponse. Le juge y effectue des recherches à l’aide d’expressions régulières. Les occurrences
appariées sont alors surlignées, le curseur se plaçant directement sur la première occurrence
trouvée. Le texte correspondant à la réponse courte est également surligné dans le texte
du document lors de la sélection d’une nouvelle réponse à évaluer.
La tâche pouvant s’avérer parfois longue, une sauvegarde automatique des jugements
est effectuée à chaque clic de l’utilisateur, afin de ne perdre aucune information.
Les fichiers en sortie de l’outil sont présentés dans le même format qu’en entrée, auquel
sont ajoutés les jugements effectués. Par exemple, deux colonnes sont ajoutées automatiquement en début de chaque ligne-réponse si l’évaluation concerne les réponses courtes
et les passages : l’une pour les réponses courtes, l’autre pour les passages. Les valeurs
possibles correspondent au jugement de la réponse courte (resp. passage) et sont les suivantes : -1 si le jugement n’a pas encore été fait, 0 pour une réponse courte (resp. passage)
correcte, 1 pour une réponse courte (resp. passage) incorrecte, etc.
QASTLE a été testé pour la première fois au cours de la campagne EQueR
[Ayache et al., 2006], ensuite lors des campagnes QA@CLEF de 2006 à 2009
[Magnini et al., 2006, Giampiccolo et al., 2008, Forner et al., 2008, Turmo et al., 2009] et
enfin pour la tâche QR de CHIL 2006 [Mostefa et al., 2007b]. L’utilisation de cet outil
lors de ces campagnes, sur plus de 150 soumissions de systèmes, nous a permis de le tester
et de l’améliorer au fur et à mesure des commentaires des juges. Par exemple, nous avons
ajouté et amélioré les fonctions liées à la recherche d’expressions régulières, à la validation
finale du fichier évalué, ou encore à la mise en surbrillance de la réponse sélectionnée. Ces
modifications ont permis d’obtenir un gain appréciable de temps lors de l’évaluation.
Chaque campagne d’évaluation ayant des contraintes bien spécifiques, nous avons
adapté et modifié l’outil pour chacune d’entre elles. Par exemple, la campagne d’évaluation CLEF 2005 reposait uniquement sur les réponses courtes, mais en tenant compte
du passage, tandis que, dans EQueR, la réponse courte et le passage ont été évalués séparément. Les boutons de jugement du passage ont alors dû être supprimés pour CLEF
2005, tout en laissant l’affichage du passage correspondant à la réponse courte. Ces modifications sont disponibles sous forme d’option dans la version actuelle de QASTLE. Ainsi,
le type de campagne peut être sélectionné via un fichier de configuration et les options de
l’outil sont modifiées en conséquence.
Suite aux diverses expérimentations, nous voyons plusieurs avantages à l’utilisation de
cet outil :
– au niveau informatique, cet outil est facilement modifiable, peu gourmand en ressources, et présente une installation pratique et facile ;
– au niveau des jugements humains, il permet d’économiser un temps non négligeable
et de fiabiliser les résultats en limitant les erreurs dues à l’intervention humaine.
Il serait possible d’améliorer l’outil en y incluant le calcul des scores parmi ses fonctionnalités puisque la plupart des outils de calcul sont disponibles.
214
7.2. Premières expériences
7.2.3
Discussion
Le développement et l’étude d’interfaces ou d’architectures d’évaluation nous a permis
d’acquérir certaines pratiques pour mettre en place des évaluations génériques et pérennes
et en saisir certains mécanismes. Nous savons maintenant comment mettre en place une
architecture simple pour une technologie donnée. L’exemple de PASSAGE pour une plateforme de métriques automatiques est aisément reproductible pour une autre technologie,
de même que l’interface d’aide aux jugements développée pour CESTA et déjà réutilisée.
L’objectif est dorénavant d’aller au-delà de ces architectures.
Les avantages d’une architecture d’évaluation, même la plus simple possible, sont indéniables. Nous avons pu l’observer avec PASSAGE au niveau de la qualité, avec TC-STAR
au niveau technique. Les différentes interfaces d’évaluation humaine nous ont montré qu’il
est possible d’automatiser les procédures pour une meilleure efficacité.
Par l’utilisation d’architectures d’évaluation, il est possible d’améliorer des systèmes
de TAL grâce notamment aux évaluations répétées et plus rapidement menées à bien. Le
suivi des erreurs permet de travailler plus efficacement à partir des sorties du système :
en présentant rapidement une synthèse des résultats, des résultats plus détaillés ou une
analyse d’erreurs, les développeurs effectuent des corrections et des modifications plus
facilement.
La centralisation des informations, données et mesures d’évaluation permet une
meilleure cohésion lors d’une campagne d’évaluation et un meilleur équilibre entre partenaires. De plus, le stockage des données, centralisé, évite la dispersion de plusieurs versions
d’une même ressource.
La consultation quasi instantanée des résultats, que ce soit pour le développement ou
le test des systèmes, donne aux développeurs d’un système un aperçu de la qualité de
leur système actuel, et non d’une version datant de plusieurs semaines, voire de plusieurs
mois.
L’aspect modulaire d’une architecture permet l’enchaînement et la combinaison de
technologies ainsi que les commutations entre systèmes d’une même technologie. Cela rend
possible la mesure de l’impact d’un module spécifique sur la sortie finale d’un système
utilisant plusieurs technologies.
Pourtant, les diverses expérimentations conduites n’ont pas répondu à tous les objectifs
et ont même soulevé de nouvelles questions, essentiellement d’ordre technique :
– Les interventions manuelles peuvent être intégrées à l’architecture en automatisant
les tâches, à commencer par le lancement des évaluations et le calcul des résultats.
Mais il faut également penser à la validation des données, la réutilisation des références, le stockage des données, le stockage des informations et de l’historique, etc.
– La compatibilité et l’homogénéisation des formats : le fait d’utiliser une architecture
d’évaluation signifie que plusieurs organismes s’en serviront pour évaluer plusieurs
systèmes. Ils utiliseront plus ou moins les mêmes formats de données sans qu’ils
soient forcément identiques. Trois solutions sont alors possibles : soit les organismes
adaptent leurs systèmes à un même format, soit plusieurs formats sont acceptés
par l’architecture, ou une solution intermédiaire propose des outils de conversion.
La troisième solution nous semble être la meilleure car elle satisfait la majorité des
utilisateurs, en cherchant toutefois à tendre vers une uniformatisation des formats.
– La taille des données, les ressources mémoire et la bande passante : elles influent sur
la configuration matérielle de l’architecture, mais aussi sur le temps de réponse à
215
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
ses utilisateurs. La qualité du service proposé va dépendre de leur prise en compte.
– La vitesse d’évaluation : les outils d’évaluation ont des performances variables en
termes de temps de calcul. Tout utilisateur doit obtenir des informations sur l’évolution de la procédure d’évaluation. Dans le cas d’un temps de traitement trop
important, il est envisageable d’envoyer des notifications par e-mail en laissant les
processus s’appliquer en tâche de fond.
– La combinaison de composants technologiques : différents modules sont à prendre en
compte lors du déploiement de l’architecture. Cela concerne les échanges de données
entre composants, mais aussi la capacité de l’architecture à gérer des combinaisons
de modules. Nous considérons que l’intégration des composants technologiques dans
la plate-forme est une option qui pourrait se révéler très utile.
– La portabilité des interfaces : de la même manière, plusieurs organismes étant susceptibles d’utiliser l’architecture, leur environnement de travail n’est pas forcément
le même. Il est par conséquent nécessaire d’avoir des interfaces suffisamment portables pour que chacun puisse les utiliser sans qu’elles gênent leur travail.
– La sécurité de l’architecture et la sécurisation des données : c’est un point essentiel lorsqu’une architecture est envisagée pour des évaluations multiples, et lorsque
plusieurs organismes l’utilisent. Il en va de l’intégrité des données, informations et
résultats des systèmes. Ainsi, des droits utilisateurs sont créés, les ressources matérielles et logicielles sont sécurisées, les données sont identifiées, etc.
Surtout, des interfaces d’évaluation humaine peuvent elles aussi être intégrées à l’architecture. Il faut garder à l’esprit que cela nécessite de définir de nouveaux protocoles et
de revoir l’organisation de l’évaluation. En effet, l’intégration d’une interface d’évaluation
humaine implique d’avoir des juges à disposition dans un laps de temps relativement court,
à partir du moment où les données sont disponibles aux jugements. L’intégration automatique des données et la répartition parmi n juges ne posent pas de problème (parce
que des outils automatiques existent déjà). La principale contrainte est de prendre en
compte la disponibilité des juges : la mise à disposition d’un jeu de données à évaluer ne
signifie pas nécessairement qu’un juge puisse effectuer ses jugements dans l’immédiat. Par
contre, il est facile de calculer en temps réel les résultats d’une soumission dès lors que les
jugements sont finalisés.
Dans la section suivante, nous tentons de répondre à ces questions en présentant notre
proposition d’architecture.
7.3
Proposition d’une architecture d’évaluation
Les sections précédentes ont permis d’identifier la plupart des points qui permettent
de définir notre architecture d’évaluation. Les avantages qu’elle doit procurer sont désormais connus, de même que les difficultés majeures. Dans cette section, nous proposons la
définition d’une architecture d’évaluation générique et pérenne. Dans une première partie,
nous synthétisons les spécifications fonctionnelles de l’architecture. Puis, à partir de cette
base, nous formulons ses spécifications techniques. Nous formalisons ces deux points dans
une troisième partie concernant la modélisation de notre architecture d’évaluation. En vue
d’un développement futur, nous précisons quel est l’environnement de développement que
nous envisageons d’utiliser. Finalement, nous discutons les apports d’une telle réflexion.
216
7.3. Proposition d’une architecture d’évaluation
7.3.1
Spécifications fonctionnelles
7.3.1.1
Caractéristiques
Nous abordons dans cette section l’architecture d’un point de vue fonctionnel. Pour
ce faire, nous prenons en compte les chapitres précédents en ce qui concerne 1 :
– les phases d’une évaluation : apprentissage, réglage, test à blanc, test, analyse des
résultats, adjudication, constitution de ressources linguistiques, préparation de l’évaluation ;
– la gestion des ressources linguistiques : constitution de ressources (données d’apprentissage, de réglage, de test à blanc et de test, références, etc.), stockage des
données (temporaire ou non), validation du format des données ;
– l’intégration des mesures d’évaluation : automatiques et humaines ;
– le stockage des résultats de l’évaluation afin d’être rendu visible dans un second
temps ;
– la méta-évaluation des mesures ;
– le paramétrage des évaluations ;
– la combinaison de technologies et son évaluation ;
– la spécification des types d’évaluation : boîte noire, boîte transparente ou en cascade
(cf. tableau 2.5) ;
– la spécification des méthodes d’évaluation : comparative ou système isolé (cf. tableau
2.5) ;
– la présentation et la visualisation des résultats, notamment pour l’analyse des résultats et la phase d’adjudication ;
– l’intégration de systèmes de TAL (version étendue. Par défaut, la version minimale
interagit avec l’utilisateur) ;
À partir de la plupart de ces points, la figure 7.8 présente le schéma fonctionnel de
l’architecture, en reprenant la figure 2.5
Nous considérons deux versions de l’architecture : minimale et étendue. La version
étendue ajoute la gestion des systèmes de TAL dans des chaînes d’évaluation, le développement étant plus conséquent (à la fois pour l’évaluateur et pour le participant). L’idéal
est donc d’avoir une architecture étendue.
Dans un premier temps, la définition de l’architecture d’évaluation passe par la décision
d’une distribution minimale ou étendue. L’un ou l’autre choix se fait selon la présence
(architecture minimale, telle celle de PASSAGE) ou non (architecture étendue, telle celle
de TC-STAR) de systèmes de TAL dans la chaîne de traitement automatique. Dans le
cadre d’une architecture minimale l’utilisation des systèmes se fait manuellement en marge
de la chaîne de traitement. Cette décision est cruciale dans notre architecture car elle
influence deux variables : le niveau d’utilisation de l’architecture (c’est-à-dire par rapport
aux entrées et sorties du serveur d’évaluation) et de manière plus conséquente le coût de
développement puisqu’il faut pouvoir inclure les systèmes à la plate-forme. L’utilisateur
a alors le choix de proposer des données à évaluer via une interface ou de démarrer une
chaîne de traitement automatiquement via une seconde interface.
1. Les quatre niveaux d’évaluation (technologie, usage, impact et diagnostic) et les deux critères d’évaluation (extrinsèque, intrinsèque) correspondent à des situations et n’influent pas sur l’aspect fonctionnel
de l’architecture d’évaluation (cf. tableau 2.5).
217
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
Figure 7.8 – Schéma fonctionnel de l’architecture. en gris la version étendue de l’architecture intégrant les systèmes de TAL.
218
7.3. Proposition d’une architecture d’évaluation
Ainsi, soit l’utilisateur du service d’évaluation fournit des données destinées à des
systèmes de TAL qui sont traitées puis évaluées, soit il lance une chaîne de traitement
qui produit des données qui sont directement évaluées. L’organisateur, sous couvert d’un
accord avec le participant 1 spécifie les paramètres de l’évaluation dans la plate-forme
(a priori ou non, l’évaluation pouvant se conduire après le dépôt des données). Ces paramètres servent à définir en détails l’évaluation que ce soit en termes de données, de
protocole, d’outils, de chaîne de traitement, etc. Ainsi, en fonction de la ou des technologie(s) évaluée(s), l’organisateur sélectionne les critères adéquats pour mener à bien
l’évaluation. Par exemple, en traduction automatique, il choisit le type de mesure(s) pour
évaluer les systèmes puis, le cas échéant, les métriques automatiques et/ou les métriques
humaines qui sont utilisées. Leurs critères sont également définis. L’organisateur choisit
de valider ou non les données, de stocker ou non les résultats. Il définit les différentes
étapes de l’évaluation et les différents modules utilisés dans la chaîne de traitement. En
résumé, un arbre de décision est parcouru pour créer le contexte de l’évaluation.
La spécification de mesures d’évaluation (cf. figure 2.4) amène parfois à des étapes
pouvant être mises en parallèle, puisque plusieurs métriques (humaine ou automatique)
peuvent être lancées sans attendre que les unes ou les autres soient terminées. Le stockage
des résultats s’effectue alors au fur et à mesure qu’une métrique est terminée.
C’est également le cas lorsque plusieurs technologies sont traitées dans une chaîne
d’évaluation : les mesures propres à chaque technologie peuvent être démarrées en parallèle
et même à partir du moment où les résultats sont disponibles pour une technologie donnée.
Le protocole s’applique de la même manière que ce soit pour l’évaluation d’une technologie
seule ou pour l’évaluation d’une combinaison de technologies. Nous notons toutefois que
les mesures d’évaluation peuvent être différentes dans l’un ou l’autre des cas puisqu’il
peut être nécessaire de prendre en compte les autres technologies combinées.
Nous traitons dans les sections suivantes trois cas particuliers de fonctionnalités de
notre architecture d’évaluation : l’intégration de métriques automatiques, l’intégration de
métriques humaines et la méta-évaluation des métriques.
7.3.1.2
Intégration de métriques automatiques
L’existence de métriques automatiques favorise le déploiement d’une architecture
d’évaluation car leur intégration est d’ordre technique (l’humain n’entre pas, ou peu,
en jeu). Leur utilisation est d’autant plus aisée après validation du format des données
évaluées. Cette dernière permet l’usage d’outils automatiques sans presque aucune crainte.
Ils envoient aussi bien des résultats, chiffrés, que des données ou informations pour une
analyse d’erreurs. Toutes ces informations et données sont destinées à être gérées par
notre plate-forme d’évaluation qui se charge de les stocker et de les mettre à disposition
des utilisateurs intéressés.
Les métriques automatiques utilisées par les services d’évaluation se distinguent selon
deux catégories : celles présentées comme étant des métriques « par défaut » et celles
disponibles en option. Ces dernières permettent de proposer des métriques expérimentales
et moins robustes.
1. généralement sous le format d’une « licence »
219
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
7.3.1.3
Intégration de métriques humaines
L’utilisation de mesures humaines est le talon d’Achille de notre architecture d’évaluation et ralentit indéniablement le processus d’évaluation. Lorsque la chaîne de traitement
arrive aux métriques impliquant des jugements humains, l’étape attribuée aux juges agit
comme un goulot d’étranglement. Pourtant, une grande part des actions sont automatisables : le formatage des données, la mise en place des interfaces d’évaluation, le formatage
des résultats, voire le contact des juges humains, etc. L’évaluateur, à travers l’architecture
d’évaluation doit attendre les résultats qui seront calculés indépendamment de la chaîne
de traitement. Pour limiter l’attente utilisateur, la mise à disposition des résultats est
différée.
Dans un premier temps, l’évaluation dans l’architecture est limitée par le recrutement
des juges. Dans un second temps, elle dépend de la durée de réalisation des jugements
humains pour l’estimation de la qualité des données.
Il n’est pas toujours facile de planifier le recrutement des juges, ni même leur nombre.
Dans le cadre de campagnes d’évaluation, le nombre de systèmes évalués est souvent
fixé à l’avance, mais le nombre de soumissions par système ne l’est pas toujours. Et
dans le cas de l’évaluation simple d’un système, la partie humaine doit être prévue à
l’avance : cela va quelque peu à l’encontre d’un service automatisé et libre d’accès. Ainsi,
le recrutement dépend de la quantité de données, leur spécificité, la période de réalisation
des jugements 1 , etc.
Par ailleurs, il est parfois difficile d’estimer le temps nécessaire aux jugements. Cela
dépend des données (taille, technologie, complexité, etc.) comme des utilisateurs, et si
l’état de l’art donne parfois un aperçu de leur durée, ce temps varie indépendamment
d’une évaluation à une autre.
Si la mise en place de l’évaluation humaine au sein d’une architecture automatisée est
difficile, elle n’est pas impossible. L’aspect relatif aux juges est prépondérant et ne doit
pas être sous-estimé. Mais dès lors que les paramètres nécessaires sont pris en compte il
ne reste plus qu’à prévoir un délai de mise à disposition des résultats.
7.3.1.4
Méta-évaluation des métriques
L’architecture d’évaluation permettant le traitement des données par plusieurs métriques en même temps, automatiques et humaines, le travail de méta-évaluation s’en
trouve simplifié. En effet, nous avons vu la méta-évaluation comme étant le fruit de trois
méthodes principales de calcul :
– un calcul de corrélation comparant les résultats des métriques automatiques à ceux
des métriques humaines ;
– un rééchantillonnage des données, automatique lui aussi, qui permet un calcul de la
robustesse des métriques ;
– un calcul d’accord inter-juges ou intra-juge, spécifiques aux métriques humaines.
Les méthodes de méta-évaluation sont donc d’ores et déjà automatiques et viennent
facilement s’intégrer à la plate-forme d’évaluation. Le point le plus important concerne la
planification de la méta-évaluation, puisqu’il faut attendre que les résultats des métriques
humaines soient calculés (compte-tenu des délais de jugement).
1. Il faut par exemple penser aux périodes de vacances scolaires ou d’examens pour le recrutement
d’étudiants !
220
7.3. Proposition d’une architecture d’évaluation
7.3.2
Spécifications techniques
Les aspects techniques à prendre en compte pour le déploiement de notre architecture
sont relativement importants. Les choix à faire ne sont pas triviaux et nécessitent de
prendre en compte les spécifications fonctionnelles.
Les détails techniques peuvent être autant matériels (notamment pour les ressources)
que logiciels (essentiellement pour les mesures et les outils de développement). Pourtant,
le fait d’automatiser les tâches impose de prendre des décisions plus rapidement. Par
exemple, dans le premier cas, si un corpus est trop volumineux pour être téléchargé sur
un disque dur, il est toujours possible de racheter un disque dur plus gros dans un laps
de temps réduit. Avec une architecture automatisée, le même corpus serait impossible à
télécharger sans une vérification humaine : l’utilisateur recevrait alors une notification
d’erreur. Dans cet exemple, il est bon d’avoir suffisamment à l’avance une estimation de
la place que prendraient des données.
Le fait est que l’automatisation demande une planification accrue, et impose de
connaître les risques d’erreur à l’avance. La gestion en temps réel par l’évaluateur n’est
pas réaliste et l’architecture n’a pas les capacités de résoudre des problèmes qui lui sont
inconnus.
7.3.2.1
Caractéristiques générales
De nombreux défis techniques sont à relever pour le déploiement de notre architecture :
– Transferts de données et d’informations : l’évaluation se déroule autour de nombreuses phases. Entre chaque phase un volume élevé de données et d’informations
sont copiées et/ou transférées d’un module de l’architecture à un autre, d’un serveur
à un autre, entre un client et un serveur, etc. La plate-forme d’évaluation est capable
de transférer l’ensemble des données requises. Dans le cas contraire, une notification
est formulée.
– Format des données : vouloir tendre vers un format homogène de données pour un
même domaine relève de l’utopie. Étant donné le nombre d’acteurs du domaine et
leur manque de concertation, il s’avère difficile de regrouper les entrées et sorties de
systèmes autour d’un même format unifié (des contre-exemples existent, comme en
traduction automatique dans le cadre des campagnes d’évaluation). Il s’agit ici de
permettre au mieux l’utilisation des formats les plus employés, voire de permettre
l’intégration de nouveaux formats.
– Mise en place du matériel : l’installation de l’architecture comprend celle des serveurs
centraux et celle des ordinateurs distants. L’utilisation d’un réseau implique des
configurations propres à chaque ordinateur ou serveur ; différents droits d’accès sont
mis en place.
– Compatibilité des configurations : l’utilisation de l’architecture amène à utiliser
différentes configurations, ne serait-ce que des environnements utilisateurs tels que
des systèmes d’exploitation Unix (les différentes distributions Linux amenant déjà
à des spécificités), Windows, Mac, etc. Les outils employés modifient également les
spécifications de configuration.
– Différences entre langages de programmation : les outils existants utilisés dans l’architecture, ou par les utilisateurs, ne sont pas forcément développés dans un même
langage de programmation. Il peut être parfois complexe et coûteux de convertir son
221
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
code dans un langage unifié dans l’architecture. De même, l’intégration de ces outils
par un simple appel peut réduire les performances. L’architecture doit permettre
l’utilisation d’un grand nombre de langages de programmation, sans pour autant
amoindrir les performances (cf. section 7.3.4).
– Sécurisation des données : les données transitant dans l’architecture doivent être
sécurisées, de même que les systèmes lorsque cela est nécessaire (lors d’accès réservés
par exemple). Des mesures d’authentification sont obligatoires pour s’en assurer et
le développement de l’architecture et de ses systèmes se fait en conséquence.
– Interfaces : plusieurs interfaces viennent agrémenter l’architecture que ce soit pour
les utilisateurs, les développeurs, les organisateurs, etc. Les spécificités de ces interfaces sont dépendantes du domaine (par exemple, l’analyse d’erreur n’est pas la
même pour une analyseur syntaxique que pour un système de traduction automatique) même si nous avons présenté des similarités (cf. chapitre 6).
– Notifications d’erreur : nous ne pouvons prétendre à l’absence d’erreurs pour quelque
architecture que ce soit. Bien souvent, des cas d’utilisation n’ont pas été imaginés.
Il va de soi que les utilisations successives sont surveillées afin d’aider à la résolution
des erreurs rencontrées. De même, ces dernières font l’objet d’un traitement spécifique afin de ne pas perturber les utilisateurs, mais aussi pour ne pas surprendre le
développeur par des cas complexes à résoudre. Ainsi, à chaque erreur d’utilisation
rencontrée, un rapport est enregistré, voire notifié aux développeurs de l’architecture
ou de ses systèmes. De plus, un grand nombre de cas de figure doit être envisagé
afin de ne pas laisser l’utilisateur dans l’impasse.
– Robustesse de l’ensemble : le passage par un réseau, la lourdeur du matériel et des
outils imposent d’être très vigilant face à la robustesse de l’architecture. Des tests
extrêmes sont menés de manière à connaître ses limites : tests de charge, utilisation
du réseau, capacité des matériels, etc.
– Validation de l’architecture : la démarche de développement d’un « produit » ne peut
se faire sans validation des spécifications techniques et fonctionnelles. La validation
est aussi bien menée pendant la phase de développement qu’après, tant qu’elle se
fait avant la phase d’utilisation finale.
Chacune des parties techniques pose des problèmes différents d’autant que les solutions
proposées ne sont généralement pas uniques afin de pouvoir s’adapter au maximum de
configurations possibles.
Nous étudions dans les sections suivantes quelques cas techniques particuliers : l’utilisation des ressources linguistiques, l’intégration de métriques automatiques et l’intégration
de métriques humaines.
7.3.2.2
Utilisation des ressources linguistiques
Les ressources exploitées au sein de l’architecture et leur stockage implique un matériel
et un protocole de transfert de fichiers adéquats. Le matériel de stockage dépend fortement du volume type des données, ainsi que du nombre d’évaluations conduites et de ses
caractéristiques. Compte tenu des besoins croissants des systèmes, notamment en termes
de développement ou d’apprentissage, le stockage des soumissions des participants peut
être limité. Par exemple, dans le cadre de la première campagne PASSAGE, l’estimation
minimale était de 30 Go sur l’ensemble des participants. Il n’est pas difficile d’imaginer
que pour d’autres campagnes, par exemple traitant de l’audio, les données soient d’une
222
7.3. Proposition d’une architecture d’évaluation
taille de 10, voire 100 fois plus importantes 1 . Et que dire si les évaluations se multiplient,
ou même si l’architecture est laissée en « libre service » ? Ce qui semble minime au premier
abord peut vite devenir envahissant au cours du temps. Il est légitime de prévoir les cas
extrêmes.
Le transfert de fichier s’avère problématique lorsqu’il s’agit de transférer des données
de taille importante par HTTP (plus exactement HTTPS pour les transferts sécurisés).
Les taux de transfert ne sont à l’heure actuelle pas suffisamment importants pour tout
le monde et gênent la soumission de résultats par exemple. L’intégrité des données est
également en jeu lors du transfert de gros volumes notamment. De par notre expérience
au cours de la seconde campagne PASSAGE (avec l’usage et le transfert de gros volumes
de données), nous estimons que le protocole HTTP n’est pas assez robuste. Il empêche
notamment le transfert de fichiers dépassant une taille de 2 Go. Nous suggérons donc
l’utilisation d’autres moyens de transfert de données, par exemple FTP.
L’utilisation de ressources implique également une réflexion concernant l’annotation
des fichiers et la conservation des informations ajoutées. Il est parfaitement envisageable,
comme ce fut le cas dans TC-STAR, que les annotations fassent partie de l’architecture,
dans le sens où les données sont représentées sous forme d’objets. Des informations sont
alors ajoutées en fonction de l’analyse effectuée. En ce sens, le standard XML est l’idéal
pour la représentation des données utilisées dans la plate-forme.
Finalement, concernant les ressources, le mode de gestion des soumissions a également
son importance : outre leur volume et la manière de les représenter, le stockage est fait
soit par la gestion de fichiers soit par base de données. Dans PASSAGE nous avons
choisi la première solution, plus par facilité car cette manière nous semble plus proche
de la tâche. Toutefois, l’usage d’une base de données nous semble plus adaptée pour la
gestion de nombreuses occurrences. L’avantage est double, puisque l’accès est plus rapide
et l’organisation plus robuste. Toutefois, dans le cas d’un stockage de gros fichiers, il peut
être envisageable de revenir à une solution de stockage de fichiers.
7.3.2.3
Intégration de métriques automatiques
L’intégration technique de métriques automatiques n’est pas aussi simple qu’il y paraît.
Tous les cas d’erreurs n’ont pas toujours été prévus : volume des données dépassant les
limites en mémoire ou en stockage 2 , mauvaise langue attribuée, changements de format
de dernière minute 3 , etc. Lorsque cela arrive, le suivi des erreurs est indispensable et
nécessite une intervention humaine. De plus, l’intégration des mesures automatiques peut
être coûteuse et nécessiter de gros besoins pour adapter le code, le format des données, etc.
Enfin, l’architecture se voulant générique et pérenne, il faut penser aux multiples formats
d’utilisation possibles, à leur possibilités d’évolution, mais aussi aux capacités d’utilisation
à long terme (telles que les ressources en mémoire, la réutilisation de données ou l’injection
de nouvelles, etc.)
1. Lors de la seconde campagne PASSAGE, la soumission compressée d’un seul participant dépassait
les 2 Go.
2. Il nous est par exemple arrivé de « découvrir » des phrases dépassant les 1 000 mots –des transcriptions de discours oraux– pour des systèmes pouvant supporter au mieux 250 mots.
3. L’évaluateur ne pense pas forcément à tout...
223
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
7.3.2.4
Intégration de métriques humaines
En suivant les fonctionnalités propres à l’intégration des métriques humaines (cf. section 7.3.1.3), il est facile d’imaginer comment une évaluation humaine se déroule au sein
de notre architecture d’évaluation. Il suffit pour cela d’adopter des procédures strictes
dès que les données sont mises à disposition. Ces dernières sont tout d’abord formatées
pour être injectées dans une base de données, reliée à une interface de jugements humains. Ensuite, les données sont réparties entre les différents juges qui sont contactés.
Le contact peut se faire automatiquement par e-mail, à partir du moment où les juges
sont connus et déjà recrutés. Les jugements humains peuvent alors s’effectuer de manière
désynchronisée de la procédure d’évaluation à l’aide de l’interface de jugements humains.
Lorsque les jugements sont terminés, l’interface d’évaluation interagit directement avec le
serveur d’évaluation afin de signaler la reprise de la procédure d’évaluation. Une synthèse
des résultats est alors calculée. Les données de jugements sont, elles, collectées et entreposées afin d’être mises à disposition des utilisateurs. Finalement, une notification est
envoyée à ces derniers et/ou aux organisateurs pour qu’ils puissent accéder à l’ensemble
des informations disponibles.
7.3.3
Modélisation
7.3.3.1
Alternatives
Au regard des différentes hypothèses et expérimentations présentées précédemment,
trois alternatives nous semblent envisageables pour modéliser notre architecture d’évaluation (cf. figure 7.9) :
– Architecture centralisée : un serveur unique d’un côté, centralisant l’ensemble des
données et des opérations, et des utilisateurs passifs d’un autre côté, en tant que
clients. En d’autres termes, les utilisateurs n’ont que la possibilité d’envoyer leurs
soumissions pour recevoir des résultats d’évaluation.
– Architecture semi-distribuée : un serveur se focalisant uniquement sur l’évaluation,
dont les processus d’évaluation sont appelés par des applets entreposés chez les
utilisateurs.
– Architecture distribuée : un serveur centralisant les informations et répartissant les
tâches sur plusieurs autres serveurs dédiés à des tâches bien spécifiques : chaque
utilisateur (actif) adapte son système au format du serveur, de même que pour les
organisateurs d’évaluation en ce qui concerne les métriques d’évaluation. Aucune
opération n’est réellement effectuée sur le serveur central.
La première solution est celle entreprise dans le cadre du projet PASSAGE, la dernière
celle utilisée dans le projet TC-STAR avec UIMA. Techniquement parlant, la première
solution est la plus simple à déployer et sans doute la moins coûteuse. Par contre, il
faut adapter l’architecture à chaque nouvelle technologie évaluée, voire à chaque nouvelle
évaluation.
Dans le cas d’une architecture à plus grande échelle et se voulant pérenne, c’est la
troisième solution qui paraît être la plus satisfaisante. À noter qu’un modèle de type peerto-peer n’est pas un modèle envisageable dans notre cas du fait de la taille des données,
des temps de calcul et d’une attente utilisateur accrue.
224
7.3. Proposition d’une architecture d’évaluation
Figure 7.9 – Alternatives d’architectures d’évaluation.
7.3.3.2
Solution adoptée
L’activité d’évaluation en traitement automatique des langues requiert de plus en
plus l’enchaînement de technologies et l’application de méthodes automatisées. L’emploi
d’architectures distribuées plus évoluées est devenu une ressource indispensable pour agir
plus librement et plus rapidement. C’est désormais un objectif largement accessible avec
le développement constant de métriques automatiques, mais aussi et surtout le transfert
de données de plus en plus volumineuses via Internet permettant le transfert de fichiers
et l’accès à distance de systèmes modulaires.
Nous avons déjà abordé le cas des architectures modulaires et distribuées, comme les
environnements GATE ou UIMA, qu’il est possible de modifier à sa guise. Pas forcément
utilisée via Internet, l’intégration de systèmes rend inévitable le déploiement d’architectures sur le réseau. De telles entreprises se font de plus en plus sur des sites distants.
Chaque institution souhaite généralement conserver la main sur ses propres données et
systèmes, d’autant plus dans un contexte industriel. Le concept d’une évaluation automatisée est aussi en grande part nécessaire à distance. Cela se produit notamment lorsque
l’évaluateur n’est pas le développeur du système évalué.
Cela signifie que notre modèle d’architecture permet les interactions entre systèmes
ainsi qu’avec les modules d’évaluation. Cela se fait entre autres grâce à une couche intermédiaire de normalisation des données utilisées.
Nous proposons une plate-forme d’évaluation reposant sur plusieurs couches, à savoir :
– une base de stockage des données utilisées et retournées par les modules applicatifs ;
– un serveur de centralisation des opérations effectuées par les chaînes de traitement ;
225
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
– un serveur centralisant le développement de ressources dédiées à l’évaluation ;
– des modules contenant les systèmes ou les métriques d’évaluation ;
– une interface de contrôle des flux et des données ;
– une interface de paramétrage.
Par ailleurs, nous définissons différents types de modules permettant au choix, d’observer, de stocker ou de transformer les données. Les modules interagissent entre eux,
combinent des technologies et sont évalués (sous forme combinée ou non).
Notre modélisation d’architecture se construit sur les bases d’une distribution autour
d’un serveur central, chaque module étant successivement appelé pour conduire une tâche
prédéterminée. Cela se justifie d’une part par le besoin de centraliser les données et informations lors d’une campagne d’évaluation, mais aussi le souhait de conserver l’impartialité
de l’évaluation en ne conservant qu’un évaluateur indépendant des systèmes évalués. Nous
pensons que l’emploi d’une grande quantité de ressources, d’outils et de données communs, ainsi que l’utilisation d’un protocole similaire au gré des évaluations nécessitent
une centralisation des éléments de l’évaluation axée autour d’un point central. Toutefois,
l’architecture générale se développe autour d’un serveur d’évaluation couplé à un serveur
de ressources chacun d’entre eux ayant leurs propres caractéristiques techniques selon
leurs tâches. Différents modules de différentes natures et fonctions se connectent alors sur
ce ou ces points centraux.Le schéma de cette architecture est visible en figure 7.10
Figure 7.10 – Combinaison d’une architecture d’évaluation et d’une architecture de production de ressources.
De même, nous souhaitons intégrer une interface d’adjudication à la plate-forme d’évaluation tel qu’il est possible de le voir dans la figure 7.8.
226
7.3. Proposition d’une architecture d’évaluation
La définition de cette architecture fait immédiatement penser aux services Web dont
le principe est d’interconnecter des systèmes entre eux et/ou d’y accéder via le réseau.
Pour ce faire, divers protocoles et standards sont utilisés afin de faciliter les échanges de
données dont le contenu est spécifié dans un format de codage particulier. Ce dernier point
est important, puisqu’il facilite la connexion d’un système par la compréhension unique
de l’architecture, par exemple symbolisée par des spécifications XML.
D’un point de vue applicatif, une occurrence d’évaluation se déroule telle que présentée
dans la figure 7.11.
Figure 7.11 – Une occurrence d’évaluation au sein de l’architecture.
L’organisation d’une évaluation se fait selon un cheminement précis décidé par l’utilisateur de la chaîne de traitement (organisateur, participant, développeur...). Plusieurs
composants sont associés au traitement de l’évaluation.
Point central de la plate-forme d’évaluation, et donc de l’architecture, le gestionnaire
de flux de données gère la chaîne de traitement. Il assure la transmission des données entre
les différents composants de l’architecture, d’après une chaîne de traitement commandée
par l’utilisateur et impliquant plusieurs tâches applicatives. C’est le gestionnaire de flux
de données qui détermine quels sont les modules à utiliser en fonction des demandes de
l’utilisateur et leur attribue un rôle.
Les services Web interagissent alors avec les systèmes enregistrés pour effectuer la
tâche désirée. Au fur et à mesure que le gestionnaire de flux de données parcourt la chaîne
de traitement, des services Web sont appelés tandis que d’autres, inutiles, sont laissés
de côté. Dans ce schéma applicatif, une tâche concerne autant un système de traitement
227
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
automatique des langues qu’un outil d’évaluation.
Le gestionnaire de tâches est associé à une interface utilisateur et permet de configurer
et d’initier la chaîne de traitement. Il envoie les informations concernant cette chaîne
au gestionnaire de flux de données et accède aux résultats du traitement. Les résultats
peuvent être les « scores » mêmes de l’évaluation, mais aussi les données (par exemple la
référence utilisée ou le rapport d’une analyse d’erreurs). En fin de chaîne, le gestionnaire
de tâches permet, toujours via l’interface utilisateur, de mettre à disposition les résultats
de l’évaluation.
L’annuaire de services Web et les annuaires de systèmes stockent et recensent respectivement les services Web disponibles et les systèmes associés à ces services Web (et
pour une tâche donnée). Les annuaires contiennent des informations telles que les formats
d’entrée et de sortie, les méthodes d’accès ou les spécifications techniques. D’autres informations moins indispensables sont incluses comme le contact du développeur, le nom du
composant, le nombre d’utilisations, etc.
Enfin, même s’il ne sont pas des composants à part entière, le mécanisme de transfert
des données (par FTP) ou les outils de résolution de problème (rapports d’erreur, correction de données, interactions entre développeurs et utilisateurs, etc.) font également
partie de la plate-forme d’évaluation.
7.3.4
Environnement de développement
L’environnement de développement a son importance et nécessite de faire des choix.
Ces derniers dépendent de plusieurs critères : les ressources déjà disponibles et réutilisables, les connaissances des développeurs et / ou des utilisateurs et les différentes possibilités qu’offrent ces environnements.
7.3.4.1
Alternatives
Si la plupart des langages de programmation sont utilisables pour une architecture
utilisant le réseau, certains y sont tout de même plus adaptés. Citons parmi les plus
connus : PHP, Python, PERL/CGI, Java, Javascript, C ou encore C++. Le PHP est une
solution de « facilité » dû à son déploiement simple, mais il nous semble moins fiable que
le C++ ou le Java, plus robustes et rapides et avec plus de possibilités.
L’utilisation du XML pour la déclaration des modules est idéale, puisque leurs caractéristiques seront reconnues quel que soit le langage utilisé.
Le développement de l’architecture passe par l’utilisation de bibliothèques d’outils,
mais aussi et surtout par la réutilisation d’environnement de développements ou d’interfaces de programmation (API) préconçus. Ils évitent de repartir de zéro mais nécessitent
généralement un développement supplémentaire. Là encore, plusieurs possibilités s’offrent
à nous. Il s’agit de procédures, fonctions ou classes (au sens informatique) qui sont partagées via une bibliothèque. Il est toutefois nécessaire d’adapter ces bibliothèques aux
besoins de l’architecture, l’ensemble API/architecture permet l’interopérabilité des modules s’y rattachant, à partir du moment où les entités sont connues (et documentées).
Ainsi, les interfaces de programmation permettent tout de même l’interopérabilité de
modules, systèmes ou outils. En ce qui nous concerne, trois interfaces de programmation
ont retenu notre attention : RMI, Corba et JMS.
228
7.3. Proposition d’une architecture d’évaluation
RMI (Remote Method Invocation) est spécifique à un seul langage, Java. Des procédures et des objets sont enregistrés sur une machine distante et sont appelés lorsqu’un
client cherche à les utiliser. Les échanges se font à l’aide du protocole HTTP et permettent
la distribution des processus dans une architecture de type client/serveur.
Le « concurrent » de RMI le plus direct est CORBA (Common Object Request Broker Architecture) et associe C++ et Java. C’est une architecture qui associe un modèle
générique de communication (Object Model), un service central de distribution des messages (Objet Request Broker ), des gestionnaires de fonction pour gérer les objets (Object
Services) et des utilitaires appelés par des systèmes (Common Facilities). Les processus
sont également appelés de manière distribuée, depuis des machines distantes.
Le JMS (Java Message Service) est, tout comme RMI, spécifique à Java. Les échanges
se font de manière asynchrone, c’est-à-dire qu’ils ne se font pas directement entre les
systèmes, mais via un intermédiaire qui envoie les informations lorsque les systèmes sont
disponibles.
Malgré leurs qualités (en particulier les performances et la rapidité d’accès, comparées
à celles des services Web présentés plus loin), ces trois API ne sont pas exemptes de
défauts : CORBA est trop lourd et RMI et JMS sont spécifiques à un seul langage.
Cela pose déjà des contraintes non négligeables comme nous l’avons vu dans les sections
précédentes.
La notion d’API, utilisant Internet, est étroitement liée à celle des services Web. L’intérêt d’une interface Web pour l’utilisation d’outils existe, mais reste limité lorsqu’il s’agit
d’en intégrer de nouveaux, ou de modifier l’existant. Il apparaît alors que l’accès aux fonctionnalités d’un service Web est plus complet et intéressant d’un point de vue fonctionnel
s’il se fait à l’aide d’une API.
Les services Web, contrairement aux interfaces de programmation citées plus haut,
ont pour principal intérêt d’être indépendants du langage de programmation. Ainsi, les
paramètres utilisés sont encodés en XML, que chaque système utilise. C’est cette partie
commune à tout langage qui permet l’interopérabilité des systèmes. De plus, les échanges
se font par via le réseau, tout en utilisant les technologies Internet. Ils permettent alors
des accès à distance.
Un « annuaire universel » l’UDDI (Universal Description Discovery and Integration)
permet d’enregistrer les services Web disponibles afin d’être localisés par des systèmes
tiers, à travers le réseau Internet. De plus, les échanges se font à l’aide du protocole SOAP
(Simple Object Access Protocol) permettant l’accès à des procédures distantes, encodant
les paramètres en XML pour la partie client et les décodant pour la partie serveur. Enfin,
le langage WSDL (Web Service Description Language) décrit les API des services Web et
tous leurs paramètres. Cette description est issue du langage XML.
C’est ainsi que des architectures de type UIMA, GATE, ou encore OpenNLP sont
développées sur la base de services Web.
7.3.4.2
Solution envisagée
Nous envisageons d’utiliser UIMA pour le développement de notre architecture, et ce
pour quatre raisons principales. Tout d’abord, le degré de maturité d’UIMA est maintenant assez avancé dans sa version Apache, et les problèmes de départ, que nous avons
connu avec TC-STAR, semblent loin. Ensuite, UIMA bénéficie d’une importante communauté, sans doute du fait de sa disponibilité Open-Source et de sa maintenance active. De
229
Chapitre 7 : Vers une architecture d’évaluation générique et pérenne en TAL
plus, UIMA utilise tout ce qui a trait aux services Web et correspond ainsi parfaitement
à la modélisation que nous avons proposée. Enfin, UIMA fournit une architecture « clé
en main » qui, après une période d’adaptation, permet d’obtenir des résultats rapides.
7.4
Discussion et conclusion
Le déploiement de notre architecture d’évaluation reste ouvert aux diverses formes de
procédures des technologies du traitement automatique des langues. Faute de temps et par
manque de projets spécifiques à ELDA, nous n’avons malheureusement pas pu entamer
son développement. Malgré tout, les premières expérimentations nous permettent d’avoir
des plate-formes déjà utilisables en l’état.
Comme le montre la figure 7.8 notre architecture générique et pérenne ne se limite
pas à une seule plate-forme d’évaluation : un serveur de ressources facilitant la création
de l’ensemble des ressources nécessaires à l’évaluation (données sources ou de référence,
données texte ou audio, données annotées, etc.) et d’une interface d’adjudication pour
la vérification des résultats de l’évaluation. Nous avons également réfléchi à l’ajout de
modules de méta-évaluation de manière similaire aux métriques d’évaluation, tels des
services Web. Ceux-ci s’ajoutent à une chaîne de traitement classique.
Finalement, après avoir défini notre architecture d’évaluation, nous souhaitons réfléchir aux différents moyens de valider sa pertinence. Ici, c’est l’utilisation de l’architecture
qui est en jeu, et non les résultats obtenus. Les mesures et métriques sont méta-évaluées,
les juges sont mis en corrélation, les protocoles contrôlés et tout comme les ressources,
validés, etc. Mais l’architecture a pour seule nécessité de satisfaire les utilisateurs en leur
facilitant la tâche. Ici, nous ne tenons pas compte de possibles erreurs informatiques qui
ne seraient dues qu’à la simple technicité de l’architecture. C’est donc par cette seule
particularité que nous souhaitons valider l’architecture : l’utilisation par des participants,
des développeurs de système, des organisateurs d’évaluation, etc. Bref, tout utilisateur
susceptible un jour ou l’autre d’être en contact avec l’architecture d’évaluation, comme
nous avons pu déjà le faire dans le projet PASSAGE. D’une manière générale, des questionnaires de satisfaction peuvent être produits à intervalles régulier afin d’interroger les
utilisateurs, connaître leurs besoins et les fonctionnalités les satisfaisant. En allant plus
loin et en complexifiant nos capacités à valider, c’est aussi la pérennisation de l’architecture qui prouve la capacité à satisfaire ses utilisateurs.
230
Chapitre 8
Conclusions et travaux futurs
Dans ce chapitre, nous présentons les principales contributions de cette thèse ainsi que
les perspectives. Nous résumons en premier lieu les principales réflexions, expérimentations
et résultats qui ont été produits.
8.1
Résumé
Nous avons traité de l’évaluation du traitement automatique des langues afin d’en
intégrer ses composantes dans une architecture générique et pérenne. Notre thèse s’axe
autour de trois thèmes principaux : la méthodologie, la généralisation à travers plusieurs
technologies et l’automatisation.
8.1.1
Méthodologie
Dans un premier temps, nous avons étudié le déroulement typique d’une évaluation et
en avons proposé une synthèse. Dans celle-ci, nous considérons l’évaluation d’un point de
vue pratique. C’est en effet notre principale préoccupation pour la mise en œuvre d’une
évaluation au sein de notre architecture.
Nous avons renforcé la place des ressources linguistiques dans l’évaluation : leur intérêt
est capital puisqu’elles sont le support par lequel les systèmes sont évalués. Les différentes
étapes pour obtenir une ressource linguistique utilisable ont été formulées. Nous avons
également souligné l’impact des ressources linguistiques sur l’évaluation. Malgré tout,
nous avons prouvé à travers une expérimentation que ce n’est pas toujours le cas.
L’étude des mesures humaines et des mesures automatiques nous a permis d’établir
leurs avantages et inconvénients. L’utilisation de l’une ou l’autre des mesures est dépendante des résultats de l’évaluation que l’évaluateur attend. Nous avons observé à travers
un certain nombre d’expérimentations que les choses ne sont pas figées et que de nombreux paramètres viennent perturber l’évaluation. C’est avant tout l’interprétation des
résultats qui compte.
Enfin, nous avons précisé les moyens de méta-évaluer les mesures, qu’elles soient humaines ou automatiques. Différentes procédures et méthodes ont été décrites afin de mesurer la fiablité et la robustesse de métriques.
231
Chapitre 8 : Conclusions et travaux futurs
8.1.2
Généralisation
À travers toutes nos études et expérimentations, nous avons cherché à généraliser
l’évaluation du point de vue de sa méthodologie et de sa mise en œuvre.
Ainsi, la plupart des procédures d’évaluations se déroulent de la même manière et
autour de deux phases principales : la préparation de l’évaluation et son exécution.
De plus, nous avons vu que des ressources linguistiques peuvent être réutilisées d’une
évaluation à une autre (les données de test ne devant toutefois pas être connues des
systèmes) et être partagées entre différentes technologies.
La réutilisation d’interfaces et de mesures ou métriques est également un élément
important en évaluation de systèmes de TAL. Nous avons adapté, par exemple, des interfaces de jugements à des technologies différentes et des métriques ont été utilisées pour
des technologies dont les approches étaient similaires. La mesure de la qualité pour deux
technologies différentes ne signifie pas que les métriques et protocoles sont eux-mêmes
différents. C’est d’autant plus le cas lorsque des campagnes d’évaluation sont reproduites
pour une même technologie : les spécifications et les outils utilisés sont les mêmes la
plupart du temps.
L’étude de ces généralisations a été approfondie au cours d’une réflexion sur les similarités entre technologies et surtout entre évaluations de technologies différentes. Nous
avons alors obtenus une classification des technologies et de leur mesures d’évaluation.
8.1.3
Automatisation
La troisième grande étape de notre thèse concerne l’automatisation de l’évaluation en
vue d’une incorporation dans une architecture.
Le plus simple semble l’utilisation de métriques automatiques. Toutefois, nous remarquons que leur fiabilité prête généralement à discussion et qu’elle dépend du contexte
de l’évaluation réalisée. Ensuite, nous ne savons pas toujours exactement ce que les métriques fournissent comme résultats, et cela implique d’analyser plus en détails les données
évaluées. Enfin, les métriques automatiques sont tout de même dépendantes de parties
manuelles : les références sont établies à l’aide d’experts et sont indispensables. L’inverse
reviendrait à ce que les systèmes puissent intégrer une métrique entièrement automatique.
Les jugements humains sont eux aussi automatisables, et ce de deux manières. D’une
part, la recherche pousse à reproduire des jugements humains de manière automatique, à
l’aide de métriques automatiques. Nous avons étudié différentes possibilités en traduction
automatique et en extraction terminologique. Les résultats nous ont montré la difficulté
à agir de la sorte. Pourtant, de nombreuses métriques automatiques existent par ailleurs
et ont des résultats encourageants, voire suffisants. D’autre part, les jugements humains
sont automatisables via des interfaces de jugements qui aident les juges humains dans
leur tâche. La mise en place des données, la collecte des données et le calcul des résultats
sont des actions qui sont toutes automatisables.
Nous avons proposé la modélisation d’une architecture qui inclue les différentes possibilités d’automatisation de l’évaluation. Elle s’appuie sur des expérimentations que nous
avons pu réaliser. Les promesses d’une telle architecture sont importantes : vitesse d’acquisition des résultats, reproductibilité des évaluations, accessibilité et visibilité accrues,
etc.
232
8.2. Principaux développements
8.2
Principaux développements
Cette thèse nous a poussé à réaliser plusieurs développement dans le cadre de projets
d’évaluation. Ces développements ont pu être testés via des campagnes d’évaluation.
Tout d’abord, nous avons développé des interfaces de jugements humains. Relativement simples à concevoir, elles ont été d’un grand apport pour faciliter la collecte des
jugements et le calcul des résultats. Elles constituent en cela une économie de temps non
négligeable. Nous avons ainsi développé des interfaces de jugements pour les technologies
suivantes : traduction automatique, question-réponse, synthèse vocale, traduction de l’oral
vers l’oral. Au total, plus d’une dizaine de campagnes ont utilisé l’une de ces interfaces.
Ensuite, nous avons expérimenté des métriques automatiques. Le X-Score nous a permis d’explorer les possibilités d’estimer automatiquement la fluidité d’un texte traduit
automatiquement. La métrique est peu fiable à l’heure actuelle mais les champs de recherche restent ouverts. Notre évaluation automatique en extraction terminologique est
aussi à un état intermédiaire de fiabilité et nous continuons à étudier les différentes possibilités.
Il faut également noter que nous avons développé nos propres versions des mWER
(multiple reference Word Error Rate), mPER (multiple reference Position independant
word Error Rate) et mCER (multiple reference Character Error Rate) pour la traduction
automatique. Par ailleurs, nous avons testé et étudié quelques unes des métriques utilisées
pour l’évaluation des systèmes de traduction automatique.
Enfin, nous avons eu l’occasion à travers deux projets (TC-STAR pour la traduction
de l’oral vers l’oral et PASSAGE pour l’analyse syntaxique) de développer ou de participer
au développement de deux plates-formes d’évaluation. Dans le cadre de TC-STAR, nous
avons participé au développement de composants d’évaluation au sein d’une architecture
UIMA. Bien que cela n’ait pas donné suite à une plate-forme pérenne, ce développement
nous a permis de comprendre davantage les mécanismes d’une architecture d’évaluation.
Nous avons mis à profit cette expérience dans le cadre de PASSAGE avec une plate-forme
dédiée. Celle-ci a été utilisée au cours de deux campagnes d’évaluation par plusieurs
participants. Le gain de temps a été appréciable notamment pour la première campagne
d’évaluation, autant pour les organisateurs que pour les participants. Les résultats de la
seconde campagne ont été plus nuancés, des difficultés techniques ayant émergé face au
volume des données.
8.3
Perspectives
Les perspectives que notre thèse annonce font suite aux points mentionnés ci-dessus.
L’étude des mesures d’évaluation a soulevé de nouvelles questions. Les jugements humains
sont, semble-t-il, très liés aux aspects psychologiques et culturels des juges : l’observation
de la qualité des systèmes à un niveau utilisateur apporte une grande part de variabilité
dans les mesures humaines qui deviennent alors moins pertinentes ou moins objectives.
La difficulté de prédire (automatiquement) les jugements humains s’en trouve alors décuplée. L’organisation d’évaluations utilisant des mesures humaines est relativement facile à
mettre en place. Pourtant, la définition des critères de jugement reste complexe : l’interprétation des résultats n’en est que plus difficile mais il faut alors banaliser leur analyse
détaillée.
233
Chapitre 8 : Conclusions et travaux futurs
Les métriques automatiques sont un cas particulier en évaluation. Elles peuvent être
satisfaisantes mais l’évaluateur sait toujours qu’elles ne sont pas exemptes de défauts et
d’approximations. Cela justifie une interprétation des résultats en conséquence. Pourtant,
il faut améliorer le développement de métriques automatiques car elles permettent la
reproductibilité des évaluations. Une des perspectives de cette thèse est donc de continuer
l’effort pour trouver de nouvelles métriques automatiques et/ou améliorer celles existantes,
pour quelque technologie que ce soit.
Pour continuer dans ce sens, notre thèse a pointé des cas particuliers comme exemples
d’expérimentations et il est bon de continuer l’effort pour d’autres technologies et d’autres
domaines. Plus les cas seront multipliés et plus les approches apporteront à l’évaluation en
TAL. L’exploration de mesures pour des technologies moins étudiées pourra ainsi apporter
de nouvelles approches aux technologies plus avancées. Cela rejoint l’idée d’étudier les
similarités en évaluation de technologies du TAL : la complémentarité des technologies ne
peut être que bénéfique.
Finalement, le développement d’une architecture complète, générique et pérenne pour
l’évaluation en traitement automatique des langues reste à faire. L’accent devra être mis
sur les limites technologiques : lorsque de grandes quantités de données sont utilisées,
comme par exemple en recherche d’information, les limites de l’informatique sont mises
à rude épreuve. L’évaluation n’a pas pour unique but la mesure de la qualité mais est
également concernée par la vitesse d’échange des données et leur traitement, le niveau de
stockage, et toutes les performances technologiques qui lui sont liées.
Le fait de posséder une architecture d’évaluation, permettant la répétition d’évaluations à loisir, accroît la possibilité de mener des « méga-évaluations ». Celle-ci sont nécessaires pour l’observation de l’évolution d’un domaine ou d’une technologie. Ainsi, par
un effort répété d’évaluations sur une longue période, généralement sur une même base
de données, il peut être prouvé qu’une technologie est mature, ou en passe de l’être. Nous
avons pu faire cette expérience dans le cadre de TC-STAR dans lequel, sur trois années
consécutives d’évaluation, les trois versions de chaque système de traduction automatique
ont été évaluées sur un même jeu de données. Il était alors clair que les systèmes avaient
progressé.
Une architecture d’évaluation est non seulement importante pour ses apports industriels, mais elle apporte également une réflexion sur l’évaluation en elle-même. Elle permet
la combinaison de technologies, ce qui présente un indéniable intérêt quant aux procédures
à adopter. De fait, cela amène à réfléchir à de nouvelles méthodes d’évaluation, de nouvelles mesures et métriques, tandis que l’analyse qui en découle est enrichie de nouveaux
paramètres. Le gain d’une architecture d’évaluation est important, de par la reproduction des évaluations et l’automatisation de leur exécution. Cette dernière apporte quant
à elle l’obligation de formaliser les méthodologies d’évaluation, ce qui s’associe à d’autant plus de rigueur dans les choix effectués. Finalement, prendre comme cas d’étude le
traitement automatique des langues dans son ensemble amène à comparer les différentes
technologies entre elles, leurs problématiques et leurs mesures d’évaluation. C’est en capitalisant l’évaluation à l’aide d’une architecture que des familles de technologies peuvent
être construites, et les mesures rapprochées pour ces technologies.
234
Bibliographie
[Adda et al., 1999] Adda, G., Mariani, J., Paroubek, P., Rajman, M. et Lecomte,
J. (1999). L’action GRACE d’évaluation de l’assignation de parties du discours pour
le français. Langues, 2(2):119–129.
[Agarwal et Lavie, 2008] Agarwal, A. et Lavie, A. (2008). Meteor, M-BLEU and MTER : Evaluation Metrics for High-Correlation with Human Rankings of Machine
Translation Output. In Proceedings of the Third Workshop on Statistical Machine
Translation, pages 115–118, Columbus, Ohio. Association for Computational Linguistics.
[ALPAC, 1966] ALPAC (1966). Language and machines : computers in translation and
linguistics. Rapport technique, Automatic Language Processing Advisory Committee,
Washington DC, National Academy of Sciences.
[Amar et al., 2001] Amar, M., Béguin, A., De Brito, M., David, S., L’Homme, M.C., Mustafa El Hadi, W. et Paroubek, P. (2001). Rapport final AUF ARC A1 :
Évaluation d’outils d’aide à la Construction Automatique de Terminologie et de Relations Sémantiques entre termes à partir de corpus. Rapport technique, Université
Charles-de-Gaulle, Lille-3.
[Amigó et al., 2005a] Amigó, E., Gonzalo, J., Peñas, A. et Verdejo, F. (2005a). Evaluating DUC 2004 with QARLA Framework. In Proceedings of the ACL’05 Workshop
on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization, pages
49–56, Ann Arbor, Michigan.
[Amigó et al., 2005b] Amigó, E., Gonzalo, J., Peñas, A. et Verdejo, F. (2005b).
QARLA : a Framework for the Evaluation of Text Summarization Systems. In Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics
(ACL 2005), pages 280–289, Ann Arbor, Michigan.
[Arranz et Choukri, 2010] Arranz, V. et Choukri, K. (2010). ELRA’s Services 15
Years on...Sharing and Anticipating the Community. In Proceedings of the Seventh
conference on International Language Resources and Evaluation (LREC’10), Valletta,
Malta. European Language Resources Association (ELRA).
[Arranz et al., 2007] Arranz, V., Mapelli, V. et Mazo, H. (2007). The ELRA Newsletter. ELRA. ISSN 1026-8200.
[Ayache et al., 2006] Ayache, C., Grau, B. et Vilnat, A. (2006). EQueR/EVALDA,
the French Evaluation Campaign of Question-Answering System. In Proceedings of the
5th International Conference on Language Resources and Evaluation, Genoa, Italy.
[Babych et Hartley, 2004] Babych, B. et Hartley, A. (2004). Extending the BLEU
MT evaluation method with frequency weightings. In ACL’04 : Proceedings of the
235
BIBLIOGRAPHIE
42nd Annual Meeting on Association for Computational Linguistics, pages 621–628,
Morristown, NJ, USA. Association for Computational Linguistics.
[Babych et al., 2003] Babych, B., Hartley, A. et Atwell, E. (2003). Statistical modelling of mt output corpora for information extraction. In Lancaster University (UK,
page 31.
[Babych et al., 2005] Babych, B., Hartley, A. et Elliott, D. (2005). Estimating the
predictive power of n-gram MT evaluation metrics across language and text types. In
Proceedings of the MT Summit X, pages 412–418, Phuket, Thailand.
[Banchs et al., 2006] Banchs, R. E., Bonafonte, A. et Pérez, J. (2006). Acceptance
Testing of a Spoken Language Translation System. In Proceedings of the 5th International Conference on Language Resources and Evaluation, pages 1157–1160, Genoa,
Italy.
[Banerjee et Lavie, 2005] Banerjee, S. et Lavie, A. (2005). METEOR : An automatic metric for MT evaluation with improved correlation with human judgments. In
Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for
Machine Translation and/or Summarization, pages 65–72, Ann Arbor, Michigan. Association for Computational Linguistics.
[Bar-Hillel, 1953] Bar-Hillel, Y. (1953). The present State of Research on Mechanical
Translation [1951]. American Documentation, 2:229–237.
[Béguin et al., 1997] Béguin, A., Jouis, C. et Mustafa El Hadi, W. (1997). Evaluation d’outils d’aide à la construction de terminologie et de relations sémantiques entre
termes à partir de corpus. In JST’97, FRANCIL, AUPELF-UREF, pages 419–426,
Avignon, France.
[Benzitoun et Véronis, 2005] Benzitoun, C. et Véronis, J. (2005). Problèmes d’annotation d’un corpus oral dans le cadre de la campagne EASY. In Actes des Ateliers de
la 12ème Conférence annuelle sur le Traitement Automatique des Langues Naturelles
(TALN 2005), pages 13–16, Dourdan, France.
[Bernsen et al., 1999] Bernsen, N. O., Blasband, M., Calzolari, N., Chanod, J.-P.,
Choukri, K., Dybkjær, L., Gaizauskas, R., Krauwer, S., Lamberterie, I. d.,
Mariani, J., Netter, K., Paroubek, P., Rajman, M. et Zampolli, A. (1999).
A Blueprint for a General Infrastructure for Natural Language Processing Systems
Evaluation Using Semi-Automatic Quantitative Black Box Approach in a Multilingual
Environment, Deliverable D1.1 ELSE Project - Evaluation in Language and Speech
Engineering LE4-8340. Rapport technique, LIMSI, Paris.
[Besançon et al., 2008] Besançon, R., Chaudiron, S., Mostefa, D., Hamon, O., Timimi, I. et Choukri, K. (2008). Overview of CLEF 2008 INFILE pilot track. In
Working notes for the CLEF 2008 workshop, ECDL conference, pages 939–946, Aarhus, Denmark.
[Bisani et Ney, 2008] Bisani, M. et Ney, H. (2008). Joint-sequence models for graphemeto-phoneme conversion. Speech Communication, 50(5):434–451.
[Black et al., 1991] Black, W. J., Allwood, J., Bunt, H. C., Dols, F. J. H., Donzella, C., Ferrari, G., Gallagher, J., Haidan, R., Imlah, B., Jokinell, K.,
Lancel, J.-m., Nivre, J., Sabah, G. et Wachtel, T. (1991). A Pragmatics-based
Language Understanding System. In Proceedings of the ESPRIT Conference 1991.
236
BIBLIOGRAPHIE
[Blanchon et Boitet, 2007] Blanchon, H. et Boitet, C. (2007). Pour l’évaluation externe des systèmes de TAL par des méthodes fondées sur la tâche. TAL, 48(1):33–65.
[Blanchon et al., 2004] Blanchon, H., Boitet, C., Brunet-Manquat, F., Tomokiyo, M., Hamon, A., Hung, V. T. et Bey, Y. (2004). Towards Fairer Evaluations
of Commercial MT Systems on Basic Travel Expressions Corpora. In Proceedings of
IWSLT 2004 (ICLSP 2004 Satellite Workshop), pages 21–26, Kyoto, Japan.
[Bonafonte et al., 2006] Bonafonte, A., Agüero, P. D., Adell, J., Pérez, J. et Moreno, A. (2006). Ogmios : The UPC Text-to-Speech Synthesis System for Spoken
Translation. In Proceedings of the TC-STAR Workshop on Speech-to-Speech Translation, pages 31–36, Barcelona, Spain.
[Bourigault et Habert, 1998] Bourigault, D. et Habert, B. (1998). Evaluation of Terminology Extractors : Principles and Experiments. In Proceedings of the first International Conference on Language Resources and Evaluation (LREC), pages 299–305,
Granada, Spain.
[Braschler, 2000] Braschler, M. (2000). CLEF 2000 - Overview of Results. In CLEF,
pages 89–101.
[Brill, 1995] Brill, E. (1995). Transformation-Based Error-Driven Learning and Natural Language Processing : A Case Study in Part of Speech Tagging. Computational
Linguistics, pages 543–565.
[Burnard et al., 1998] Burnard, L., Baker, P., McEnery, A. et Andrew, W. (1998).
Validation of Linguistic Corpora. Rapport technique, European Language Resources
Association, Paris.
[Callison-Burch et al., 2007] Callison-Burch, C., Fordyce, C. S., Koehn, P., Monz,
C. et Schroeder, J. (2007). (Meta-) Evaluation of Machine Translation. In Proceedings of Second Workshop on Statistical Machine Translation, pages 136–158, Prague,
Czech Republic.
[Callison-Burch et al., 2009] Callison-Burch, C., Koehn, P., Monz, C. et Schroeder, J. (2009). Findings of the 2009 Workshop on Statistical Machine Translation.
In Proceedings of the Fourth Workshop on Statistical Machine Translation, pages 1–28,
Athens, Greece. Association for Computational Linguistics.
[Callison-Burch et al., 2006] Callison-Burch, C., Osborne, M. et Koehn, P. (2006).
Re-evaluating the role of bleu in machine translation research. In EACL, pages 249–256.
[Carroll, 1966] Carroll, J. B. (1966). An experiment in evaluating the quality of translations. Mechanical Translation and Computational Linguistics, 9(3 and 4):55–66.
[Carroll et al., 2002] Carroll, J. B., Frank, A., Lin, D., Prescher, D. et Uszkoreit,
H. (2002). Toward improved evaluation measures for parsing systems. In Proceedings
of the Workshop Beyond Parseval at the 3rd International Conference on Language
Resources and Evaluation (LREC), pages 1–3, Las Palmas, Spain.
[Cerbah et Daille, 2006] Cerbah, F. et Daille, B. (2006). Une architecture de services
pour mieux spécialiser les processus d’acquisition terminologique. Traitement Automatique des Langues (TAL), 47(3):39–61.
[Chaudiron et Choukri, 2008a] Chaudiron, S. et Choukri, K. (2008a). L’évaluation :
fondements, processus et résultats, pages 23–45. Hermès, Lavoisier, Paris. ISBN 978-27462-1992-2.
237
BIBLIOGRAPHIE
[Chaudiron et Choukri, 2008b] Chaudiron, S. et Choukri, K. (2008b). L’évaluation
des technologies de traitement de la langue. Hermès, Lavoisier, Paris. ISBN 978-2-74621992-2.
[Choukri, 2005] Choukri, K. (2005). L’apport des campagnes Evalda à l’évaluation de
technologies. In Journée Technolangue et Technovision sur l’évaluation des technologies, Colloque ASTI 2005, page 40, Clermont Ferrand.
[Cleverdon, 1967] Cleverdon, C. W. (1967). The Cranfield tests on index language
devices. Aslib, 19(6):173–194.
[Cleverdon et al., 1966] Cleverdon, C. W., Mills, J. et Keen, M. (1966). Factors
determining the performance of indexing systems. Rapport technique, Aslib Cranfield
Project.
[Cohen, 1960] Cohen, J. (1960). A coefficient of agreement for nominal scales. Educational and Psychological Measurement, 20(1):37–46.
[Cole et al., 1995] Cole, R. A., Mariani, J., Uszkoreit, H., Zaenen, A. et Zue, V.
(1995). Survey of the State of the Art in Human Language Technology. Center for
Spoken Language Understanding CSLU, Carnegie Mellon University, Pittsburgh, PA.
[Cori et Léon, 2002] Cori, M. et Léon, J. (2002). La constitution du TAL, Étude historique des dénominations et des concepts. TAL, 43(3):21–55.
[Cunningham et al., 2002] Cunningham, H., Maynard, D., Bontcheva, K. et Tablan, V. (2002). GATE : an architecture for development of robust HLT applications.
In ACL ’02 : Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, pages 168–175, Morristown, NJ, USA. Association for Computational
Linguistics.
[Cunningham et al., 1996] Cunningham, H., Wilks, Y. et Gaizauskas, R. (1996).
GATE – a General Architecture for Text Engineering. In Proceedings of the 16th
Conference on Computational Linguistics (COLING-96), pages 1057–1060, Copenhagen.
[Daille, 2002] Daille, B. (2002). Découvertes linguistiques en corpus. Dossier de synthèse
des activités de recherche en vue de l’obtention du diplôme d’Habilitation à Diriger des
Recherches. Rapport technique.
[Dale et al., 2000] Dale, R., Moisl, H. et Harold, S. (2000). Handbook of Natural
Language Processing. Marcel Dekker, New York, NY.
[D’Alessandro et al., 2008] D’Alessandro, C., Boula de Mareüil, P., Garcia, M.-N.,
Bailly, G., Morel, M., Alexander, R., Béchet, F., Véronis, J. et Prudon, R.
(2008). La campagne EvaSy d’évaluation de la synthèse de la parole á partir du texte,
pages 183–206. Hermès, Lavoisier, Paris. ISBN 978-2-7462-1992-2.
[Déchelotte et al., 2006] Déchelotte, D., Schwenk, H. et Gauvain, J.-L. (2006). The
2006 LIMSI Statistical Machine Translation System for TC-STAR. In Proceedings of the
TC-STAR Workshop on Speech-to-Speech Translation, pages 25–30, Barcelona, Spain.
[Declerck, 2006] Declerck, T. (2006). SynAF : towards a Standard for syntactic annotation. In In proceedings of the fifth international conference on Language Resources
and Evaluation (LREC 2006), pages 36–43, Genoa, Italy. ELRA.
238
BIBLIOGRAPHIE
[Déjean et Gaussier, 2002] Déjean, H. et Gaussier, E. (2002). Une nouvelle approche
à l’extraction de lexique bilingues à partir de corpus comparables. Lexicometrica, No
spécial 2002:22.
[Di Nunzio et Ferro, 2006] Di Nunzio, G. M. et Ferro, N. (2006). Scientific evaluation
of a dlms : A service for evaluating information access components. In Proceedings
of the 10th European Conference for Digital Libraries (ECDL 2006), pages 536–539,
Alicante, Spain.
[Dijk, 2007] Dijk, B. V. (2007). Technologies de la langue en Europe : marché et tendances, 2005-2006. Rapport technique, Bureau Van Dijk.
[Doddington, 2002] Doddington, G. (2002). Automatic evaluation of machine translation quality using n-gram co-occurrence statistics. In Proceedings of ARPA Workshop
on Human Language Technology, pages 138–145.
[Eck et Hori, 2005] Eck, M. et Hori, C. (2005). Overview of the IWSLT 2005 Evaluation
Campaign. In International Workshop on Spoken Language Translation : Evaluation
Campaign on Spoken Language Translation, page 22, Pittsburgh, PA, USA.
[Efron et Gong, 1983] Efron, B. et Gong, G. (1983). A leisurely look at the bootstrap,
the jackknife, and cross-validation. The American Statistician, 37(1):36–48.
[Estrella, 2008] Estrella, P. (2008). Evaluating Machine Translation in Context : Metrics and tools. Thèse de doctorat, Université de Genè, École de traduction et d’interprétation.
[Estrella et al., 2007] Estrella, P., Hamon, O. et Popescu-Belis, A. (2007). How
Much Data is Needed for Reliable MT Evaluation ? Using Bootstrapping to Study
Human and Automatic Metrics. In Proceedings of the MT Summit XI, pages 167–174,
Copenhagen, Denmark.
[Fairon et al., 2006] Fairon, C., Klein, J.-R. et Paumier, S. (2006). SMS pour la
science. Corpus de 30.000 SMS et logiciel de consultation, volume 3.2 de Cahiers du
CENTAL. IGMLP-UCL.
[Fanta et al., 2007] Fanta, M., Fleury, P., Kleindienst, J. et Macek, T. (2007).
Overview of WP5 : Architecture and Showcases. In Proceedings of the TC-STAR
Workshop, page 23, Aachen, Germany.
[Feinstein et Cicchetti, 1990] Feinstein, A. R. et Cicchetti, D. V. (1990). High agreement but low kappa : I. The problems of Two Paradoxes. J. Clin. Epidemiol, 43:543–548.
[Ferrucci et Lally, 2004] Ferrucci, D. et Lally, A. (2004). UIMA : an architectural
approach to unstructured information processing in the corporate research environment.
Nat. Lang. Eng., 10(3-4):327–348.
[Fiscus, 1997] Fiscus, J. G. (1997). A Post-Processing System To Yield Reduced Word
Error Rates : Recognizer Output Voting Error Reduction (ROVER). pages 347–352.
[Fiscus et Ajot, 2007] Fiscus, J. G. et Ajot, J. (2007). The Rich Transcription 2007
Speech-to-Text (STT) and Speaker Attributed STT (SASTT) Results. In Rich Transcription 2007 Meeting Recognition Workshop, Baltimore, MD, USA. NIST.
[Fordyce, 2007] Fordyce, C. S. (2007). Overview of the IWSLT 2007 evaluation campaign. In Proceedings of the IWSLT 2007 : International Workshop on Spoken Language
Translation, page 12, Trento, Italy.
239
BIBLIOGRAPHIE
[Forner et al., 2008] Forner, P., Peñas, A., Alegria, I. n., Forascu, C., Moreau,
N., Osenova, P., Prokopidis, P., Rocha, P., Sacaleanu, B., Sutcliffe, R. F. E.
et Tjong Kim Sang, E. (2008). Overview of the CLEF 2008 Multilingual Question Answering Track. In et al., C. P., éditeur : Working Notes for the CLEF 2008
Workshop, pages 262–295. Springer. Working Notes. Online Proc.
[Forsbom, 2002] Forsbom, E. (2002). Machine Translation Evaluation. Rapport technique, Uppsala universitet.
[Francis et Kucera, 1982] Francis, W. N. et Kucera, H. (1982). Frequency Analysis of
English Usage : Lexicon and Grammar. Boston : Houghton Mifflin Company.
[Francopoulo, 2008] Francopoulo, G. (2008). TagParser : Well on the Way to ISOTC37 Conformance. In In proceedings of the International Conference on Global Interoperability for Language Resources (ICGL), pages 82–88, Hong Kong.
[Francopoulo et al., 2008] Francopoulo, G., Declerck, T., Sornlertlamvanich,
V., Villemonte de la Clergerie, E. et Monachini, M. (2008). Data Category Registry : Morpho-syntactic and Syntactic Profiles. In In proceedings of the Workshop on use
and usage of language resource-related standards at the sixth international conference
on Language Resources and Evaluation (LREC), pages 31–40, Marrakech. LREC.
[Garcia et al., 2006] Garcia, M.-N., D’Alessandro, C., Bailly, G., Boula de Mareüil, P. et Morel, M. (2006). A joint prosody evaluation of French text-to-speech
systems : the EvaSy Prosody campaign. In Proceedings of the 5th International Conference on Language Resources and Evaluation, pages 307–310, Genoa, Italy.
[Gates et al., 1996] Gates, D., Lavie, A., Levin, L., Waibel, A., Gavalda, M., Mayfield, L. et Woszcyna, M. (1996). End-to-End Evaluation in JANUS : A Speech-tospeech Translation System. In Proceedings of the 6th ECAI, pages 195–206, Budapest.
[Gendner et al., 2003] Gendner, V., Illouz, G., Jardino, M., Monceaux, L., Paroubek, P., Robba, I. et Vilnat, A. (2003). Peas, the first instanciation of a comparative framework for evaluating parsers of French. In Proceedings of the 10th Conference
of the European Chapter of the Association for Computational Linguistics, pages 95–98,
Budapest, Hungary. ACL. Companion Volume.
[Giampiccolo et al., 2008] Giampiccolo, D., Forner, P., Herrera, J., Peñas, A.,
Ayache, C., Forascu, C., Jijkoun, V., Osenova, P., Rocha, P., Sacaleanu, B.
et Sutcliffe, R. F. E. (2008). Overview of the CLEF 2007 Multilingual Question
Answering Track. pages 200–236, Berlin, Heidelberg. Springer-Verlag.
[Giménez, 2008] Giménez, J. (2008). Empirical Machine Translation and its Evaluation.
Thèse de doctorat, Universitat Politécnica de Catalunya.
[Giménez et Amigó, 2006] Giménez, J. et Amigó, E. (2006). IQMT : A Framework for
Automatic Machine Translation Evaluation. In Proceedings of the 5th International
Conference on Language Resources and Evaluation, pages 685–690, Genoa, Italy.
[Grishman, 1996] Grishman, R. (1996). TIPSTER Text Phase II Architecture Design
Version 2.1p 19 June 1996. In Proceedings of the TIPSTER Text Program : Phase II,
pages 249–305, Vienna, Virginia, USA. Association for Computational Linguistics.
[Hamming, 1950] Hamming, R. W. (1950). Error-detecting and error-correcting codes.
Bell System Technical Journal, 29(2):147–160.
240
BIBLIOGRAPHIE
[Hamon, 2004a] Hamon, O. (2004a). Évaluation automatisée et méta-évaluation des
systèmes de traduction automatique. Mémoire de D.E.A., Université Paris-Nord, Villetaneuse.
[Hamon, 2004b] Hamon, O. (2004b). Mise au point d’un environnement d’évaluation automatisé de systèmes de traduction automatique. Rapport de fin d’Études d’ingénierie
logicielle, Université Paris-Nord, Villetaneuse.
[Hamon, 2007a] Hamon, O. (2007a). Experience and Conclusions from the CESTA Evaluation Project. In Proceedings of the MT Summit XI Workshop on Automatic procedures in MT evaluation, page 22, Copenhagen, Denmark.
[Hamon, 2007b] Hamon, O. (2007b). Rapport du projet CESTA. Rapport technique,
ELDA.
[Hamon et al., 2009] Hamon, O., Fügen, C., Mostefa, D., Arranz, V., Kolss, M.,
Waibel, A. et Choukri, K. (2009). End-to-end Evaluation in Simultaneous Translation. In In proceedings of EACL 2009, pages 345–353, Athens, Greece.
[Hamon et al., 2007a] Hamon, O., Hartley, A., Popescu-Belis, A. et Choukri, K.
(2007a). Assessing Human and Automated Quality Judgments in the French MT Evaluation Campaign CESTA. In Proceedings of the MT Summit XI, pages 231–238,
Copenhagen, Denmark.
[Hamon et Mostefa, 2008a] Hamon, O. et Mostefa, D. (2008a). An Experimental Methodology for an End-to-End Evaluation in Speech-to-Speech Translation. In ELRA,
éditeur : In proceedings of the sixth international conference on Language Resources
and Evaluation (LREC), pages 3539–3546, Marrakech, Morroco. ELRA.
[Hamon et Mostefa, 2008b] Hamon, O. et Mostefa, D. (2008b). The Impact of Reference Quality on AutomaticMT Evaluation. In In proceedings of Coling 2008, pages
39–42, Manchester, UK. Coling 2008 Organizing Committee.
[Hamon et al., 2008a] Hamon, O., Mostefa, D. et Arranz, V. (2008a). Diagnosing
human judgments in MT evaluation : an example based on the Spanish language. In
Proceedings of MATMT 2008 : Mixing Approaches to Machine Translation, pages 19–
26, San Sebastian, Spain.
[Hamon et al., 2007b] Hamon, O., Mostefa, D. et Choukri, K. (2007b). End-to-End
Evaluation of a Speech-to-Speech Translation System in TC-STAR. In Proceedings of
the MT Summit XI, pages 345–353, Copenhagen, Denmark.
[Hamon et al., 2008b] Hamon, O., Paroubek, P. et Mostefa, D. (2008b). SEWS : un
serveur d’évaluation orienté Web pour la syntaxe. Traitement Automatique des Langues
(TAL), 49(2):247–270.
[Hamon et al., 2006] Hamon, O., Popescu-Belis, A., Choukri, K., Dabbadie, M.,
Hartley, A., Mustafa El Hadi, W., Rajman, M. et Timimi, I. (2006). CESTA :
First Conclusions of the Technolangue MT Evaluation Campaign. In Proceedings of the
5th International Conference on Language Resources and Evaluation, pages 179–184,
Genoa.
[Hamon et al., 2008c] Hamon, O., Popescu-Belis, A., Hartley, A., Mustafa El Hadi, W. et Rajman, M. (2008c). CESTA : Campagne dÉvaluation
des Systèmes de Traduction Automatique, pages 93–116. Hermès, Lavoisier, Paris.
ISBN 978-2-7462-1992-2.
241
BIBLIOGRAPHIE
[Hamon et Rajman, 2006] Hamon, O. et Rajman, M. (2006). X-Score : Automatic Evaluation of Machine Translation Grammaticality. In Proceedings of the 5th International
Conference on Language Resources and Evaluation, pages 155–160, Genoa.
[Hamon et Hû, 2002] Hamon, T. et Hû, O. (2002). How to Evaluate Necessary Cooperative Systems of Terminology Building ? In Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC), pages 1543–1550, Las Palmas,
Spain.
[Hausser, 1994] Hausser, R. (1994). Results of the 1. Morpholympics. Rapport technique, Universität Erlangen - Nürnberg.
[Hirschman et Thompson, 1996] Hirschman, L. et Thompson, H. S. (1996). Overview
of evaluation in speech and natural language processing. R. Cole, editor, Survey of the
State of the Art in Human Language Technology. Cambridge University Press, pages
409–414.
[Hovy, 2007] Hovy, E. (2007). Investigating why BLEU penalizes non-statistical systems. In Proceedings of the MT Summit XI Workshop on Automatic procedures in MT
evaluation, page 10, Copenhagen, Denmark.
[Hutchins, 1997] Hutchins, W. J. (1997). From first conception to first demonstration :
the nascent years of machine translation, 1947-1954. A chronology. Machine Translation, 12(3):195–252.
[Hutchins, 2001] Hutchins, W. J. (2001). Machine Translation over fifty years. Histoire,
Epistemologie, Langage, XXII(1):7–31.
[Ide et Romary, 2002] Ide, N. et Romary, L. (2002). Standards for Language Ressources.
In Proceedings of the 3rd International Conference on Language Resources and Evaluation (LREC), pages 839–844, Las Palmas, Spain.
[Ide et Véronis, 1996] Ide, N. et Véronis, J. (1996). Application de la TEI aux industries
de la langue : le Corpus Encoding Standard. Cahiers GUTenberg, 24:166–169.
[Illingworth, 1990] Illingworth, V. (1990). Dictionary of computing. Oxford University
Press, London.
[ISO 9126, 1991] ISO 9126 (1991).
Information Technology–Software Product
Evaluation–Quality Characteristics and Guidelines for Their Use. Rapport technique,
Genève, ISO/IEC.
[ITU-T, 1993] ITU-T (1993). A method for subjective performance assessment of the
quality of speech voice output devices. Rapport technique COM 12-R 6, ITU-T.
[King, 2005] King, M. (2005). Evaluation in Human Language Technology. In ELRAHLT Evaluation Workshop, page 32, Malta.
[Klatt, 1977] Klatt, D. H. (1977). Review of the ARPA Speech Understanding Project.
The Acoustical Society of America, 62:1324–1366.
[Koehn, 2004] Koehn, P. (2004). Statistical Significance Tests for Machine Translation
Evaluation. In Lin, D. et Wu, D., éditeurs : Proceedings of EMNLP 2004, pages
388–395, Barcelona, Spain. Association for Computational Linguistics.
[Koehn, 2007] Koehn, P. (2007). Evaluating Evaluation Lessons from the WMT 2007
Shared Task. In Proceedings of the MT Summit XI Workshop on Automatic Procedures
in Machine Translation Evaluation, page 38, Copenhagen, Denmark.
242
BIBLIOGRAPHIE
[Krauwer, 2003] Krauwer, S. (2003). The Basic Language Resource Kit (BLARK) as
the First Milestone for the Language Resources Roadmap. In Proceedings of SPECOM
2003, page 8, Moscow, Russia.
[Lamel et al., 2006] Lamel, L., Bilinski, E., Adda, G., Gauvain, J.-L. et Schwenk,
H. (2006). The LIMSI RT06s Lecture Transcription System. In Renals, S., Bengio,
S. et Fiscus, J., éditeurs : Machine Learning for Multimodal Interaction : Third International Workshop, MLMI 2006, Bethesda, MD, USA, volume 4299 de Lecture Notes
in Computer Science, pages 457–468. Springer Verlag Berlin/ Heidelberg.
[Landis et Koch, 1977a] Landis, J. R. et Koch, G. G. (1977a). A One-Way Components
of Variance Model for Categorical Data. Biometrics, 33(1):671–679.
[Landis et Koch, 1977b] Landis, J. R. et Koch, G. G. (1977b). The Measurement of
Observer Agreement for Categorical Data. Biometrics, 33(1):159–174.
[Levenshtein, 1966] Levenshtein, V. I. (1966). Binary codes capable of correcting deletions, insertions and reversals. Soviet Physics-Doklady, 10:707–710.
[Likert, 1932] Likert, R. A. (1932). Technique for the Measurement of Attitudes. Archives of Psychology, 22(140):55.
[Magnini et al., 2006] Magnini, B., Giampiccolo, D., Forner, P., Ayache, C., Jijkoun, V., Osenova, P., Peñas, A., Rocha, P., Sacaleanu, B. et Sutcliffe,
R. F. E. (2006). Overview of the CLEF 2006 Multilingual Question Answering Track.
In CLEF, pages 223–256.
[Makhoul et al., 1999] Makhoul, J., Kubala, F., Schwartz, R. et Weischedel, R.
(1999). Performance measures for information extraction. In Proceedings of DARPA
Broadcast News Workshop, pages 249–252, Herndnon VA.
[Matusov et al., 2006] Matusov, E., Mauser, A. et Ney, H. (2006). Automatic Sentence Segmentation and Punctuation Prediction for Spoken Language Translation. In
International Workshop on Spoken Language Translation, pages 158–165, Kyoto, Japan.
[Miller, 2005] Miller, K. J. (2005). Evaluation principles and objectives : ISLE,
EAGLES (a play in three acts). In ELRA-HLT Evaluation Workshop, page 48, Malta.
[Miller et Vanni, 2005] Miller, K. J. et Vanni, M. (2005). Inter-rater agreement measures, and the refinement of metrics in the PLATO MT evaluation paradigm. In Proceedings of the MT Summit X, pages 125–132, Phuket, Thailand.
[Mitkov, 2003] Mitkov, R. (2003). The Oxford Handbook of Computational Linguistics.
Oxford University Press, Oxford.
[Moreau et al., 2010] Moreau, N., Hamon, O., Mostefa, D., Rosset, S., Galibert,
O., Lamel, L., Turmo, J., Comas, P. R., Rosso, P., Buscaldi, D. et Choukri, K.
(2010). Evaluation Protocol and Tools for Question-Answering on Speech Transcripts.
In In proceedings of LREC 2010, pages 2769–2773, Valletta, Malta.
[Mostefa et al., 2006] Mostefa, D., Hamon, O. et Choukri, K. (2006). Evaluation
of automatic speech recognition and speech language translation within TC-STAR :
results from the first evaluation campaign. In Proceedings of the 5th International
Conference on Language Resources and Evaluation, pages 149–154, Genoa, Italy.
243
BIBLIOGRAPHIE
[Mostefa et al., 2007a] Mostefa, D., Hamon, O., Moreau, N. et Choukri, K. (2007a).
Technological Showcase and End-to-End Evaluation Architecture, Technology and Corpora for Speech to Speech Translation (TC-STAR) projects. Rapport technique Deliverable D30, ELDA.
[Mostefa et al., 2007b] Mostefa, D., Moreau, N., Choukri, K., Potamianos, G.,
Chu, S. M., Tyagi, A., Casas, J. R., Turmo, J., Cristoforetti, L., Tobia, F.,
Pnevmatikakis, A., Mylonakis, V., Talantzis, F., Burger, S., Stiefelhagen,
R., Bernardin, K. et Rochet, C. (2007b). The CHIL audiovisual corpus for lecture
and meeting analysis inside smart rooms. Language resources and evaluation, 41(3–
4):389–407.
[Mustafa El Hadi et Jouis, 1998] Mustafa El Hadi, W. et Jouis, C. (1998). Terminology extraction and acquisition from textual data : criteria for evaluating tools and
methods. In Proceedings of the first International Conference on Language Resources
and Evaluation (LREC), pages 1175–1178, Granada, Spain.
[Mustafa El Hadi et al., 2005] Mustafa El Hadi, W., Timimi, I., Choukri, K.,
Chiao, Y.-C. et Hamon, O. (2005). CESART : Campagne dÉvaluation de Systèmes
dÁcquisition des Ressources Terminologiques. In Atelier dÉvaluation des outils déxtraction terminologique dans le cadre des 6èmes Rencontres Terminologie et Intelligence
Artificielle TIA0́6, page 9, Rouen, France.
[Mustafa El Hadi et al., 2006] Mustafa El Hadi, W., Timimi, I., Dabbadie, M.,
Choukri, K., Hamon, O. et Chiao, Y.-C. (2006). Terminological resources acquisition tools : towards a user-oriented evaluation. In Proceedings of the 5th International
Conference on Language Resources and Evaluation, pages 945–948, Genoa, Italy.
[Nazarenko et Poibeau, 2004] Nazarenko, A. et Poibeau, T. (2004). Evaluation des
systèmes d’analyse et de compréhension du texte, pages 127–148. Lavoisier, Paris. ISBN
2-7462-0862-8.
[Nazarenko et al., 2009] Nazarenko, A., Zargayouna, H., Hamon, O. et van Puymbrouck, J. (2009). Evaluation des outils terminologiques : enjeux, difficultés et propositions. Traitement Automatique des Langues (TAL), 50(1):257–281.
[Niessen et al., 2000] Niessen, S., Och, F. J., Leusch, G. et Ney, H. (2000). An Evaluation Tool for Machine Translation : Fast Evaluation for MT Reseach. In Proceedings of
the 2nd International Conference on Language Resources and Evaluation, pages 29–45,
Athens, Greece.
[Ninova et al., 2005] Ninova, G., Nazarenko, A., Hamon, T. et Szulman, S. (2005).
Comment mesurer la couverture d’une Ressource Terminologique pour un Corpus ? In
Actes des Ateliers de la 12ème Conférence annuelle sur le Traitement Automatique des
Langues Naturelles (TALN 2005), pages 293–302, Dourdan.
[NIST, 2003] NIST (2003). The 2003 NIST Machine Translation Evaluation Plan
(MT03). Rapport technique, NIST.
[Nomura, 1992] Nomura, H. (1992). JEIDA Methodology and Criteria on Machine
Translation Evaluation. Rapport technique, Japan Electronic Industry Development
Association (JEIDA), Tokyo.
[Nübel, 1997] Nübel, R. (1997). End-to-End Evaluation in VerbMobil I. In Proceedings
of the MT Summit VI, pages 232–239, San Diego.
244
BIBLIOGRAPHIE
[Och et Ney, 2000] Och, F. J. et Ney, H. (2000). A comparison of alignment models
for statistical machine translation. In Proceedings of the 18th International Conference
on Computational Linguistics (COLING-ACL 2000), pages 1086–1090, Saarbrücken,
Germany.
[Papineni et al., 2001] Papineni, K., Roukos, S., Ward, T. et Zhu, W.-J. (2001).
BLEU : a Method for Automatic Evaluation of Machine Translation. Rapport technique, IBM Research Division, Thomas J. Watson Research Center.
[Papineni et al., 2002] Papineni, K., Roukos, S., Ward, T. et Zhu, W.-J. (2002).
BLEU : A method for automatic evaluation of machine translation. In Proceedings
of the 40th Annual Meeting of the Association for Computational Linguistics, pages
311–318. Association for Computational Linguistics.
[Paroubek et al., 2005] Paroubek, P., Robba, I., Vilnat, A. et Pouillot, L.-G.
(2005). Easy : Campagne dévaluation des analyseurs syntaxiques. In Actes des Ateliers
de la 12ème Conférence annuelle sur le Traitement Automatique des Langues Naturelles
(TALN 2005), Dourdan.
[Paroubek et al., 2007] Paroubek, P., Vilnat, A., Robba, I. et Ayache, C. (2007). Les
résultats de la campagne EASY d’évaluation des analyseurs syntaxiques du françcais.
In Actes de la 14ème Conférence annuelle sur le Traitement Automatique des Langues
Naturelles (TALN 2007), pages 243–252, Toulouse.
[Peckham, 1991] Peckham, J. (1991). Speech understanding and dialouge over the telephone : an overview of the ESPRIT SUNDIAL. In HLT ’91 : Proceedings of the
workshop on Speech and Natural Language, pages 14–27, Morristown, NJ, USA. Association for Computational Linguistics.
[Peñas et al., 2004] Peñas, A., Verdejo, F. et Herrera, J. (2004). Spanish Question
Answering Evaluation. In CICLing, pages 472–483.
[Plamondon, 2004] Plamondon, L. (2004). L’ingénierie de la langue avec GATE. Rapport technique, Université de Montréal, RALI.
[Popescu-Belis, 1999] Popescu-Belis, A. (1999). L’évaluation en génie linguistique :
un modèle pour vérifier la cohérence des mesures. Langues : cahiers d’études et de
recherches francophones, 2(2):151–162.
[Popescu-Belis, 2007] Popescu-Belis, A. (2007). Le rôle des métriques d’évaluation
dans le processus de recherche en TAL. Traitement Automatique des Langues (TAL),
48(1):67–91.
[Price, 1990] Price, P. J. (1990). Evaluation of spoken language systems : the ATIS
domain. In HLT ’90 : Proceedings of the workshop on Speech and Natural Language,
pages 91–95, Morristown, NJ, USA. Association for Computational Linguistics.
[Rajman et Hartley, 2001] Rajman, M. et Hartley, A. (2001). Automatically predicting MT systems ranking compatible with Fluency, Adequacy and Informativeness
scores. In Proceedings of the 4th ISLE Workshop on MT Evaluation, MT Summit
VII, pages 29–34, Santiago de Compostela, Spain.
[Rajman et Hartley, 2002] Rajman, M. et Hartley, A. (2002). Automatic ranking of
MT systems. In Proceedings of the 3rd International Conference on Language Resources
and Evaluation (LREC), volume 4, pages 1247–1253, Las Palmas, Spain.
245
BIBLIOGRAPHIE
[Raymond, 2007] Raymond, S. (2007). Ajax on Rails. O’Reilly. ISBN 10 :0-596-52744-6.
[Sampson, 1995] Sampson, G. (1995). Susanne Corpus. School of Cognitive & Computing Sciences, University of Sussex.
[Saracevic, 1995] Saracevic, T. (1995). Evaluation of Evaluation in Information Retrieval. In Fox, E. A., Ingwersen, P. et Fidel, R., éditeurs : SIGIR’95, Proceedings of
the 18th Annual International ACM SIGIR, Conference on Research and Development
in Information Retrieval, pages 138–146, Seattle, Washington, USA. ACM Press.
[Schmid, 1994] Schmid, H. (1994). Probabilistic Part-of-Speech Tagging Using Decision
Trees. In Proceedings of the International Conference on New Methods in Language
Processing, pages 44–49, Manchester, UK.
[Sekine et Isahara, 2000] Sekine, S. et Isahara, H. (2000). IREX : IR and IE evaluationbased project in Japanese. In Proceedings of the 2nd International Conference on
Language Resources and Evaluation, pages 1106–1110, Athens, Greece.
[Somers et Sugita, 2003] Somers, H. et Sugita, Y. (2003). Evaluating Commercial Spoken Language Translation Software. In Proceedings of the Ninth Machine Translation
Summit, pages 370–377, New Orleans, USA.
[Sparck Jones et Galliers, 1996] Sparck Jones, K. et Galliers, J. R. (1996). Evaluating Natural Language Processing Systems : An Analysis and Review. Number 1083 in
Lecture Notes in Artificial Intelligence. Springer.
[Stufflebeam, 1974] Stufflebeam, D. L. (1974). Meta Evaluation. Occasional Paper
Series, page 121.
[Stüker et al., 2006] Stüker, S., Zong, C., Reichert, J., Cao, W., Kolss, M., Xie,
G., Peterson, K., Ding, P., Arranz, V., Yu, J. et Waibel, A. (2006). Speech-toSpeech Translation Services for the Olympic Games 2008. In MLMI, pages 297–308.
[Surcin et al., 2005] Surcin, S., Hamon, O., Hartley, A., Rajman, M., PopescuBelis, A., Mustafa El Hadi, W., Timimi, I., Dabbadie, M. et Choukri, K.
(2005). Evaluation of Machine Translation with Predictive Metrics beyond BLEU/NIST : CESTA Evaluation Campaign #1. In Proceedings of the MT Summit X, pages
117–124, Phuket, Thailand.
[Tillmann et al., 1997] Tillmann, C., Vogel, S., Ney, H., Zubiaga, A. et Sawaf, H.
(1997). Accelerated dp based search for statistical translation. In In European Conf.
on Speech Communication and Technology, pages 2667–2670.
[Timimi et Mustafa El Hadi, 2008] Timimi, I. et Mustafa El Hadi, W. (2008). CESART : une campagne d´évaluation de systèmes d’acquisition de ressources terminologiques, pages 71–89. Hermès, Lavoisier, Paris. ISBN 978-2-7462-1992-2.
[Turmo et al., 2009] Turmo, J., Comas, P. R., Rosset, S., Galibert, O., Moreau,
N. et Mostefa, D. (2009). Overview of QAst 2009. In Working Notes for the CLEF
2009 Workshop, Corfu, Greece.
[Van den Heuvel et al., 2006] Van den Heuvel, H., Choukri, K., Gollan, C., Moreno, A. et Mostefa, D. (2006). TC-STAR : New language resources for ASR and
SLT purposes. In In proceedings of the sixth international conference on Language
Resources and Evaluation (LREC), pages 2570–2573, Genoa, Italy. ELDA.
246
BIBLIOGRAPHIE
[van Rijsbergen, 1979] van Rijsbergen, C. J. K. (1979). Information Retrieval, 2nd
edition. Dept. of Computer Science, University of Glasgow.
[van Slype, 1979] van Slype, G. (1979). Critical Study of Methods for Evaluating the
Quality of Machine Translation. Rapport technique Final report BR 19142, Brussels :
Bureau Marcel van Dijk.
[Véronis et al., 2008] Véronis, J., Hamon, O., Ayache, C., Belmouhoub, R., Kraif,
O., Laurent, D., Nguyen, T. M. H., Semmar, N., Stuck, F. et Zaghouani, W.
(2008). La campagne d´évaluation ARCADE II, pages 47–69. Hermès, Lavoisier, Paris.
ISBN 978-2-7462-1992-2.
[Vidal, 1997] Vidal, E. (1997). Finite-State Speech-to-Speech Translation. Acoustics,
Speech, and Signal Processing, IEEE International Conference on, 1:111.
[Vilar et al., 2007] Vilar, D., Leusch, G., Ney, H. et Banchs, R. E. (2007). Human
Evaluation of Machine Translation Through Binary System Comparisons. In Proceedings of the Second Workshop on Statistical Machine Translation, pages 96–103, Prague,
Czech Republic. Association for Computational Linguistics.
[Villemonte de la Clergerie, 2007] Villemonte de la Clergerie, E. (2007). PASSAGE,
Produire des Annotations Syntaxiques à Grande Échelle. In Actes du Grand Colloque
STIC 2007, Paris, France.
[Villemonte de la Clergerie et al., 2008] Villemonte de la Clergerie, E., Ayache, C.,
de Chalendar, G., Francopoulo, G., Gardent, C. et Paroubek, P. (2008). Large
scale production of syntactic annotations for French. In In proceedings of the First
Workshop on Automated Syntactic Annotations for Interoperable Language Resources
at IGCL’08, pages 45–52, Hong Kong.
[Vilnat et al., 2004a] Vilnat, A., Paroubek, P., Monceaux, L., Robba, I., Gendner,
V., Illouz, G. et Jardino, M. (2004a). The ongoing Evaluation campaign of Syntactic
Parsing of French : EASY. In Proceedings of LREC’04, pages 2023–2026, Lisboa,
Portugal.
[Vilnat et al., 2004b] Vilnat, A., Paroubek, P., Monceaux, L., Robba, I., Gendner, V., Illouz, G. et Jardino, M. (2004b). The ongoing Evaluation campaign of
Syntactic Parsing of French : EASY. In Proceedings of LREC’04, pages 2023–2026,
Lisboa, Portugal.
[Walker et al., 1997] Walker, M. A., Litman, D. J., Kamm, C. A. et Abella, A.
(1997). PARADISE : A Framework for Evaluating Spoken Dialogue Agents. In Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics
(ACL 1997), pages 271–280, Madrid, Spain.
[Weaver, 1955] Weaver, W. (1955). Translation. Reproduced in : Locke. W. N. & Booth,
A. D. (eds.) Machine translation of languages : fourteen essays (Cambridge, Mass. :
Technology Press of the Massachusetts Institute of Technology), pages 15–23.
[Weizenbaum, 1966] Weizenbaum, J. (1966). ELIZA—a computer program for the
study of natural language communication between man and machine. Communications of the ACM, 9(1):36–45.
[White et al., 1994] White, J. S., O’Connel, T. A. et O’Mara, F. E. (1994). The
ARPA MT evaluation methodologies : evolution, lessons, and future approaches. In
247
BIBLIOGRAPHIE
Proceedings of the First Conference of the Association for Machine Translation in the
Americas, pages 193–205, Columbia, Maryland, USA.
[Widlöcher et Bilhaut, 2005] Widlöcher, A. et Bilhaut, F. (2005). La plate-forme
LinguaStream : un outil d’exploration linguistique sur corpus. In Actes de la 12ème
Conférence annuelle sur le Traitement Automatique des Langues Naturelles (TALN
2005), pages 517–522, Dourdan.
[Winograd, 1971] Winograd, T. (1971). Procedures as a Representation for Data in a
Computer Program for Understanding Natural Language. Rapport technique, MIT AI.
[Witte et al., 2010] Witte, R., Cunningham, H., Patrick, J., Beisswanger, E.,
Buyko, E., Hahn, U., Verspoor, K. et Coden, A. R., éditeurs (2010). New Challenges for NLP Frameworks (NLPFrameworks 2010), Valletta, Malta. ELRA.
[Ye et Abney, 2006] Ye, Y. et Abney, S. (2006). How and Where do People Fail with
Time : Temporal Reference Mapping Annotation by Chinese and English Bilinguals. In
Workshop on Frontiers in Linguistically Annotated Corpora 2006, pages 13–20, Sydney,
Australia.
[Yvon, 2007] Yvon, F. (2007). Une petite introduction au traitement automatique des
langues. Rapport technique, LIMSI.
[Zargayouna et al., 2007] Zargayouna, H., Hamon, O. et Nazarenko, A. (2007). Evaluation des outils terminologiques : état des lieux et propositions. In Actes des 7èmes
rencontres Terminologiques et Intelligence Artificielle TIA’07, Sophia Antipolis.
[Zhang et al., 2005] Zhang, X., Li, Y. et Jewel, S. (2005). Design and Evaluation of
a Prototype User Interface Supporting Sharing of Search Knowledge in Information
Retrieval. In Proceedings of the 68th Annual Meeting of the American Society for
Information Science and Technology (ASIST), page 32, Charlotte, North Carolina.
[Zhang et Vogel, 2004] Zhang, Y. et Vogel, S. (2004). Measuring Confidence Intervals
for the Machine Translation Evaluation Metrics. In International Conference on Theoretical and Methodological Issues in Machine Translation (TMI 2004), Baltimore, MD
USA, October 4-6, 2004, pages 4–6.
248
Annexe A
Résultats succincts de projets abordés
A.1
TC-STAR
Les meilleurs systèmes de reconnaissance automatique de la parole ne dépassent pas
6 % de taux d’erreur (c’est-à-dire de mots non reconnus ou erronés). Pour les systèmes
de traduction automatique, les scores vont au-delà de 50 % d’après la métrique BLEU,
et au-dessus de 3 sur une échelle de 5 lorsque les traductions sont évaluées par des juges
humains (au-dessus de 4 pour les traductions de référence). Enfin, pour les systèmes de
synthèse de la parole, les meilleurs scores de qualité donnés par des juges humains se
situent entre 3 et 4 sur une échelle de 5 (contre 4,80 sur 5 pour des sons issus de voix
humaines). Une évaluation en cascade permet aussi d’évaluer un « système TC-STAR »
dans son ensemble en combinant les trois technologies. Des juges humains répondent à
des questions sur le contenu de ce qu’ils écoutent, « comme s’ils étaient des députés
européens ». Il s’avère qu’entre 60 % et 80 % de l’information peut être captée, malgré
une qualité à l’écoute plutôt faible si l’on compare les résultats automatiques à ce que
fournit un interprète de la Communauté Européenne. Les évaluations successives nous
ont permis de voir les améliorations des technologies, même s’il reste beaucoup de chemin
à parcourir pour atteindre le niveau d’un interprète.
A.2
CESTA
CESTA 1 , avait pour cadre l’évaluation des systèmes de traduction automatique. L’objectif de CESTA était d’organiser deux campagnes de test, la première mesurant la qualité des traductions produites automatiquement par des systèmes - commerciaux ou de
recherche - dans un domaine général, la seconde mettant en évidence la capacité des systèmes à s’adapter à un domaine spécifique, en un temps limité. Parallèlement, CESTA
visait à étudier la fiabilité des mesures d’évaluation automatiques, en vue d’offrir à la
communauté un protocole et des données d’évaluation réutilisables, pour des systèmes
traduisant de l’anglais ou de l’arabe vers le français. Du point de vue de l’organisation,
une des problématiques était de rassembler des systèmes de traduction automatique dans
1. http ://www.technolangue.net/article199.html
249
Annexe A : Résultats succincts de projets abordés
une même campagne autour d’un protocole commun. La définition d’un jeu de données de
bonne qualité et l’expérimentation de nouvelles mesures d’évaluation étaient également
prévues.
Les résultats des deux campagnes ont été riches en enseignements, notamment lors
de la seconde campagne, où il a été rendu compte des difficultés pour les systèmes de
s’adapter à un domaine de spécialité. Par exemple, bien que discutée actuellement au sein
de la communauté, la métrique d’évaluation la plus utilisée, BLEU, permet de se faire
une idée de la qualité d’une traduction en la comparant à une traduction humaine à l’aide
de séquences de n-grammes 1 . Là où les meilleurs systèmes automatiques obtiennent des
scores proches de 55 % de n-grammes reconnus, une traduction humaine est supposée être
parfaite 2 . De même, la comparaison entre un domaine général et un domaine de spécialité
traduit la difficulté des systèmes à s’adapter (avec des résultats BLEU respectivement
proches de 55 % et proches de 40 %). Par ailleurs, à l’heure actuelle les métriques humaines
comparent encore la qualité de deux traductions. Les traductions humaines dépassent
largement une note de 4,5 sur une échelle de 5 et les meilleures traductions automatiques
dépassent rarement la note de 3,5.
A.3
CESART
CESART 3 , avait pour but l’évaluation des outils d’acquisition de ressources terminologiques. Elle suit la campagne ARC A3 de l’AUF [Béguin et al., 1997] et poursuit la
recherche d’une méthodologie d’évaluation de différents types de systèmes sur des données
communes [Timimi et Mustafa El Hadi, 2008], tout en cherchant à définir de nouvelles
mesures d’évaluation. Outre le manque de disponibilité de telles mesures, une des problématique lors de l’organisation de la campagne fut de rassembler des outils hétérogènes
autour d’une même tâche : l’extraction terminologique regroupe différentes tâches qui ne
sont pas toujours en adéquation, et dont les formats d’entrée/sortie sont fortement indépendants. Les objectifs des systèmes évalués étaient d’ores et déjà difficiles à définir. Cela
s’est ressenti lorsqu’il a fallu faire le bilan de la campagne d’évaluation, où finalement
peu de systèmes ont concouru, comparé aux attentes des organisateurs et au nombre de
systèmes existants.
Deux domaines ont servi pour le test des systèmes : un premier, le domaine de la
santé était composé de pages Internet provenant du site Santé Canada 4, pour un corpus
d’environ 9 millions de mots (contenus dans 255 000 phrases et 7 500 documents) ; le
second, le domaine de l’éducation était composé d’articles de la revue de pédagogie et de
recherche en éducation Spirale, pour un corpus d’environ 535 000 mots (contenus dans
12 000 phrases et 149 documents).
Pour conduire l’évaluation lors de la tâche T1, deux listes de termes représentatives des
domaines respectifs ont été utilisées comme référentiel par les experts. Pour le domaine
médical, il s’agit de termes basés sur la terminologie provenant de l’équipe CISMeF 5 et
1. Un n-gramme est dans ce contexte une séquence ordonnée de n mots.
2. Supposée, car du fait des multiples possibilités de traduction (une phrase en anglais peut être
traduire de nombreuses manières différentes en français), il n’y a pas de traduction parfaite possible.
3. http ://www.technolangue.net/article.php3 ?id_article=200
4. http ://www.hc-sc.gc.ca/index_f.html
5. http ://www.chu-rouen.fr/terminologiecismef
250
A.4. PASSAGE
contenant 22 861 entrées. Pour le domaine de l’éducation, la liste de référence est issue
du thésaurus Motbis 1 et est composée de 36 081 entrées. La tâche d’évaluation consiste
alors à effectuer dans un premier temps un appariement automatique de la sortie des
systèmes avec le référentiel. L’évaluation manuelle par un expert est ensuite conduite en
attribuant aux candidats termes (c.-à-d. les termes proposés par les systèmes) un score de
1 à 5 correspondant au degré de pertinence. Pour la tâche T2 d’extraction des relations
synonymiques, l’évaluation manuelle par un expert est menée en donnant une note sur
une échelle de 1 à 3 pour mesurer la pertinence de la relation. Les résultats ont montré une
forte disparité entre systèmes, traduisant des approches et des objectifs très différents des
systèmes évalués. De plus, le niveau de qualité était considéré comme relativement bas,
compte tenu d’un corpus finalement peu adapté à la tâche, du fait de sa taille (supérieure
à 9 millions de mots) et de sa provenance (des pages Internet) introduisant beaucoup
d’erreurs et de bruit.
A.4
PASSAGE
PASSAGE avait pour cadre l’évaluation de systèmes d’analyse syntaxique pour le
français. L’objectif était double : améliorer les performances des analyseurs syntaxiques
et exploiter les annotations syntaxiques produites pour créer des ressources linguistiques.
PASSAGE fait suite à la campagne d’évaluation des analyseurs syntaxiques (EASy). Deux
campagnes d’évaluation ont été conduites. La première campagne, effectuée en 2007, a
vu 11 analyseurs syntaxiques être testés sur 45 000 phrases annotées manuellement au
préalable. Les résultats ont montré des pourcentages élevés en f-mesure pour l’évaluation
selon les types de constituants, et des performances plus mesurées en ce qui concerne
les relations. L’architecture développée a également porté ses fruits et soulevé un grand
intérêt parmi les participants et organisateurs de l’évaluation.
La seconde campagne, effectuée en 2009, était plus ambitieuse : 11 analyseurs syntaxiques avaient à produire des annotations automatiquement sur un corpus de 100 million de mots. Ils étaient alors évalués sur une sous-partie de ce corpus. Cette campagne
a montré les difficultés technique de gérer un tel volume de donnée, tout d’abord du
point de vue des participants mais aussi et surtout de celui des évaluateurs, l’architecture
développée ayant montré ses limites.
A.5
EQueR
EQueR avait pour but l’évaluation des systèmes de question-réponse. Deux tâches ont
été proposées aux participants : une tâche générique pour laquelle les systèmes étaient
évalués sur une collection hétérogène de documents et une tâche spécialisée pour laquelle
les systèmes étaient évalués sur une collection de documents provenant du domaine médical. Les systèmes devaient répondre à 500 pour la tâche générique et à 200 questions
pour la tâche spécialisée.
C’est par expertise humaine qu’est identifiée la qualité des sorties des systèmes, en
fournissant des jugements sur les réponses courtes (de l’ordre de quelques mots) ou sur
les passages (pouvant atteindre quelques phrases). À chaque type de question est alors
1. http ://www.cndp.fr/motbis
251
Annexe A : Résultats succincts de projets abordés
calculé un score de pertinence (Moyenne des Réciproques du Rang pour des questions de
types « factuel », « définition » et « oui/non », Précision Moyenne non Interpolée pour
des questions de type « liste ») et une moyenne est donnée pour chaque système. Les
résultats ont montré une très forte disparité selon les systèmes, un système ressortant
particulièrement tandis que les autres obtenaient des scores plus bas. Pour l’évaluation
sur les réponses courtes dans un domaine générique, le meilleur résultat est de l’ordre de
67 % et de 81 % pour les passages. Les taux baissent de 20 à 30 % lorsque les systèmes
sont évalués sur un domaine spécialisé.
252
Annexe B
Chronologie sur l’évaluation en TAL
253
Annexe B : Chronologie sur l’évaluation en TAL
254
Annexe C
Exemples de métriques utilisées en TAL
C.1
C.1.1
Traduction automatique
BLEU
BLEU (Bilingual Evaluation Understudy) est une métrique automatique, expérimentée
par le National Institut of Standard (NIST), et développée par IBM [Papineni et al., 2001].
L’idée de départ est de comparer des segments (généralement des phrases) à partir de
séquences de n-grams. Dans ce contexte, un n-gram est une séquence ordonnée de n mots,
considérés comme une suite de lettres séparées par des blancs.
D’une manière simplifiée, la métrique compte pour une phrase à évaluer le nombre de
mots contenus dans une ou plusieurs phrases de référence. La qualité d’une traduction
est d’autant élevée que la phrase à évaluer partage un nombre important de n-grams avec
une ou plusieurs des traductions de référence. Une des spécificités de BLEU est l’emploi
de plusieurs traductions de référence.
De plus, BLEU applique une pénalité aux traductions dont le différentiel (en termes
de n-grams) avec la traduction de référence est important cela afin d’éviter qu’un mot
n’apparaisse plus fréquemment dans le document traduit qu’il ne le peut dans le document
de référence, et ainsi empêcher les scores d’être trop importants.
Le calcul de BLEU (cf. équation C.1) se fait au moyen de la moyenne géométrique des
précisions des n-grams allant jusqu’à la taille N pondéré par un poids positif wn , établi à
1/N par le NIST lors de leur campagne. La pénalité de « brièveté » (taille du document
candidat plus court que celle du document de référence), BP , est un facteur modifiant le
score de BLEU par un facteur exponentiel sur le ratio entre la taille du document candidat
et celle du document de référence.
!
N
X
BLEU = BP · exp
wn log pn
(C.1)
n=1
où :
BP =
1
si c > r
(1− re )
e
si c ≤ r
r = taille du document de référence
255
Annexe C : Exemples de métriques utilisées en TAL
c = taille du document candidat
N =4
1
w =P
N
P
p=
c∈{candidats}
P
c∈{candidats}
n∈{candidats}
P
Countclip (n)
n∈{candidats} Count(n)
NIST (cf. équation C.2) est une métrique alternative à BLEU, qui calcule la moyenne
arithmétique des précisions des n-grams en prenant compte des comparaisons des longueurs. N sera plutôt fixé, avec la métrique NIST, à 5. Le score de NIST s’applique à
tous les mots du document de référence, tandis que le score de BLEU est appliqué localement à des séquences de mots. En effet, count(n-gram) compte le nombre d’occurrences
sur toutes les traductions de référence, et NIST permet ainsi de mieux distinguer les
différentes qualité de traduction.
NIST =
N
X
n=1
(P
n−gram∈Ei′
P
inf o(n-gram)
n-gram ∈ Ei′ 1
exp(βlog2 min(Lsys /Lref , 1))
)
(C.2)
où :
β = facteur de pénalité
N = taille maximale du n-gram
Lsys = nombre de mots en sortie du système
Lref = nombre moyen de mots dans la traduction de référence
count((n−1)-gram)
inf o(n-gram) = log2 ( count(n-gram) )
count(n-gram) = nombre d’occurences d’un n-gram dans toutes les traductions de
référence
C.1.2
mWER
Le WER (Word Error Rate) indique le pourcentage de mots qui sont insérés, supprimés, ou substitués dans une phrase traduite automatiquement par rapport à une phrase de
référence [Tillmann et al., 1997, Vidal, 1997]. La performance du système est évaluée en
termes de taux d’erreur au niveau des mots en utilisant une distance d’édition, également
appelée distance de Levenshtein [Levenshtein, 1966]. En d’autres termes, on comptabilise
le nombre minimal d’opérations nécessaires pour passer d’une traduction automatique à
la traduction de référence. La principale limite de cette mesure est de ne considérer qu’une
seule traduction de référence, alors que celle-ci n’est pas la seule valable et qu’il existe
presque toujours de nombreuses autres traductions de référence possibles pour un même
texte source.
Le mWER (multi-reference Word Error Rate) est similaire au WER, à la différence
que plusieurs traductions de références sont prises en compte [Niessen et al., 2000].
C.1.3
WNM
La métrique WNM (Weighted N-gram Model) [Babych et al., 2003] est une combinaison des métriques BLEU [Papineni et al., 2001] et LTV (Legitimate Translation Variation) [Babych et Hartley, 2004] et permet de prédire des scores d’adéquation et de fluidité.
WNM obtient globalement de meilleurs résultats sur l’adéquation ce qui est certainement
256
C.1. Traduction automatique
dû au fait que LTV fournit déjà de meilleurs résultats que BLEU. LTV applique une pondération aux mots du document statistiquement significatifs et calcule cette pondération
en comparant les fréquences des mots à l’ensemble du corpus.
La proposition des auteurs est d’étendre l’évaluation de BLEU et les scores de proximité (distance entre les traductions humaine et automatique) au poids statistique des
termes pertinents ou significatifs dans un texte. Leur hypothèse est basée sur la mesure
de l’importance relative des termes lexicaux pour les traductions humaines. Il s’agit ici
d’une combinaison des mesures tf.idf et S-score pour chaque catégorie lexicale.
Le modèle statistique td.idf (cf. équation C.3) mesure la pertinence des mots dans
un document. Il combine l’importance du terme pour un document (tf ), et le pouvoir
de discrimination de ce terme (idf ). Ainsi, un terme qui a une valeur tf.idf élevée doit
être à la fois important dans ce document, mais doit aussi apparaître peu dans les autres
documents. C’est le cas où un terme correspond à une caractéristique importante et unique
d’un document.
tf.idf (i, j) = (1 + log(tfij )log(N/dfi )
(C.3)
où :
tfij est le nombre d’occurrences du mot wi dans le document dj
dfi est le nombre de documents dans le corpus contenant wi
N est le nombre de documents dans le corpus
Le S-score (cf. équation C.4) calcule la pertinence des objets lexicaux d’un document
donné. Proche de tf.idf, la mesure est similaire et vise à déterminer si un terme est important sur tout le corpus ou s’il est spécifique à un document précis ; c’est un calcul de
pertinence.
s(i, j) = log
(Pdoc(i,j) − Pcorp−doc(i) ) × (N − df(i) )/N
Pcorp(i)
(C.4)
où :
Pdoc(i,j) est la fréquence relative du mot dans le texte
Pcorp−doc(i) est la fréquence relative de ce mot dans le corpus, texte exclu
(N − dfi )/N est le nombre de texte du corpus où le mot n’apparaît pas
Pcorp(i) est la fréquence relative du mot dans le corpus, texte inclus
Les différents mots, communs à la traduction de référence et la traduction évaluée,
n’ont pas le même poids. Un mot statistiquement significatif aura une meilleure pondération. Cette dernière est calculée en confrontant la fréquence d’un mot dans un texte
et dans le reste du corpus. La formule utilisée est celle du score td.idf, utilisé dans la
recherche d’information. La seule différence avec cette formule est la normalisation des
mots du corpus par la fréquence relative (apportée du S-score).
En règle générale, les mots tels que les noms d’évènement ou les termes spécifiques sont
plus signifiants statistiquement parce qu’il n’existe pour ces mots qu’une seule traduction
possible. À l’inverse, d’autres mots plus fonctionnels pourront être traduits de différentes
façons, selon les traducteurs humains ; on revient alors à la notion de LTV. Les mots dont
la signification statistique est plus importante auront une plus grande pondération. LTV
peut alors calculer trois types de scores : la précision, le rappel et le f-score. D’après les
expérimentations, le rappel correspond à l’adéquation, tandis que le f-score correspond à
la fluidité
257
Annexe C : Exemples de métriques utilisées en TAL
C.2
C.2.1
Recherche d’information
Précision moyenne non interpolée ou UAP
La précision moyenne non interpolée (UAP pour Uninterpolated Average Precision,
aussi appelée NIAP, Non Interpolated Average Precision) calcule la pertinence du classement de documents retournés par un système. Pour chaque document retourné, cette mesure calcule la précision p en fonction de son rang dans la liste ordonnée des N documents
retournés. La précision moyenne non interpolée est finalement obtenue en additionnant
les précisions en rang des différents documents et en divisant cette somme par le nombre
total de documents pertinents retournés (cf. équation C.5).
N
1 X
UAP (N) =
p(i) ×
N i=1
Pi
j=1
p(j)
i
(C.5)
Le tableau C.1 présente un exemple de calcul de l’UAP. Supposons qu’un moteur de
recherche ait renvoyé sept documents ordonnés parmi lesquels trois sont pertinents.
Rang du document renvoyé
1
2
3
4
5
6
7
Pertinence (oui/non) Précision
non
oui
1/2
non
oui
2/4
non
non
oui
3/7
Table C.1 – Exemple de précisions calculées pour chaque document pertinent.
Pour cet exemple, la précision moyenne non interpolée est :
UAP (7) = 1/7(1/2 + 2/4 + 3/7) = 0, 20
Il s’agit d’un score de précision et plus le score est élevé, plus le moteur de recherche
est pertinent. Pour ce même exemple, le score de précision est de P(7) = 3/7 = 0 ,43. Il
est alors possible de dire que 43% des documents renvoyés sont pertinents. Cependant,
l’UAP permet de préciser que les documents ne sont pas ordonnés de manière optimale.
La limite supérieure de l’UAP étant le score de précision, si UAP (N) = P (N), alors il est
possible de dire que le classement est optimisé, même si la précision n’est pas suffisante.
C.2.2
Moyenne des Réciproques du Rang ou MRR
La mesure que nous avons adoptée était la Moyenne des Réciproques du Rang (MRR).
La Moyenne des Réciproques du Rang (MRR) tient compte du rang de la première
bonne réponse trouvée (d’après une métrique TREC) parmi un ensemble N de questions
posées. Si une bonne réponse est trouvée plusieurs fois, elle n’est comptée qu’une seule
fois (cf. équation C.6).
258
C.2. Recherche d’information
N
1
1 X
MRR =
N i=1 rang de la première réponse correcte
(C.6)
Les systèmes ne trouvant pas la bonne réponse en rang 1 sont désavantagés.
Par exemple, soit trois questions et pour chacune d’entre elles, les 5 réponses ordonnées
suivantes (1 étant une réponse correcte, 0 une réponse incorrecte) :
Question
1
2
3
Réponse 1 Réponse 2 Réponse 3
0
0
1
0
1
0
1
0
0
Réponse 4 Réponse 5
1
1
1
1
1
1
La moyenne des réciproques du rang vaut :
MRR = 1/2 × (1/3 + 1/2 + 1/1) = 1/2 × 11/6 = 11/12
259
Annexe C : Exemples de métriques utilisées en TAL
260
Annexe D
Exemple de standardisation sur les
corpus textuels
D.1
Contexte et historique
Parmi les corpus précurseurs, le corpus Brown 1 (The Brown Corpus of Standard American English) est le premier corpus informatisé à avoir été compilé, en 1967, par la Brown
University de Providence, aux États-Unis. La taille du corpus est de 1 million de mots,
provenant de textes écrits en 1961. Encore utilisé de nos jours, il est composé de 500 documents de 2 000 mots chacun, repartis en 15 catégories (presse, religion, humour, etc.).
Peu de temps après, en 1968, un nouveau corpus de 1 million de mots (200 documents
de 5 000 mots chacun) est constitué par la University College of London. Son contenu est
représentatif de l’anglais britannique écrit, mais également parlé, puisqu’il contient autant des documents écrits que des transcriptions de documents parlés. Le corpus Brown a
inspiré bon nombre de corpus, tels que les corpus LOB, Kolhapur, SSE (Survey of Spoken
English), Wellington, Australian, etc. Ces corpus concernent chaque fois une langue anglaise régionale (Nouvelle-Zélande, Australie, Inde, etc.) et sont basés sur le même modèle
de structure. De la même manière, de nombreux et larges corpus « nationaux » ont vu
le jour à partir de la fin des années 1980, auxquels s’ajoutent la plupart du temps des
annotations. À commencer par le British National Corpus (100 millions de mots), puis
le American National Corpus (100 millions de mots), mais on peut citer entre autres les
Croatian National corpus, Czech National Corpus, Hellenic National Corpus, Hungarian
National corpus, etc.
L’utilisation de corpus pour la recherche ou des applications commerciales apporte de
nombreuses possibilités pour le traitement automatique des langues. Lors du développement de systèmes, l’approche à base de corpus permet de profondes améliorations, comme
notamment en étiquetage morphosyntaxique ou en traduction automatique. Cela nécessite l’annotation des corpus, qui est souvent coûteuse mais nécessaire. Il est utile ici de
citer les travaux de [Francis et Kucera, 1982] qui ont été parmi les premiers a étiqueter
un corpus, le corpus Brown, et à le rendre disponible à l’ensemble de la communauté,
1. http ://www.ldc.upenn.edu/cgi-bin/ldc/textcorpus ?doc=yes&corpus=BROWN
261
Annexe D : Exemple de standardisation sur les corpus textuels
permettant ainsi des progrès conséquents en recherche.
Les corpus sont également utilisés avec succès lors de campagnes d’évaluation,
comme la plupart d’entres elles peuvent le démontrer (MUC, TREC, CLEF, campagnes
EVALDA, etc.). Dans un même temps, ces campagnes permettent la production de nouvelles ressources, favorisant la recherche et le développement de systèmes, lorsque ces
ressources sont réutilisées.
En 1992, le corpus SUSANNE 1 (Surface and Underlying Structural ANalysis of Natural English) est développé par la University of Sussex [Sampson, 1995] et a pour but de
représenter une taxinomie des unités grammaticales sur l’anglais. Le corpus est étiqueté
syntaxiquement et est un sous-ensemble du corpus Brown. Il contient 64 fichiers de 2 000
mots annotés syntaxiquement.
En 1993, le groupe EAGLES définit des normes pour les corpus textuels à propos de
la typologie, l’encodage, l’annotation (syntaxique et morphosyntaxique) et autres recommandations sur ce type de corpus. Un des résultats concrets se trouve dans la définition
du standard d’encodage de corpus (CES 2 - Corpus Encoding Standard ), étant une application SGML des standard de la TEI 3 (Text Encoding Initiative). Ces standards se sont
développés et ont été maintenus depuis 1994, ils ont pour objectif de définir un guide pour
l’encodage et la représentation des textes sous forme électronique.
En 1994-1995, le projet européen MLAP-93/20 a développé et aligné un corpus parallèle (c.-à-d. contenant des traductions réciproques) anglais, français et espagnol (CRATER 4 - Corpus Resources and Terminology Extraction), devenant le premier corpus de ce
type a être rendu disponible à l’ensemble de la communauté. Divers outils ont également
été développés pour l’alignement de corpus, la navigation dans ce corpus trilingue, ainsi
que l’extraction de terminologie.
Associé au projet EAGLES, le projet Multext (Multilingual Text Tools and Corpora,
1996) définit lui aussi des standards et spécifications, entre autres pour l’encodage et le
traitement de corpus textuels. Sur un plan plus pratique que celui d’EAGLES, Multext a
travaillé sur deux corpus (JOC - Journal Officiel de la communauté Européenne - et Dagens Industri 1993) totalisant six langues (anglais, allemand, espagnol, français et italien
pour le JOC, suédois pour le Dagens Industri 1993).
Le projet PAROLE 5 (1996-1998) avait pour but de créer un ensemble de corpus pour
toutes les langues de l’Union Européenne de l’époque (français belge, catalan, hollandais,
anglais, français, finnois, allemand, grec, irlandais, italien, norvégien, portugais et suédois) et d’harmoniser ces corpus d’après certains critères : les textes ne devaient pas être
plus vieux que 1970 et contenir dans une certaine proportion les mêmes types de textes
(livres, journaux, périodiques, divers). Cet effort d’harmonisation était également appliqué à l’encodage textuel et linguistique des corpus. Chacun des corpus était ainsi codé
en respectant à la fois la DTD PAROLE (qui est dérivée de la DTD des guides TEI) et
celle de la CES. Environ 250 000 mots étaient étiquetés morphosyntaxiquement d’après
un guide d’annotation défini au cours du projet. Par la suite, en 1999, le projet SIMPLE 6
a permis d’ajouter des informations sémantiques sur les corpus PAROLE.
1.
2.
3.
4.
5.
6.
http
http
http
http
http
http
://www.csc.fi/english/research/software/susanne
://www.cs.vassar.edu/CES
://www.tei-c.org
://www.comp.lancs.ac.uk/linguistics/crater/corpus.html
://www.elda.fr/catalogue/en/text/doc/parole.html
://www.ub.es/gilcub/SIMPLE/simple.html
262
D.1. Contexte et historique
À partir de 1987 et ce jusqu’à nos jours, le corpus Le Monde a été développé progressivement en compilant l’ensemble des articles du journal du même nom. Cela représente
environ 50 000 articles par an, constituant la plus grosse base de données de la presse
française et très certainement un des corpus les plus utilisés en traitement automatique
de la langue française.
Si le développement de corpus monolingues, souvent représentatifs de la grammaire
d’une langue donnée, a été longtemps privilégié, les corpus parallèles sont a priori de
plus en plus demandés et a fortiori développés en conséquence. Pour aller plus loin, le
besoin de plus en plus pressant de grandes quantités de données amène les développeurs à
utiliser des corpus comparables [Déjean et Gaussier, 2002], composés de documents écrits
dans deux langues différentes et ayant un vocabulaire commun, sans pour autant être un
assemblage de documents parallèles.
Ainsi, un large corpus multilingue et parallèle a été développé dans le projet C-STAR 1
(Consortium for Speech Translation Advanced research), démarré en 1991, puis poursuivi
de 1993 à 1999 avec le projet C-STAR II.
De même, en 2001 le corpus Hansard 2 a été développé lors du projet Rewrite 3 et
contenait 1,3 million de paires de phrases alignées provenant d’enregistrement du 36e Parlement Canadien. Le format du corpus choisi est très simple, puisqu’il s’agit de fichiers
contenant une phrase par ligne.
Démarré en 1996, et se poursuivant encore actuellement, le corpus Europarl 4 (European Parliament Proceedings Parallel Corpus) inclus 11 langues extraites d’enregistrements du Parlement Européen. Le corpus multilingue contient à l’heure actuelle 44 millions
de mots par langue. Ce corpus fait partie d’un plus gros ensemble de corpus (OPUS 5 )
développé sous licence Open Source, regroupant différents corpus multilingues alignés de
domaines techniques (Open Office, opensubtitles.org, messages du système KDE, manuel
KDE, manuel PHP) ou institutionnels (Parlement Européen, constitution européenne,
agence médicale européenne).
Le JRC-Acquis 6 , actuellement dans sa version 3.0, est l’un des corpus parallèles les
plus importants, créé à partir de plus de 20 langues européennes incluant, de manière
quasi unique, des combinaisons rares (telle que la paire Estonien-Grec). Les documents
bilingues alignés respectent le format XML des standards de la TEI, et chacun d’entre
eux est classé selon des domaines bien spécifiques. Le nombre de mots varie entre 20 et
60 millions par langue présente.
Dorénavant, les très grands corpus sont de plus en plus employés, notamment dans le
cadre d’approches statistiques, demandeuses de grosses masses de données. La production
de telles ressources se fait notamment en utilisant des données provenant d’Internet, que
ce soit pour des données monolingues ou bilingues. On parle désormais de corpus TERABYTE, comme les corpus WT10g, GOV ou « terabyte» utilisés lors des campagnes
TREC 7 (tâches terabyte).
1.
2.
3.
4.
5.
6.
7.
http
http
http
http
http
http
http
://www.c-star.org
://www.isi.edu/natural-language/download/hansard
://www.isi.edu/natural-language/projects/rewrite/index.html
://www.iccs.inf.ed.ac.uk/ pkoehn/publications/europarl
://urd.let.rug.nl/tiedeman/OPUS
://langtech.jrc.it/JRC-Acquis.html
://trec.nist.gov
263
Annexe D : Exemple de standardisation sur les corpus textuels
D.2
Formats de codage
Longtemps considéré comme le standard en la matière, l’encodage de caractères ASCII
n’est plus vraiment utilisé à l’heure actuelle, ou très peu. Il a tout d’abord été abandonné
par l’ISO (International Organization for Standardization) qui a défini les standards ISO8859-1 à ISO-8859-15, afin d’inclure des caractères indispensables comme les caractères
accentués des principales langues européennes. Seulement, le développement de l’informatique et des communications a créé un nouveau besoin de représentation des caractères
d’autres langues telles que les langues asiatiques, ce que ne permettaient pas les standards
ISO. Pour pallier ce problème, le format Unicode a été spécifié, rendant possible l’emploi
de nombreux caractères, mais pêchant encore par la taille accrue des documents. Ainsi,
l’encodage UTF-8 1 a été spécifié, qui permet de réduire les défauts du format Unicode.
De par ses nombreux avantages (encodage d’immenses quantités de caractères, taille, correspondance exacte avec l’encodage ASCII pour les États-Unis, etc.), l’encodage UTF-8
est finalement passé dans les mœurs, étant devenu le standard de l’Internet (l’UTF-8 est
utilisé par défaut pour les documents XML), et donc de l’informatique.
Par conséquence, mais aussi par facilité, l’UTF-8 est l’encodage le plus utilisé lors de
la construction de corpus textuels. Il est utile entre autres pour les corpus multilingues
ou la production de ressources pour des langues non européennes.
Le formatage des documents textuels constituants les corpus peut se faire de trois
manières différentes :
– formatage brut du texte, sans aucun élément autre que le contenu informatif,
– formatage balisé du texte, permettant d’enrichir le corpus d’informations complémentaires à l’aide d’un système de balisage (SGML, XML, XHTML, etc.),
– formatage compilé du texte, lisible la plupart du temps par un logiciel spécifique
(formats Word, RTF, PDF, ODT, etc.).
Le second format est le plus couramment utilisé, car il permet l’annotation de corpus
et l’ajout d’annotations afin d’enrichir le contenu d’informations complémentaires (ou
méta informations). Il est alors possible de distinguer à tout moment le texte brut de
ses annotations. Différent type d’annotations peuvent ainsi être ajoutées au corpus brut
initial, telles que :
– Des informations documentaires : langue employée, identification des segments, méthode, taille, etc.
– Des informations structurales : titre, paragraphe, phrase, mot, etc.
– Des informations linguistiques : syntaxe, sémantique, etc.
Par exemple en annotation syntaxique, la construction d’un corpus annoté de référence permet d’illustrer l’intérêt d’une telle démarche : ce corpus est constitué d’énoncés
clairement délimités par des balises, permettant lors d’une évaluation de le comparer aux
résultats des systèmes. En effet chaque corpus contiendra une annotation manuelle des
énoncés quant aux traits syntaxiques des mots les constituant.
Afin d’incorporer de manière simple ces annotations, plusieurs systèmes ont été employés, essentiellement le SGML (Standardized Generalized Markup Language) développé
en 1960, et le XML (eXtended Markup Language) développé en 1998. D’une structure
plus simple, c’est ce dernier qui s’est imposé pour la création de corpus. Le XML est un
langage de balisage générique pour lequel un document balisé est attaché à un schéma (la
1. Créé par Ken Thompson en 1992
264
D.3. Formats de stockage
DTD - Document Type Definition). Chaque document attaché à un même schéma doit
respecter le jeu de balises que ce dernier offre.
Dans un premier temps, la norme TEI (Text Encoding Initiative) 1 , application du
format SGML, définit une DTD à même de traiter les documents textuels dans leur
ensemble tout en prenant exemple sur de nombreux types de textes (prose, dictionnaire,
théâtre, poésie, etc.) et plusieurs domaines (publication électronique, analyse littéraire,
recherche documentaire, etc.). La DTD ainsi conçue pour la TEI, modulaire, permet
notamment de définir de nouvelles balises ou de redéfinir celles existantes. Cette possible
personnalisation de la DTD est alors considérée comme une application de la TEI, c’està-dire qu’elle est appliquée dans un cadre bien spécifique. C’est le cas pour le Corpus
Encoding Standard (CES) qui définit un standard d’encodage de corpus dans le cadre du
projet MULTEXT 2 , associé à EAGLES et la collaboration VASSAR/CNRS 3 . À partir
de la DTD de la TEI [Ide et Véronis, 1996], le CES fournit ainsi un ensemble de DTD
spécifiques au codage des corpus textuels, accompagnées de recommandations quant à
leur usage. Le standard a par la suite été redéfini en XML : XCES 4 .
Le CES distingue les données brutes des données annotées (et contenant des informations linguistiques uniquement), qui doivent être séparées : les deux types de données sont
placées dans des fichiers bien distincts, le lien entre données et données annotées se faisant via des liens hypertextes. Par ailleurs, trois DTD sont définies, issues des DTD de la
TEI : CesDoc (encodage des données brutes), CesAna (encodage des données annotées) et
CesAlign (alignement de textes parallèles multilingues). Finalement, le CES définit trois
niveaux d’encodage des documents, d’une structure grossière (jusqu’au niveau du paragraphe) à une structure plus fine (éléments internes au paragraphe) ; ces trois niveaux
d’encodage ont un coût croissant et une automatisation de production décroissante.
En dehors de MULTEXT, le CES a été employé dans le projet PAROLE 5 qui a approfondi la définition des modèles sur deux types de données spécifiques : les unités morphologiques et les unités syntaxiques. Une DTD est proposée pour permettre l’encodage
des données brutes analysées et annotées.
Si les principes (XML, DTD, niveau d’encodage, etc.) du CES sont communément
admis, il faut reconnaître qu’en pratique la séparation des données (brutes et annotées)
ne se fait que très rarement : la plupart du temps les données sont regroupées dans un
même document et sont attachées à une même DTD commune.
D.3
Formats de stockage
Les formats de stockage sont de deux types : le stockage du contenu et le stockage
physique.
Le format de stockage du contenu dépend des caractéristiques mêmes du corpus, à
savoir :
– La taille (un corpus très volumineux va être divisé en plusieurs fichiers pour plus
de commodité lors de son utilisation). Les corpus en recherche d’information sont
1.
2.
3.
4.
5.
http
http
http
http
http
://www.tei-c.org
://aune.lpl.univ-aix.fr/projects/multext
://www.cs.vassar.edu/ ide/research/
://www.xces.org
://www.ub.es/gilcub/SIMPLE/simple.html
265
Annexe D : Exemple de standardisation sur les corpus textuels
souvent divisés de manière à n’avoir qu’une centaine de documents par fichier, afin
de ne pas avoir de fichiers trop volumineux, mais aussi de manière limitée afin de
ne pas avoir un trop grand nombre de fichiers (l’un comme l’autre des cas pouvant
poser des problèmes pour les systèmes).
– L’homogénéité : on pourra placer les documents dans des répertoires ou des fichiers
différents selon qu’il contiennent des parties bien distinctes ou non. Par exemple,
la structure d’un corpus bilingue anglais-français peut être telle que les documents
anglais sont placés dans un répertoire « EN » et les documents français dans un
répertoire « FR ».
– La structure : le corpus peut être constitué d’un document par fichier ou de plusieurs
documents par fichiers, le plus souvent regroupés selon le contexte ou la thématique.
Il est très facile d’imaginer un corpus annoté, composé de données provenant de
domaines variés (courriers électroniques, journaux, discours, etc.) : il devient alors
judicieux de décomposer le corpus en plusieurs sous corpus, dans plusieurs fichiers
distincts, afin d’observer ou de paramétrer le système en fonction des besoins. Au
contraire, dans d’autres cas d’utilisation (une évaluation en contexte par exemple)
il pourra être plus judicieux de ne pas distinguer ces différents corpus.
La documentation du corpus aura tendance à être placée à part de manière bien
distincte. Elle doit être facilement accessible.
D’une manière générale, les corpus textuels « bruts » sont placés dans des fichiers
« textes » (avec ou sans extension txt), les corpus avec encodage balisé dans des fichiers
avec l’extension .xml, .sgml, etc. Un corpus textuel peut également être composé de fichiers
compilés non reformaté, de type Word ou PDF, dans des cas d’utilisation en contexte réel.
La plupart du temps, le format de stockage physique dépend d’une part du volume
des documents composants le corpus, et d’autre part de ses caractéristiques, selon que le
corpus est homogène ou contient des parties bien distinctes. Pour de petits corpus, les
données peuvent être déposées sur un serveur FTP pour être directement téléchargées via
le réseau. Ce stockage peut également se faire sur CD-ROM ou DVD-ROM si le corpus est
plus volumineux. L’emploi de disque dur est l’ultime recours lors de corpus extrêmement
volumineux.
266
Annexe E
Liste des acronymes
E.1
Liste des acronymes de projets et de campagnes
ARC
ARCADE
ATIS
C-STAR
CESART
CESTA
CLEF
CRATER
DUC
EASy
EQueR
ESTER
EVALDA
EvaSy
GALE
GRACE
IREX
LC-STAR
MEDIA
Actions de Recherche Concertée
Action de Recherche Concertée sur l’Alignement de Documents et son
Évaluation
Air Travel Information System
Consortium for Speech Translation Advanced research
Campagne d’Évaluation de Systèmes d’Acquisition de Ressources Terminologiques
Campagne d’Évaluation de Systèmes de Traduction Automatique
Cross Language Evaluation Forum
Corpus Resources and Terminology Extraction
Document Understanding Conferences
Évaluation des analyseurs Syntaxiques
Évaluation de systèmes de Question-Réponse
Évaluation des Systèmes de Transcription enrichie d’Émissions Radiophoniques
EVALuation à ELDA
Évaluation de systèmes de Synthèse de la parole
Global Autonomous Language Exploitation
Grammaires et Ressources pour les Analyseurs de Corpus et leur Evaluation
Information Retrieval and Extraction Exercise
Lexica and Corpora for Speech-to-Speech Translation Components
Méthodologie d’Évaluation automatique de la compréhension hors et en
contexte du DIAlogue
267
Annexe E : Liste des acronymes
MUC
Multext
OSIRIM
PASSAGE
Plus
SQALE
Sundial
SUS
TC-STAR
TAC
TDIL
TDT
TREC
E.2
Message Understanding Conference
Multilingual Text Tools and Corpora
Open Services for Indexing and Research Information in Multimedia
Produire des Annotations Syntaxiques à Grande Échelle pour aller de
l’avant
A Pragmatics-based Language Understanding System
Speech recognizer Quality Assessment for Linguistic Engineering
Speech Understanding and Dialogue
Speech Understanding Systems
Technology and Corpora for Speech to Speech Translation
Text Analysis Conference
Technology Development for Indian Languages
Topic Detection and Tracking
Text REtrieval Conferences
Liste des acronymes d’institutions
AFP
ANR
ARPA
ATALA
AUF
CEA
CNRS
DARPA
EDF
ELDA
ELRA
IBM
ISLE
ISSCO
JEIDA
LDC
LIA
LIPN
MIT
NIST
ONU
RALI
RCLN
SPEX
UNESCO
Agence France Presse
Agence Nationale de la Recherche
Advanced Research Projects Agency
Association pour l’étude et le développement de la Traduction Automatique et de la Linguistique Appliquée
Association des Universités Francophones
Commissariat à l’Énergie Atomique et aux Énergies Alternatives
Centre National de la Recherche Scientifique
Defense Advanced Research Projects Agency
Électricité de France
Evaluations and Language resources Distribution Agency
European Language Resources Association
International Business Machines Corporation
International Standards for Language Engineering
Institut Dalle Molle pour les études sémantiques et cognitives
Japan Electronics Industry Development Association
Linguistic Data Consortium
Laboratoire Informatique d’Avignon
Laboratoire d’Informatique de Paris-Nord
Massachusetts Institute of Technology
National Institute of Standards and Technology
Organisation des Nations Unies
Recherche Appliquée en Linguistique Informatique
Représentation des Connaissances et Langage Naturel
Speech Processing EXpertise
United Nations Educational, Scientific and Cultural Organization
268
E.3. Liste des acronymes du traitement automatique des langues et de l’évaluation
E.3
Liste des acronymes du traitement automatique
des langues et de l’évaluation
ALPAC
ASR
BLEU
CER
CES
COD
EAGLES
ELSE
EPPS
Europarl
FAHQT
FEMTI
FTE
GATE
GTM
IWSLT
JEP
JOC
LREC
MLCC
MOS
MULTEXT
PER
ROVER
SLT
SSE
SUSANNE
TAL
TALN
UIMA
WER
WMT
WNM
E.4
API
ASCII
Automatic Language Processing Advisory Committee
Automatic Speech Recognition
BiLingual Evaluation Understudy
Character Error Rate
Corpus Encoding Standard
Complément d’Objet Direct
Expert Advisory Group on Language Engineering Standards
Evaluation in Language and Speech Engineering
European Parliament Plenary Session
European Parliament Proceedings Parallel Corpus
Fully Automatic High Quality Translation
Framework for the Evaluation of Machine Translation in ISLE
Final Text Edition
General Architecture for Text Engineering
General Text Matcher
International Workshop on Spoken Language Translation
Journées d’Étude sur la Parole
Multilingual Text Tools and Corpora
Language Resources and Evaluation Conference
Multilingual Corpora for Co-operation
Mean Opinion Score
Multilingual Text Tools and Corpora
Position-independent word error rate
Recognizer Output Voting Error Reduction
Spoken Language Translation
Survey of Spoken English
Surface and Underlying Structural ANalysis of Natural English
Traitement Automatique des Langues
Traitement Automatique des Langues Naturelles
Unstructured Information Management Architecture
Word Error Rate
Workshop on statistical Machine Translation
Weighted N-gram Model
Liste des acronymes de l’informatique
Application Programming Interface
American Standard Code for Information Interchange
269
Annexe E : Liste des acronymes
CAS
CD-ROM
CGI
CORBA
DTD
DVDROM
FTP
HTML
HTTP
HTTPS
IEC
IP
ISO
JMS
KDE
ODT
PDF
PHP
RAID
RMI
RTF
SGML
SOAP
Sofa
TEI
UDDI
UMLS
UTF-8
XHTML
XML
WSDL
Common Analysis Structure
Compact Disc - Read Only Memory
Common Gateway Interface
Common Object Request Broker Architecture
Document Type Definition
Digital Versatile Disc - Read Only Memory
File Transfer Protocol
Hypertext Markup Language
Hypertext Transfer Protocol
Hypertext Transfer Protocol Secured
International Electrotechnical Commission
Internet Protocol
International Organization for Standardization
Java Message Service
K Desktop Environment
OpenDocument Text
Portable Document Format
PHP : Hypertext Preprocessor
Redundant Array of Independent Disks
Remote Method Invocation
Rich Text Format
Multilingual Text Tools and Corpora
Simple Object Access Protocol
multiple Subject of Analysis
Text Encoding Initiative
Universal Description Discovery and Integration
Unified Medical Language System
UCS Transformation Format 8 bits
Extensible HyperText Markup Language
eXtended Markup Language
Web Service Description Language
270
Glossaire
Accord inter-juges
Accord intra-juge
Adjudication
Adéquation
Application
Architecture
Campagne d’évaluation
Coefficient de corrélation
Composant technologique
Critère d’évaluation
Echelle de valeurs
Evaluateur
Mesure de la concordance des jugements entre
plusieurs juges, 107
Mesure de la cohérence d’un juge avec luimême, 125
Analyse et vérification des résultats de l’évaluation par les participants et les organisateurs. Les résultats sont corrigés et ajustés en
fonction des commentaires reçus, 77
Conservation du sens entre une phrase écrite
dans une langue source et une phrase écrite
dans une langue cible, 115
Ensemble de programmes informatiques facilitant à un utilisateur la réalisation d’une tâche
donnée, 1
Modélisation des relations entre composants
technologiques. Ensemble des procédures et
outils nécessaires à une évaluation regroupés
et organisés au sein d’une même structure, 43
Ensemble coordonné de tâches liées à l’organisation d’une évaluation de plusieurs systèmes
à des fins de comparaison, 4
Mesure du degré de dépendance qui existe
entre deux variables, 164
Élément de base (système ou technologie) d’un
système plus complexe, capable de communiquer avec d’autres composants au sein d’une
chaîne de traitement, 44
Indication des éléments considérés pour l’évaluation d’une caractéristique d’un système, 33
Suite de niveaux hiérarchisés afin de rendre
compte du niveau de la qualité atteint pour
un critère donné, 59
Entité (organisation, individu) organisant et
structurant une évaluation, 3
271
Glossaire
Evaluation
Evaluation automatique
Evaluation comparative
Evaluation d’un système isolé
Evaluation humaine
Expert
F-mesure
Fluidité
Action d’apprécier la valeur de quelque chose,
2
Contexte d’une évaluation utilisant une mesure automatique, 34
Évaluation qui permet d’estimer la performance de systèmes par rapport à d’autres dans
un même contexte, 20
Évaluation d’un système pris à part sans
considérer d’autres systèmes d’une même technologie ni les comparant, 4
Contexte d’une évaluation utilisant une mesure humaine., 34
Individu étant spécialisé et ayant des compétences reconnues dans un domaine ou dans
l’utilisation d’une technologie, d’un système
ou d’une application, 34
Mesure qui combine le rappel et la précision
avec une pondération, 110
Facilité à lire un texte dans une langue donnée,
et correspondance avec les conventions grammaticales de cette langue, 115
Infrastructure d’évaluation
Entité rassemblant la totalité des moyens et
ressources pour évaluer : organisations, acteurs, agents, architectures, etc., 43
Juge
Individu effectuant des jugements, qu’il soit
expert ou utilisateur, 34
Appréciation subjective de la qualité à partir
des connaissances de juges, 2
Jugements humains
Mesure d’évaluation
Mesure d’évaluation automatique
Fonction qui formule une valeur de la qualité
d’une entité (phrase, document, terme, etc.),
33
Se dit d’une mesure employant principalement
un ou des programmes informatiques pour la
mener à bien. Une intervention manuelle peut
se faire a priori afin de préparer la partie automatique. La partie automatique permet la
reproductibilité de la mesure, 34
272
Glossaire
Mesure d’évaluation humaine
Module
Méga-évaluation
Métrique
Métrique automatique
Plate-forme
Post-édition
Précision
Se dit d’une mesure nécessitant une intervention manuelle a posteriori. Une partie automatique peut apparaître (pour préparer la partie manuelle, pour la synthétiser, etc.) mais
elle est moindre comparée à la partie manuelle. L’intervention humaine provoque la
non-reproductibilité de la mesure, 34
Programme, structure de programmation ou
librairie utilisé par un système et effectuant
une action précise, 25
Observation d’évaluations répétées au cours
du temps et de l’évolution de leurs résultats.
Mise en pratique de l’évaluation d’impact, 51
Programme permettant le calcul de la qualité
à partir de données fournies à l’avance. Partie
applicative de la mesure, 49
Programme calculant le niveau de qualité à
partir de références pré-établies, 2
Partie technologique de l’architecture. Ensemble des systèmes, des applications de TAL
ou d’évaluation regroupés au sein d’un réseau
sur lequel parcourent des flux de données, 43
En traduction automatique, se dit d’une traduction corrigée manuellement, a posteriori ,
12
Mesure de la pertinence d’une réponse : calcule le rapport entre le nombre d’objets pertinents renvoyés et le nombre d’objets renvoyés,
110
Rappel
Mesure de la couverture d’une réponse :calcule
le rapport entre le nombre d’objets pertinents
renvoyés et le nombre d’objets pertinents de
référence, 110
Système
Ensemble de programmes informatiques permettant d’automatiser une tâche, 1
Utilisateur
Individu qui fait l’usage final d’une technologie, d’un système ou d’une application sans
pour autant avoir une expertise, 34
WER
Word Error Rate pour taux d’erreur sur les
mots, métrique dérivée de la distance de Levenshtein, 144
273
RÉSUMÉ : Le développement de systèmes en traitement automatique des langues
(TAL) nécessite de déterminer la qualité de leurs résultats. L’évaluation a pour but
d’améliorer ces systèmes mais suppose de formaliser dans un contexte particulier
une méthodologie, un protocole, des ressources linguistiques (RLs, les données nécessaires à l’apprentissage et au test des systèmes) ou des mesures d’évaluation.
Nous cherchons à faciliter l’accès à l’évaluation et à améliorer son efficacité car un
important travail manuel vient compromettre son déroulement et sa fiabilité. Nous
avons formalisé le déroulement d’une campagne d’évaluation et ses différentes phases
pour définir un cadre commun compréhensible par tous dont le point phare concerne
l’utilisation de mesures d’évaluation. Nous avons effectué trois études sur les mesures
humaines, les mesures automatiques et l’automatisation du calcul de la qualité, et
enfin la méta-évaluation des mesures. En parallèle, elles utilisent des RLs dont les
aspects pratiques et administratifs ont leur place dans notre architecture. L’étude
des similarités entre les technologies et entre leurs évaluations nous a permis de
les hiérarchiser et d’en faire ressortir leurs caractéristiques communes. Finalement,
nous centrons l’évaluation autour d’une architecture d’évaluation générique, adaptable aux différentes technologies du TAL, et pérenne en permettant la réutilisation
de RLs, mesures ou méthodes au cours du temps. Suite à des premières expérimentations, nous avons modélisé une architecture d’évaluation qui considère l’ensemble
de ces contraintes et utilise des services Web.
TITLE : Towards a generic and sustainable architecture for evaluation in natural
language processing : specifications, methodologies and measures
ABSTRACT : The development of Natural Language Processing (NLP) systems
needs to determine the quality of their results. Generally, evaluation aims at improving such systems as well as formalising a methodology, protocol, language resources
(LRs, data used for both system training and testing) or evaluation measures for
each particular context. Our objective is to render evaluation accessible while improving its efficiency since a manual work seriously compromises its procedure and
reliability. We have formalised the procedure for an evaluation campaign and its
different phases whose main objective is the use of evaluation measures. This allows
to define a common scope for all users. Three different studies have been carried out
on human measures, automatic measures and the automation of quality computation, respectively, as well as measure meta-evaluation. Moreover, these measures use
LRs and their practical and administrative issues also have their place in our architecture. The study of similarities between technologies and their evaluations has
allowed us to class them and highlight their common features, as a crucial step in
the integration of different approaches. Finally, we focus our evaluation on a generic
evaluation architecture, adaptable to different NLP technnologies, and sustainable
in its reuse of LRs, measures or methods over time. Following initial experiments, an
evaluation architecture has been defined which takes into account all the constraints
found and uses web services.
DISCIPLINE : informatique
MOTS-CLÉS : évaluation, traitement automatique des langues, protocole d’évaluation, mesure d’évaluation, métrique d’évaluation, méta-évaluation, architecture
d’évaluation, traduction automatique
Laboratoire d’Informatique de Paris-Nord, UMR CNRS 7030 – 99, avenue JeanBaptiste Clément, 93430 Villetaneuse – France