Analyse d`erreurs de traduction automatique - anr trace

Transcription

Analyse d`erreurs de traduction automatique - anr trace
CONTENUS NUMÉRIQUES
TRACE
Traduction Robuste par Analyse et Correction d’Erreurs
Programme Contenus et Interactions 2009
COORDINATEUR : Reverso-Softissimo
PARTENAIRES : LIMSI, Reverso-Softissimo
OBJECTIFS DU PROJET
Objectif principal : améliorer des systèmes de traduction automatique en les
rendant plus robustes et en optimisant la traductibilité
Etapes :
1. Amélioration de la robustesse des systèmes par correction et reformulation
du texte source :
 Texte plus compatible avec les attentes des systèmes
2.
Analyse d’erreurs de traduction
 Trouver des indicateurs de la difficulté et de la qualité d'une
traduction automatique
 Typer les erreurs, identifier les failles des systèmes
MÉTHODOLOGIE ET RÉSULTATS
Analyse d’erreurs de traduction automatique
Évaluation automatique de la qualité de traduction
•
Système d’évaluation de la qualité de traduction (estimation de confiance)
au niveau d’une phrase
Système d’estimation de la qualité de traduction
•
3ème meilleur système (campagne WMT'12)
•
Résultats postérieurs (avec une sélection de caractéristiques pertinentes)
meilleurs que ceux du premier système de WMT'12
MAE (Mean Absolute Error) = 0.586
•
•
Correction orthographique et grammaticale en source
Algorithme utilisé : arbres de régression M5P
Trois types de caractéristiques :
caractéristiques de surface (longueur des phrases, score du
modèle de langue, ...)
caractéristiques issues du moteur de traduction
caractéristiques linguistique (arbre syntaxique, ...)
Corpus de corrections en français
•
Textes bruités et leur correction automatique et manuelle
•
Source : blogs, interfaces web de correction et de traduction automatique
•
3 000 segments de 260 caractères en moyenne
•
Correction automatique vérifiée manuellement selon guide d’annotation
Diagnostics
Correcteurs automatiques
•
Correcteur à base de règles (http://www.reverso.net)
•
Correcteur statistique
•
Etudes sur l’hybridation des correcteurs
Corpus des erreurs de traduction (FR→EN et EN→FR)
Impact de la correction sur la traduction automatique
•
Correction automatique modifie 98% des segments bruités
•
Segments dont la traduction est modifiée après la correction :
Correction manuelle : 89%
Correction automatique (à base des règles) : 84%
•
Impact de la correction automatique sur la qualité de traduction
64% : améliorations
18% : qualité inchangée
15% : légères dégradations
3% : dégradations considérables
Plateforme de correction en ligne (à base de règles) :
•
Système d’évaluation de la qualité de correction et des suggestions
•
Collecte et analyse statistique du feedback des utilisateurs sur les
corrections automatiques
•
Outils pour gérer les différentiels entre différentes corrections
•
•
•
•
•
•
Identification des parties mal traduites
Analyse des erreurs : typologie et fréquence
Failles dans les systèmes de traduction, suggestion d’améliorations
Traduction automatique révisée manuellement (révision minimale)
≃ 10 000 phrases dont 1 000 révisées 2 fois par 2 traducteurs
2 systèmes de traduction (statistique et à base de règles) choisis
aléatoirement
Analyses des limites des systèmes de TA sur le corpus
•
•
Erreurs fréquentes : substitution des mots-outils
Différences entre les traductions automatiques et leur post-édition :
analyse inspirée des travaux en estimation de confiance
CONCLUSIONS ET PERSPECTIVES
Le projet a permis de
1. collecter et annoter des corpus de correction d’erreurs en source et
d’erreurs de traduction automatique
2.
développer des systèmes de correction automatique variés et performants
(en langue française)
 Impact positif sur la qualité de traduction
3.
développer un système d’estimation de confiance pour la traduction
 au niveau de performances des meilleurs systèmes actuels
Publications, données, rapports :
 http://anrtrace.limsi.fr
[email protected]