Analyse d`erreurs de traduction automatique - anr trace
Transcription
Analyse d`erreurs de traduction automatique - anr trace
CONTENUS NUMÉRIQUES TRACE Traduction Robuste par Analyse et Correction d’Erreurs Programme Contenus et Interactions 2009 COORDINATEUR : Reverso-Softissimo PARTENAIRES : LIMSI, Reverso-Softissimo OBJECTIFS DU PROJET Objectif principal : améliorer des systèmes de traduction automatique en les rendant plus robustes et en optimisant la traductibilité Etapes : 1. Amélioration de la robustesse des systèmes par correction et reformulation du texte source : Texte plus compatible avec les attentes des systèmes 2. Analyse d’erreurs de traduction Trouver des indicateurs de la difficulté et de la qualité d'une traduction automatique Typer les erreurs, identifier les failles des systèmes MÉTHODOLOGIE ET RÉSULTATS Analyse d’erreurs de traduction automatique Évaluation automatique de la qualité de traduction • Système d’évaluation de la qualité de traduction (estimation de confiance) au niveau d’une phrase Système d’estimation de la qualité de traduction • 3ème meilleur système (campagne WMT'12) • Résultats postérieurs (avec une sélection de caractéristiques pertinentes) meilleurs que ceux du premier système de WMT'12 MAE (Mean Absolute Error) = 0.586 • • Correction orthographique et grammaticale en source Algorithme utilisé : arbres de régression M5P Trois types de caractéristiques : caractéristiques de surface (longueur des phrases, score du modèle de langue, ...) caractéristiques issues du moteur de traduction caractéristiques linguistique (arbre syntaxique, ...) Corpus de corrections en français • Textes bruités et leur correction automatique et manuelle • Source : blogs, interfaces web de correction et de traduction automatique • 3 000 segments de 260 caractères en moyenne • Correction automatique vérifiée manuellement selon guide d’annotation Diagnostics Correcteurs automatiques • Correcteur à base de règles (http://www.reverso.net) • Correcteur statistique • Etudes sur l’hybridation des correcteurs Corpus des erreurs de traduction (FR→EN et EN→FR) Impact de la correction sur la traduction automatique • Correction automatique modifie 98% des segments bruités • Segments dont la traduction est modifiée après la correction : Correction manuelle : 89% Correction automatique (à base des règles) : 84% • Impact de la correction automatique sur la qualité de traduction 64% : améliorations 18% : qualité inchangée 15% : légères dégradations 3% : dégradations considérables Plateforme de correction en ligne (à base de règles) : • Système d’évaluation de la qualité de correction et des suggestions • Collecte et analyse statistique du feedback des utilisateurs sur les corrections automatiques • Outils pour gérer les différentiels entre différentes corrections • • • • • • Identification des parties mal traduites Analyse des erreurs : typologie et fréquence Failles dans les systèmes de traduction, suggestion d’améliorations Traduction automatique révisée manuellement (révision minimale) ≃ 10 000 phrases dont 1 000 révisées 2 fois par 2 traducteurs 2 systèmes de traduction (statistique et à base de règles) choisis aléatoirement Analyses des limites des systèmes de TA sur le corpus • • Erreurs fréquentes : substitution des mots-outils Différences entre les traductions automatiques et leur post-édition : analyse inspirée des travaux en estimation de confiance CONCLUSIONS ET PERSPECTIVES Le projet a permis de 1. collecter et annoter des corpus de correction d’erreurs en source et d’erreurs de traduction automatique 2. développer des systèmes de correction automatique variés et performants (en langue française) Impact positif sur la qualité de traduction 3. développer un système d’estimation de confiance pour la traduction au niveau de performances des meilleurs systèmes actuels Publications, données, rapports : http://anrtrace.limsi.fr [email protected]