Sensibilisation à la Recherche
Transcription
Sensibilisation à la Recherche
SLR L. Barrault Introduction Parole Traduction Sensibilisation à la Recherche Problématique SMT Traduction Automatique Problématique et projets en traduction Publications Loïc Barrault TD TP [email protected] LIUM Université du Maine 3 mars 2015 SLR L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Plan • Présentation de la thématique de recherche • Publications scientifiques • Principes des solutions poursuivies au LIUM • TD et TP SLR Introduction L. Barrault Introduction Parole Traduction Problématique Activités de recherche au LIUM 1 EIAH 2 Traitement de la langue et de la parole SMT Problématique et projets en traduction Publications TD TP SLR Introduction L. Barrault Introduction Parole Traduction Problématique Activités de recherche au LIUM 1 EIAH 2 Traitement de la langue et de la parole SMT Problématique et projets en traduction etc ... Publications TD TP Reconnaissance Automatique de la Parole Traitement du locuteur Indexation Synthèse de la Parole Compréhension Texte en langue source Traduction Automatique Texte en langue cible SLR Introduction L. Barrault Introduction Parole Traitement de la langue et de la parole Traduction etc ... Problématique SMT Problématique et projets en traduction Publications Reconnaissance Automatique de la Parole Indexation Traitement du locuteur Synthèse de la Parole Compréhension TD TP Texte en langue source Traduction Automatique Texte en langue cible 3 applications principales • Reconnaissance de la parole • Traitement du locuteur (segmentation, identification) • Traduction automatique SLR Introduction L. Barrault Introduction Parole Traitement de la langue et de la parole Traduction etc ... Problématique SMT Problématique et projets en traduction Publications Reconnaissance Automatique de la Parole Indexation Traitement du locuteur Synthèse de la Parole Compréhension TD TP Texte en langue source Traduction Automatique Texte en langue cible 3 applications principales • Reconnaissance de la parole • Traitement du locuteur (segmentation, identification) • Traduction automatique SLR L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Parole SLR L. Barrault Reconnaissance de la parole Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP La communication parlée entre humains • Moyen le plus naturel • Moyen le plus rapide SLR L. Barrault Reconnaissance de la parole Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Domaines du traitement automatique de la parole • Reconnaissance de la parole (transcription) • Synthèse de la parole • Identification de la langue • Identification / vérification du locuteur • Indexation, détection de thèmes • Recherche d’information, question/réponse • Systèmes de dialogue • Traduction de la parole SLR L. Barrault Reconnaissance de la parole Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Domaines du traitement automatique de la parole • Reconnaissance de la parole (transcription) • Synthèse de la parole • Identification de la langue • Identification / vérification du locuteur • Indexation, détection de thèmes • Recherche d’information, question/réponse • Systèmes de dialogue • Traduction de la parole SLR Reconnaissance de la parole L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Quelques applications possibles • Commande vocale • Dictée vocale, entrée de formulaires • Prise de notes • Demande d’informations par téléphone • Recherche d’information dans des documents audio/vidéo • ... SLR L. Barrault Parole - Applications existantes Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Grand public • Commande et RI vocale sur téléphone portable • Dictée vocale grand public • Serveurs téléphoniques • Systèmes de dialogue • Indexation de documents audio → document de l’INA • Communication orale multilingue → Skype translate SLR L. Barrault Parole - Applications existantes Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Grand public • Commande et RI vocale sur téléphone portable • Dictée vocale grand public • Serveurs téléphoniques • Systèmes de dialogue • Indexation de documents audio → document de l’INA • Communication orale multilingue → Skype translate Professionnelles • Dictée de rapports médicaux • Suivi de média (nouvelles journalistiques, etc.) SLR L. Barrault Reconnaissance de la parole Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Domaines de recherche • Acoustique : mécanismes de production/propagation des ondes sonores • Phonétique, phonologie : étude des sons du langage • Linguistique : lexique, syntaxe, ... • Traitement du signal • Modélisation statistique • Algorithmique SLR Reconnaissance de la parole L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Complexité du signal de parole • Variabilité inter- et intra-locuteurs • Continuité du signal, →coarticulation • Distorsions temporelles • Parole chantée • Homophonie • conditions acoustiques • parole superposée →musique, réunion • etc . . . SLR Variabilités de la parole L. Barrault Introduction Parole avec adaptation indépendant de l’application Traduction Problématique SMT Problématique et projets en traduction Publications TD émissions radio, télé multilingue fictions documentaires parole conversationnelle journaux spontanée préparée journaux 65k ~ 1k TP articulation relâchée lue langages de commande application langage style de parole parole continue mots enchaînes nombres chiffres calme mots isolés articulation soignée monolocuteur indépendant du locuteur dépendant du matériel d’enregistrement locuteurs avec adaptation lieu public indépendant du matériel d’enregistrement avec adaptation accents régionaux/étrangers environment transmission 1980 1990 2000 SLR L. Barrault Reconnaissance de la parole Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Décomposition du Problème • Formulation probabiliste: Ŵ = argmax Pr(W |x) W Pr(x|W ) Pr(W ) Pr(x) W = argmax Pr(x|W ) Pr(W ) = argmax W SLR L. Barrault Reconnaissance de la parole Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Décomposition du Problème • Formulation probabiliste: Ŵ = argmax Pr(W |x) W Pr(x|W ) Pr(W ) Pr(x) W = argmax Pr(x|W ) Pr(W ) = argmax W Modèle Acoustique Pr(x|W ) : := Probabilité d’observer une suite de vecteurs acoustiques pour une suite de mots donnée SLR L. Barrault Reconnaissance de la parole Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Décomposition du Problème • Formulation probabiliste: Ŵ = argmax Pr(W |x) W Pr(x|W ) Pr(W ) Pr(x) W = argmax Pr(x|W ) Pr(W ) = argmax W Modèle de Langage Pr(W ) : := Probabilité de la séquence de mots W • Syntaxe et sémantique implicite • Véhiculée par les n-grams SLR L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Traduction SLR La Traduction Automatique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Le début • La traduction automatique est un des plus vieux domaines de recherche en informatique • Premier système de IBM en 1954 (Georgetown) • contexte : guerre froide • traduction russe/anglais de 60 phrases ⇒ Grande euphorie et multiples projets de recherche • Les résultats n’étaient malheureusement pas à la hauteur des attentes ( « rapport ALPAC » en 1966 ) SLR L. Barrault Introduction Parole La Traduction Automatique • Le principe du triangle de Vauquois (1968) interlingua Traduction TD TP sis aly an ion Publications semantic transfer rat Problématique et projets en traduction ne SMT ge Problématique syntactic transfer direct translation source language target language • Les approches utilisées sont basées sur l’analyse, le transfert et la génération de la phrase source • Grande implication d’humains bilingues spécialisés • Très peu de paires de langues traitées SLR L. Barrault La Traduction Automatique Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP La renaissance (années 90) • Des approches basées sur la réutilisation de textes traduits par des traducteurs humains se généralisent : • La traduction automatique à base d’exemples • Mémoires de traduction • L’approche statistique • Extraction automatique de toutes les connaissances ⇒ On n’a plus besoin d’humains bilingues SLR L. Barrault La Traduction Automatique Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Applications commerciales • Communauté européenne : • DGT: Direction Générale de la Traduction • Budget annuel de 1,1 billion Euros (1% du budget) • 2500 personnes traduisent 2M pages par ans • 23 langues officielles, 506 paires possibles • Abandon de la traduction systématique dans toutes les langues des pays membres • on garde les 11 langues les plus parlées • Recherche d’information multi-lingue sur internet • Localisation : traduction d’interfaces, de mode d’emploi, ... • Applications touristiques, humanitaires, militaires, ... SLR L. Barrault La Traduction Automatique Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP L’approche statistique : • L’intérêt au niveau international en constante augmentation • L’approche statistique est communément considérée comme la plus prometteuse • De nombreux centres de recherche s’y intéressent • des universités aux États-Unis, Japon, Allemagne, Italie, Angleterre, Espagne, ... • des entreprises comme IBM, Microsoft, Google, ... SLR L. Barrault La Traduction Automatique Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Pourquoi la traduction est compliquée ? • Les mots peuvent avoir plusieurs sens • Expressions idiomatiques • L’ordre des mots varie entre les langues • Morphologie • Solution non unique • L’évaluation automatique est difficile SLR L. Barrault La Traduction Automatique Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Différents sens des mots • Anglais : “plant” (arbre ou entreprise) • Anglais : “bank” (banque ou bord d’une rivière) ⇒ Souvent les différents sens correspondent à des traductions différentes SLR La Traduction Automatique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications Différents sens des mots • Anglais : “plant” (arbre ou entreprise) • Anglais : “bank” (banque ou bord d’une rivière) ⇒ Souvent les différents sens correspondent à des traductions différentes TD TP Expressions idiomatiques • Expressions qu’il ne faut pas traduire mot à mot • “Se retrouver au pied du mur” → “To be at the foot of the wall” ? • “tenir sa langue” → “keep his tongue” ? • “Ne pas mâcher ses mots” → “to not eat his words” ? SLR L. Barrault La Traduction Automatique Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Variation dans l’ordre des mots • Anglais : adjectif-substantif et sujet-verb-objet • Français : substantif-adjectif • Japonais : sujet-objet-verb • Allemand : position du verbe inhabituelle ⇒ Il faut réordonner les mots SLR La Traduction Automatique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Morphologie • “He is nice” → “Il est beau” • “She is nice” → “Elle est belle” • Traitement des accords en français • Arabe : singulier, pluriel et dual ⇒ En général, il est plus difficile de traduire vers une langue morphologiquement riche (donc autre que l’anglais) SLR La Traduction Automatique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Morphologie • “He is nice” → “Il est beau” • “She is nice” → “Elle est belle” • Traitement des accords en français • Arabe : singulier, pluriel et dual ⇒ En général, il est plus difficile de traduire vers une langue morphologiquement riche (donc autre que l’anglais) Utilisation des pronoms • Dans certaines langues comme l’espagnol on peut omettre les pronoms • La forme verbale peut déterminer la personne • Mais on ne sait pas s’il faut utiliser “he, she ou it” SLR L’approche statistique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Motivations : • Pourquoi aborder un problème linguistique avec des approches statistiques ? • La traduction automatique nécessite la prise de décisions : • • • • Choix d’un mot Expressions particulières Ordre des mots ... • Dépendances non-binaires, imprécises et floues • Problèmes propres à la traduction de la parole : • Erreurs, hésitations, reprises, ... • Interaction reconnaissance/traduction ? SLR L’approche statistique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Traduction par approche statistique = Modélisation linguistique + Prise de décisions par des méthodes statistiques SLR L’approche statistique L. Barrault Introduction Parole Traduction par approche statistique = Traduction Modélisation linguistique + Prise de décisions par des méthodes statistiques Problématique SMT Problématique et projets en traduction Publications TD TP • Traduction d’une phrase en français f vers l’anglais e e∗ = argmax P(e|f ) = argmax P(f |e)P(e) e e SLR L’approche statistique L. Barrault Introduction Parole Traduction par approche statistique = Modélisation linguistique + Traduction Prise de décisions par des méthodes statistiques Problématique SMT Problématique et projets en traduction Publications TD TP • Traduction d’une phrase en français f vers l’anglais e e∗ = argmax P(e|f ) = argmax P(f |e)P(e) e • Modèle de traduction statistique e SLR L’approche statistique L. Barrault Introduction Parole Traduction par approche statistique = Modélisation linguistique + Traduction Prise de décisions par des méthodes statistiques Problématique SMT Problématique et projets en traduction Publications TD TP • Traduction d’une phrase en français f vers l’anglais e e∗ = argmax P(e|f ) = argmax P(f |e)P(e) e • Modèle de traduction statistique • Modèle de langage statistique e SLR L’approche statistique L. Barrault Introduction Parole Traduction par approche statistique = Modélisation linguistique + Traduction Prise de décisions par des méthodes statistiques Problématique SMT Problématique et projets en traduction Publications TD TP • Traduction d’une phrase en français f vers l’anglais e e∗ = argmax P(e|f ) = argmax P(f |e)P(e) e • Modèle de traduction statistique • Modèle de langage statistique • Prise de décision statistique e SLR L’approche statistique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Principe (suite) : • Approche statistique de la traduction : ê = argmax Pr (e)Pr (f |e) e P(f |e) : modèle de traduction, P(e) : ML cible SLR L’approche statistique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Principe (suite) : • Approche statistique de la traduction : ê = argmax Pr (e)Pr (f |e) e P(f |e) : modèle de traduction, P(e) : ML cible • Similarité avec la reconnaissance de la parole : ŵ = argmax Pr (w)Pr (x|w) w SLR L’approche statistique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications 100k−200M de mots textes traduits existants (CEE, UN, ...) 10M−10T de mots Alignement des mots et extraction des traductions automatique textes monolingues (journaux, WEB, ...) Analyse statistique TD TP table des traductions go aller vais vas 0.55 0.13 0.21 go home rentrer à la maison 0.97 go across I go traverser je vais 0.71 1.0 Ça fonctionne très bien traducteur automatique P(il est beau)=0.98 P(il est belle)=0.02 modèles de langage This works very well SLR L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Problématique et projets en traduction SLR Problématiques L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP • Modélisation statistique • Adaptation au domaine/style/contenu • Évaluation • Langues sous-dotées SLR Modélisation statistique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Problématique • Comment représenter les traductions d’une langue vers une autre ? SLR Modélisation statistique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Problématique • Comment représenter les traductions d’une langue vers une autre ? • Modèles basés sur les segments (phrase-based) • Réseaux de neurones -> en plein essor ! SLR Modélisation statistique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Problématique • Comment représenter les traductions d’une langue vers une autre ? • Modèles basés sur les segments (phrase-based) • Réseaux de neurones -> en plein essor ! • Comment représenter une langue ? SLR Modélisation statistique L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Problématique • Comment représenter les traductions d’une langue vers une autre ? • Modèles basés sur les segments (phrase-based) • Réseaux de neurones -> en plein essor ! • Comment représenter une langue ? • lister les suites de mots possibles et leur attribuer une probabilité → + techniques pour gérer les événements non observés • Réseaux de neurones en plein essor ! SLR L. Barrault Introduction Modèle de traduction phrase-based Parole Traduction Problématique SMT Problématique et projets en traduction Publications • Format : source ||| cible ||| probabilités • Quelles probabilités ? • p(s̃|c̃) et p(c̃|s̃) : probabilité que s̃ soit une traduction de c̃ et inversement • lex(s̃|c̃) et lex(c̃|s̃) : probabilité lexicale TD TP 'a alliance with ||| alliance avec ||| 0.0104167 8.34926e-07 1 0.253669 2.718 ||| 1-0 2-1 ||| 96 1 'a alliance ||| alliance ||| 0.00032113 1.185e-06 1 0.795077 2.718 ||| 1-0 ||| 3114 1 'a both within and ||| comme ||| 8.0814e-06 2.48634e-14 1 0.0025963 2.718 ||| 3-0 ||| 123741 1 SLR Modèle neuronal L. Barrault Introduction Parole Estimation des probabilités Entrée Traduction Problématique SMT Couches cachées TD TP Projections partagées Représentation Représentation discrète continue Couche de sortie Publications Couche de projection Problématique et projets en traduction Probabilités ML pour tous les mots SLR Adaptation L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD Constat • Systèmes construits avec une grande quantité de données génériques → peu ou pas adapté à traduire des textes spécifiques Ex. rapports de commission européenne vs. textes médicaux TP Comment adapter les modèles statistiques ? • Sélection de données • Algorithme E.M. (notamment pour les MLs) • Optimisation des paramètres en fonction du domaine → méthodes dépendantes de la modélisation statistiques ! SLR Adaptation - Projets L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP MateCAT • Projet européen → intégration d’ou système de traduction automatique dans un outil de TAO → adaptation au domaine, au projet, au traducteur • Rôle du traducteur : post-édition → Corriger les sorties de traduction automatique • Objectif : gain de temps et donc d’argent ! https://www.matecat.com/ SLR Adaptation - Projets L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Broad Operational Language Translation (BOLT) • Projet DARPA • permettre aux soldats de dialoguer avec les populations locales → traduction de textes de domaines spécifiques → sorties d’ASR, forums, SMS, conversations type "chat" PEA TRAD • Projet DGA et Airbus Defense and Space • Nombreux domaines : news / web / parole conversationnelle / etc. → Langue peu dotée : pashto (vers anglais et français) SLR L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Publications SLR L. Barrault Introduction Parole Publications Scientifiques • En informatique, on publie principalement dans des journaux et des conférences scientifiques Traduction Problématique SMT Problématique et projets en traduction Publications TD TP • Manifestations nationales et internationales • Il est indispensable de maîtriser l’anglais technique Conférences scientifiques : • Publication rapide des recherches récentes (<8 pages) • Rencontre des collègues de la communauté → discussions, réseau, coopérations, . . . • Souvent, les chercheurs travaillent simultanément sur les mêmes problématiques ⇒ il faut publier avant les autres ! SLR Publications Scientifiques L. Barrault Introduction Parole • En informatique, on publie principalement dans des journaux et des conférences scientifiques Traduction Problématique SMT Problématique et projets en traduction Publications TD TP • Manifestations nationales et internationales • Il est indispensable de maîtriser l’anglais technique Journaux scientifiques : • Publication des recherches « terminées » avec des analyses plus détaillées • Généralement plus long (10 à 30 pages) • Mieux adaptée pour « archiver » des recherches • Un article de journal a plus d’impact qu’un article de conférence SLR Publications Scientifiques L. Barrault Introduction Parole Traduction Problématique Procédure de soumission à une conférence 1 Call for papers : annonce de la conférence (lieu, organisateurs, thématiques, dates importantes, . . .) 2 Soumission de l’article avant une date fixe Relecture de l’article par d’autres chercheurs SMT Problématique et projets en traduction Publications 3 • relecture par les pairs • notation selon plusieurs critères TD TP → innovation, clarté, résultats obtenus, . . . 4 Notification si acceptation ou rejet 5 Correction puis envoi de la version finale de l’article Présentation des recherches à la conférence 6 • exposé oral ou poster Rq. soumission à un journal possible n’importe quand SLR L. Barrault Introduction Parole Publications Scientifiques • Il y a de nombreuses manifestations qui sont organisées périodiquement (annuel) Traduction Problématique SMT Problématique et projets en traduction Publications TD TP • La qualité/réputation des conférences est très variables : taux d’acceptation entre 20 et 100% • Il ne suffit pas de simplement compter le nombre de publications d’un chercheur . . . SLR L. Barrault Introduction Parole Publications Scientifiques • Il y a de nombreuses manifestations qui sont organisées périodiquement (annuel) Traduction Problématique SMT Problématique et projets en traduction Publications • La qualité/réputation des conférences est très variables : taux d’acceptation entre 20 et 100% • Il ne suffit pas de simplement compter le nombre de publications d’un chercheur . . . TD TP Conférences importantes en traduction automatique • Intl. Conf. of the Association of Computational Linguistics (ACL, EACL, NAACL) • Intl. workshop on Empirical Methods in Computational Linguistics (EMNLP) • Intl. workshop on SMT (WMT), SLT (IWSLT) • Traitement automatique du Language Naturel (TALN) SLR L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP TD SLR L. Barrault TD - Evaluation de la traduction Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Motivation : • Il faut un critère d’évaluation pour juger des systèmes de reconnaissance de la parole et de traduction automatique • Développement du système, évaluations internationales, . . . • Le critère doit permettre le développement rapide de systèmes (tests systématiques) ⇒ Il faut un critère automatique SLR L. Barrault TD - Évaluation de la traduction Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Données d’entrée • Une ou plusieurs traductions de référence (traduction produite par un humain) • Plusieurs traductions automatiques Publications TD Problématique TP • Trouver une manière permettant de savoir quelle est la meilleure traduction. SLR L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP TP SLR TP1 : EM avec IBM1 L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP • Construction du modèle de traduction → nécessite des corpus bilingues → ces corpus sont alignés au niveau de la phrase • Calcul des probabilités de traduction → nécessite des corpus soient alignés au niveau du mot • Problème : comment obtenir ces alignements mot à mot ? → Humain : lent et couteux → Automatique : oui mais quel algorithme ? • Mise en oeuvre : algorithme EM → Expectation and Maximisation • Algorithme permettant de révéler une structure cachée (ici l’alignement entre les mots) SLR Exercices L. Barrault Introduction Parole Algorithme EM - Expectation Maximization Traduction Problématique 1 Initialisation : tous les alignements sont équiprobables SMT Problématique et projets en traduction Publications TD TP ... la maison ... ... the house ... ... la maison bleue ... ... the blue house ... ... la fleur ... ... the flower ... Le modèle apprend que la est souvent aligné avec the SLR Exercices L. Barrault Introduction Parole Algorithme EM - Expectation Maximization Traduction Problématique 1 Initialisation : tous les alignements sont équiprobables 2 Affecter des probabilités aux alignements → expectation SMT Problématique et projets en traduction Publications TD TP ... la maison ... ... the house ... ... la maison bleue ... ... the blue house ... ... la fleur ... ... the flower ... Alignement la – the plus probable mais aussi la – house et maison – the SLR Exercices L. Barrault Introduction Parole Algorithme EM - Expectation Maximization Traduction Problématique 1 Initialisation : tous les alignements sont équiprobables 2 Affecter des probabilités aux alignements → expectation SMT Problématique et projets en traduction Publications TD TP 3 Estimer les paramètres avec les données complètes → maximisation ... la maison ... ... the house ... ... la maison bleue ... ... the blue house ... ... la fleur ... ... the flower ... Alignement fleur – flower plus probable principe des tiroirs de Dirichlet SLR Exercices L. Barrault Introduction Parole Algorithme EM - Expectation Maximization Traduction Problématique 1 Initialisation : tous les alignements sont équiprobables 2 Affecter des probabilités aux alignements → expectation SMT Problématique et projets en traduction Publications 3 TD TP 4 Estimer les paramètres avec les données complètes → maximisation Réitérer les étapes 2 et 3 jusqu’à convergence ... la maison ... ... the house ... ... la maison bleue ... ... the blue house ... ... la fleur ... ... the flower ... Après convergence : structure cachée révélée on peut calculer les paramètres du modèle final : p(la|the), p(maison|house), etc. SLR Pseudocode L. Barrault Introduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Algorithm 1 Modèle IBM1 et EM : pseudocode 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12: 13: 14: 15: Entrée : un corpus bilingue (S,T) Sortie : prob. de traduction p(t|s) initialiser p(t|s) uniformément while non convergence do // initialisation count(t|s) = 0 for all s,t total(s) = 0 for all s for all paires de phrase (S,T) do // calcule la normalisation for all mots t2 T do t-total(t) = 0 for all mots s2 S do t-total(c) + = p(t|s) end for end for 16: 17: 18: 19: 20: // collecte des comptes for all mots t2 T do for all mots s2 S do t(t|s) count(t|s)+ = t-total(t) total(s)+ = t(t|s) t-total(t) 27: end for end for end for // 8 (S,T) // Estimation des probabilités for all mots source s do for all mots cible t do p(t|s) = count(t|s) total(s) 28: 29: end for end for 21: 22: 23: 24: 25: 26: SLR L. Barrault Introduction TP2 : Mesure de qualité d’une traduction Parole Traduction Problématique SMT Problématique et projets en traduction Publications TD TP Données d’entrée • Une ou plusieurs traductions de référence (traduction produite par un humain) • Plusieurs traductions automatiques Problématique • Trouver une manière permettant de savoir quelle est la meilleure traduction. → Implémenter une méthode trouvée en TD