Sensibilisation à la Recherche

Transcription

Sensibilisation à la Recherche
SLR
L. Barrault
Introduction
Parole
Traduction
Sensibilisation à la Recherche
Problématique
SMT
Traduction Automatique
Problématique
et projets en
traduction
Publications
Loïc Barrault
TD
TP
[email protected]
LIUM
Université du Maine
3 mars 2015
SLR
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Plan
• Présentation de la thématique de recherche
• Publications scientifiques
• Principes des solutions poursuivies au LIUM
• TD et TP
SLR
Introduction
L. Barrault
Introduction
Parole
Traduction
Problématique
Activités de recherche au LIUM
1
EIAH
2
Traitement de la langue et de la parole
SMT
Problématique
et projets en
traduction
Publications
TD
TP
SLR
Introduction
L. Barrault
Introduction
Parole
Traduction
Problématique
Activités de recherche au LIUM
1
EIAH
2
Traitement de la langue et de la parole
SMT
Problématique
et projets en
traduction
etc ...
Publications
TD
TP
Reconnaissance
Automatique
de la Parole
Traitement
du
locuteur
Indexation
Synthèse
de la
Parole
Compréhension
Texte en
langue
source
Traduction
Automatique
Texte en
langue
cible
SLR
Introduction
L. Barrault
Introduction
Parole
Traitement de la langue et de la parole
Traduction
etc ...
Problématique
SMT
Problématique
et projets en
traduction
Publications
Reconnaissance
Automatique
de la Parole
Indexation
Traitement
du
locuteur
Synthèse
de la
Parole
Compréhension
TD
TP
Texte en
langue
source
Traduction
Automatique
Texte en
langue
cible
3 applications principales
• Reconnaissance de la parole
• Traitement du locuteur (segmentation, identification)
• Traduction automatique
SLR
Introduction
L. Barrault
Introduction
Parole
Traitement de la langue et de la parole
Traduction
etc ...
Problématique
SMT
Problématique
et projets en
traduction
Publications
Reconnaissance
Automatique
de la Parole
Indexation
Traitement
du
locuteur
Synthèse
de la
Parole
Compréhension
TD
TP
Texte en
langue
source
Traduction
Automatique
Texte en
langue
cible
3 applications principales
• Reconnaissance de la parole
• Traitement du locuteur (segmentation, identification)
• Traduction automatique
SLR
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Parole
SLR
L. Barrault
Reconnaissance de la parole
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
La communication parlée entre humains
• Moyen le plus naturel
• Moyen le plus rapide
SLR
L. Barrault
Reconnaissance de la parole
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Domaines du traitement automatique de la parole
• Reconnaissance de la parole (transcription)
• Synthèse de la parole
• Identification de la langue
• Identification / vérification du locuteur
• Indexation, détection de thèmes
• Recherche d’information, question/réponse
• Systèmes de dialogue
• Traduction de la parole
SLR
L. Barrault
Reconnaissance de la parole
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Domaines du traitement automatique de la parole
• Reconnaissance de la parole (transcription)
• Synthèse de la parole
• Identification de la langue
• Identification / vérification du locuteur
• Indexation, détection de thèmes
• Recherche d’information, question/réponse
• Systèmes de dialogue
• Traduction de la parole
SLR
Reconnaissance de la parole
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Quelques applications possibles
• Commande vocale
• Dictée vocale, entrée de formulaires
• Prise de notes
• Demande d’informations par téléphone
• Recherche d’information dans des documents
audio/vidéo
• ...
SLR
L. Barrault
Parole - Applications existantes
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Grand public
• Commande et RI vocale sur téléphone portable
• Dictée vocale grand public
• Serveurs téléphoniques
• Systèmes de dialogue
• Indexation de documents audio
→ document de l’INA
• Communication orale multilingue
→ Skype translate
SLR
L. Barrault
Parole - Applications existantes
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Grand public
• Commande et RI vocale sur téléphone portable
• Dictée vocale grand public
• Serveurs téléphoniques
• Systèmes de dialogue
• Indexation de documents audio
→ document de l’INA
• Communication orale multilingue
→ Skype translate
Professionnelles
• Dictée de rapports médicaux
• Suivi de média (nouvelles journalistiques, etc.)
SLR
L. Barrault
Reconnaissance de la parole
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Domaines de recherche
• Acoustique : mécanismes de production/propagation
des ondes sonores
• Phonétique, phonologie : étude des sons du langage
• Linguistique : lexique, syntaxe, ...
• Traitement du signal
• Modélisation statistique
• Algorithmique
SLR
Reconnaissance de la parole
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Complexité du signal de parole
• Variabilité inter- et intra-locuteurs
• Continuité du signal, →coarticulation
• Distorsions temporelles
• Parole chantée
• Homophonie
• conditions acoustiques
• parole superposée →musique, réunion
• etc . . .
SLR
Variabilités de la parole
L. Barrault
Introduction
Parole
avec adaptation
indépendant de l’application
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
émissions radio, télé
multilingue
fictions
documentaires parole conversationnelle
journaux
spontanée
préparée
journaux
65k
~ 1k
TP
articulation relâchée
lue
langages de commande
application
langage
style de parole
parole continue
mots enchaînes
nombres
chiffres
calme
mots isolés
articulation soignée
monolocuteur
indépendant du locuteur
dépendant du matériel d’enregistrement
locuteurs
avec adaptation
lieu public
indépendant du matériel d’enregistrement
avec adaptation
accents régionaux/étrangers
environment
transmission
1980
1990
2000
SLR
L. Barrault
Reconnaissance de la parole
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Décomposition du Problème
• Formulation probabiliste:
Ŵ
= argmax Pr(W |x)
W
Pr(x|W ) Pr(W )
Pr(x)
W
= argmax Pr(x|W ) Pr(W )
= argmax
W
SLR
L. Barrault
Reconnaissance de la parole
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Décomposition du Problème
• Formulation probabiliste:
Ŵ
= argmax Pr(W |x)
W
Pr(x|W ) Pr(W )
Pr(x)
W
= argmax Pr(x|W ) Pr(W )
= argmax
W
Modèle Acoustique Pr(x|W ) :
:= Probabilité d’observer une suite de vecteurs
acoustiques pour une suite de mots donnée
SLR
L. Barrault
Reconnaissance de la parole
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Décomposition du Problème
• Formulation probabiliste:
Ŵ
= argmax Pr(W |x)
W
Pr(x|W ) Pr(W )
Pr(x)
W
= argmax Pr(x|W ) Pr(W )
= argmax
W
Modèle de Langage Pr(W ) :
:= Probabilité de la séquence de mots W
• Syntaxe et sémantique implicite
• Véhiculée par les n-grams
SLR
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Traduction
SLR
La Traduction Automatique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Le début
• La traduction automatique est un des plus vieux
domaines de recherche en informatique
• Premier système de IBM en 1954 (Georgetown)
• contexte : guerre froide
• traduction russe/anglais de 60 phrases
⇒ Grande euphorie et multiples projets de recherche
• Les résultats n’étaient malheureusement pas à la
hauteur des attentes ( « rapport ALPAC » en 1966 )
SLR
L. Barrault
Introduction
Parole
La Traduction Automatique
• Le principe du triangle de Vauquois (1968)
interlingua
Traduction
TD
TP
sis
aly
an
ion
Publications
semantic transfer
rat
Problématique
et projets en
traduction
ne
SMT
ge
Problématique
syntactic transfer
direct translation
source
language
target
language
• Les approches utilisées sont basées sur l’analyse, le
transfert et la génération de la phrase source
• Grande implication d’humains bilingues spécialisés
• Très peu de paires de langues traitées
SLR
L. Barrault
La Traduction Automatique
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
La renaissance (années 90)
• Des approches basées sur la réutilisation de textes
traduits par des traducteurs humains se généralisent :
• La traduction automatique à base d’exemples
• Mémoires de traduction
• L’approche statistique
• Extraction automatique de toutes les connaissances
⇒ On n’a plus besoin d’humains bilingues
SLR
L. Barrault
La Traduction Automatique
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Applications commerciales
• Communauté européenne :
• DGT: Direction Générale de la Traduction
• Budget annuel de 1,1 billion Euros (1% du budget)
• 2500 personnes traduisent 2M pages par ans
• 23 langues officielles, 506 paires possibles
• Abandon de la traduction systématique dans toutes les
langues des pays membres
• on garde les 11 langues les plus parlées
• Recherche d’information multi-lingue sur internet
• Localisation : traduction d’interfaces, de mode
d’emploi, ...
• Applications touristiques, humanitaires, militaires, ...
SLR
L. Barrault
La Traduction Automatique
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
L’approche statistique :
• L’intérêt au niveau international en constante
augmentation
• L’approche statistique est communément considérée
comme la plus prometteuse
• De nombreux centres de recherche s’y intéressent
• des universités aux États-Unis, Japon, Allemagne,
Italie, Angleterre, Espagne, ...
• des entreprises comme IBM, Microsoft, Google, ...
SLR
L. Barrault
La Traduction Automatique
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Pourquoi la traduction est compliquée ?
• Les mots peuvent avoir plusieurs sens
• Expressions idiomatiques
• L’ordre des mots varie entre les langues
• Morphologie
• Solution non unique
• L’évaluation automatique est difficile
SLR
L. Barrault
La Traduction Automatique
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Différents sens des mots
• Anglais : “plant” (arbre ou entreprise)
• Anglais : “bank” (banque ou bord d’une rivière)
⇒ Souvent les différents sens correspondent à des
traductions différentes
SLR
La Traduction Automatique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
Différents sens des mots
• Anglais : “plant” (arbre ou entreprise)
• Anglais : “bank” (banque ou bord d’une rivière)
⇒ Souvent les différents sens correspondent à des
traductions différentes
TD
TP
Expressions idiomatiques
• Expressions qu’il ne faut pas traduire mot à mot
• “Se retrouver au pied du mur” → “To be at the foot of
the wall” ?
• “tenir sa langue” → “keep his tongue” ?
• “Ne pas mâcher ses mots” → “to not eat his words” ?
SLR
L. Barrault
La Traduction Automatique
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Variation dans l’ordre des mots
• Anglais : adjectif-substantif et
sujet-verb-objet
• Français : substantif-adjectif
• Japonais : sujet-objet-verb
• Allemand : position du verbe inhabituelle
⇒ Il faut réordonner les mots
SLR
La Traduction Automatique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Morphologie
• “He is nice” → “Il est beau”
• “She is nice” → “Elle est belle”
• Traitement des accords en français
• Arabe : singulier, pluriel et dual
⇒ En général, il est plus difficile de traduire vers une langue
morphologiquement riche (donc autre que l’anglais)
SLR
La Traduction Automatique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Morphologie
• “He is nice” → “Il est beau”
• “She is nice” → “Elle est belle”
• Traitement des accords en français
• Arabe : singulier, pluriel et dual
⇒ En général, il est plus difficile de traduire vers une langue
morphologiquement riche (donc autre que l’anglais)
Utilisation des pronoms
• Dans certaines langues comme l’espagnol on peut
omettre les pronoms
• La forme verbale peut déterminer la personne
• Mais on ne sait pas s’il faut utiliser “he, she ou it”
SLR
L’approche statistique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Motivations :
• Pourquoi aborder un problème linguistique avec des
approches statistiques ?
• La traduction automatique nécessite la prise de
décisions :
•
•
•
•
Choix d’un mot
Expressions particulières
Ordre des mots
...
• Dépendances non-binaires, imprécises et floues
• Problèmes propres à la traduction de la parole :
• Erreurs, hésitations, reprises, ...
• Interaction reconnaissance/traduction ?
SLR
L’approche statistique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Traduction par
approche statistique
=
Modélisation
linguistique
+
Prise de décisions
par des
méthodes statistiques
SLR
L’approche statistique
L. Barrault
Introduction
Parole
Traduction par
approche statistique
=
Traduction
Modélisation
linguistique
+
Prise de décisions
par des
méthodes statistiques
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
• Traduction d’une phrase en français f vers l’anglais e
e∗ = argmax P(e|f ) = argmax P(f |e)P(e)
e
e
SLR
L’approche statistique
L. Barrault
Introduction
Parole
Traduction par
approche statistique
=
Modélisation
linguistique
+
Traduction
Prise de décisions
par des
méthodes statistiques
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
• Traduction d’une phrase en français f vers l’anglais e
e∗ = argmax P(e|f ) = argmax P(f |e)P(e)
e
• Modèle de traduction statistique
e
SLR
L’approche statistique
L. Barrault
Introduction
Parole
Traduction par
approche statistique
=
Modélisation
linguistique
+
Traduction
Prise de décisions
par des
méthodes statistiques
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
• Traduction d’une phrase en français f vers l’anglais e
e∗ = argmax P(e|f ) = argmax P(f |e)P(e)
e
• Modèle de traduction statistique
• Modèle de langage statistique
e
SLR
L’approche statistique
L. Barrault
Introduction
Parole
Traduction par
approche statistique
=
Modélisation
linguistique
+
Traduction
Prise de décisions
par des
méthodes statistiques
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
• Traduction d’une phrase en français f vers l’anglais e
e∗ = argmax P(e|f ) = argmax P(f |e)P(e)
e
• Modèle de traduction statistique
• Modèle de langage statistique
• Prise de décision statistique
e
SLR
L’approche statistique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Principe (suite) :
• Approche statistique de la traduction :
ê = argmax Pr (e)Pr (f |e)
e
P(f |e) : modèle de traduction, P(e) : ML cible
SLR
L’approche statistique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Principe (suite) :
• Approche statistique de la traduction :
ê = argmax Pr (e)Pr (f |e)
e
P(f |e) : modèle de traduction, P(e) : ML cible
• Similarité avec la reconnaissance de la parole :
ŵ = argmax Pr (w)Pr (x|w)
w
SLR
L’approche statistique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
100k−200M
de mots
textes traduits
existants
(CEE, UN, ...)
10M−10T
de mots
Alignement des mots et
extraction des traductions automatique
textes
monolingues
(journaux, WEB, ...)
Analyse statistique
TD
TP
table
des
traductions
go
aller
vais
vas
0.55
0.13
0.21
go home
rentrer à la maison
0.97
go across
I go
traverser
je vais
0.71
1.0
Ça fonctionne très bien
traducteur automatique
P(il est beau)=0.98
P(il est belle)=0.02
modèles
de
langage
This works very well
SLR
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Problématique et projets
en traduction
SLR
Problématiques
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
• Modélisation statistique
• Adaptation au domaine/style/contenu
• Évaluation
• Langues sous-dotées
SLR
Modélisation statistique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Problématique
• Comment représenter les traductions d’une langue vers
une autre ?
SLR
Modélisation statistique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Problématique
• Comment représenter les traductions d’une langue vers
une autre ?
• Modèles basés sur les segments (phrase-based)
• Réseaux de neurones -> en plein essor !
SLR
Modélisation statistique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Problématique
• Comment représenter les traductions d’une langue vers
une autre ?
• Modèles basés sur les segments (phrase-based)
• Réseaux de neurones -> en plein essor !
• Comment représenter une langue ?
SLR
Modélisation statistique
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Problématique
• Comment représenter les traductions d’une langue vers
une autre ?
• Modèles basés sur les segments (phrase-based)
• Réseaux de neurones -> en plein essor !
• Comment représenter une langue ?
• lister les suites de mots possibles et leur attribuer une
probabilité
→ + techniques pour gérer les événements non observés
• Réseaux de neurones en plein essor !
SLR
L. Barrault
Introduction
Modèle de traduction
phrase-based
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
• Format : source ||| cible ||| probabilités
• Quelles probabilités ?
• p(s̃|c̃) et p(c̃|s̃) : probabilité que s̃ soit une traduction
de c̃ et inversement
• lex(s̃|c̃) et lex(c̃|s̃) : probabilité lexicale
TD
TP
'a alliance with ||| alliance avec ||| 0.0104167 8.34926e-07 1 0.253669 2.718 ||| 1-0 2-1 ||| 96 1
'a alliance ||| alliance ||| 0.00032113 1.185e-06 1 0.795077 2.718 ||| 1-0 ||| 3114 1
'a both within and ||| comme ||| 8.0814e-06 2.48634e-14 1 0.0025963 2.718 ||| 3-0 ||| 123741 1
SLR
Modèle neuronal
L. Barrault
Introduction
Parole
Estimation des probabilités
Entrée
Traduction
Problématique
SMT
Couches cachées
TD
TP
Projections
partagées
Représentation Représentation
discrète
continue
Couche de sortie
Publications
Couche de projection
Problématique
et projets en
traduction
Probabilités ML
pour tous les mots
SLR
Adaptation
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
Constat
• Systèmes construits avec une grande quantité de
données génériques
→ peu ou pas adapté à traduire des textes spécifiques
Ex. rapports de commission européenne vs. textes
médicaux
TP
Comment adapter les modèles statistiques ?
• Sélection de données
• Algorithme E.M. (notamment pour les MLs)
• Optimisation des paramètres en fonction du domaine
→ méthodes dépendantes de la modélisation statistiques !
SLR
Adaptation - Projets
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
MateCAT
• Projet européen
→ intégration d’ou système de traduction automatique
dans un outil de TAO
→ adaptation au domaine, au projet, au traducteur
• Rôle du traducteur : post-édition
→ Corriger les sorties de traduction automatique
• Objectif : gain de temps et donc d’argent !
https://www.matecat.com/
SLR
Adaptation - Projets
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Broad Operational Language Translation (BOLT)
• Projet DARPA
• permettre aux soldats de dialoguer avec les
populations locales
→ traduction de textes de domaines spécifiques
→ sorties d’ASR, forums, SMS, conversations type "chat"
PEA TRAD
• Projet DGA et Airbus Defense and Space
• Nombreux domaines : news / web / parole
conversationnelle / etc.
→ Langue peu dotée : pashto (vers anglais et français)
SLR
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Publications
SLR
L. Barrault
Introduction
Parole
Publications Scientifiques
• En informatique, on publie principalement dans des
journaux et des conférences scientifiques
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
• Manifestations nationales et internationales
• Il est indispensable de maîtriser l’anglais technique
Conférences scientifiques :
• Publication rapide des recherches récentes (<8 pages)
• Rencontre des collègues de la communauté
→ discussions, réseau, coopérations, . . .
• Souvent, les chercheurs travaillent simultanément sur
les mêmes problématiques
⇒ il faut publier avant les autres !
SLR
Publications Scientifiques
L. Barrault
Introduction
Parole
• En informatique, on publie principalement dans des
journaux et des conférences scientifiques
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
• Manifestations nationales et internationales
• Il est indispensable de maîtriser l’anglais technique
Journaux scientifiques :
• Publication des recherches « terminées » avec des
analyses plus détaillées
• Généralement plus long (10 à 30 pages)
• Mieux adaptée pour « archiver » des recherches
• Un article de journal a plus d’impact qu’un article de
conférence
SLR
Publications Scientifiques
L. Barrault
Introduction
Parole
Traduction
Problématique
Procédure de soumission à une conférence
1
Call for papers : annonce de la conférence (lieu,
organisateurs, thématiques, dates importantes, . . .)
2
Soumission de l’article avant une date fixe
Relecture de l’article par d’autres chercheurs
SMT
Problématique
et projets en
traduction
Publications
3
• relecture par les pairs
• notation selon plusieurs critères
TD
TP
→ innovation, clarté, résultats obtenus, . . .
4
Notification si acceptation ou rejet
5
Correction puis envoi de la version finale de l’article
Présentation des recherches à la conférence
6
• exposé oral ou poster
Rq. soumission à un journal possible n’importe quand
SLR
L. Barrault
Introduction
Parole
Publications Scientifiques
• Il y a de nombreuses manifestations qui sont
organisées périodiquement (annuel)
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
• La qualité/réputation des conférences est très
variables : taux d’acceptation entre 20 et 100%
• Il ne suffit pas de simplement compter le nombre de
publications d’un chercheur . . .
SLR
L. Barrault
Introduction
Parole
Publications Scientifiques
• Il y a de nombreuses manifestations qui sont
organisées périodiquement (annuel)
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
• La qualité/réputation des conférences est très
variables : taux d’acceptation entre 20 et 100%
• Il ne suffit pas de simplement compter le nombre de
publications d’un chercheur . . .
TD
TP
Conférences importantes en traduction automatique
• Intl. Conf. of the Association of Computational
Linguistics (ACL, EACL, NAACL)
• Intl. workshop on Empirical Methods in Computational
Linguistics (EMNLP)
• Intl. workshop on SMT (WMT), SLT (IWSLT)
• Traitement automatique du Language Naturel (TALN)
SLR
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
TD
SLR
L. Barrault
TD - Evaluation de la traduction
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Motivation :
• Il faut un critère d’évaluation pour juger des systèmes
de reconnaissance de la parole et de traduction
automatique
• Développement du système, évaluations
internationales, . . .
• Le critère doit permettre le développement rapide de
systèmes (tests systématiques)
⇒ Il faut un critère automatique
SLR
L. Barrault
TD - Évaluation de la traduction
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Données d’entrée
• Une ou plusieurs traductions de référence (traduction
produite par un humain)
• Plusieurs traductions automatiques
Publications
TD
Problématique
TP
• Trouver une manière permettant de savoir quelle est la
meilleure traduction.
SLR
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
TP
SLR
TP1 : EM avec IBM1
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
• Construction du modèle de traduction
→ nécessite des corpus bilingues
→ ces corpus sont alignés au niveau de la phrase
• Calcul des probabilités de traduction
→ nécessite des corpus soient alignés au niveau du mot
• Problème : comment obtenir ces alignements mot à
mot ?
→ Humain : lent et couteux
→ Automatique : oui mais quel algorithme ?
• Mise en oeuvre : algorithme EM
→ Expectation and Maximisation
• Algorithme permettant de révéler une structure cachée
(ici l’alignement entre les mots)
SLR
Exercices
L. Barrault
Introduction
Parole
Algorithme EM - Expectation Maximization
Traduction
Problématique
1
Initialisation : tous les alignements sont équiprobables
SMT
Problématique
et projets en
traduction
Publications
TD
TP
... la maison ...
... the house ...
... la maison bleue ...
... the blue house ...
... la fleur ...
... the flower ... Le
modèle apprend que la est souvent aligné avec the
SLR
Exercices
L. Barrault
Introduction
Parole
Algorithme EM - Expectation Maximization
Traduction
Problématique
1
Initialisation : tous les alignements sont équiprobables
2
Affecter des probabilités aux alignements
→ expectation
SMT
Problématique
et projets en
traduction
Publications
TD
TP
... la maison ...
... the house ...
... la maison bleue ...
... the blue house ...
... la fleur ...
... the flower ...
Alignement la – the plus probable mais aussi la – house et
maison – the
SLR
Exercices
L. Barrault
Introduction
Parole
Algorithme EM - Expectation Maximization
Traduction
Problématique
1
Initialisation : tous les alignements sont équiprobables
2
Affecter des probabilités aux alignements
→ expectation
SMT
Problématique
et projets en
traduction
Publications
TD
TP
3
Estimer les paramètres avec les données complètes
→ maximisation
... la maison ...
... the house ...
... la maison bleue ...
... the blue house ...
... la fleur ...
... the flower ...
Alignement fleur – flower plus probable principe des tiroirs
de Dirichlet
SLR
Exercices
L. Barrault
Introduction
Parole
Algorithme EM - Expectation Maximization
Traduction
Problématique
1
Initialisation : tous les alignements sont équiprobables
2
Affecter des probabilités aux alignements
→ expectation
SMT
Problématique
et projets en
traduction
Publications
3
TD
TP
4
Estimer les paramètres avec les données complètes
→ maximisation
Réitérer les étapes 2 et 3 jusqu’à convergence
... la maison ...
... the house ...
... la maison bleue ...
... the blue house ...
... la fleur ...
... the flower ...
Après convergence : structure cachée révélée on peut
calculer les paramètres du modèle final : p(la|the),
p(maison|house), etc.
SLR
Pseudocode
L. Barrault
Introduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Algorithm 1 Modèle IBM1 et EM : pseudocode
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
14:
15:
Entrée : un corpus bilingue (S,T)
Sortie : prob. de traduction p(t|s)
initialiser p(t|s) uniformément
while non convergence do
// initialisation
count(t|s) = 0 for all s,t
total(s) = 0 for all s
for all paires de phrase (S,T) do
// calcule la normalisation
for all mots t2 T do
t-total(t) = 0
for all mots s2 S do
t-total(c) + = p(t|s)
end for
end for
16:
17:
18:
19:
20:
// collecte des comptes
for all mots t2 T do
for all mots s2 S do
t(t|s)
count(t|s)+ = t-total(t)
total(s)+ =
t(t|s)
t-total(t)
27:
end for
end for
end for // 8 (S,T)
// Estimation des probabilités
for all mots source s do
for all mots cible t do
p(t|s) = count(t|s)
total(s)
28:
29:
end for
end for
21:
22:
23:
24:
25:
26:
SLR
L. Barrault
Introduction
TP2 : Mesure de qualité d’une
traduction
Parole
Traduction
Problématique
SMT
Problématique
et projets en
traduction
Publications
TD
TP
Données d’entrée
• Une ou plusieurs traductions de référence (traduction
produite par un humain)
• Plusieurs traductions automatiques
Problématique
• Trouver une manière permettant de savoir quelle est la
meilleure traduction.
→ Implémenter une méthode trouvée en TD

Documents pareils