Traduction automatique

Transcription

Traduction automatique
Traduction automatique
Introduction
Dans le domaine de la traduction automatique on différencie deux approches :
l'approche par "transfert" versus l'approche "par pivot":
L'approche par transfert comprend 4 étapes :
1. Analyse syntaxique : on effectue une analyse syntaxique (qui peut intégrer une certaine
part de sémantique) d'un énoncélangue source. Parallèlement à l'analyse syntaxique, une
représentation structurelle de la phrase analysée est construite. On appelle "arbre
syntaxique" une telle représentation.
2. Transfert lexical : on remplace les feuilles des arbres syntaxiques de la langue source par
les feuilles de la langue cible correspondantes à l'aide d'un lexique bilingue langue source
– langue cible guidé par le contexte et des informations statistiques.
3. Restructuration syntaxique : les règles déclaratives de restructuration syntaxique
s'appliquent (ou pas) à l'arbre ainsi obtenu :
I want him to come (Je veux il venir)=>je veux que il
vienne.
4. Enfin le composant morphologique génère la séquence dans la langue cible.
Les bases de données nécessaires dans une approche de ce type se composent de :
• une grammaire de la langue source
• un lexique bilingue
• de règles de restructuration langue source/langue cible
• des règles de morphologie pour la langue cible (phase génération)
Une partie de ces données est donc spécifique au couple de langues (LS–LC) et doit donc être
effectuée pour chaque nouveau couple.
L'approche pivot s'appuie sur l'idée qu'il existe un langage de représentation du sens d'une
phrase indépendant de la langue d'énoncé. Cette représentation est choisie comme pivot. La
traduction se fait alors en deux étapes :
1. une étape d'analyse permettant de passer de la langue source au "pivot" (en faisant une
analyse syntaxique et une analyse sémantique, couplée ou non -utilisant un lexique
Langue source – Pivot )
2. une étape de génération permettant d'engendrer l'énoncé en langue cible (utilisant un
lexique Pivot – Langue cible et des règles syntaxiques spécifiques à la langue cible
éventuellement en fonction de critères pragmatiques : choix des mots et des tournures…).
Dans un tel système, la langue source et la langue cible sont totalement disconnectées et les
bases de données ne font plus intervenir qu'une seule langue et non pas le couple LS – LC, ce
qui est plus économique.
Avantages et Inconvénients des deux approches :
L'approche par pivot, si elle est plus séduisante, pose le problème du langage pivot –
représentation sémantique intermédiaire. Elle demande une analyse sémantique complète de
chaque phrase à traduire, ce qui est un problème encore mal résolu.
L'approche par transfert, quant à elle, s'appuie sur l'idée que pour deux langues suffisamment
proches, il n'est pas toujours nécessaire de tout comprendre pour traduire, et qu'une approche
syntaxique à laquelle on ajoute une composante sémantique plus ou moins importante peut
aboutir à des résultats acceptables, notamment pour un domaine de traduction donné.
LMT : basé sur un transfert syntaxique mais ouvert à une sémantique locale pour pallier aux
lacunes d'une telle approche. (Par exemple, in dans la phrase "We find this in this author"se
traduit par chez et par dans dans la phrase "it is in this book": on verra + loin).
Le processus de traduction se déroule en quatre étapes :
• analyse syntaxique de l'anglais : construction de l'arbre syntaxique associé à la phrase
• transfert lexical : remplacement des mots anglais par les mots français
• restructuration synaxique : l'arbre est restructuré en fonction de la syntaxe du français
• morphologie : inflexion des feuilles de l'arbre structuré
Ce système a été conçu en maximisant l'aspect déclaratif : les bases de connaissances relatives
à la structuration sont sous forme de règles, qui sont compilées de la même façon pour tout
couple de langue ; le lexique bilingue est entré sous forme déclarative puis compilé de
manière à ce que le transfert lexical se fasse toujours de la même façon.
Autant les règles de restructuration ont un caractère général, autant le lexique bilingue dépend
du domaine de traduction. En effet, compte tenu de l'aspect syntaxique prépondérant dans ce
genre d'approche, il faut envisager la traduction en restreignant l'application à un domaine
particulier de façon à limiter les difficultés provenant de l'emploi polysémique des mots.
Présentation du système
Organisation des lexiques, le formalisme ELF (External lexical form)
Les lexiques monolingues et bilingues sont encodés dans un même formalisme "ELF".
Une entrée lexicale est de la forme :
Mot
<
A1
<
A2
< …
< An
où les Ai sont les éléments de l'entrée.
Par exemple :
give
<
v(obj.iobj).
talk
<
v(obj(n/p(about/of/in/on)).p(to/with))
<
n(p(about/of/on).p(to/with)).
Le premier exemple a un seul élément, montrant give comme un verbe (foncteur v) ayant un
"slot" objet direct (obj) et un "slot" objet indirect (iobj). Dans le formalisme ELF, le slot sujet
n'a pas à être spécifié pour un verbe sauf si quelque chose de spécial doit être spécifié (type
sémantique ou autre).
Le deuxième exemple montre talk à la fois comme un verbe et comme un nom. Les "/"
indiquent les alternatives (or-slots).
Des types (et même des combinaisons booléennes de types) peuvent être associés aux slots :
give
<
v(obj : concrete .iobj : human).
ELF permet également de relier des sens de mots à des domaines :
write
<
v(obj.iobj)
<
n(domaine(computers),p(in/on/into)).
The most time-consuming portion of the transaction, the write into the RAM
core, is delayed until the next write access, ...
Le lexique bilingue
Une entrée du lexique bilingue aura la forme suivante :
Mot
<
Source_ Eléments
<
Cible_ Eléments
Le système assure une correspondance un à un entre les éléments source et cible.
Mot est la forme de base ou la forme irrégulière d'un mot du langage Source.
La forme générale d'un élément cible est :
t(traduction1/traduction2/.. traductionN)
où chaque traduction peut avoir la forme :
Conditions ? Mot_Cible ; Cas_Cible
Conditions :
f
: teste la présence du slot
e
:
x
: test "peu importe" sur le complément (nécessaire uniquement pour gérer la
"
position des cpts)
sense(Sens) : teste si un complément a le sens Sens.
f(Traits)
: teste si un complément a les traits syntaxiques Traits.
cat(Pos)
: teste si un complément a la catéorie syntaxique POS (Part Of Speech)
p(Prep)
: teste la préposition du complément PP
png(Pers-Num-Gen) : teste la personne, le nombre et le genre du complément.
etc.
Exemple tiré du lexique anglais-espagnol
return
<
v (obj.p(to))
<
t (f.x ?
devolver ; pc(a)
f?
/
regresar ; pc(a)
volver
/
)
Exemple tiré du lexique anglais-français :
give <
v (obj . iobj)
tv (acc . pc(à,dat), donner).
"obj . iobj", contexte syntaxique du verbe give, est repris dans la traduction par par le
nouveau contexte "acc . pc(à,dat)".
Les slots
give
<
v(obj.iobj)
Obj,Iobj,
Pobj(X) : Pobj(to) I go to Paris.
Infcmp : I want to go.
Objing, Pobjing : I prevent you from using it.
Binfcmp, Fincmp, Objcmp
Slots de noms et adjectifs : Ònobj, npobj, nfincmp
search < v(obj1.pobj1(for)
< v(obj)
/*
Slot OBJ et POBJ(for) obligatoires */
/*
Pobj(X) optionnel
*/
permet de différencier les différents sens de search qui sont : examiner et chercher.
Les autres attributs
Les marqueurs définis
acc, dat,gen, pc(X,Cas), …
Les locutions(++mots)
ex : "in addition"
addition
<
…
/* les différentes classes et traductions de addition */
<
madv(in.=) > tmadv('de plus')
ex : "to become familiar with"
become
<
…
/* la traduction du verbe seul */
< mv(=.familiar,pobj1(with) >
tmv(pc('à',acc), se £ familariser).
Le transfert
Le transfert syntaxique de l'arbre anglais vers l'arbre français se fait en 2 étapes :
• transfert lexical
• restructuration syntaxique
analyse top-down
grammaire écrite en Prolog
Le transfert lexical
La partie anglaise du lexique
Le transfert lexical
L'arbre anglais , que ce module reçoit, contient les informations données par la partie anglaise
du lexique. Ainsi l'arbre associé à la phrase :
John gave this book to Mary.
sera:
s(fin(pers3,X1,past,ind)give,X2:John :nf(n(prop),X1 : X3,d(nodet),I)& X4,top)
np(X2 : John : nf(n, prop),X1 : X3,d(nodet)))
nc(X2: John : nf(n, prop),X1 : X3,d(nodet)))
X2 = John
vp(fin(pers3,X1,past,ind),give)
vc(fin((pers3,X1,past,ind),give)
give(X2,X6,X8)
np(X6:book:nf(n(cn),sg :X7,d(def)))
detp(X6:book:nf(n(cn),sg :X7,d(def)))
this(X11,X10)
nc(X6 : book : nf(n(cn),sg, : X7,d(def)))
book(X6)
ppnp(to,X8, : Mary : nf(n(prop),sg : X9, d(nodet)))
np(X8, : Mary : nf(n(prop),sg : X9, d(nodet)))
nc(X8, : Mary : nf(n(prop),sg : X9, d(nodet)))
X8= Mary
Ce qui indique que la phrase a une structure :
Nom Verbe Objet Objet-Indirect
La feuille give(X2,X6,X8) reflète la déclaration du verbe GIVE dans le lexique : v(obj . iobj).
Les variables représentent respectivement :
-
le sujet (attribut par défaut du verbe)
-
le COD
-
le COI
Le transfert lexical transforme cet arbre en :
vp(ind : s, fin(pers3,X1 : pers3 -X1-X3)
np(n(prop),nom,X1 : X3,d(nodet)))
nc(n(prop),nom,X1 : X3,d(nodet)))
(nom = John) + nc(n(prop),nom,pers3 -X1-X3)
vp(ind : vp, fin(pers3,X1,past,ind),nil)
vc(ind : vp, fin(pers3,X1,past,ind),nil)
donner + vc(ind : vp, fin(pers3,X1,past,ind),nil)
np(n(cn),acc,sg : pers3 -sg - m)
det(acc, pers3 -sg -m)
ce + det(acc,pers3 -sg - m)
nc(n(cn),acc, sg : pers3 -sg - m)
livre + nc(n(cn),acc, pers3 -sg - m)
ppnp(vp(ind : vp, fin(pers3,X1,past,ind),nil),pc(à,dat))
np(n(prop),pc(à,dat),sg : pers3 -sg -X6)
nc(n(prop),pc(à,dat),sg : pers3 -sg -X6)
pc(à,dat) = Mary) + nc(n(prop),pc(à,dat),sg : pers3 -sg -X6)
Les feuilles de l'arbre sont traduites en français grâce aux informations du lexique bilingue.
Outre la traduction du verbe (en tant que mot), les marqueurs ACC et PC(à,DAT) du
tv(acc.pc(à,dat),donner) sont propagés sur l'arbre respectivement sur le COD et sur le COI du
verbe "donner". Cette propagation se fait sur les groupes syntaxiques entiers (ie. toute la
structure pointée par le slot).
Utilisation de sémantique locale pour la traduction
Il est possible que le contexte syntaxique d'un mot anglais soit insuffisant pour trouver sa
traduction dans la langue cible. Par exemple, in dans la phrase "We find this in this author"
se traduit par chez et par dans dans la phrase "it is in this book".
Pour palier à ce problème, on attache des marqueurs sémantiques locaux aux différentes
entrées:
Ainsi on a :
author <
n(h,nil)
<
tn(auteur,m)
in
<
prep
<
tprep(*:X:*,chez) -isa(X,h)
<
tprep(dans)
et
On parle de sémantique locale par opposition à la sémantique en général (de la phrase ou du
texte).
La restructuration syntaxique
A ce point de la traduction, les feuilles de l'arbre sont sont desmots français (non infléchis).
Description des règles de transfert syntaxiques
Nom de la règle -Description d'une structure syntaxique à corriger
===>
Nouvelle structure syntaxique
<- Conditions.
Les règles sont déclenchées au cours d'un parcours en profondeur de l'arbre syntaxique.
Elles peuvent se classer en trois groupes :
• La place des constituants de la phrase
• transformations morpho-syntaxiques :
accords, concordance des temps, pronominalisation, relatives, etc.
• Restructurations profondes (pour les structures anglaises qui n'ont pas d'équivalent en
français)
traitement des noms composés
introduction de structures impersonnelles
règles de traitement d'élisions
Exp :
adject1 -Adjectif + Nom
===>
Nom + Adjectif
<-not(antepose-obligatoire(Adjectif)).
La morphologie
Ce module traite l'arbre syntaxique français restructuré. Il s'agit aà ce stade de :
• infléchir les feuilles de l'arbre
• appliquer les règles morphophonémiques (contractions) à la phrase.
L'algorithme
feuille par feuille
Les règles d'inflexions
Marqueurs
Forme rendue
adat
je  me, tu  te , etc.
Les règles morphophonémiques
X + mot commençant par une voyelle  X' + mot où X ∈[le,la,je,te,me,de,que,ne,se]
et X'∈ [l',j',m',d',qu',n',s']
avec aucun  sans aucun
Exemple détaillé de traduction
I want him to come
Plan
1. Évolution de la phrase durant le processus
2. Transfert d'arbres associés
Entrées lexicales nécessaires à la traduction
I
<
pron(pers1)
<
tpron(je)/pers1-sg-*)
want
<
v(obj1.infcmp)
<
v(infcmp)
<
tv(acc.inffin,vouloir) <
tv(binf,vouloir).
<
pron(he,1,sg,defprn) <
tpron(he,1,il)/(pers3-sg-m).
v
tv(venir).
him
come <
<
Évolution de la phrase
I want him to come.
∪
transfert lexical
∪
Je vouloir il venir.
∪
règle de restructuration syntaxique inffin
Le cpt du verbe "want" est marqué inffin donc le groupe verbal "il venir" est
marqué inffin. On construit une relative dont le sujet est le COI du verbe
"vouloir". De plus le verbe "venir" reçoit de nouveaux affixes : le subjonctif
présent comme temps de conjugaison et personne-nombre-genre correspondant
à la personne, le nombre et le genre du pronom "him".
∪
Je vouloir que il venir.
∪
Infléchissement de l’arbre ∪
Je veux que il vienne.
∪
règles de morphophonémisation
∪
Je veux qu’il
vienne.
Les limites du système LMT
Corpus de tests : la documentation technique de l'éditeur de textes XEDIT
La phase d'analyse
Il est évident que cette phase conditionne la qualité de la traduction.
Les principaux problèmes rencontrés viennent des ambiguités syntaxiques
et des coordinations mal résolues.
Ambiguïtés sur les mots polysyntaxiques mal résolues
Ces ambiguïtés interviennent quand un mot a plusieurs fonctions syntaxiques possibles et
quand dans la phrase ses fonctions sont syntaxiquement possibles pour la grammaire.
Fonctions syntaxiques
Exemples
• Verbe/Nom
Use, works, saw, set
ex : The lines are set.
• Verbe/Ppassé
The new modified file.
Une des heuristiques de l'analyseur consiste à imposer
qu'une phrase ait un verbe (ce qui est fondé dans un
texte), "modified" est considéré comme un verbe.
• Nom/Adj
a variable format
variable est considéré comme le nom commun.
Les ambiguïtés structurelles
Le problème ici est de faire les rattachements corrects des structures syntaxiques de la phrase.
Cas d'échec d'analyse :
Coordinations complexes de prépositions
It must be applied to and from and within this macro.
Changes are applied to the files being edited from all
filetypes in the control file, up to and including the
filetype specified in the UNTIL option.
*** Excceded time limit (4000 msec.)
Analyses ambigües
• Portée des adjectifs
The changes and the updates made here …
• Coordinations de complétives
[It indicates that [you may enter A,B or C or you may omit the
operand.
• Les anaphores
The target is repeated, that is, it is applied … => La cible
est répétée, c'est-à-dire, il est appliqué …
La référence pronominale n'est pas recherchée par l'analyseur.
Note : Lorsqu'il y a une ambiguïté dans la phrase anglaise, on peut très bien retrouver cette
ambiguïté dans la langue cible auquel cas, elle n'a pas besoin d'être résolue (tant qu'on reste au
niveau syntaxique). ex:
Lowercases letters, words and symbols that appear …
John looks at this woman with a telescope.
Les ambiguïtés liées aux rattachements ne sont généralement pas un obstacle en traduction
sauf dans :
• les cas de coordination
• les cas de recherche d'antécédent des pronoms relatifs (les accord en genre et en
nombre en français nécessitent parfois la levée d'ambiguïté)
• les anaphores : it  il / elle / cela ?
La phase de transfert lexical
Les problèmes à cette phase sont directement liés aux choix des mots dans la langue cible.
Ces problèmes se situent à plusieurs niveaux :
• choix d'un mot en fonction du contexte
Les désambiguations données sous forme de contexte syntaxique ou de sémantique locale
peuvent s'avérer inefficaces dans certains cas.
Dans le corpus de la documentation technique de l'éditeur de textes XEDIT, les mots qui
posent le plus de problèmes sont les prépositions (in,to,up,from, etc).
Cause : l'anglais est moins précis que le français. Le choix du mot en français ne peut se faire
qu'en fonction d'un contexte sémantique précis. Ce contexte n'est pas cependant forcément
complexe et ne nécessite généralement pas une compréhension globale de la phrase et du
texte .
• Phrases ne pouvant être traduites sans restructuration profonde
the command format boxes
(les schémas dans lesquels les formats des commandes sont donnés)
the trailing blanks (les blancs en fin de chaîne)
Ces groupes de mots n'ont pas d'équivalents simple en français.
Dans certains cas, le problème s'apparente à des locutions non figées telles que :
• les verbes à particules
p.ex: look like
• les verbes à compléments spéciaux
p.ex : to become familiar with (se familiariser avec )
Cependant, certaines expressions ne sont pas traitables parce que le formalisme du lexique ne
nous permet pas de les exprimer. Par exemple :
so tellement ssi on a repéré la structure so … that dans la phrase.
• Changement de nature syntaxique
while editing  en éditant au lieu de  pendant l'édition
La restructuration syntaxique, la morphologie
Problèmes résiduels :
• Les noms composés
• Le choix des articles
• La concordance des temps
Conclusion
Vers un bon système de traduction
Les systèmes actuels ne savent pas faire la part des choses entre ce qui doit être compris et ce
qui ne nécessite pas d'être compris pour être correctement traduit.
Ce qui doit être compris doit-il l'être complètement ou seulement partiellement ?
Doit-on tout comprendre ?
Les améliorations possibles du système
Améliorations au niveau syntaxique
• la grammaire est déterministe
Une seule traduction est possible dans LMT. Quand il y a plusieurs solutions en analyse, une
analyse seule est donnée grâce à l'utilisation d'heuristiques.
++ solutions => travail de post-édition
• Certaines constructions anglaises ne sont pas traitées
this command is so complex that you should become familiar
with it.
"X so Y that Z "  "because X very Y, Z"
• la génération
ici génération = restructuration + génération morphologique du système
Améliorations au niveau sémantique
Nature du traitement sémantique
The target is repeated, that is, it is applied … => La cible
est répétée, c'est-à-dire, il est appliqué …
Au moins dans le cas des documentation techniques, la résolution des anaphores semble
pouvoir se résoudre par couple de phrases (il est rare de trouver un pronom qui réfère à un
concept plus éloigné) Un simple mécanisme de pile devrait suffire.
Quand lancer un traitement sémantique ?
Pour ne pas ralentir le système, le lancement du traitement sémantique pourrait être limité à
certains cas, qui restent à déterminer …
GÉNÉRATION
2 aspects :
• la planification linguistique : détermine le contenu d'un texte et son organisation
• la réalisation de surface
! Dans le cadre de la TA, seul ce deuxième aspect est pris en compte.
génération
élaboration
interprétation
↓
↑
synthèse
analyse
↓
↑
expression
écrite
> structures d'expressions préétablies
> synthèse à partir de représentations internes
compréhension
Bibliographie :
Un système de traduction automatique anglais-français, Eric Bilange, Anne Bérard-Dugourt,
Décembre 88, rapport interne Centre scientifique de Paris, IBM.
Design of LMT : A Prolog-Based Machine Translation System, Michael Mc Cord,
Computational Linguistics, Volume 15: 1, Mars 1989.
Usinfg Slots and Modifiers in Logic Grammars for Natural Language, Michael Mc Cord,
Artificial Intelligence, 18, 1982.