mémoire de traduction

Transcription

mémoire de traduction
Traduction Assistée par Ordinateur
Généralités
Emmanuel Planas
[email protected]
[email protected]
Les ressources informatiques
pour le traducteur
• L’ensemble des éléments informatiques
utilisables par les traducteurs s’appellent des
« ressources informatiques »
• Il peut s’agir :
•
•
•
de logiciels : ex.: l’environnement de traduction SDL
Trados Studio
de fichiers sur ordinateurs locaux : ex.: un dictionnaire
électronique sur CD
de fichiers en ligne : ex.: le Grand Dictionnaire :
http://www.granddictionnaire.com
Type de ressources informatiques en Traduction
Locaux
En ligne
Dictionnaires
électroniques
Collins, Harraps,
Hachette
http://www.oxforddictionaries.com/fr/d
efinition/anglais/
Bases de données
terminologiques fixes ou
modifiables
Termium
Multiterm
Traduction Assistée par
Ordinateur (TAO),
Mémoires de traduction.
SDL Studio/Trados,
Similis, Memo Q,
WordFast, …
www.tsrali.com/query.cgi
www.webitext.com/bin/webitext.cgi
Annuaires Internet
X
Open Directory ( http://dmoz.org )
Moteurs de recherche
Internet
Copernic
http://scholar.google.fr/
Sites Internet dédiés
X
http://eur-lex.europa.eu
Portails de Traducteurs
X
www.proz.com,
http://www.translatorscafe.com
UCO - IPLV - TAO - Initiation - [email protected]
www.btb.termiumplus.gc.ca/
www.granddictionnaire.com
3
Dictionnaires électroniques
• Définition
– Vocabulaire Général le plus souvent
– Entrées de structure définie
• Caractéristiques
– Non modifiables sauf exception
– En général non exploitable via un autre logiciel
• Exemples
– Collins CD
– Collins on line
UCO - IPLV - TAO - Initiation - [email protected]
4
Bases de données
terminologiques (BDT)
• Définition
– Spécifique à un domaine ou sous-domaine
– Chaque entrée possède une structure fixe
• Terme source (cible) / définition / gloses / exemples
• Caractéristiques
– Certaines BDT sont fixes : elles ne peuvent pas être
modifiées, mais seulement consultées. Exemples :
• Ex.: Termium IPhone ou Blackberry
• Ex.: Termium Plus en ligne : http://www.btb.termiumplus.gc.ca
• Ex.: IATE en ligne : http://iate.europa.eu
– D’autres sont vendues vides au départ.
– Ex. : Multiterm, Term Star
UCO - IPLV - TAO - Initiation - [email protected]
5
Annuaires et Moteurs
Internet
• Un annuaire Internet est une liste de liens
Internet créé par des personnes
• Ex.: http://www.wiwiannuaire.com/sciences/
• Un moteur de recherche Internet est un
répertoire créé automatiquement par les
indexeurs.
• Ex.: http://www.exalead.fr/search/
Logiciels de Traduction Assistée par l’Ordinateur
(= Environnements de Traduction)
Français
Anglais
Traduction Assistée par Ordinateur (TAO)
Computer Assisted Translation (CAT)
Environnement de Traduction (EnT)
Translation environment Tool (TenT)
•
Les Ateliers de Traduction (ou logiciels de TAO ou EnT)
sont un exemple de ressources informatiques pour le
traducteur
•
Ils désignent un logiciel offrant des outils d’aide à la
traduction tels que :
•
Un éditeur de traduction
•
Une mémoire de traduction
•
Une base terminologique
•
Un correcteur orthographique
•
Un système d’Assurance Qualité (QA checking)
Principe d’un AT
•
Présenter le document à traduire dans une interface qui
reste la même quelque soit le format de départ (Word,
HTML, InDesign, PPT, Excel, …)
•
Offrir des outils de base d’édition : correcteur
orthographique, mise en page, gestion des éléments non
textuels (balises HTML)
•
Offrir plusieurs types d’outils via différentes fenêtres, sous
une interface unique :
•
Base de données de phrases : mémoire de traduction
•
Base de données de termes : gestion terminologique
•
Outils d’assurance qualité
Mémoires de traduction (MT)
• Définition
– Une liste de phrases et de leur traduction
– NB : les MT de 2ème génération offrent aussi une liste liste de syntagmes
et leurs traductions
– Ex: [Cette phrase] [est constituée] [de trois syntagmes séparés par des crochets]
– Attention FR: Phrase EN: Sentence ; FR:Syntagme EN: Phrase !
– Une MT permet de stocker des traductions de phrases et de les réutiliser
• Caractéristiques
– À l’origine un logiciel de mémoire de traduction :
• Est vide au départ : il faut la remplir avec ses données (ou celles de clients)
• Quelques sites proposent des mémoires déjà constituées
UCO - IPLV - TAO - Initiation - [email protected]
9
Principe d’une
Mémoire de Traduction
Les grandes étapes
•
•
•
•
A : Traduction par un humain
B : Alimentation de la mémoire (Alignement)
C : Pré-traduction du document
D : Traduction du traducteur en interaction
avec la MT
Création d’une mémoire de traduction (MT)
Phase A - Traduction (Le Traducteur traduit)
Document
source
(original)
Mémoire
de
traduction
Document
cible
(traduit)
Phase B – Apprentissage des traductions
(Alignement ou Interface de traduction)
Mémoire
• Les données traductions d’une MT sont d’origine humaine
• La MT apprend sa mémoire via le module d’alignement ou directement dans
l’interface de traduction
MT– Phase B
Apprentissage de la traduction
L’apprentissage est réalisé :
• Soit en utilisant l’interface de traduction, en cours de traduction : à
chaque traduction d’un segment, cette traduction est associée au
segment de départ et enregistrée dans une mémoire
• Soit en utilisant un Aligneur : cet outil permet de récupérer
d’anciennes traductions et d’en faire une mémoire
L’apprentissage constitue des Unités de Traduction qui sont enregistrées
dans la mémoire.
Chaque Unité de Traduction (FR:UT, EN: TU) est elle-même constituée :
• d’une partie source contenant la phrase de départ
• d’une partie cible contenant la traduction
• d’informations complémentaires : date de création, langues, non du
créateur, nom du client, domaine, sous-domaine, …
Fonctionnement de l’aligneur
L’aligneur:
• Découpe le texte source
en phrases
• On parle de
« segmentation »
• Cela se fait suivant des
règles de segmentation
• Puis associe une phrase
avec sa traduction.
• On parle d’
« alignement » ou
« appariement »
• Les algorithmes
d’alignement
réussissent entre 90%
et 99%
• Il est donc nécessaire
de vérifier les
alignements
Ancien texte
source
In order to start the import,
choose “ import ” in the
“ file ” menu.
Close all windows. Now
you can………
Segment
source
Close all windows
Ancien
Texte cible
Pour démarrer l’import, choisir
“ import ” dans le menu
“ fichier ”.
Fermer toutes les fenêtres.
Maintenant, vous pouvez…
Segment
cible
Unité de
traduction
Fermer toutes les fenêtres
Mémoire
Bon à savoir : l’alignement de textes traduits (on parle
de textes parallèles) a bien occupé les chercheurs en
linguistique informatique dans les années 90. Les
méthode d’alignement font souvent appel à des
mathématiques statistiques complexes
Exemple d’interface de
validation d’alignements
Utilisation de la mémoire de traduction
Mémoire
C - Pré-traduction
Nouveau
document
source
Mémoire
de
traduction
Nouveau
document
traduit
D – Traduction en interaction dans l’interface
Une fois la mémoire de traduction constituée, la MT permet :
• Une Pré-traduction : la MT remplace automatiquement les phrases qui sont
identiquement trouvées en mémoire pour lesquelles une traduction existe
• La proposition de UT de la mémoire comme de traduction, en interaction dans
l’éditeur de traduction, dans le cas où une phrase similaire s’y trouve
Mémoire de Traduction
Mécanisme de proposition de UT
Pour proposer des
traductions enregistrées
en mémoire, le logiciel
de MT va d’abord :
• segmenter le
nouveau texte à
traduire en segments,
suivant des règles de
segmentation
•
•
•
You will now learn
how to create a table.
Close all windows.
Select “ new ” from
the “ file ” menu,…
Phrase à
traduire
Comparaison
Close all windows
Nouveau
texte source
Mémoire
Proposition de
traduction
Close all windows
Fermer toutes les fenêtres
Puis, chacun des segments à traduire est comparé à la partie source des unités de
traduction
Si une UT correspond au niveau de sa partie source, le logiciel de MT propose alors sa
partie cible comme traduction
La « correspondance » peut se faire de façon « approchée ». Ex.: si 9 des mots sur 10 du
segment à traduire se retrouvent dans la partie source de l’UT, alors la correspondance est
dite à 90% (NB: dans la réalité, il s’agit plutôt d’un % de caractères).
Exemple d’interface de
traduction d’une MT
Mémoire de Traduction vs Moteur
de traduction Automatique
• Une mémoire de traduction est une collection
de traductions effectuées au départ par des
traducteurs humains
•
Ex.: Atril Déjà Vu, SDL Trados Studio, OmegaT,..
• Un moteur de traduction génère
automatiquement des traductions à partir
d’algorithmes artificiels
•
Ex.: Systran, Google Translate, Softissimo
• Attention :
•
FR: Mémoire de Traduction (MT) | EN: Translation Memory (TM)
•
FR: Traduction Automatique (TA) | EN : Machine Translation (MT)
Base de données terminologique
Principe
Principe d’un BDT
• Une Base Terminologique est une collection de
termes sources associés à leur traduction
(termes cibles)
• Une entrée de la base comprend:
•
•
•
Le terme source
Le terme cible
D’autres données telle que : le domaine, sousdomaine, le genre, la catégorie grammaticale, le
concept associé, le nom du créateur, la date de
création, le statut (validé ou pas), ….
Exemple de BDT
Proposition d’un terme (Photo printer  imprimante photo),
provenant d’une base terminologique, dans l’interface de
traduction de SDL Trados Studio
Avantages d’une MT
• Sur les documents très répétitifs, un MT
permet de gagner du temps
• Une MT assure la cohérence de la
traduction et traduisant de la même façon
les phrases identiques
• L’interface unique, quelque soit le format
des documents traduits, permet
d’accélérer la traduction
Inconvénients
•
L’utilisation de phrases pré-traduites tend à appauvrir le
style
•
Les mémoires pouvant provenir d’autres traducteurs, il
est plus difficile d’en contrôler la qualité
•
Les mémoires, avec l’âge, ont tendance à se « polluer »
•
Non mises à jour, elles peuvent faire référence à une
terminologie obsolète
•
La segmentation artificielle du texte peut gêner la
traduction traditionnelle
Mémoires de Traduction Locales
> 10%
Top four
SDL Trados
Studio
Wordfast
Memo Q
Communes
Star Transit
Multitrans
Omega-T
SDLX
Déjà Vu
< 10% Across
Dr Eye
Cafetrans
Enlaso
Cats-Cradle
ForeignDesk
CBG Transtool
Helium
MS Helium
Open Language
tools
Metatexis
Mneme
No Babel
ProMemoria
Similis
TrAiD
Outils de Localisation
Alchemy Catalyst, AppleTrans , Fusion
Translate CMT, Heartsome, LocFactory
Editor, Logi-Term, Logi-Trans , Logobit
Localizer, MS LocStudio, Multilizer, (SDL)
Passolo, Po Edit, RC Win Trans, Tstream
Editor Studio, Visual Localize, XL8
OpenTM2 (IBM
Translation
Manager)
(SDL) Idiom
iLocalize
Translation intuition
Trans Web Express
Transolution
Open Language
Tools
Kbabel
LogoVista
LingoTek
LogiTrans
Transware
Ambassador
WebBudget
WordFischer
Heartsome
Modules de mémoires de traduction
MadCap, LingoTek
intégrées dans des outils d'édition
https://webtranslateit.com/fr
UCO - IPLV - TAO - Initiation - [email protected]
25
globale
Mémoires de traduction en ligne
Locales
Vides
modifiables
À contenu
À contenu
modifiable
En ligne
•Google
Translation Kit
•WordBee
•TAO XTM
•myCAT (suite Olanto)
•
•Transearch
•http://www.tsrali.com/query.cgi
•Linguee
•http://www.linguee.fr/
•Wordfast VLTM
•http://www.wordfast.com/products_vltm.html
•Windi
•http://www.windi7.com/index.php
•Lionbridge FreeWay
•https://freeway.lionbridge.com/
•
•
•
UCO - IPLV - TAO - Initiation - [email protected]
http://translate.google.com/toolkit/lis
t?hl=fr#translations/active
http://www.wordbee.com/Default.as
px
http://www.xtm-intl.com/xtmcloud
http://olanto.org/fr/logiciels
26
Standards
Échange de mémoires : TMX
•
•
•
•
•
Translation Memory eXchange
Organisme LISA
XML
Liste de segments entre balises
Plusieurs versions :
• 1.1
• 1.4b : permet le transport de données de
formatage du document d’origine
Exemple de fichier TMX
<tmx version="1.4b">
<header creationtool="XYZTool" creationtoolversion="1.01-023" datatype="PlainText"
segtype="sentence" adminlang="en-us" srclang="en" o-tmf="ABCTransMem">
</header>
<body>
<tu>
<tuv xml:lang="en">
<seg>Text in <bpt i="1">&lt;B&gt;</bpt>bold<ept i="1">&lt;/B&gt;</ept>.</seg>
</tuv>
<tuv xml:lang="fr">
<seg>Texte en <bpt i="1">&lt;B&gt;</bpt>gras<ept i="1">&lt;/B&gt;</ept>.</seg>
</tuv>
</tu>
</body>
</tmx>
Échange de Termes : TBX
•
•
•
•
Term Base eXchange
Organisme LISA
XML
Liste de termes entre balises
Exemple de fichier TBX
<termEntry id="c180">
<descrip type=" subject Field">Restaurant Menu Item</descrip>
<descrip type="concept Position" target="foodskos">s79</descrip>
<descrip type="definition"> the thigh of a frog leg (the foot has beenremoved)</descrip>
<langSet xml:lang="en">
<ntig id="t365">
<termGrp>
<term>frog legs</term>
</termGrp>
</ntig>
</langSet>
<langSet xml:lang="fr">
<ntig id="t364">
<termGrp>
<term>cuisses de grenouilles</term>
</termGrp>
</ntig>
</langSet>
</termEntry>
Échange de règles de
découpage : SRX
•
•
•
•
Segmentation Rules eXchange
Organisme LISA
XML
Liste de règles entre balises
Exemple de règle SRX
<languagerule languagerulename="Default">
<!-- Common rules for most languages -->
<rule break="no">
<beforebreak>^\s*[0-9]+\.</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
<rule break="yes">
<afterbreak>\n</afterbreak>
</rule>
<rule break="yes">
<beforebreak>[\.\?!]+</beforebreak>
<afterbreak>\s</afterbreak>
</rule>
</languagerule>
XLIFF: format de travaux de
traduction
<trans-unit id="15c38ad6-bb22-4346-a536-930fbbe4f7a9">
<source><g id="22">JOINT PROCUREMENT AGREEMENT
</g></source><seg-source><g id="22"><mrk mtype="seg"
mid="2">JOINT PROCUREMENT AGREEMENT</mrk> </g></segsource>
<target><g id="22"><mrk mtype="seg" mid="2">ACCORD DE
PASSATION CONJOINTE DE MARCHÉ</mrk> </g></target>
<sdl:seg-defs><sdl:seg id="2" conf="Translated" origin="auto-aligned"
origin-system="Proj_01_test_en-GB_fr-FR" percent="100"><sdl:value
key="SDL:OriginalTranslationHash">800143092</sdl:value></sdl:seg></sdl:seg-defs></transunit></group><group><sdl:cxts><sdl:cxt id="2" /></sdl:cxts>
Assurance Qualité
AQ/QA
• Module du logiciel de TA qui permet de
s’assurer de ce que certaines caractéristiques
textuels sont bien respectées
• Quelques exemples:
•
•
•
•
•
•
•
•
Espaces ou pas après les : ou %
Elimination des doubles espaces
Pas de Mr en FR, mais des M.
Mise en exposant du ‘lle’ de Mlle
Utilisation de guillemets FR ou pas
Transfert de balises HTML
Format des dates
…..
Cycle de Traduction
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Réception de fichiers
Extraction du texte à traduire / filtrage du format
Évaluation de la taille
Recherche terminologique préparatoire
Import des mémoires
Évaluation de la redondance
Répartition du travail
Prétraduction
Traduction
Révision
Relecture
Intégration au format initial
Relecture sous format
Correction de la traduction (et boucle)
Sauvegarde des mémoires de traduction
Consolidation de la terminologie
UCO - IPLV - TAO - Initiation - [email protected]
37
Terminologie de la TO
•
•
•
•
•
•
•
Unité de Traduction
Pré-Traduction
Alignement
Éditeur de traduction
Segment
Segmentation
Règle de
segmentation
• Source / cible
• Correspondance
•
•
•
•
•
•
Exacte
Approchée
Fuzzy / Exact Match
Seuil de similitude
Termes
Assurance Qualité