Bureautique pour Traducteur

Transcription

Bureautique pour Traducteur
Extraction de terminologie
UCO – IPLV
Emmanuel Planas
IPLV - Master 2 - E. Planas - Extraction de terminologie
1
Extraction terminologique
• Rappel du cycle de
traduction
– Cycle de traduction
– Extraction mono/bi-lingue
• Extraction manuelle
– Manipulation dans Word
– Manipulation dans Excel
• Logiciels
d'extraction
terminologique
– Multiterm Extract
– Phrase Extractor
– Similis
IPLV - Master 2 - E. Planas - Extraction de terminologie
2
Cycle de Traduction
IPLV - Master 2 - E. Planas - Extraction de terminologie
3
Cycle de Traduction
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Réception de fichiers
Extraction du texte à traduire / filtrage du format
Évaluation de la taille
Recherche terminologique préparatoire
Import des mémoires
Évaluation de la redondance
Répartition du travail
Prétraduction
Traduction
Révision
Relecture
Intégration au format initial
Relecture sous format
Correction de la traduction (et boucle)
Sauvegarde des mémoires de traduction
Consolidation de la terminologie
IPLV - Master 2 - E. Planas - Extraction de terminologie
4
Extraction Terminologique Monolingue
• Consiste à identifier dans le document
à traduire les termes importants ou
posant problème. Exemple :
On 8 April 1998 LABORATOIRES GOEMAR (the ‘opponent’) filed an
opposition against the application. The opposition was based on the
following goods of the registrations of the word mark LABORATOIRE DE LA
MER mentioned below:
French trade mark No 1443841, registered on 7 January 1988; ‘Cosmetics of a
marine products base’;
United Kingdom trade mark No 1402537, registered on 10 October 1989;
‘Cosmetics containing marine products’;
The opponent directed its opposition against part of the goods of the CTM
application, namely:
Class 3 – Soaps; perfumery, essential oils, cosmetics, hair lotions; dentifrices;
toiletries.
IPLV - Master 2 - E. Planas - Extraction de terminologie
5
Importance de l' « a priori »
• L'extraction terminologique est d'autant plus
importante que :
– Le document est long
• Car il y a plus de chances que les termes reviennent au cours
de la traduction, et le choix d'une traduction unique est d'autant
plus conséquente
• Car en choisissant, avant la traduction proprement dite du
texte, la traduction des termes récurrents,
– Si ce choix doit être revu au cours ou après la traduction, il sera
d'autant plus facile de le changer par chercher / remplacer : il n'y
aura qu'une version du terme (cible) à chercher
– La traduction fait intervenir plusieurs traducteurs
• Il necessaire de s'entendre avant la traduction, de façon à
garantir l'homogénéïté de la traduction soit assurée entre
traducteurs
IPLV - Master 2 - E. Planas - Extraction de terminologie
6
Gestion terminologique et relation
avec son client
• L'identification de terminologie avant traduction permet :
– De demander l'avis du client sans précipitation
– De se prémunir contre un retour négatif du
client post traduction
– De gagner du temps de non retour sur la
traduction (voir graphique suivant)
– De montrer son sérieux au client, et donc
• De justifier un tarif de traduction plus élevé
– De (vendre au / maintenir pour) le client une
grille terminologique traduite
IPLV - Master 2 - E. Planas - Extraction de terminologie
7
Coût d'une modification de document
• Une étude réalisée par une association
allemande de traduction automobile montre que
– le coût d'une modification de traduction est d'autant
plus élevé que la traduction est avancée
Début traduction
Coût de la
Traduction
Fin traduction
IPLV - Master 2 - E. Planas - Extraction de terminologie
8
Extraction Manuelle
non linguistique
de terminologie monolingue
IPLV - Master 2 - E. Planas - Extraction de terminologie
9
Posons le problème
• Je dois traduire un long texte Word
• Je souhaite savoir si certains termes sont
répétitifs (s'ils se répètent, il y a une
chance de ce qu'ils soit importants)
– Pour rechercher par avance leur traduction
• Je veux y passer le moins de temps
possible
• Comment automatiser cette recherche ?
IPLV - Master 2 - E. Planas - Extraction de terminologie
10
Une solution
1)Isoler les mots dans Word via des chercherremplacer
2)Exporter ces mots séparés dans Excel
3)Trier les mots dans Excel
4)Identifier les redondances via des décomptes
Notabene :
– Seuls les termes d'un mot seront identifiés
– cette solution ne fonctionne pas pour les langues qui ne
possèdent pas de séparateur de mots (chinois,
japonais, thailandais, ...., latin ancien)
IPLV - Master 2 - E. Planas - Extraction de terminologie
11
Aspect linguistique
• La méthode proposé ici est « mécanique »
• Elle ne tient pas compte de l'aspect
linguistique
• Ainsi les termes ne sont pas isolés suivant
leur sens ou leur syntaxe
• En particulier :
– les termes composés de plusieurs mots ne
sont pas identifiés
– Il y aura autant de termes que de formes du
mot (pluriel, genre, cas, conjugaison)
IPLV - Master 2 - E. Planas - Extraction de terminologie
12
1. Isoler les mots dans Word
IPLV - Master 2 - E. Planas - Extraction de terminologie
13
Texte initial - 001
IPLV - Master 2 - E. Planas - Extraction de terminologie
14
Isolation des mots
• Convertir le fichier Word « fichier_000.doc » au
format texte (pour éliminer la mise en forme).
– Enregistrer sous format « fichier_001.txt »
– Fermer le fichier Word
– Ouvrir la version « .txt » dans le logiciel Word
• Remplacer les espaces entre mots par des fins
de paragraphe : Chercher " " ==> Remplacer "^p"
• Remplacer les tabulations par des fins de
paragraphes : Chercher "^t" ==> Remplacer "^p"
• Enregistrer sous format « .txt » en changeant de
nom : « fichier_002.txt »
IPLV - Master 2 - E. Planas - Extraction de terminologie
15
Après enregistrement TXT
IPLV - Master 2 - E. Planas - Extraction de terminologie
16
Texte sans espaces, sans tabs
IPLV - Master 2 - E. Planas - Extraction de terminologie
17
Nettoyage préliminaire
• Remplacer les balises par des fins de paragraphes
– "</" => "^p" | "<" => "^p" | ">" => "^p"
• Idem avec les autres ponctuations
– "?" => "^p" | ";" => "^p" | "," => "^p"
• Idem avec différents types de parenthèses
– "(" => "^p" | ")" => "^p" | "{" => "^p" | "}" => "^p"
• Effacez les puces et points finaux des mots
– "\." => "^p"
IPLV - Master 2 - E. Planas - Extraction de terminologie
18
Plus de balises, ponctuation, ...
• Enregistrer sous format
« .txt » en changeant de
nom : « fichier_003.txt »
• À la fin de cette étape,
les mots devraient
apparaître isolés, un par
ligne
IPLV - Master 2 - E. Planas - Extraction de terminologie
19
Trier les mots sous Excel
IPLV - Master 2 - E. Planas - Extraction de terminologie
20
Tri
• Le tri alphabétique permet de
rassembler les occurrences des
mêmes mots
• Les répétitions de mots
apparaissent ainsi
• Ouvrir sous Excel « fichier_003.txt »
• Nous allons trier la colonne A
IPLV - Master 2 - E. Planas - Extraction de terminologie
21
Tri sous Excel 2003 - 1
• On sélectionne la colonne A
• Menu « Données / Trier »
IPLV - Master 2 - E. Planas - Extraction de terminologie
22
Tri sous Excel 7 - 1
IPLV - Master 2 - E. Planas - Extraction de terminologie
23
Tri sous Excel 2003 - 2
•
•
•
•
Trier par colonne A
Par tri croissant
Sans ligne de titres
Cliquer sur « OK »
IPLV - Master 2 - E. Planas - Extraction de terminologie
24
Tri sous Excel 7 - 2
IPLV - Master 2 - E. Planas - Extraction de terminologie
25
Résultat du tri
• Après une série
de nombres
• Apparaissent les
mots triés
• Les occurrences
d'un même mot
sont regroupées
• Nous allons
pouvoir les
compter
IPLV - Master 2 - E. Planas - Extraction de terminologie
26
Identifier les redondances sous Excel
IPLV - Master 2 - E. Planas - Extraction de terminologie
27
Nettoyage
• Effacer les lignes de chiffres
• Effacer les lignes de signes
• Pour effacer une série de lignes :
– Sélectionner la première en cliquant dans la
marge sur son numéro, à gauche
– Utiliser l'ascenseur pour se déplacer vers la
dernière ligne à effacer
– Appuyer sur la touche « majuscules », et
– Simultanément, sélectionner cette dernière ligne
– Bouton droit : « supprimer »
IPLV - Master 2 - E. Planas - Extraction de terminologie
28
Suppression d'une série de lignes
1
3
2
4
5
IPLV - Master 2 - E. Planas - Extraction de terminologie
29
Décompte du nombre de caractères
• Nous avons obtenu les mêmes mots
regroupés : plusieurs occurrences d'un
même mot apparaissent
• Ce que nous cherchons au final est une
liste :
– où le mot apparaît qu'une fois
– avec le nombre de ses occurrences
• Ex :
» Able, 9
» About, 5
» …..
IPLV - Master 2 - E. Planas - Extraction de terminologie
30
Passage des mots aux nombres
• Nous allons passer de l'information sous
forme de mots (caractères), à l'information
sous forme de nombres
• Pour ce faire, nous allons utiliser des
formules pour compter les occurrences
• Le passage de paradigme (caractères →
chiffres) se fait d'abord via un décompte
élémentaire, binaire :
– Mot égal ==> « 1 »
– Mot différent ==> « 0 »
IPLV - Master 2 - E. Planas - Extraction de terminologie
31
La formule
• On se place sur la cellule B2
• On y insère la formule conditionnelle
=si(A2=A1;1;0)
• Ceci signifie :
– Si le mot de A2 est égal au mot de A1
• Alors écrire un « 1 » dans B2 (où l'on se trouve)
• Sinon, écrire en « 0 »
• On valide avec la touche « Entrée »
• Puis on copie la formule sur toute la
colonne B2
IPLV - Master 2 - E. Planas - Extraction de terminologie
32
Première formule
IPLV - Master 2 - E. Planas - Extraction de terminologie
33
Copie sur toutes les lignes
IPLV - Master 2 - E. Planas - Extraction de terminologie
34
Résultat de la formule « si »
• La formule a pour effet :
– de signaler les changements de mots par « 0 »
– De transformer l'information :
– « le mot de cette ligne est égal au mot de la
ligne précédente »
– En « 1 »
IPLV - Master 2 - E. Planas - Extraction de terminologie
35
Décompte du nombre de « 1 »
• L'étape suivante consiste à :
– compter dans la colonne C
– Le nombre de « 1 »
• Cela nous donnera le nombre de fois que
le mot est répété
– C'est à dire le nombre d'occurrences du mot,
moins 1
• Nous considérons ainsi la colonne C
comme le « compteur »
IPLV - Master 2 - E. Planas - Extraction de terminologie
36
La formule de décompte
• Dans C2, écrivez :
=C1+B2
• Copiez cette formule sur les 10 cellules
suivantes
• On voit que dans la colonne C, la somme
des occurrences s'accroît
•
IPLV - Master 2 - E. Planas - Extraction de terminologie
37
Décompte : première étape
IPLV - Master 2 - E. Planas - Extraction de terminologie
38
Petit problème : la somme ne
s'arrête pas ...
IPLV - Master 2 - E. Planas - Extraction de terminologie
39
Arrêt de la somme
• Pour arrêter cette somme, nous allons
utiliser le fait que :
– Si l'on multiplie quelque chose par 0, cela fait 0
– Si l'on multiplie par 1, cela ne change pas le
résultat
• Or justement, nous avons :
– Un 0 lorsque nous changeons de mot
– Des 1 si l'on reste sur le même mot
• D'où la modification de la formule suivante
IPLV - Master 2 - E. Planas - Extraction de terminologie
40
Introduction d'une multiplication
IPLV - Master 2 - E. Planas - Extraction de terminologie
41
Les 0 et 1 font effet
•La
multiplication
par 0 au
changement de
mot remet la
somme à 0.
•La
multiplication
par 1 pour les
mots identiques
garde la
somme.
IPLV - Master 2 - E. Planas - Extraction de terminologie
42
Copie sur toute les lignes
•On copie cette
formule sur toutes
les lignes
•Le résultat montre
ce que l'on
attendait :
•Le dernier terme
d'une série
montre le
nombre
d'occurrences
IPLV - Master 2 - E. Planas - Extraction de terminologie
43
Ne garder que le meilleur ...
• Ce que nous
voudrions, au
final, c'est :
– une seule copie
par mot,
– et le nombre de
fois que ce mot
apparaît dans le
texte
IPLV - Master 2 - E. Planas - Extraction de terminologie
44
Ne garder que le meilleur ...
• Il nous faut donc
trouver une
façon de :
– garder la
dernière ligne
avec le compte
maximal
– éliminer les
autres lignes
IPLV - Master 2 - E. Planas - Extraction de terminologie
45
Principe du test
• Pour ce faire, nous allons d'abord donner
les moyens à Excel de comprendre que
nous sommes à la dernière ligne d'un terme
• Ceci se fait avec une formule qui va tester
l'arrêt de la somme
• L'idée consiste à vérifier le sens de variation
de la somme courante :
– Si elle est plus petite que celle qui suit, nous
sommes encore sur le même mot
– Si elle est plus grande que celle qui suit, c'est
que celle qui suit est 0 et que nous changeons
de mot.
IPLV - Master 2 - E. Planas - Extraction de terminologie
46
Tester l'arrêt de la somme
• Se placer
en E9
• Comparer D9
à D10
• Si D9>D10,
récupérer la
somme D9
en E9
• Sinon écrire
« rien » : ""
IPLV - Master 2 - E. Planas - Extraction de terminologie
47
Tester la somme résultat
• Sur la ligne de la somme max, résult OK
IPLV - Master 2 - E. Planas - Extraction de terminologie
48
Copie du test de la somme
• Copie dans
les autres
cellules
• Les
cellules de
somme
non max
sont vides :
c'est ce
que nous
souhaitions
IPLV - Master 2 - E. Planas - Extraction de terminologie
49
Principe du tri suivant
• Nous allons maintenant trier selon la
colonne E
• Les lignes non vides, avec des sommes
maximales vont se regrouper
• Les lignes vides vont se grouper
• Et le tri va séparer les deux.
• Au final, il ne restera que les lignes de
sommes maximales ensemble
IPLV - Master 2 - E. Planas - Extraction de terminologie
50
Copie des valeurs avant le tri
• Comme les sommes dépendent de lignes
situées au dessus, elles changeront de
valeurs dans le tri qui va changer l'ordre
des lignes
• Pour éviter ceci, nous allons « figer » les
valeurs des cellules en faisant une copie
de ces valeurs en colonne suivante
IPLV - Master 2 - E. Planas - Extraction de terminologie
51
Copie valeurs cellules avant tri
• h
j
IPLV - Master 2 - E. Planas - Extraction de terminologie
52
Collage spécial ...
• hjj
IPLV - Master 2 - E. Planas - Extraction de terminologie
53
… collage des valeurs
• ;h
IPLV - Master 2 - E. Planas - Extraction de terminologie
54
Résultat collage valeurs
IPLV - Master 2 - E. Planas - Extraction de terminologie
55
Effacement des colonnes
intermédiaires
• Nous n'avons plus besoin des colonnes
intermédiaires
• Il suffit de garder la dernière colonne des
valeurs
IPLV - Master 2 - E. Planas - Extraction de terminologie
56
Suppression colonnes intermédiaires
• ;
h
IPLV - Master 2 - E. Planas - Extraction de terminologie
57
Tri décroissant selon les sommes
IPLV - Master 2 - E. Planas - Extraction de terminologie
58
La liste attendue apparaît
• Les
cellules
vides de B
ont été
reportées
vers le
haut
• Restent
groupées
les mots et
sommes
IPLV - Master 2 - E. Planas - Extraction de terminologie
59
Suppression des lignes en trop
• Les lignes
supérieures
ne sont plus
utiles, on les
supprime
IPLV - Master 2 - E. Planas - Extraction de terminologie
60
IPLV - Master 2 - E. Planas - Extraction de terminologie
61
• Nous obtenons la liste attendue (voir
aprés)
• Cependant, classée telle que, suivant les
plus fortes occurrences, cela fait
apparaître des mots-outils, non
intéressants pour la terminologie (their,..)
• Nous pouvons optimiser cette liste en la
triant suivant les mots les plus longs
• Nous utilsons la fonction nbcar()
IPLV - Master 2 - E. Planas - Extraction de terminologie
62
Calcul de la longueur des mots
• La fonction nbcar() permet de calculer les
longueurs des mots de la colonne A
IPLV - Master 2 - E. Planas - Extraction de terminologie
63
Copie de la formule sur toutes les lignes
IPLV - Master 2 - E. Planas - Extraction de terminologie
64
Tri selon cette colonne des
longueurs de mots
IPLV - Master 2 - E. Planas - Extraction de terminologie
65
Liste améliorée
• On notera que le manipulateur a oublié de
nettoyer la ponctuation …..
IPLV - Master 2 - E. Planas - Extraction de terminologie
66