Bureautique pour Traducteur
Transcription
Bureautique pour Traducteur
Extraction de terminologie UCO – IPLV Emmanuel Planas IPLV - Master 2 - E. Planas - Extraction de terminologie 1 Extraction terminologique • Rappel du cycle de traduction – Cycle de traduction – Extraction mono/bi-lingue • Extraction manuelle – Manipulation dans Word – Manipulation dans Excel • Logiciels d'extraction terminologique – Multiterm Extract – Phrase Extractor – Similis IPLV - Master 2 - E. Planas - Extraction de terminologie 2 Cycle de Traduction IPLV - Master 2 - E. Planas - Extraction de terminologie 3 Cycle de Traduction • • • • • • • • • • • • • • • • Réception de fichiers Extraction du texte à traduire / filtrage du format Évaluation de la taille Recherche terminologique préparatoire Import des mémoires Évaluation de la redondance Répartition du travail Prétraduction Traduction Révision Relecture Intégration au format initial Relecture sous format Correction de la traduction (et boucle) Sauvegarde des mémoires de traduction Consolidation de la terminologie IPLV - Master 2 - E. Planas - Extraction de terminologie 4 Extraction Terminologique Monolingue • Consiste à identifier dans le document à traduire les termes importants ou posant problème. Exemple : On 8 April 1998 LABORATOIRES GOEMAR (the ‘opponent’) filed an opposition against the application. The opposition was based on the following goods of the registrations of the word mark LABORATOIRE DE LA MER mentioned below: French trade mark No 1443841, registered on 7 January 1988; ‘Cosmetics of a marine products base’; United Kingdom trade mark No 1402537, registered on 10 October 1989; ‘Cosmetics containing marine products’; The opponent directed its opposition against part of the goods of the CTM application, namely: Class 3 – Soaps; perfumery, essential oils, cosmetics, hair lotions; dentifrices; toiletries. IPLV - Master 2 - E. Planas - Extraction de terminologie 5 Importance de l' « a priori » • L'extraction terminologique est d'autant plus importante que : – Le document est long • Car il y a plus de chances que les termes reviennent au cours de la traduction, et le choix d'une traduction unique est d'autant plus conséquente • Car en choisissant, avant la traduction proprement dite du texte, la traduction des termes récurrents, – Si ce choix doit être revu au cours ou après la traduction, il sera d'autant plus facile de le changer par chercher / remplacer : il n'y aura qu'une version du terme (cible) à chercher – La traduction fait intervenir plusieurs traducteurs • Il necessaire de s'entendre avant la traduction, de façon à garantir l'homogénéïté de la traduction soit assurée entre traducteurs IPLV - Master 2 - E. Planas - Extraction de terminologie 6 Gestion terminologique et relation avec son client • L'identification de terminologie avant traduction permet : – De demander l'avis du client sans précipitation – De se prémunir contre un retour négatif du client post traduction – De gagner du temps de non retour sur la traduction (voir graphique suivant) – De montrer son sérieux au client, et donc • De justifier un tarif de traduction plus élevé – De (vendre au / maintenir pour) le client une grille terminologique traduite IPLV - Master 2 - E. Planas - Extraction de terminologie 7 Coût d'une modification de document • Une étude réalisée par une association allemande de traduction automobile montre que – le coût d'une modification de traduction est d'autant plus élevé que la traduction est avancée Début traduction Coût de la Traduction Fin traduction IPLV - Master 2 - E. Planas - Extraction de terminologie 8 Extraction Manuelle non linguistique de terminologie monolingue IPLV - Master 2 - E. Planas - Extraction de terminologie 9 Posons le problème • Je dois traduire un long texte Word • Je souhaite savoir si certains termes sont répétitifs (s'ils se répètent, il y a une chance de ce qu'ils soit importants) – Pour rechercher par avance leur traduction • Je veux y passer le moins de temps possible • Comment automatiser cette recherche ? IPLV - Master 2 - E. Planas - Extraction de terminologie 10 Une solution 1)Isoler les mots dans Word via des chercherremplacer 2)Exporter ces mots séparés dans Excel 3)Trier les mots dans Excel 4)Identifier les redondances via des décomptes Notabene : – Seuls les termes d'un mot seront identifiés – cette solution ne fonctionne pas pour les langues qui ne possèdent pas de séparateur de mots (chinois, japonais, thailandais, ...., latin ancien) IPLV - Master 2 - E. Planas - Extraction de terminologie 11 Aspect linguistique • La méthode proposé ici est « mécanique » • Elle ne tient pas compte de l'aspect linguistique • Ainsi les termes ne sont pas isolés suivant leur sens ou leur syntaxe • En particulier : – les termes composés de plusieurs mots ne sont pas identifiés – Il y aura autant de termes que de formes du mot (pluriel, genre, cas, conjugaison) IPLV - Master 2 - E. Planas - Extraction de terminologie 12 1. Isoler les mots dans Word IPLV - Master 2 - E. Planas - Extraction de terminologie 13 Texte initial - 001 IPLV - Master 2 - E. Planas - Extraction de terminologie 14 Isolation des mots • Convertir le fichier Word « fichier_000.doc » au format texte (pour éliminer la mise en forme). – Enregistrer sous format « fichier_001.txt » – Fermer le fichier Word – Ouvrir la version « .txt » dans le logiciel Word • Remplacer les espaces entre mots par des fins de paragraphe : Chercher " " ==> Remplacer "^p" • Remplacer les tabulations par des fins de paragraphes : Chercher "^t" ==> Remplacer "^p" • Enregistrer sous format « .txt » en changeant de nom : « fichier_002.txt » IPLV - Master 2 - E. Planas - Extraction de terminologie 15 Après enregistrement TXT IPLV - Master 2 - E. Planas - Extraction de terminologie 16 Texte sans espaces, sans tabs IPLV - Master 2 - E. Planas - Extraction de terminologie 17 Nettoyage préliminaire • Remplacer les balises par des fins de paragraphes – "</" => "^p" | "<" => "^p" | ">" => "^p" • Idem avec les autres ponctuations – "?" => "^p" | ";" => "^p" | "," => "^p" • Idem avec différents types de parenthèses – "(" => "^p" | ")" => "^p" | "{" => "^p" | "}" => "^p" • Effacez les puces et points finaux des mots – "\." => "^p" IPLV - Master 2 - E. Planas - Extraction de terminologie 18 Plus de balises, ponctuation, ... • Enregistrer sous format « .txt » en changeant de nom : « fichier_003.txt » • À la fin de cette étape, les mots devraient apparaître isolés, un par ligne IPLV - Master 2 - E. Planas - Extraction de terminologie 19 Trier les mots sous Excel IPLV - Master 2 - E. Planas - Extraction de terminologie 20 Tri • Le tri alphabétique permet de rassembler les occurrences des mêmes mots • Les répétitions de mots apparaissent ainsi • Ouvrir sous Excel « fichier_003.txt » • Nous allons trier la colonne A IPLV - Master 2 - E. Planas - Extraction de terminologie 21 Tri sous Excel 2003 - 1 • On sélectionne la colonne A • Menu « Données / Trier » IPLV - Master 2 - E. Planas - Extraction de terminologie 22 Tri sous Excel 7 - 1 IPLV - Master 2 - E. Planas - Extraction de terminologie 23 Tri sous Excel 2003 - 2 • • • • Trier par colonne A Par tri croissant Sans ligne de titres Cliquer sur « OK » IPLV - Master 2 - E. Planas - Extraction de terminologie 24 Tri sous Excel 7 - 2 IPLV - Master 2 - E. Planas - Extraction de terminologie 25 Résultat du tri • Après une série de nombres • Apparaissent les mots triés • Les occurrences d'un même mot sont regroupées • Nous allons pouvoir les compter IPLV - Master 2 - E. Planas - Extraction de terminologie 26 Identifier les redondances sous Excel IPLV - Master 2 - E. Planas - Extraction de terminologie 27 Nettoyage • Effacer les lignes de chiffres • Effacer les lignes de signes • Pour effacer une série de lignes : – Sélectionner la première en cliquant dans la marge sur son numéro, à gauche – Utiliser l'ascenseur pour se déplacer vers la dernière ligne à effacer – Appuyer sur la touche « majuscules », et – Simultanément, sélectionner cette dernière ligne – Bouton droit : « supprimer » IPLV - Master 2 - E. Planas - Extraction de terminologie 28 Suppression d'une série de lignes 1 3 2 4 5 IPLV - Master 2 - E. Planas - Extraction de terminologie 29 Décompte du nombre de caractères • Nous avons obtenu les mêmes mots regroupés : plusieurs occurrences d'un même mot apparaissent • Ce que nous cherchons au final est une liste : – où le mot apparaît qu'une fois – avec le nombre de ses occurrences • Ex : » Able, 9 » About, 5 » ….. IPLV - Master 2 - E. Planas - Extraction de terminologie 30 Passage des mots aux nombres • Nous allons passer de l'information sous forme de mots (caractères), à l'information sous forme de nombres • Pour ce faire, nous allons utiliser des formules pour compter les occurrences • Le passage de paradigme (caractères → chiffres) se fait d'abord via un décompte élémentaire, binaire : – Mot égal ==> « 1 » – Mot différent ==> « 0 » IPLV - Master 2 - E. Planas - Extraction de terminologie 31 La formule • On se place sur la cellule B2 • On y insère la formule conditionnelle =si(A2=A1;1;0) • Ceci signifie : – Si le mot de A2 est égal au mot de A1 • Alors écrire un « 1 » dans B2 (où l'on se trouve) • Sinon, écrire en « 0 » • On valide avec la touche « Entrée » • Puis on copie la formule sur toute la colonne B2 IPLV - Master 2 - E. Planas - Extraction de terminologie 32 Première formule IPLV - Master 2 - E. Planas - Extraction de terminologie 33 Copie sur toutes les lignes IPLV - Master 2 - E. Planas - Extraction de terminologie 34 Résultat de la formule « si » • La formule a pour effet : – de signaler les changements de mots par « 0 » – De transformer l'information : – « le mot de cette ligne est égal au mot de la ligne précédente » – En « 1 » IPLV - Master 2 - E. Planas - Extraction de terminologie 35 Décompte du nombre de « 1 » • L'étape suivante consiste à : – compter dans la colonne C – Le nombre de « 1 » • Cela nous donnera le nombre de fois que le mot est répété – C'est à dire le nombre d'occurrences du mot, moins 1 • Nous considérons ainsi la colonne C comme le « compteur » IPLV - Master 2 - E. Planas - Extraction de terminologie 36 La formule de décompte • Dans C2, écrivez : =C1+B2 • Copiez cette formule sur les 10 cellules suivantes • On voit que dans la colonne C, la somme des occurrences s'accroît • IPLV - Master 2 - E. Planas - Extraction de terminologie 37 Décompte : première étape IPLV - Master 2 - E. Planas - Extraction de terminologie 38 Petit problème : la somme ne s'arrête pas ... IPLV - Master 2 - E. Planas - Extraction de terminologie 39 Arrêt de la somme • Pour arrêter cette somme, nous allons utiliser le fait que : – Si l'on multiplie quelque chose par 0, cela fait 0 – Si l'on multiplie par 1, cela ne change pas le résultat • Or justement, nous avons : – Un 0 lorsque nous changeons de mot – Des 1 si l'on reste sur le même mot • D'où la modification de la formule suivante IPLV - Master 2 - E. Planas - Extraction de terminologie 40 Introduction d'une multiplication IPLV - Master 2 - E. Planas - Extraction de terminologie 41 Les 0 et 1 font effet •La multiplication par 0 au changement de mot remet la somme à 0. •La multiplication par 1 pour les mots identiques garde la somme. IPLV - Master 2 - E. Planas - Extraction de terminologie 42 Copie sur toute les lignes •On copie cette formule sur toutes les lignes •Le résultat montre ce que l'on attendait : •Le dernier terme d'une série montre le nombre d'occurrences IPLV - Master 2 - E. Planas - Extraction de terminologie 43 Ne garder que le meilleur ... • Ce que nous voudrions, au final, c'est : – une seule copie par mot, – et le nombre de fois que ce mot apparaît dans le texte IPLV - Master 2 - E. Planas - Extraction de terminologie 44 Ne garder que le meilleur ... • Il nous faut donc trouver une façon de : – garder la dernière ligne avec le compte maximal – éliminer les autres lignes IPLV - Master 2 - E. Planas - Extraction de terminologie 45 Principe du test • Pour ce faire, nous allons d'abord donner les moyens à Excel de comprendre que nous sommes à la dernière ligne d'un terme • Ceci se fait avec une formule qui va tester l'arrêt de la somme • L'idée consiste à vérifier le sens de variation de la somme courante : – Si elle est plus petite que celle qui suit, nous sommes encore sur le même mot – Si elle est plus grande que celle qui suit, c'est que celle qui suit est 0 et que nous changeons de mot. IPLV - Master 2 - E. Planas - Extraction de terminologie 46 Tester l'arrêt de la somme • Se placer en E9 • Comparer D9 à D10 • Si D9>D10, récupérer la somme D9 en E9 • Sinon écrire « rien » : "" IPLV - Master 2 - E. Planas - Extraction de terminologie 47 Tester la somme résultat • Sur la ligne de la somme max, résult OK IPLV - Master 2 - E. Planas - Extraction de terminologie 48 Copie du test de la somme • Copie dans les autres cellules • Les cellules de somme non max sont vides : c'est ce que nous souhaitions IPLV - Master 2 - E. Planas - Extraction de terminologie 49 Principe du tri suivant • Nous allons maintenant trier selon la colonne E • Les lignes non vides, avec des sommes maximales vont se regrouper • Les lignes vides vont se grouper • Et le tri va séparer les deux. • Au final, il ne restera que les lignes de sommes maximales ensemble IPLV - Master 2 - E. Planas - Extraction de terminologie 50 Copie des valeurs avant le tri • Comme les sommes dépendent de lignes situées au dessus, elles changeront de valeurs dans le tri qui va changer l'ordre des lignes • Pour éviter ceci, nous allons « figer » les valeurs des cellules en faisant une copie de ces valeurs en colonne suivante IPLV - Master 2 - E. Planas - Extraction de terminologie 51 Copie valeurs cellules avant tri • h j IPLV - Master 2 - E. Planas - Extraction de terminologie 52 Collage spécial ... • hjj IPLV - Master 2 - E. Planas - Extraction de terminologie 53 … collage des valeurs • ;h IPLV - Master 2 - E. Planas - Extraction de terminologie 54 Résultat collage valeurs IPLV - Master 2 - E. Planas - Extraction de terminologie 55 Effacement des colonnes intermédiaires • Nous n'avons plus besoin des colonnes intermédiaires • Il suffit de garder la dernière colonne des valeurs IPLV - Master 2 - E. Planas - Extraction de terminologie 56 Suppression colonnes intermédiaires • ; h IPLV - Master 2 - E. Planas - Extraction de terminologie 57 Tri décroissant selon les sommes IPLV - Master 2 - E. Planas - Extraction de terminologie 58 La liste attendue apparaît • Les cellules vides de B ont été reportées vers le haut • Restent groupées les mots et sommes IPLV - Master 2 - E. Planas - Extraction de terminologie 59 Suppression des lignes en trop • Les lignes supérieures ne sont plus utiles, on les supprime IPLV - Master 2 - E. Planas - Extraction de terminologie 60 IPLV - Master 2 - E. Planas - Extraction de terminologie 61 • Nous obtenons la liste attendue (voir aprés) • Cependant, classée telle que, suivant les plus fortes occurrences, cela fait apparaître des mots-outils, non intéressants pour la terminologie (their,..) • Nous pouvons optimiser cette liste en la triant suivant les mots les plus longs • Nous utilsons la fonction nbcar() IPLV - Master 2 - E. Planas - Extraction de terminologie 62 Calcul de la longueur des mots • La fonction nbcar() permet de calculer les longueurs des mots de la colonne A IPLV - Master 2 - E. Planas - Extraction de terminologie 63 Copie de la formule sur toutes les lignes IPLV - Master 2 - E. Planas - Extraction de terminologie 64 Tri selon cette colonne des longueurs de mots IPLV - Master 2 - E. Planas - Extraction de terminologie 65 Liste améliorée • On notera que le manipulateur a oublié de nettoyer la ponctuation ….. IPLV - Master 2 - E. Planas - Extraction de terminologie 66