PDF du texte dans la version HDR

Transcription

PDF du texte dans la version HDR
T10
De la création d’un corpus bilingue du tourisme à partir du Web
à son exploration avec ParaSearch et Unitex
pour la documentation des lexicographes
[avec Hans Paulussen] A
[231 Ð
Résumé
Nous retraçons la constitution à partir du Web d’un corpus thématique français / anglais aligné puis son exploration impliquant la coopération de deux concordanciers, l’un
multilingue et l’autre monolingue, pour documenter des travaux de lexicographie bilingue.
1.
Introduction
Dans cette contribution, nous présentons, d’un point de vue méthodologique plus
que technique, les différentes étapes que couvrent la constitution d’un corpus bilingue
compilé à partir du Web et aligné par paragraphes, puis son exploration impliquant
[232 Ð
la coopération de
ParaSearch (un concordancier multilingue 2 développé par Hans
3
Paulussen ) et d’Unitex 4 (un outil monolingue 5 développé à l’Institut Gaspard Monge,
université de Marne-La-Vallée).
Le corpus constitué est dédié à la documentation de lexicographes, à qui il doit fournir des données pour l’analyse lexicale de l’expression bilingue d’activités liées au tourisme.
Dans le cadre de cet exposé, nous évoquons les hypothèses qui ont motivé la mise
en chantier d’un corpus bilingue aligné à partir du Web, en nous concentrant sur les
[232 Ð
A
2
3
4
5
La note 1 de l’édition originale contenait les coordonnées des auteurs.
ParaSearch pourrait traiter trois langues en parallèle, mais il n’est employé ici que pour effectuer des recherches
dans un corpus bilingue.
ParaSearch a été développé dans le cadre d’une thèse (Paulussen (1999)) portant sur l’analyse contrastive
de prépositions dans trois langues : le néerlandais, l’anglais et le français.
Unitex se prête particulièrement bien au posttraitement de productions d’autres outils. Il a déjà été mobilisé
pour fonctionner coopérativement avec l’étiqueteur morphosyntaxique Cordial Analyseur (cf. Gasiglia (2004)).
Unitex (http://www-igm.univ-mlv.fr/~unitex/) est un logiciel qui permet de traiter des textes monolingues en
exploitant différentes ressources linguistiques dont il est doté (dictionnaires au format DELA – élaborés au
LADL sous la direction de Maurice Gross pour le français – et grammaires codées sous forme de réseaux de
transitions récursifs – RTN).
2008d, in F. Maniez, P. Dury, N. Arlin & C. Rougemont dir., Corpus et dictionnaires de langues de spécialité,
Grenoble, Presses Universitaires de Grenoble, pp. 231-270.
[Article dans un volume d’actes de colloque international ; rédigé en 2006-2007 ; 70 189 caractères ; cf. C12 & E8]
630
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
propriétés informatiques des documents qui y sont rendus disponibles (cf. § 2.) et nous
abordons la méthodologie de cette constitution, mais nous ne développons pas le descriptif technique (cf. § 3.). Nous analysons enfin comment le posttraitement avec Unitex
des concordances bilingues produites par ParaSearch permet de filtrer les contextes
et traductions neufs, dont les lexicographes ne disposeraient pas déjà en consultant à
titre documentaire des guides de conversation ou des dictionnaires bilingues spécialisés (cf. § 4.). Nous évaluons ainsi la plus-value informationnelle de ce corpus.
[233 Ð
Ce travail est articulé aux travaux que nous avons engagés en 2005-2006 avec les
étudiants du M2 LTTAC 6 et, au-delà de cette expérience, nous cherchons à apprécier :
(i) si une maîtrise élémentaire des outils basiques de manipulation de textes sous Linux 7
et de scripts en AWK et PERL 8 suffit pour créer un corpus thématique à partir du
Web ;
[234 Ð
(ii) si ce type de corpus présente un bon rendement – évalué en fonction du nombre
d’informations pertinentes pour un projet dictionnairique donné que le corpus révèle
et qui sont absentes d’une sélection de ressources documentaires ;
(iii) si ce corpus peut être exploité en triant semi-automatiquement les données.
2.
Pourquoi utiliser le Web pour constituer un corpus bilingue aligné ?
Si l’on convient que la fonction d’un dictionnaire bilingue spécialisé – du tourisme
ici – est de fournir des équivalences traductionnelles, l’utilisation de corpus parallèles
[233 Ð
6
7
8
Le master professionnalisant 2e année “Lexicographie, Terminographie et Traitement Automatique des Corpus”,
spécialité “TAL, Dictionnaires, Terminologies, Corpus”, mention “Sciences du Langage” du master “Arts,
Lettres, Langues et Communication” de l’université Lille 3. Voir le site : http://stl.recherche.univ-lille3.fr/
siteheberges/LTTAC/index.htm.
Linux est un système d’exploitation, comparable à Windows (pour PC) et MacOS (pour Macintosh). Comme
ces autres systèmes d’exploitation, Linux propose une GUI (Graphical User Interface : une interface graphique
conviviale où tout objet est manipulé par des menus ou avec la souris), mais il est surtout réputé auprès
des informaticiens pour son interpréteur de lignes de commandes, le Shell, une interface “textuelle” où toute
action est déclenchée par l’écriture puis l’exécution d’une commande accompagnée de ses arguments (dont
les noms des fichiers dont le contenu est à traiter), ce qui permet d’effectuer des manipulations simples mais
répétitives ou des actions élaborées, comme celles concernant plusieurs fichiers enregistrés dans des répertoires différents. L’interface graphique est dite orientée “objet”, tandis que l’interface non-graphique est
orientée “verbe”.
Les “grands” langages de programmation (les langages compilés, comme le C) demandent un cycle de développement assez lourd dans la mesure où ils nécessitent une compilation – une opération qui convertit le code
source (le programme écrit en format texte) vers un format binaire lisible seulement par une machine – et
où une nouvelle compilation doit être effectuée chaque fois que le programme est modifié. Un sous-groupe
de langages de programmation se distingue des précédents par le fait que le code source n’est pas compilé
et reste donc lisible par le programmeur. Ce type de code source est appelé script et les langages de ce sousensemble sont des langages de scripts. Comme ils sont généralement utilisés pour des tâches et des domaines
spécifiques, ces langages sont également souvent appelés “petits” langages. Parmi eux, certains sont spécifiquement créés pour la manipulation de données textuelles : SED, AWK et PERL, que nous avons utilisés,
et d’autres plus récents, TCL/TK et PYTHON par exemple. Les langages de scripts, qui offrent une relative
souplesse d’écriture, qui garantissent une certaine aisance lors d’ajouts de fonctionnalités à une application et
[234Ð
bonne portabilité sur différents systèmes d’exploitation (cf. note 7), permettent aujourd’hui
qui assurent une
des développements applicatifs performants. Ils concurrencent quelquefois de “grands langages”.
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
631
ou, mieux, alignés au niveau des phrases ou des paragraphes, peut sembler particulièrement adaptée pour la documentation de ses rédacteurs. 9
2.1. Un réservoir de traductions mais pas un corpus aligné
Le Web constitue un réservoir de traductions souvent disponibles dans plusieurs
langues 10, mais cet atout est contrebalancé par trois obstacles au moins qui interdisent
de l’exploiter comme un corpus aligné :
[235 Ð
(i) les documents parallèles du Web ne sont explorés par les moteurs de recherche que
page par page, et même si certains sites présentent des textes alignés sur chaque page,
ils sont très rares, ce qui interdit usuellement un accès simultané aux textes sources
et aux traductions, et conséquemment exclut d’utiliser le Web comme corpus multilingue aligné ;
(ii) les documents disponibles dans plusieurs langues sur le Web sont souvent des traductions automatiques ou réalisées par des amateurs non bilingues, ce qui induit que
leur qualité linguistique est quelquefois trop douteuse pour qu’ils puissent validement
documenter un lexicographe ;
(iii) lorsque les pages sont ramenées par un moteur de recherche, aucune n’a fait l’objet
d’une sélection en fonction d’hypothèses de travail explicitables.
2.2. Un format ouvert : le HTML
Malgré ce triple obstacle, il est indéniable que le Web met à disposition un important volume de textes et qu’un argument technique en fait une ressource intéressante :
c’est un lieu de publication électronique remarquable puisque le format de base de la
grande majorité des pages Web est un format ouvert 11 – le HTML – qui permet aisément de séparer les codes de formatage des contenus textuels.
9
10
[235 Ð
11
Habituellement, ce sont plutôt des corpus comparables qui sont mobilisés, cf. par exemple Grundy (1996),
Grefenstette (2002) ou Baroni & Bernardini (2004), mais des corpus parallèles ou alignés peuvent être utilisés, cf. Kraif (2003 et 2008) ou Cmejrek & Curin (2001).
D’autres travaux exploitent le Web pour y quérir des textes traduits : Resnik (1999), Resnik & Smith (2003),
Déléger & Zweigenbaum (2006) ou Delbecque & Zweigenbaum (2006), par exemple.
La notion de format ouvert s’oppose à celle de format propriétaire.
• Le HTML est un format ouvert, c’est-à-dire qu’un fichier HTML peut être lu avec n’importe quel éditeur
de texte :
– si c’est un éditeur HTML le texte apparaîtra mis en forme (cf. figure a) ;
632
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
[236 Ð
Figure a. http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html
dans Internet Explorer, un navigateur Web
– si ce n’est pas un éditeur dédié au format HTML (par exemple TextPad), les codes de formatage seront
visibles mêlés au texte (dans la copie d’écran présentée en figure b, les balises <H1>[…]</H1> et <H2>[…]</H2>
encadrent les titres, les balises <P>[…]</P> sont respectivement en début et en fin de paragraphes, comme
<I>[…]</I> en début et fin de segments en italiques, et les liens hypertextes sont matérialisés par <A href=[…]>
[…]</A>).
Figure b. http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html
dans TextPad, un éditeur de textes basique qui n’interprète pas le HTML
• Quand les mémoires de traduction, pour les documents alignés, ou les traitements de textes permettent
d’enregistrer des fichiers dont le contenu n’est lisible qu’avec le logiciel d’origine ou un logiciel compatible,
on parle de format propriétaire.
Dans le texte de la figure c, celui du document HTML précédent enregistré en DOC dans Microsoft Word et
ouvert dans TextPad, un éditeur de textes basique, les premières lignes présentent des suites de caractères
indécodables pour nous, des liens vers les fichiers d’images (INCLUDEPICTURE \d "E:\\Hébergements
[237 Ð
EXPO 2005 AICHI, JAPON_fichiers\\logo.gif") et le texte de la page entrecoupé de liens et de caractères non interprétables comme « ¶┌ ┴ ┴ » par exemple.
Figure c. http://www-1.expo2005.or.jp/fr/visitingjapan/accommodation.html
enregistré en format DOC puis ouvert dans TextPad qui ne l’interprète pas
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
633
[237 Ð
D’autres formats sont utilisés sur le Web et une part croissante des documents en
ligne sont des PDF, mais leur conversion en format texte brut pose parfois beaucoup
de problèmes, ce qui a induit leur exclusion de ce corpus.
Hors du Web, même si la chaîne de production des textes (de leur création à leur
publication) se fait de plus en plus de façon électronique et que le XML gagne du terrain,
les documents sont créés avec des outils – des mémoires de traduction, ou des traitements de textes – qui ne génèrent pas systématiquement des documents en XML mais
encore souvent des fichiers codés dans un format propriétaire (cf. note 11). Par conséquent, outre les difficultés de collecte, regrouper ces documents impliquerait de gérer
leur hétérogénéité.
2.3. Principes de sélection des documents multilingues trouvés sur le Web
Engager la création d’un corpus fermé (mais extensible) nous a amenés à nous inter[238
roger sur la couverture et la représentativité de ce Ðcorpus 12 afin d’établir des principes de sélection ou d’exclusion des documents multilingues trouvés sur le Web.
Ces critères prennent en compte :
– l’adéquation thématique ;
– la qualité linguistique des textes de chaque langue en présence (idiomaticité, richesse
lexicale et respect “standard” des règles grammaticales) : quelques textes qui étaient
traduits automatiquement à la demande du consultant ou semblaient l’avoir été antérieurement à leur mise en ligne, mais sans que la sortie du système de traduction ait
été révisée, n’ont pas été retenus ;
– le parallélisme effectif des textes : des textes longs (probablement les textes sources)
étaient mis en parallèle avec des textes courts, qui n’en reprenaient que les idées principales ; ces documents n’étant pas alignables, ils n’ont pas été sélectionnés ;
– la présence majoritaire de textes rédigés plutôt que de données présentées sous forme
de tableaux de chiffres (tarifs, horaires, etc.).
Ces critères ne garantissent pas nécessairement une bonne couverture thématique
et linguistique des documents, mais ils permettent d’exclure des textes qui se seraient
révélés invalides pour documenter un travail de lexicographie de facture classique 13.
[239 Ð
Nous avons le projet d’adjoindre des indicateurs typologiques à chaque document,
mais à une typologie a priori, qui nous semblait malaisée à constituer eu égard à la
diversité des documents trouvables sur le Web, nous avons préféré une typologie fondée
sur l’analyse des documents retenus et exclus, qui est en cours de réalisation.
[238 Ð
12
13
Cette question devrait tout aussi utilement être posée quand le Web est exploré dans sa globalité aux contours
inconnus, mais elle ne l’est généralement pas par ceux qui posent que la quantité de données contenues dans
les pages Web compense la disparité de leur qualité linguistique, l’inconnaissabilité de leur représentativité
des usages, l’incertitude de leur couverture domaniale, etc., cf. Véronis (2005).
Par « lexicographie de facture classique », nous désignons une lexicographie qui ne viserait pas à décrire des
usages repérés comme étant écartés des usages les plus communs – les chats, les SMS, etc. –, mais la notion
d’usages communs mériterait d’être définie, ce qui n’est pas le propos ici.
634
3.
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Méthodologie de constitution du corpus bilingue aligné du tourisme
Aux critères que nous venons d’évoquer se sont ajoutés des éléments d’appréciation
qui sont plus informatiquement motivés, comme l’évaluation de la complexité et de la
régularité structurelle de chaque site, qui auront des incidences sur la sophistication
des manipulations à effectuer.
3.1. Recherche des indices de parallélisme des documents dans les URL
Pour chaque site visité il est crucial de savoir dans quelle mesure sa structure fournit
des indices fiables pour repérer le parallélisme des documents. Il peut s’agir de la mention de la langue dans l’URL de chaque page 14 ou d’un indice explicitant quelles sont
les langues en présence. 15 Durant les repérages préparatoires à la constitution du
[240 Ð
corpus, une large diversité d’habitudes de nommage des pages dont les contenus
étaient parallèles a été observée, cf. figure 1, à laquelle se réfèrent les renvois du texte
ci-après.
(i) Qu’il s’agisse ou non d’appels de scripts (ASP, PHP, etc.), les noms des documents
parallèles pouvaient se résumer à des codes alphabétiques ou numériques dont un à
deux caractères représentaient éventuellement la langue ( fr et en ou 1 et 2, cf. lignes
a et b).
(ii) Quand les noms des documents étaient plus explicites – c’est-à-dire constitués de
mots clés ou de titres de pages reformatés pour constituer des noms de fichiers valides –,
les noms des documents parallèles pouvaient être identiques pour les pages des différentes langues (cf. ligne c) ou être des traductions dans la langue de chaque page (cf.
lignes d et g), ou encore être totalement différents (cf. ligne e) et, dans les URL, ils pouvaient être associés à la mention de la langue de chaque page, que celle-ci soit incluse
dans le nom de fichier (cf. ligne f ) ou dans un nom de dossier enchâssant, et qu’elle
[239 Ð
14
15
Les travaux de Resnik (1999) et de Resnik & Smith (2003) déjà cités en note 10 exploitent cet indice.
Les URL (Uniform Resource Locators) permettent de définir de manière standard la localisation d’un fichier
ou d’une ressource sur Internet. Elles débutent toujours par la mention du nom du site décomposable en type
de service (http) et nom du serveur ou du domaine. Quand les pages sont statiques et que leur contenu est
enregistré dans des fichiers HTML, le nom du fichier est mentionné en position finale dans l’URL et, entre
le nom du site et le nom du fichier, s’intercalent, séparés par des slashs (des barres obliques), des noms de
dossiers, le premier mentionné à gauche enchâssant celui qui le suit directement à droite, etc., cf. figure d.
[240 Ð
Figure d. Décodage d’une URL
http://www.expo2005.or.jp
nom du site
/
fr
/ visitingjapan /
accommodation.html
nom du
dossier
enchâssant
nom du
dossier
enchâssé
nom du fichier
Glose : Le site http://www.expo2005.or.jp contient un dossier enchâssant fr qui contient un dossier
enchâssé visitingjapan qui contient lui-même un fichier au format HTML accommodation.html
Quand les pages ne correspondent pas à des fichiers à contenus stables, mais que leur contenu est dynamiquement inséré par des programmes qui sont activés à l’ouverture de chaque page, ce qui est mentionné en
fin d’URL, éventuellement après des noms de dossiers, correspond aux instructions permettant l’exécution
de ces programmes (on les appelle des « appels de scripts »).
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
635
s’exprime au moyen d’un code numérique ou alphabétique (conforme aux codes ISO
des langues, cf. lignes c et g, ou non, cf. ligne d), ou d’un nom formulé dans la langue
locale du site (ou dans celle du webmaster, cf. ligne h), en anglais ou dans les langues
des pages (cf. ligne i).
[241 Ð
Figure 1. Échantillon d’URL de pages à contenus parallèles
URL
REMARQUES SUR
LA SYNTAXE DES URL
a http://www.rouentourisme.com/default.asp?file=pg45-1_fr
http://www.rouentourisme.com/default.asp?file=pg45-1_en
appels de script avec codes de
langue alphabétiques
b http://www.marseille-tourisme.com/servlet/otcm?LANGUE=1&dist=2GP
http://www.marseille-tourisme.com/servlet/otcm?LANGUE=2&dist=3GP
appels de script avec codes de
langue numériques
c http://www-1.expo2005.or.jp/fr/visitingjapan/accommodation.html
http://www-1.expo2005.or.jp/en/visitingjapan/accommodation.html
noms de fichiers identiques, avec
noms de dossiers enchâssants indiquant les codes de langue normalisés
d http://lilletourism.com/se-deplacer-dans-lille.htm
http://lilletourism.com/uk/getting-around-lille.htm
noms de fichiers dans la langue
des pages et dossier (uk) pour la
page en anglais
e http://www.tourismus-bw.de/pannet/franzoesisch/franzoesisch.htm
http://www.tourismus-bw.de/pannet/english/home.htm
noms de fichiers et de dossiers
totalement différents
f http://europa.eu.int/abc/travel/flying/index_fr.htm
http://europa.eu.int/abc/travel/flying/index_en.htm
codes de langue normalisés
inclus dans le nom des fichiers
g http://www.institutneerlandais.com/fr/exposition.html
http://www.institutneerlandais.com/en/exhibition.html
codes de langue normalisés comme
noms de dossiers enchâssants et
noms de fichiers dans la langue
des pages
h http://www.antoine.tv/francais/voyages/destination/dest1.htm
http://www.antoine.tv/anglais/voyages/destination/dest1.htm
noms des langues (dans la langue
du webmaster) comme noms de
dossiers enchâssants et noms de
sous-dossiers et fichiers identiques
i http://french.memphistours.com/index.php
http://www.deutsch.memphistours.com/
http://www.memphistours.com/
• pas de mention de « www » dans
le nom du site en français ;
• noms de langue en anglais ou
dans la langue de la page, sauf
pour la page anglaise, qui ne comporte aucune mention de langue
Il s’est également révélé fréquent qu’une partie seulement des sites soient traduite.
Afin de circonscrire les rapatriements de fichiers aux seuls sous-ensembles de pages
pertinents, il est alors impératif de chercher à repérer quels sont les sous-ensembles
de pages qui contiennent bien des textes disponibles dans plusieurs langues, et de les
distinguer des pages dont les URL codent des langues différentes sans que les textes
contenus soient dans les langues annoncées (mais dans la langue du pays du site ou
en anglais).
636
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
3.2. Rapatriement des contenus des pages
En pratique, il s’est avéré efficace de privilégier les sites où la structure de l’URL
indique un nom constant et la langue choisie (cf. les URL présentées lignes a, c, f et
h) puisque cette manière de nommer les pages permet :
[242 Ð
1) de lister les liens vers les différents textes d’une langue à partir du contenu des pages
d’accueil de cette langue, puis de mettre en place un téléchargement automatique des
pages rédigées dans cette langue ;
2) de générer au moyen d’un script ad hoc les URL des pages rédigées dans l’autre
langue et d’automatiser leur téléchargement.
Ces manipulations sont d’autant plus efficaces que l’on traite en premier lieu la
langue “mineure” du site, celle observée comme ayant le plus petit nombre de pages
lors des repérages manuels préalables. Ainsi, si un sous-ensemble seulement des pages
est traduit dans le site, les URL générées correspondent toutes effectivement à des
pages existantes.
De manière plus détaillée, cf. figure 2 :
1) Les URL des liens des pages d’accueil (accueil principal et accueil de rubriques) vers
les pages rédigées dans une certaine langue sont réunies semi-automatiquement au
sein d’une liste où chaque URL occupe une ligne. Un script AWK traite cette liste afin
de générer un fichier de script BASH dans lequel chaque lien a été transformé en un
appel de commande WGET 16 qui :
– générera un index des pages téléchargées mettant en correspondance leur URL (dont
certains des caractères ne sont pas acceptables dans les noms de fichiers : slash, deuxpoints, etc.) avec le nom du fichier qui contient leur texte ;
– effectuera le téléchargement de leur contenu.
[242 Ð
[243 Ð
2) Après avoir analysé les règles de nommage du site et observé, par exemple, que les
noms de fichiers sont identiques d’une langue à l’autre mais que les pages de chaque
langue sont réunies au sein de dossiers nommés au moyen du code ISO de la langue
(comme dans les URL présentées figure 1 ligne c), une commande SED qui convertit
la liste des URL de la première langue en URL de la seconde (cf. figure 3) est exécutée,
puis le script AWK convoqué pour la première peut être réexploité (en y modifiant
[244
l’indication de langue dans les noms de Ðfichiers créés) pour générer le script BASH
contenant les appels WGET qui créeront l’index et téléchargeront les pages dans la
seconde langue.
16
Les navigateurs Web (comme Internet Explorer ou Firefox) sont des programmes qui permettent de télécharger des pages Web une par une pour en lire le contenu. WGET, lui, est un aspirateur de pages Web, un
outil qui permet de télécharger et d’enregistrer les contenus des pages sans les visualiser. En conséquence,
une seule commande WGET pourra capturer plusieurs pages d’un site si, dans l’expression du WGET, les
noms de dossiers ou de fichiers qui figurent dans les URL peuvent être remplacés par le métacaractère « * »
(qui, dans ce contexte, code la présence d’un ou plusieurs caractères quelconques).
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
[243 Ð
637
Figure 2. Schématisation de la procédure de téléchargement des pages Web
pages d’accueil du site Web dans la langue mineure (ici le français)
È
ANALYSE SEMI-AUTOMATIQUE
Ä
liste des URL des pages de la langue mineure
http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html
http://www.expo2005.or.jp/fr/visitingjapan/food/menu.html
…
Ì
EXÉCUTION D’UN SCRIPT AWK QUI CRÉE UN SCRIPT BASH EN TRANSFORMANT CHAQUE URL EN APPEL DE COMMANDE WGET
wget -t 45 –a log-expo.txt -O EXPO_01_FR.html http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html
wget -t 45 –a log-expo.txt -O EXPO_02_FR.html http://www.expo2005.or.jp/fr/visitingjapan/food/menu.html
…
È
EXÉCUTION DES COMMANDES
 index listant, à raison d’un par ligne, les couples URL / noms de fichier codifiés
WGET QUI CRÉENT UN INDEX
http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html
EXPO_01_FR.html
DES RAPATRIEMENTS ET
http://www.expo2005.or.jp/fr/visitingjapan/food/menu.html
EXPO_02_FR.html
TÉLÉCHARGENT LE FICHIER
ASSOCIÉ À CHAQUE URL
…
 textes rapatriés et enregistrés sous des noms de fichier codifiés
EXPO_01_FR.html
EXPO_02_FR.html
…
È
EXÉCUTION D’UN SCRIPT SED QUI TRANSFORME CHAQUE URL DE LA
LANGUE MINEURE EN URL DE L’AUTRE LANGUE (ICI L’ANGLAIS)
Ä
liste des URL des pages de l’autre langue
http://www.expo2005.or.jp/en/visitingjapan/accommodation.html
http://www.expo2005.or.jp/en/visitingjapan/food/menu.html
…
Ì
EXÉCUTION D’UN SCRIPT AWK QUI CRÉE UN SCRIPT BASH EN TRANSFORMANT CHAQUE URL EN APPEL DE COMMANDE WGET
È
EXÉCUTION DES COMMANDES
 index listant, à raison d’un par ligne, les couples URL / noms de fichier codifiés
WGET QUI CRÉENT UN INDEX
http://www.expo2005.or.jp/en/visitingjapan/accommodation.html
EXPO_01_EN.html
DES RAPATRIEMENTS ET
http://www.expo2005.or.jp/en/visitingjapan/food/menu.html
EXPO_02_EN.html
TÉLÉCHARGENT LE FICHIER
ASSOCIÉ À CHAQUE URL
…
 textes rapatriés et enregistrés sous des noms de fichier codifiés
EXPO_01_EN.html
EXPO_02_EN.html
…
638
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
[244 Ð
Figure 3. Échantillon de la liste des URL du site présenté en figure 1 ligne c
LISTE DES URL DES PAGES EN FRANÇAIS
: « …/fr/… »
http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html
http://www.expo2005.or.jp/fr/visitingjapan/food/menu.html
http://www.expo2005.or.jp/fr/visitingjapan/food/tea.html
http://www.expo2005.or.jp/fr/visitingjapan/food/typical.html
http://www.expo2005.or.jp/fr/visitingjapan/introduction/osaka.html
http://www.expo2005.or.jp/fr/visitingjapan/introduction/tokyo.html
http://www.expo2005.or.jp/fr/visitingjapan/service/volunteer.html
http://www.expo2005.or.jp/fr/visitingjapan/service/welcome.html
http://www.expo2005.or.jp/fr/visitingjapan/shopping.html
[…]
LISTE DES URL DES PAGES EN ANGLAIS
: « …/en/… »
http://www.expo2005.or.jp/en/visitingjapan/accommodation.html
http://www.expo2005.or.jp/en/visitingjapan/food/menu.html
http://www.expo2005.or.jp/en/visitingjapan/food/tea.html
http://www.expo2005.or.jp/en/visitingjapan/food/typical.html
http://www.expo2005.or.jp/en/visitingjapan/introduction/osaka.html
http://www.expo2005.or.jp/en/visitingjapan/introduction/tokyo.html
http://www.expo2005.or.jp/en/visitingjapan/service/volunteer.html
http://www.expo2005.or.jp/en/visitingjapan/service/welcome.html
http://www.expo2005.or.jp/en/visitingjapan/shopping.html
[…]
Ces manipulations impliquent une analyse de la structure des sites Web. Cette tâche
manuelle est coûteuse, mais elle s’avère particulièrement rentable quand un grand
nombre de documents du même site peuvent être téléchargés 17. À cet égard, les sites
d’instances officielles (syndicats d’initiative, musées nationaux ou régionaux, etc.) ou
d’entreprises privées bien positionnées dans le domaine du tourisme (tour operator,
etc.) peuvent parfois s’avérer très fructueux : c’est le cas quand ils ont des contenus
régulièrement renouvelés sans que la structure du site ne soit modifiée 18, puisqu’ainsi
[245 Ð
une seule analyse
permet de capturer les contenus rendus disponibles à différents
moments.
3.3. Nettoyage des fichiers HTML
Une fois les documents rapatriés, ils doivent être nettoyés (pour éliminer le balisage
HTML et harmoniser les codages de caractères) puis être alignés au niveau des paragraphes.
[244 Ð
17
18
Cet avantage technique ne va pas sans hypothéquer l’équilibrage du corpus où certaines thématiques ou
manières de s’exprimer propres à un site peuvent finir par être surreprésentées.
C’est particulièrement le cas pour les sites générés au moyen de CMS (Content Management System comme
ZOPE, DRUPAL ou SPIP par exemple).
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
639
3.3.1. Élimination du balisage
Le nettoyage des pages peut se faire avec la commande LYNX-DUMP, mais pour
obtenir un produit de meilleure qualité où seuls les segments de textes pertinents sont
conservés, il est préférable de pousser à un plus haut niveau de détail l’analyse structurelle déjà engagée et de voir si les textes parallèles sont structurés de manière comparable, si nous pouvons fiablement utiliser ces indices pour les aligner (deux textes
pouvant être strictement parallèles et sembler mis en page de manière tout à fait identique sans que le balisage HTML soit le même) 19. Un script PERL exploitant HTML::
TREEBUILDER (un module spécifique qui convertit une page HTML en arbre, ce qui
facilite ensuite les manipulations structurelles) a effectué les manipulations utiles pour
le corpus Web du tourisme.
3.3.2. Harmonisation des codages de caractères
D’autres scripts AWK ou PERL (dont la présentation serait trop complexe pour être
introduite ici) ont mené à bien l’unification des codages de caractères qui, malgré l’avantage que représente le codage des documents en HTML, a posé deux types de difficultés :
(i) les codages non systématiquement convertibles en code ISO-8859-1 (communément
[246 Ð
appelé “Latin 1”), comme ceux des ligatures (œ), ont
demandé que nous adoptions
des encodages alternatifs (sous forme d’entités caractères : &#338;) pour garantir leur
conservation, et (ii) l’hétérogénéité des formats de caractères (CP1252 sous Windows,
ou MacRoman sous Macintosh) a induit l’utilisation de l’outil Linux ICONV afin de les
convertir en Latin 1. 20
3.4. Alignement au niveau des paragraphes des textes bilingues
L’alignement au niveau des paragraphes 21 qui a été établi est fondé sur une hypothèse : les textes traduits ont le plus souvent le même nombre de paragraphes que les
textes sources. Cette hypothèse a dû être validée pour chaque document, ce qui a été
vérifié au moyen d’un script PERL qui montre la première ligne de chaque paragraphe
de chaque texte dans chaque langue. En cas de problème, une restructuration du texte
ayant le moins de paragraphes a été engagée afin d’établir le parallélisme des découpages en paragraphes.
Observons que, dans certains sites, les textes sont parfois enregistrés par fragments
dans différents fichiers mais que leurs traductions ne sont pas nécessairement décou[245 Ð
[246 Ð
19
20
21
Un même titre pourra porter la même valeur de “class” mais être balisé comme <div> ou comme <H1>.
L’unicode constitue un progrès pour la standardisation des caractères, mais, contrairement à Unitex, de nombreux outils d’exploration de corpus ne sont pas encore adaptés pour son traitement, ce qui nécessite la mise
en place de solutions transitoires, cf. Paulussen (2001).
D’autres types d’alignements ont été envisagés et en particulier un alignement au niveau des phrases. Mais
seul l’alignement au niveau des paragraphes est actuellement en place. Pour un panorama de différentes
techniques d’alignement, cf. Véronis ed. (2000).
640
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
pées de manière strictement identique. La réunion des fragments de chaque langue
dans un même fichier est en conséquence indispensable avant de procéder à l’alignement, et la complétude textuelle de chaque fichier doit être vérifiée avant cette étape.
[247 Ð
3.5. Ultimes manipulations
À la suite de l’alignement, quelques manipulations sont encore utiles pour que les
textes des fichiers alignés soient manipulables par le concordancier trilingue ParaSearch :
1) insertion d’une ligne blanche après chaque paragraphe (y compris en fin de fichier) ;
2) révision des noms des fichiers, en respectant le principe de nommage à quatre lettres
majuscules 22 attendu par ParaSearch, et regroupement des textes les plus courts pour
avoir plusieurs paragraphes par fichier (en n’omettant pas d’actualiser l’index des correspondances URL / nom de fichiers) ;
3) et pour un bon fonctionnement de ParaSearch qui présente n lignes avant et après
une occurrence repérée au sein d’un paragraphe, (cf. note 23), découpage des lignes des
textes sources en lignes de 70 caractères maximum par ligne, ce qui garantit une fenêtre
de contexte de taille raisonnable.
Malgré la puissance des outils Linux, toutes les tâches que nous venons d’évoquer
n’ont pas pu être intégralement automatisées et, pour chacune, un contrôle manuel
(facilité par quelques scripts) reste nécessaire.
4.
Méthodologie d’exploration du corpus et d’évaluation de sa rentabilité
L’objectif de cette exploration faisant collaborer deux outils est d’évaluer la plus[248 Ð
value informationnelle des contextes du corpus
constitué par rapport à ceux des
contextualisations proposées dans les ouvrages déjà sur le marché et consultables à
titre documentaire par les lexicographes. Comme nous travaillons dans le domaine
du tourisme, nous avons retenu des données linguistiques présentées dans une sélection de guides de conversation et de dictionnaires bilingues spécialisés ou non (dont
les références sont indiquées en fin d’article). Ces données ont été converties manuellement en graphes ou semi-automatiquement en expressions régulières, puis utilisées
comme motifs de recherche par Unitex pour analyser les contextes de l’une des deux
langues, L1 (le français ci-dessous), puis de l’autre, L2, en cherchant :
(i) si, pour les contextes en L1 correspondant aux données présentes dans les ouvrages
de référence, les contextes alignés en L2 comportent bien les équivalents traductionnels
proposés dans ces ouvrages ;
(ii) et si, dans les données neuves, il y aurait de nouvelles équivalences traductionnelles
à relever.
[247 Ð
22
La première de ces quatre lettres indique à quel sous-corpus appartient le texte, la troisième lettre indique
quelle est la langue (F pour le français et E pour l’anglais, cf. figure 5), la combinaison des deuxième et quatrième lettres sert à identifier chaque fichier de manière unique.
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
641
Le travail d’exploration a ensuite été refait en analysant la L2 à la recherche de constructions qui étaient dans les ouvrages mais aussi des traductions des données neuves
de L1 retenues précédemment, afin d’analyser tous leurs équivalents traductionnels
observables en corpus.
4.1. Extraction des contextes alignés avec ParaSearch
Sans entrer dans le détail de l’analyse linguistique, évoquons l’ensemble des manipulations informatiques mises en place pour effectuer les analyses des contextes alignés
rendus disponibles par ParaSearch. Ce concordancier trilingue permet de chercher les
occurrences d’un mot ou d’une expression dans les textes d’une langue et, à partir du
rang de chaque contexte, de chercher les paragraphes alignés dans la ou les autres
langues. 23
[249 Ð
ParaSearch génère ainsi une liste où les contextes de chaque langue se succèdent
dans un ordre défini par l’utilisateur, en fonction de la langue du motif de recherche.
Pour rechercher l’item français musée au singulier comme au pluriel, en minuscules
comme en majuscules, l’expression régulière 24 exprimant toutes les formes graphiques
à prendre en compte est : [Mm][Uu][Ss][ÉéEe][Ee][Ss]? 25.
[250 Ð
Figure 4. Extrait de la liste des contextes bilingues produite par ParaSearch
=== [ACFG:02:01] ===
Les >>> Musées
[248 Ð
23
24
25
Si les paragraphes des textes originaux sont d’une taille supérieure ou égale aux valeurs suivantes, les tailles
[249 Ð
égales à huit lignes pour la langue du motif de
des contextes extraits par ParaSearch sont par défaut
recherche et à vingt-quatre lignes pour l’autre langue (afin d’augmenter les chances d’y trouver l’équivalent
traductionnel de l’item cherché). L’aide de Parasearch indique que la taille de la “fenêtre” peut être adaptée :
Number of context lines in first language:
S_CONTEXT_A: lines above KWIC line (default: 4)
S_CONTEXT_B: lines below KWIC line (default: 4)
Number of context lines in parallel languages:
T_CONTEXT_A: lines above KWIC line (default: 12)
T_CONTEXT_B: lines below KWIC line (default: 12)
Les expressions régulières sont des chaînes de caractères qui sont utilisées pour exprimer des motifs de
recherche (à mettre en correspondance avec des segments de texte du corpus exploré) et où certains caractères ont leur valeur littérale alors que d’autres ont des valeurs particulières :
– comme les métacaractères représentant un caractère, dont par exemple : « . », qui représente n’importe
quel caractère, ou « [Mm] », qui représente soit un M soit un m ;
– comme les opérateurs d’optionnalité ou/et de répétabilité : « ? », qui indique la présence optionnelle de ce
qui le précède ; « * », qui indique la présence optionnelle unique ou répétable de ce qui le précède ; « + », qui
indique la répétabilité de ce qui le précède ;
– comme l’opérateur de disjonction : « + », qui indique qu’il faudra choisir entre la mise en correspondance
de ce qui est à sa gauche ou de ce qui est à sa droite avec le texte du corpus (cf. note 32 ci-dessous) ;
– comme le délimitateur de sous-chaîne de caractères : les parenthèses (cf. note 32 ci-dessous).
Cette expression régulière indique que l’on recherche les chaînes de caractères constituées d’une suite ordonnée
de lettres majuscules ou minuscules : un m, puis un u, un s, un é ou un e, un e, et optionnellement un s.
642
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
=== [ACEG:02:01] ===
The Museums
=== [ACFG:05:01] ===
De nombreux >>> musées archéologiques témoignent de la présence de ces
civilisations qui ont peuplé la Corse. De Filotosa à la Dame de
Bonifacio les empreintes de l’histoire sont nombreuses.
=== [ACEG:05:01] ===
Many archaelogical museums attest the presence of these civilizations
which have populated Corsica. From Filitosa to the Dame of Bonifacio
the marks of history are numerous.
=== [ACFG:06:01] ===
L’Art, plus récent, est aussi présent à travers les prestigieuses
collections des primitifs italiens du >>> Musée Fesch d’Ajaccio, la plus
riche après celle du Musée du Louvre à Paris.
=== [ACEG:06:01] ===
Art, more recent, is also present through the prestigious collections
of italian primitives of the Fesch Museum of Ajaccio, the richest one
after the Art gallery of the Louvre one, in Paris.
=== [ACFG:06:02] ===
L’Art, plus récent, est aussi présent à travers les prestigieuses
collections des primitifs italiens du Musée Fesch d’Ajaccio, la plus
riche après celle du >>> Musée du Louvre à Paris.
=== [ACEG:06:02] ===
Art, more recent, is also present through the prestigious collections
of italian primitives of the Fesch Museum of Ajaccio, the richest one
after the Art gallery of the Louvre one, in Paris.
Dans les contextes de la langue du motif de recherche, la L1, l’occurrence repérée
[251
est précédée de trois chevrons. Dans des paragraphes où Ðil y a plusieurs occurrences
(cf. les deux dernières paires de la figure 4), chaque occurrence est repérée et extraite
par ParaSearch.26
Avant chacun des contextes en français puis en anglais, un identificateur unique
permet de connaître le rang de l’occurrence et de repérer le segment de texte extrait
en fonction de sa langue et de la position relative du paragraphe 27 dans le fichier de
texte où il a été trouvé 28. Ainsi (cf. figure 5), un contexte français porteur d’un F en
troisième position dans la partie alphabétique de son identificateur (cf. note 22) sera
associé au contexte anglais de même identificateur à la variable langue près : un E
remplacera le F. La valeur du rang de l’occurrence est 01 quand il n’y en a qu’une dans
le contexte ou qu’il s’agit de la première. Cette valeur est 02, 03, etc. pour les occurrences
suivantes (cf. note 26).
[251 Ð
26
27
28
Dans un paragraphe où il y a plusieurs occurrences, chaque occurrence est repérée par ParaSearch et chacune
donne lieu à la création d’une extraction différenciée de la ou des autres par le rang d’occurrence à droite du
code entre crochets (cf. figure 4 : [ACFG:06:01] et [ACFG:06:02] et figure 5).
Cette position correspond au rang du paragraphe dans le fichier source.
Ce nom de fichier est privé de son extension (.txt), qui ne serait pas pertinente ici.
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
643
Figure 5. Décodage des identificateurs associés à chaque occurrence repérée par ParaSearch
[ACFG:06:02]
nom du fichier source langue position du contexte rang de l’occurrence
4.2. Préparation des contextes alignés pour Unitex
Unitex, lui, est un concordancier monolingue qui, entre autres fonctionnalités, permet d’annoter les contextes des segments du texte exploré correspondant aux motifs de
recherche, et ainsi de posttraiter les concordances alignées de ParaSearch.
[252 Ð
Comme Unitex ne sait fonctionner que dans une langue à la fois, même s’il est
configuré pour traiter le français aussi bien que l’anglais, il convient de séparer dans
des fichiers distincts les contextes de chacune des langues (cf. figure 6).
Figure 6. Séparation des contextes français et anglais alignés et adaptation des identificateurs
des occurrences françaises repérées par ParaSearch en vue des traitements opérés par Unitex
DANS LE FICHIER GÉNÉRÉ PAR PARASEARCH
=== [ACFG:06:02] ===
L’Art, plus récent, est aussi présent à travers les prestigieuses
collections des primitifs italiens du Musée Fesch d’Ajaccio, la plus
riche après celle du >>> Musée du Louvre à Paris.
¨ fichier des contextes en français
=== [ACEG:06:02] ===
Art, more recent, is also present through the prestigious collections
of italian primitives of the Fesch Museum of Ajaccio, the richest one
after the Art gallery of the Louvre one, in Paris.
¨ fichier des contextes liés en
anglais
DANS LE FICHIER DES CONTEXTES EN FRANÇAIS,
UNE FOIS L’IDENTIFICATEUR DÉPLACÉ ET ADAPTÉ
======
L’Art, plus récent, est aussi présent à travers les prestigieuses
collections des primitifs italiens du Musée Fesch d’Ajaccio, la plus
riche après celle du [ACFG-06-02] Musée du Louvre à Paris.
DANS LE FICHIER DES CONTEXTES LIÉS EN ANGLAIS
=== [ACEG:06:02] ===
Art, more recent, is also present through the prestigious collections
of italian primitives of the Fesch Museum of Ajaccio, the richest one
after the Art gallery of the Louvre one, in Paris.
Mais afin qu’un retour aux contextes alignés soit possible ultérieurement, il est
impératif que, après manipulation, les extraits exprimés dans la langue du motif de
recherche (le français ici) gardent leur identificateur d’occurrence. Cependant, comme
Unitex n’est pas conçu pour définir autrement qu’en nombre de caractères la taille des
contextes gauches et droits des segments mis en correspondance avec les motifs de
recherche dans les concordances qu’il génère, rien ne garantit que les contextes gauches
intègrent toujours leur identificateur s’il reste dans la position fixée par ParaSearch.
Les identificateurs sont donc déplacés avant les occurrences repérées par ParaSearch, à
644
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
la place occupée par les trois chevrons. Enfin, les deux points correspondent à des carac[253 Ð
tères spéciaux 29 dans les graphes d’Unitex 30 : il a
donc été nécessaire de remplacer
ceux des identificateurs d’occurrences pour pouvoir ensuite intégrer l’expression les
représentant dans les motifs de recherche des graphes 31 (cf. figure 7).
[254 Ð
Figure 7. Codage comme motif de recherche, dans les graphes d’Unitex,des identificateurs
associés à chaque item français repéré et extrait par ParaSearch
[ACFG-06-02] Musée
nom de
fichier :
4 lettres
Ú
un mot
position du
contexte :
2 chiffres
Ú
un nombre
rang de
l’occurrence :
2 chiffres
Ú
un nombre
item musée
(au singulier
ou au pluriel)
Ú
le lemme
[<MOT>-<NB>-<NB>] <musée>
4.3. Manipulation des contextes français avec Unitex
Les recherches engagées avec Unitex dans les listes de contextes français (L1) produits par ParaSearch conduisent à distinguer ceux qui sont déjà attestés dans les contextualisations d’un ensemble d’ouvrages de référence et ceux qui sont nouveaux. Nous
n’étudions pas ici les stratégies qui peuvent être élaborées pour concevoir les modalités
de repérage les plus efficaces, nous nous concentrons sur le fonctionnement technique
de cette procédure en ne considérant qu’un prototype de portée limitée qui ne prend en
compte qu’un ouvrage : le Guide de conversation du routard (anglais) 2005, qui, s.v.
musée, indique les phrases à quelle heure ouvre le musée ? et où est le musée d’art
contemporain ? associées à une traduction en anglais et à une transcription phonétique
élaborées dans un code maison (cf. figure 8).
[252 Ð
[253 Ð
29
30
31
Ce sont les codes qui introduisent un appel à un sous-graphe.
À cause de leur meilleure lisibilité, nous ne présentons que des graphes. Une large partie de ce qui y est codé
pourrait être écrit sous forme d’expressions régulières, même si leur portée est plus limitée : les graphes bénéficient de la possibilité de faire appel à des sous-graphes qui prennent en charge une partie du codage et ainsi
de pouvoir coder des descriptions d’un très haut degré de complexité tout en restant manipulables.
Dans la syntaxe des motifs de recherche d’Unitex :
– les étiquettes de classes d’objets particuliers (MOT, pour une suite de lettres, et NB, pour une suite de chiffres,
cf. figures 7 et 9, ou PRE pour tout mot débutant par une majuscule, cf. figure 9) sont mentionnées en majuscules et entre chevrons (ou crochets angulaires) pour désigner “tout élément de cette classe” ;
– les étiquettes catégorielles (DET pour déterminant et N pour nom, cf. figure 9) sont mentionnées en majuscules et entre chevrons pour désigner “tout item de cette catégorie” ;
– les lemmes des items dont la graphie est susceptible de varier (cf. figures 7 et 9) sont écrits en minuscules et
encadrés de chevrons pour désigner “toute forme graphique de cet item”.
Les identificateurs d’occurrences immédiatement suivis de l’item musée sont donc codés sous la forme :
[<MOT>-<NB>-<NB>] <musée>, cf. figure 7.
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
645
Figure 8. Contextualisations du Guide de conversation
du routard (anglais) 2005, s.v. musée
X à quelle heure ouvre le musée ? what time does the museum
open? [ouate taïm doz Ze miouzieum opeun?]
X où est le musée d’art contemporain ? where is the museum of
contemporary art? [ouèr iz Ze miouzieum ov keuntèmpeureuri ârtt?]
[255 Ð
Le graphe 32 présenté en figure 9 permet que chaque contexte français 33 dont le
patron de construction correspond à l’une des expressions de ce guide ou s’en approche
soit repéré 34 et balisé 35, alors que les contextes qui ne sont pas analogues à ce qui est
dans le guide restent non marqués et seront analysés de manière indépendante.
L’élaboration d’un graphe de recherche comme celui de la figure 9 ne se fait pas
aussi mécaniquement pour tous les chemins.
[257 Ð
Il est relativement aisé de reprendre les phrases des contextualisations (comme cela
a été fait dans la partie supérieure du graphe) et de poser (i) que l’argument verbal dont
musée est la tête peut être au singulier ou au pluriel, ce qui a ici des incidences sur la
flexion du verbe 36 et qui motive l’insertion des deux nœuds contenant respectivement
<ouvrir> et <être> (dont la syntaxe est expliquée en note 31) et (ii) que les déterminants
qui sont susceptibles d’être choisis dans un paradigme lexical sans induire un changement de sens global intéressant pour notre étude 37 pourraient être remplacés par une
disjonction des éléments du paradigme 38 ou, comme ici, sont remplacés par la mention
de l’étiquette catégorielle entre chevrons <DET> (cf. note 31).
[255 Ð
32
33
34
35
[257 Ð
36
37
38
Un graphe se parcourt du nœud initial (figuré par la flèche initiale située à gauche) jusqu’au nœud final (figuré
par un carré inclus dans un cercle et situé à droite) en empruntant l’un des chemins constitués d’arcs et de
nœuds. Ce parcours permet d’exprimer différents motifs à rechercher alternativement, ce qui revient à les
inclure dans une disjonction. Les trois premiers chemins du graphe présenté figure 9 correspondent aux
motifs :
(1) à quelle heure <ouvrir> <DET> [<MOT>-<NB>-<NB>] <musée>
(2) où <être> <DET> [<MOT>-<NB>-<NB>] <musée> d’art contemporain
(3) [<MOT>-<NB>-<NB>] <musée>
réunis en une disjonction :
((à quelle heure <ouvrir> <DET> [<MOT>-<NB>-<NB>] <musée>)
+ (où <être> <DET> [<MOT>-<NB>-<NB>] <musée> d’art contemporain)
+ ([<MOT>-<NB>-<NB>] <musée>))
Sur chaque chemin du graphe, un nœud permet de repérer l’identificateur d’occurrence suivi de l’item musée
(cf. figure 7 et note 31).
Dans la syntaxe des motifs de recherche d’Unitex, certains codes sont employés : cf. note 31.
Les balises (de type XML) sont des chaînes de caractères entre chevrons (ou crochets angulaires) qui servent
de délimitateurs pour un segment de texte. Dans le cas présent, il s’agit de baliser les extraits du corpus dont
les patrons de construction sont conformes ou semblables aux contextualisations de référence. Si nous trouvions dans le corpus un contexte similaire à l’une des contextualisations, il serait précédé et suivi de balises :
<patron-dans-Routard-sv-musee>à quelle heure ouvre le […] musée</patron-dans-Routard-sv-musee>. Le nom dans
la balise fermante est le même que celui qui est dans la balise ouvrante mais il est précédé d’un slash (ou
barre oblique). La syntaxe est la même pour ces balises que pour celles qui, en HTML, permettent par exemple
de mettre un segment de texte en italique (<i>musée</i>).
Le temps verbal peut également varier : À quelle heure ouvriront les musées ?
Dans le premier contexte au moins, le pourrait être remplacé par ce.
Cf. note 37. La disjonction des éléments du paradigme serait de la forme (<le> + <ce>).
646
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
[256 Ð
Figure 9. Graphe de recherche et d’annotation basé sur les données
du Guide de conversation du routard (anglais) 2005, s.v. musée
[257 Ð
Cette dernière solution surgénère, mais ce n’est pas très important puisque le motif
de recherche ne vise qu’à extraire les constructions qui sont présentes dans le corpus
monolingue, et nous faisons l’hypothèse que les déterminants effectivement présents
dans ces contextes auront été grammaticalement bien choisis par les rédacteurs des
pages Web.
Il est moins évident de fixer des règles de généralisation qui permettent d’établir des
motifs de recherche, dont les patrons ressemblent à ceux des constructions mais ont un
potentiel de mise en correspondance supérieur, comme les chemins qui sont définis dans
la partie inférieure du graphe où deux ensembles de patrons sont plus ou moins directement dérivés des contextualisations. Globalement sont prévus :
– une reformulation de la première question, sous forme de phrase interrogative ou
affirmative, active ou passive, avec (i) un changement de l’ordre des constituants,
[258 Ð
(ii) l’insertion facultative d’un ou plusieurs
mots de nature indéterminée entre
39
musée et ouvrir (pour {le} musée (d’art contemporain + que nous allons voir + de la
vieille ville + Ø) ouvre à quelle heure ? ou au passif {le} musée sera ouvert à quelle
heure ?) et (iii) l’optionnalisation ou le remplacement du complément à quelle heure
dans une phrase affirmative (comme {le} musée ouvre (à ((10 + dix) heures) + midi +
Ø)), le complément pouvant être séparé du verbe par une nouvelle insertion d’un ou
plusieurs mots de nature indéterminée ;
[258 Ð
39
Le déterminant n’est pas dans le motif de recherche, donc il n’est pas présent dans le segment de texte mis
en correspondance avec le motif, mais il améliore la lisibilité des exemples de segments reconnus présentés
dans ces parenthèses.
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
647
– un élargissement du pouvoir de repérage des thèmes de musées dans le cadre de la
seconde question puisque (a) ce n’est plus seulement musée d’art contemporain qui est
codé mais toutes les expressions construites sur le patron musée (de N)? 40 et (b) ce sont
un paradigme de verbes (dont l’item musée est sujet ou objet, anté- ou postposé) et de
sous-chaînes de caractères à l’initiale de compléments de lieu (dans + à <PRE>) 41 qui
sont codés afin qu’ils soient repérés dans les constructions de phrases affirmatives pouvant correspondre à l’expression (partielle ou complète) de la localisation d’un musée.
Entre le nœud initial du graphe et les premiers nœuds de chaque motif de recherche
et entre les derniers nœuds de ces chemins et le nœud terminal, des nœuds vides ont
été insérés. Comme ils sont vides, ils n’interviennent pas directement dans la mise en
correspondance des segments de texte du corpus monolingue avec chaque motif exprimé,
mais comme ils sont porteurs de balises déclarées comme étant des transductions 42
40
41
42
Le chemin ne passant pas nécessairement par les nœuds de la préposition et du nom, de N est optionnel.
Cf. note 31. Ici, <PRE> doit permettre de repérer les noms propres de villes.
Une transduction est une instruction qui remplace une chaîne de caractères répondant à différentes contraintes
par une autre. Dans la figure e, la transduction mise en place permet d’assurer la réécriture de ce qui est
[259 Ð
(d’art africain + d’art amérindien + d’art asiatique + d’art colonial + d’art contemlisté dans le nœud –
porain + d’arts décoratifs + d’art moderne + d’art précolombien + d’arts premiers) – par ce qui est mentionné
sous le nœud – [de art(s) ADJ] –, si les syntagmes sont trouvés dans le texte exploré.
Figure e. Transduction repérant les syntagmes prépositionnels
listés et les remplaçant par [de art(s) ADJ]
Dans le graphe présenté en figure f, les transductions sont portées par des nœuds vides (triangulaires) placés
dans le chemin d’expression du motif de recherche. Si le motif de recherche est mis en correspondance avec
des segments de textes, ces segments seront modifiés : les chaînes de caractères placés sous les nœuds vides
(ici des balises de type XML) seront insérées dans les segments à la position relative des nœuds vides les
portant dans le motif de recherche : musée d’art africain deviendra <musee-de-art-ADJ>musée d’art africain
</musee-de-art-ADJ>.
Figure f. Transduction repérant musée(s) suivi de l’un des syntagmes prépositionnels listés
et insérant les balises de type XML <musee-de-art-ADJ> et </musee-de-art-ADJ>
avant et après ces segments
648
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Ð
associées à ces nœuds 43, ils permettent d’insérer ces
balises et d’annoter chaque
contexte correspondant à ces motifs dans la concordance générée 44 (cf. figure 10).
[260
Figure 10. Segments de texte reconnus et balisés comme étant semblables à l’une des
contextualisations du Guide de conversation du routard (anglais) 2005, s.v. musée
====== {S}Non loin de là se trouvent Radmirje et ses précieux trésors sacraux, et le
Château de Gornji grad, son imposante église et son <patron-semblable-Routard-sv-musee>
[AHFV-06-01] musée situé dans</patron-semblable-Routard-sv-musee> la tour défensive.{S}
canyon Pekel (« l’enfer ») formé d’une suite de cascades et de rapides, Vrhnika et les
sources karstiques de la Ljubljanica et l’ancien monastère Bistra, qui <patron-semblableRoutard-sv-musee>abrite dorénavant le [AHFR-08-01] musée de technologie</patronsemblable-Routard-sv-musee> de Slovénie, Zbiljsko jezero (le lac de Zbilje)
Un dernier cheminement est enfin autorisé (au centre du graphe de la figure 9) : il
n’est constitué que d’un nœud entre le nœud initial et le nœud terminal du graphe,
celui permettant de repérer l’occurrence de l’item musée porteuse d’un identificateur
d’occurrence. Il n’engendrera pas l’insertion d’un balisage (cf. figure 11).
Figure 11. Segment de texte non reconnu comme étant identique ou semblable à l’une
des contextualisations du Guide de conversation du routard (anglais) 2005, s.v. musée
les prestigieuses collections des primitifs italiens du [ACFG-06-01] musée Fesch d’Ajaccio,
la plus riche après celle du Musée du Louvre à Paris. {S}
Une fois les recherches effectuées dans le corpus de L1, les concordances générées
sont analysées manuellement afin d’en éliminer les contextes inintéressants ou invalides,
comme celui de la figure 12 où ouverte est bien une forme du verbe ouvrir postposée
[261 Ð
et séparée de
musée par des <MOT> (trois ici), mais ce sont les fenêtres qui sont
ouvertes, pas les musées.
Figure 12. Segment de texte reconnu et
balisé comme étant semblable à l’une des contextualisations
du Guide de conversation du routard (anglais) 2005, s.v. musée
mais éliminé lors de l’analyse manuelle des contextes extraits
arts plastiques quelques-uns de ses plus grands noms.{S} Nos <patron-dans-Routard-svmusee>[FAFB-06-01] musées sont des fenêtres ouvertes</patron-dans-Routard-sv-musee>
sur leur monde singulier.{S}
43
[260 Ð
44
Pour que ces transductions soient prises en compte par Unitex pour insérer les balises, il convient de sélectionner
l’option “Merge with input text” au moment où la localisation des segments correspondant aux motifs de
recherche du graphe est engagée.
Entre le nœud initial du graphe et les premiers nœuds des motifs les plus génériques, la transduction associée
au nœud vide correspond à une balise ouvrante <patron-semblable-Routard-sv-musee> (pour indiquer que ce ne
sont pas des contextualisations effectivement attestées ni les patrons qui en seraient les plus proches, mais
des patrons établis à partir de ce qui a été vu s.v. musée dans le Guide de conversation du routard en prévoyant des reformulations ou des formulations incomplètes) et, entre les derniers nœuds de ces chemins et
le nœud terminal, la transduction contient la balise fermante correspondante </patron-semblable-Routard-svmusee>.
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
649
Trois types de contextes peuvent être retenus suite au tri manuel des lignes de
concordance :
1) ceux qui ne correspondent à aucun contexte attesté et pour lesquels il est possible
de rechercher les contextes alignés afin d’envisager leur adaptation comme contextualisation ;
2) ceux différents des contextualisations mais conformes aux reformulations qui en sont
inspirées, s’ils correspondent à des compléments d’information qui pourraient être ajoutés (comme les deux premiers, cités en figure 10, qui pourraient, avec leurs traductions,
être des bases de réécriture pour des réponses qui accompagneraient la question Où est
le musée ?) ;
3) et ceux déjà attestés (exactement ou sous une forme approchée) dans les ouvrages de
référence et pour lesquels nous vérifions si les contextes anglais L2 alignés contiennent
les équivalents traductionnels proposés dans les ouvrages 45 ou s’ils en contiennent
d’autres dont il faudra évaluer l’idiomaticité et le bénéfice qu’il y aurait à les introduire
à leur tour.
[262 Ð
Dans tous les cas, le retour aux contextes anglais se fait en exploitant l’identificateur de contextualisation présent dans chaque ligne de concordance extraite du corpus
monolingue français (ce qui est schématisé en figure 13).
Techniquement, des scripts PERL assurent :
– le traitement des lignes de concordances nettoyées des contextes invalides pour y
repérer les identificateurs d’occurrence et les stocker dans un tableau de hashage 46
comme clés dont les contextes français constituent les valeurs qui leur sont associées ;
– la conversion de chaque identificateur d’occurrence en identificateur de contexte aligné ;
– la recherche du contexte anglais aligné porteur de l’identificateur reconstruit et son
stockage dans un tableau de hashage en lui associant comme clé l’identificateur français ;
– la présentation de chaque paire de contextes en lisant simultanément les deux tableaux.
[261 Ð
45
[262 Ð
46
Ceci peut en partie être analogiquement rapproché de ce qui est fait par Léon (2006), qui, en se plaçant dans
le cadre des recherches de “Mondes lexicaux” (cf. Véronis (2003)), établit des traductions possibles en anglais
de termes complexes français à partir des équivalents de chacun de leurs constituants proposés dans des
dictionnaires bilingues, puis élimine des possibles les traductions qui n’ont pas été trouvées sur le Web.
Les tableaux manipulés par le langage PERL sont constitués de paires clé / valeur. Dans les tableaux simples,
les clés sont des indices numériques entiers positifs (l’expression $nom-tableau[1] permet d’accéder à la valeur
associée à l’indice 1 ). Dans un tableau de hashage, les clés ne sont pas prédéfinies. Pour le stockage des
contextes valides ce sont les indicateurs d’occurrences qui constituent les clés, ce qui permet d’accéder au
premier contexte de la figure g par exemple avec l’expression $nom-tableau-hashage{"[AHFV-06-01]"}.
Figure g. Tableau de hashage des contextes français retenus (cf. figure 10)
CLÉS
VALEURS
[AHFV-06-01]
====== {S}Non loin de là se trouvent Radmirje et ses précieux trésors sacraux, et le Château
de Gornji grad, son imposante église et son <patron-semblable-Routard-sv-musee>[AHFV-06-01]
musée situé dans</patron-semblable-Routard-sv-musee> la tour défensive.{S}
canyon Pekel (« l’enfer ») formé d’une suite de cascades et de rapides, Vrhnika et les sources
karstiques de la Ljubljanica et l’ancien monastère Bistra, qui <patron-semblable-Routard-svmusee>abrite dorénavant le [AHFR-08-01] musée de technologie</patron-semblable-Routard-svmusee> de Slovénie, Zbiljsko jezero (le lac de Zbilje)
[AHFR-08-01]
650
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
[263 Ð
Figure 13. Algorithme du retour aux contextes de L2 (anglais) pour les contextes de L1 (français) retenus
====== {S}Non loin de là se trouvent Radmirje et ses
précieux trésors sacraux, et le Château de Gornji grad,
son imposante église et son <patron-semblable-Routardsv-musee>[AHFV-06-01] musée situé dans</patronsemblable-Routard-sv-musee> la tour défensive.{S}
REPÉRAGE DE L’IDENTIFICATEUR
D’OCCURRENCE DE L1
[AHFV-06-01]
GÉNÉRATION DE L’IDENTIFICATEUR POUR
LA LANGUE ANGLAISE (L2)
[AHEV:06:01]
EXTRACTION DU CONTEXTE ANGLAIS (L2)
=== [AHEV:06:01] ===
Not far away are Radmirje with its valuable church treasury and
Gornji grad with its imposing church and museum exhibitions in the
defense tower. In Nazarje, there is an interesting museum of
lumbering and forestry in Vrbovec Castle. The center of the Upper
Savinja Valley is Mozirje, where Mozirski gaj, an attractive
botanical park of flowers and ethnological objects, is located.
Rising above the city are Dobrovlje and Menina mountains and the
protected region of the Golte plateau with its popular tourist
recreation center and ski resort and wide offer of summer activities.
From Gora Oljka pilgrimage church, to which trails lead from Smartno
ob Paki and Polzela, there are wonderful views of Golte, the Savinja
Valley, and the Kamniske-Savinjske Alps.
ALIGNEMENT DES DEUX CONTEXTES
ET ANALYSE MANUELLE
DE L’ÉQUIVALENT TRADUCTIONNEL
====== {S}Non loin de là se trouvent === [AHEV:06:01] ===
Radmirje et ses précieux trésors sacraux, et Not far away are Radmirje with its valuable church treasury and
le Château de Gornji grad, son imposante Gornji grad with its imposing church and museum exhibitions in the
église et son <patron-semblable-Routard-sv- defense tower. In Nazarje, there is an interesting museum of
musee>[AHFV-06-01]
musée
dans</patron-semblable-Routard-svmusee> la tour défensive.{S}
situé lumbering and forestry in Vrbovec Castle. The center of the Upper
Savinja Valley is Mozirje, where Mozirski gaj, an attractive
botanical park of flowers and ethnological objects, is located.
Rising above the city are Dobrovlje and Menina mountains and the
protected region of the Golte plateau with its popular tourist
recreation center and ski resort and wide offer of summer activities.
From Gora Oljka pilgrimage church, to which trails lead from Smartno
ob Paki and Polzela, there are wonderful views of Golte, the Savinja
Valley, and the Kamniske-Savinjske Alps.
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
651
[264 Ð
Des manipulations comparables permettent d’obtenir une évaluation automatique
de la présence de contextes semblables à ceux des ouvrages de références : si l’exploration du français (L1) vers l’anglais (L2) permet de repérer les contextes français présents à la fois dans les ouvrages et le corpus, une exploration symétrique des contextes
anglais qui leur sont alignés (avec un graphe intégrant les équivalents traductionnels
anglais des constructions françaises de la figure 9) repérera les contextes anglais présents à la fois dans les ouvrages et le corpus et par déduction les équivalences traductionnelles français / anglais coprésentes. Cette extraction en deux temps serait mieux
sécurisée si, en plus de l’identificateur d’occurrence, chaque contexte portait un identificateur de contextualisation ou de patron reconnu, ce nouvel identificateur pouvant
être introduit lors du traitement avec Unitex, comme le sont les balises (cf. figure 9).
Dans la pratique, le volume de données concernées s’est révélé très faible et n’a pas
nécessité de sécuriser la procédure.
5.
Conclusion
En débutant la constitution de ce corpus bilingue à partir du Web, nous avions défini
trois topiques d’évaluation (cf. § 1.) :
– cf. (i) : Les étudiants du M2 LTTAC (2005-2006) nous ont montré qu’après leur formation et en recourant ponctuellement aux conseils de leurs enseignants, ils étaient
suffisamment autonomes pour constituer et explorer ce corpus. Ils nous ont ainsi prouvé
que, techniquement parlant, les lexicographes peuvent se former et mener à bien des
travaux de ce type. Il reste à savoir si le produit mérite cet investissement de formation
et le temps qui lui a été consacré.
– cf. (ii) et (iii) : Du point de vue de l’évaluation de la qualité relative du contenu de ce
corpus et celle des automatisations de dépouillements, nos explorations n’ont pas encore
été poussées assez loin pour que nous puissions formuler des jugements catégoriques,
cependant certaines tendances se dégagent.
Les ciblages des dictionnaires ou guides bilingues utilisés comme référence sont
[265 Ð
clairs : ils s’adressent pour les uns à des professionnels du
tourisme ou à de futurs
professionnels, pour les autres à des voyageurs qui ne sont pas encadrés dans des
circuits organisés mais indépendants dans leurs déplacements et qui ont besoin d’avoir
un minimum d’autonomie linguistique. Les sites, eux, n’ont pas de ciblages aussi précis :
ils sont prévus pour être consultés par des personnes très différentes dans des circonstances tout aussi variées. Le seul point commun des documents du Web est qu’ils fournissent des informations : descriptions de sites ou du patrimoine local, d’équipements
ou d’aménagements touristiques, de coutumes alimentaires ou vestimentaires. Les
grands thèmes couverts par les dictionnaires et guides de conversation comme ceux
où nous avons observé les traductions et contextualisations de l’item musée – la localisation, les horaires d’ouverture, les appréciations que les visiteurs peuvent formuler –
sont également présents dans les sites Web, mais les expressions y sont différentes :
652
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
la localisation d’un musée ne sera pas nécessairement formulée dans une phrase construite comme cela est prévu en figure 9. Certains contextes s’en approchent 47 :
Figure 14. Segment de texte non reconnu comme étant semblable à l’une des contextualisations
du Guide de conversation du routard (anglais) 2005 s.v. musée
mais de construction très proche et de sens similaire
Situé sur la Promenade des Arts, le [BIFU-10-01] musée à l’architecture originale a été
conçu par
D’autres en sont très éloignés. C’est le cas par exemple quand la localisation est introduite dans un titre ou en début de paragraphe, comme localisateur général, ou qu’elle
est postposée à la mention du musée, entre parenthèses ou séparée par une virgule.
[266 Ð
Figure 15. Échantillon de formulations observées en corpus
pour la localisation des musées
À Montréal, le [EFFU:29:01] musée d’art contemporain
Le [ADFG:26:01] musée des Milelli (AJACCIO) Dans son berceau d’oliviers, la maison des Milelli,
Le [BFFO:209:01] musée des vignerons (direction Roaix)
[BFFS:76:01] musée de la Genèse (dans le bâtiment de l’église).
Le [DJFG:18:01] musée Zoologique, 29 boulevard de la Victoire
Ces premières observations montrent que le travail d’estimation du recouvrement
que nous avons engagé ne peut fournir qu’un indicateur de proximité textuelle. 48 Il
serait injuste d’évaluer uniquement ainsi la richesse du corpus et le rendement de sa
consultation.
Enfin, l’évaluation qualitative d’un corpus bilingue ne mérite pas d’être effectuée
si la qualité des textes alignés n’a pas été scrupuleusement évaluée lors des sélections
de pages à intégrer au corpus. Dans le cadre de l’expérience que nous avons menée,
les compétences linguistiques des personnes impliquées n’ont pas toujours permis de
garantir un filtrage efficace, en particulier pour les textes en anglais.
Le travail que nous avons engagé en 2005-2006 a permis de constituer à partir du
Web un corpus bilingue français / anglais aligné au niveau des paragraphes d’une taille
de 645 978 mots (330 009 pour le français et 315 969 pour l’anglais). En le réalisant
nous avons validé l’hypothèse de sa faisabilité avec une maîtrise élémentaire des outils
de manipulation de textes (commandes du Shell Linux et scripts AWK ou PERL). Nous
avons par ailleurs réfléchi à des stratégies d’exploration qui visaient à automatiser
autant que possible les recherches afin d’assister au mieux des lexicographes consultants.
Ces premiers résultats couronnent une expérience stimulante même s’ils ne répondent
pas à toutes nos espérances.
[265 Ð
47
[266 Ð
48
L’un aurait même dû être trouvé : Le Moulin de Chalier, à l’entrée du village d’Arpaillargues, moulin à blé
puis à huile d’olive, abrite aujourd’hui le [EEFQ-04-01] musée 1900 et le Musée du Train et du Jouet.
Cet indicateur nous a incités à réfléchir à une éventuelle réorientation des principes de sélection des pages
Web bilingues à intégrer au corpus après que nous ayons observé que l’exploration de sites pédagogiques
produisait un meilleur retour à partir des motifs de recherche codant les constructions des dictionnaires et
guides.
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
[267 Ð
653
Remerciements
Nous tenons à remercier les membres du CRTT qui ont organisé les journées Corpus
et dictionnaires de langues de spécialité en septembre 2006, et qui nous offrent aujourd’hui
un espace où présenter nos travaux. Merci aux participants des journées du CRTT et
du séminaire “Constitution et exploration de corpus” de l’UMR STL qui ont formulé
diverses questions ou remarques dont cette rédaction a bénéficié. Merci également à
Pierre Corbin qui a collaboré à un certain nombre de nos séances de travail et qui a
critiqué une version préliminaire de ce texte. Merci aux relecteurs du CRTT qui ont
contribué à en améliorer la qualité finale. Merci enfin aux étudiants du M2 LTTAC
promotion 2005-2006.
Références
Dictionnaires bilingues spécialisés et guides utilisés comme ouvrages de référence
[269 Ð
Americain. Guide de conversation et lexique pour le voyage, Princeton, Berlitz Publishing
Company, 1999.
Anglais. Guide de conversation et lexique pour le voyage, Singapore, Berlitz Publishing Company / Apa Publications GmbH & Co. Verlag KG, 2003.
Anglais. Guide de conversation pour le voyage, Lausanne, JPMGuides, 2005.
French. Phrase book & dictionary, Singapore, Berlitz Publishing / Apa Publications GmbH
& Co. Verlag KG, 2003.
Guide de conversation. Anglais, Paris, Lonely Planet, 2006.
Guide de conversation du routard (anglais) = Le guide de conversation du routard. Anglais,
Hachette, en collaboration avec Larousse, 2005.
[270 Ð
HOURCADE B. (1995), Dictionnaire de l’anglais des métiers du tourisme anglais-français
français-anglais, vol. 4087, coll. Langues pour tous, Paris, Pocket.
L’anglais britannique de poche, Chennevières-sur-Marne, Assimil évasion, 2004.
L’anglais de poche pour globe-trotters, Chennevières-sur-Marne, Assimil évasion, 2005.
L’anglais easy. L’essentiel pour voyager, Paris, Larousse, 2003.
L’anglais pour mieux voyager en Amérique, Montréal, Guides de voyage Ulysse, 2002.
L’anglais pour mieux voyager en Grande-Bretagne, Montréal, Guides de voyage Ulysse, 2003.
Le Grand Robert Collins électronique, version 1.0, Paris, Dictionnaires Le Robert / VUEF,
2003.
MUKERJEE A. (2005), Je parle anglais, Paris, Marabout Flash.
Parler l’anglais en voyage, Edinburgh, Harraps, 2006.
Petite conversation en anglais. Les mots essentiels pour voyager, Paris, Lonely Planet, 2006.
654
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Autres références
[267 Ð
BARONI M. & BERNARDINI S. (2004), « BootCaT: bootstrapping corpora and terms from the
Web », in Proceedings of the 4 th International Conference on Language Resources and
Evaluation (LREC 2004), Lisbon, Portugal, 24-30 May 2004, pp. 1313-1316.
CMEJREK M. & CURIN J. (2001), « Automatic extraction of terminological translation lexicon from Czech-English parallel texts », International Journal of Corpus Linguistics 6,
special issue, pp. 1-12.
DELBECQUE T. & ZWEIGENBAUM P. (2006), « Exploitation de corpus médicaux extraits d’internet : une expérience », communication à la journée d’étude de l’ATALA « Le Web comme
ressource pour le TAL », Paris, École Nationale Supérieure des Télécommunications,
mars 2006, http://www.sodad.com/publications/atala06.pdf.
DÉLÉGER L. & ZWEIGENBAUM P. (2006), « Constitution et exploitation d’un corpus parallèle issu du web pour l’extension d’une terminologie multilingue », communication à la
journée d’étude de l’ATALA « Le Web comme ressource pour le TAL », Paris, École Nationale Supérieure des Télécommunications, mars 2006.
[268 Ð
GASIGLIA N. (2004), « Faire coopérer deux concordanciers-analyseurs pour optimiser les extractions en corpus », Revue française de linguistique appliquée IX.1, pp. 45-62.
GREFENSTETTE G. (2002), « The WWW as a resource for lexicography », in M.-H. Corréard
ed., Lexicography and Natural Language Processing. A festschrift in honour of B.T.S.
Atkins, EURALEX, pp. 199-215.
GRUNDY V. (1996), « L’utilisation d’un corpus dans la rédaction d’un dictionnaire bilingue,
in H. Béjoint & P. Thoiron éds, Les dictionnaires bilingues, coll. Champs linguistiques,
Aupelf-Uref / Louvain-la-Neuve, Duculot, pp. 127-149.
KRAIF O. (2003), « From translational data to contrastive knowledge: using bi-text for bilingual lexicons extraction », International Journal of Corpus Linguistics 8.1, pp. 1-29.
KRAIF O. (2008), « Extraction automatique de lexique bilingue : application pour la recherche d’exemples en lexicographie », in F. Maniez, P. Dury, N. Arlin & C. Rougemont dir.,
Corpus et dictionnaires de langues de spécialité, Grenoble, Presses Universitaires de
Grenoble, pp. 69-86.]
LÉON S. (2006), « Acquisition automatique de traductions de termes complexes par comparaison de “mondes lexicaux” sur le Web », in RÉCITAL 2006, Leuven, 10-13 avril 2006,
pp. 700-709.
PAULUSSEN H. (1999), A Corpus-based Contrastive Analysis of English “on”/“up”, Dutch
“op” and French “sur” within a Cognitive Framework, PhD, University of Gent.
PAULUSSEN H. (2001), « Character encoding standards: a matter of content and form », in
R. Temmerman & M. Lutjeharms eds, Proceedings of the International Colloquium:
Trends in Special Language & Language Technology, Brussel, 29-30 March 2001, Antwerpen, Standaard Editions, pp. 105-117.
[269 Ð
RESNIK P. (1999), « Mining the Web for bilingual text », in 37 th Annual Meeting of the Association for Computational Linguistics. Proceedings of the Conference. 20-26 June 1999,
University of Maryland, College Park, Maryland, USA, The Association for Computational
Linguistics, pp. 527-534 ; en ligne : http://umiacs.umd.edu/~resnik/pubs/acl99.ps.gz.
RESNIK P. & SMITH N.A. (2003), « The Web as a parallel corpus », Computational Linguistics 29.3, pp. 349-380 ; en ligne : http://acl.ldc.upenn.edu/J/J03/J03-3002.pdf.
T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration
655
VÉRONIS J. ed. (2000), Parallel Text Processing: Alignment and use of translation corpora,
Dordrecht / Boston / London, Kluwer Academic Publishers.
VÉRONIS J. (2003), « Hyperlex : cartographie lexicale pour la recherche d’informations », in
Actes de la Conférence Traitement Automatique des Langues (TALN’2003), pp. 265-274.
VÉRONIS J. (2005), « La linguistique de l’infiniment petit », communication aux quatrièmes
Journées de la linguistique de corpus, Lorient, 15-17 septembre 2005, non publié.