PDF du texte dans la version HDR
Transcription
PDF du texte dans la version HDR
T10 De la création d’un corpus bilingue du tourisme à partir du Web à son exploration avec ParaSearch et Unitex pour la documentation des lexicographes [avec Hans Paulussen] A [231 Ð Résumé Nous retraçons la constitution à partir du Web d’un corpus thématique français / anglais aligné puis son exploration impliquant la coopération de deux concordanciers, l’un multilingue et l’autre monolingue, pour documenter des travaux de lexicographie bilingue. 1. Introduction Dans cette contribution, nous présentons, d’un point de vue méthodologique plus que technique, les différentes étapes que couvrent la constitution d’un corpus bilingue compilé à partir du Web et aligné par paragraphes, puis son exploration impliquant [232 Ð la coopération de ParaSearch (un concordancier multilingue 2 développé par Hans 3 Paulussen ) et d’Unitex 4 (un outil monolingue 5 développé à l’Institut Gaspard Monge, université de Marne-La-Vallée). Le corpus constitué est dédié à la documentation de lexicographes, à qui il doit fournir des données pour l’analyse lexicale de l’expression bilingue d’activités liées au tourisme. Dans le cadre de cet exposé, nous évoquons les hypothèses qui ont motivé la mise en chantier d’un corpus bilingue aligné à partir du Web, en nous concentrant sur les [232 Ð A 2 3 4 5 La note 1 de l’édition originale contenait les coordonnées des auteurs. ParaSearch pourrait traiter trois langues en parallèle, mais il n’est employé ici que pour effectuer des recherches dans un corpus bilingue. ParaSearch a été développé dans le cadre d’une thèse (Paulussen (1999)) portant sur l’analyse contrastive de prépositions dans trois langues : le néerlandais, l’anglais et le français. Unitex se prête particulièrement bien au posttraitement de productions d’autres outils. Il a déjà été mobilisé pour fonctionner coopérativement avec l’étiqueteur morphosyntaxique Cordial Analyseur (cf. Gasiglia (2004)). Unitex (http://www-igm.univ-mlv.fr/~unitex/) est un logiciel qui permet de traiter des textes monolingues en exploitant différentes ressources linguistiques dont il est doté (dictionnaires au format DELA – élaborés au LADL sous la direction de Maurice Gross pour le français – et grammaires codées sous forme de réseaux de transitions récursifs – RTN). 2008d, in F. Maniez, P. Dury, N. Arlin & C. Rougemont dir., Corpus et dictionnaires de langues de spécialité, Grenoble, Presses Universitaires de Grenoble, pp. 231-270. [Article dans un volume d’actes de colloque international ; rédigé en 2006-2007 ; 70 189 caractères ; cf. C12 & E8] 630 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia propriétés informatiques des documents qui y sont rendus disponibles (cf. § 2.) et nous abordons la méthodologie de cette constitution, mais nous ne développons pas le descriptif technique (cf. § 3.). Nous analysons enfin comment le posttraitement avec Unitex des concordances bilingues produites par ParaSearch permet de filtrer les contextes et traductions neufs, dont les lexicographes ne disposeraient pas déjà en consultant à titre documentaire des guides de conversation ou des dictionnaires bilingues spécialisés (cf. § 4.). Nous évaluons ainsi la plus-value informationnelle de ce corpus. [233 Ð Ce travail est articulé aux travaux que nous avons engagés en 2005-2006 avec les étudiants du M2 LTTAC 6 et, au-delà de cette expérience, nous cherchons à apprécier : (i) si une maîtrise élémentaire des outils basiques de manipulation de textes sous Linux 7 et de scripts en AWK et PERL 8 suffit pour créer un corpus thématique à partir du Web ; [234 Ð (ii) si ce type de corpus présente un bon rendement – évalué en fonction du nombre d’informations pertinentes pour un projet dictionnairique donné que le corpus révèle et qui sont absentes d’une sélection de ressources documentaires ; (iii) si ce corpus peut être exploité en triant semi-automatiquement les données. 2. Pourquoi utiliser le Web pour constituer un corpus bilingue aligné ? Si l’on convient que la fonction d’un dictionnaire bilingue spécialisé – du tourisme ici – est de fournir des équivalences traductionnelles, l’utilisation de corpus parallèles [233 Ð 6 7 8 Le master professionnalisant 2e année “Lexicographie, Terminographie et Traitement Automatique des Corpus”, spécialité “TAL, Dictionnaires, Terminologies, Corpus”, mention “Sciences du Langage” du master “Arts, Lettres, Langues et Communication” de l’université Lille 3. Voir le site : http://stl.recherche.univ-lille3.fr/ siteheberges/LTTAC/index.htm. Linux est un système d’exploitation, comparable à Windows (pour PC) et MacOS (pour Macintosh). Comme ces autres systèmes d’exploitation, Linux propose une GUI (Graphical User Interface : une interface graphique conviviale où tout objet est manipulé par des menus ou avec la souris), mais il est surtout réputé auprès des informaticiens pour son interpréteur de lignes de commandes, le Shell, une interface “textuelle” où toute action est déclenchée par l’écriture puis l’exécution d’une commande accompagnée de ses arguments (dont les noms des fichiers dont le contenu est à traiter), ce qui permet d’effectuer des manipulations simples mais répétitives ou des actions élaborées, comme celles concernant plusieurs fichiers enregistrés dans des répertoires différents. L’interface graphique est dite orientée “objet”, tandis que l’interface non-graphique est orientée “verbe”. Les “grands” langages de programmation (les langages compilés, comme le C) demandent un cycle de développement assez lourd dans la mesure où ils nécessitent une compilation – une opération qui convertit le code source (le programme écrit en format texte) vers un format binaire lisible seulement par une machine – et où une nouvelle compilation doit être effectuée chaque fois que le programme est modifié. Un sous-groupe de langages de programmation se distingue des précédents par le fait que le code source n’est pas compilé et reste donc lisible par le programmeur. Ce type de code source est appelé script et les langages de ce sousensemble sont des langages de scripts. Comme ils sont généralement utilisés pour des tâches et des domaines spécifiques, ces langages sont également souvent appelés “petits” langages. Parmi eux, certains sont spécifiquement créés pour la manipulation de données textuelles : SED, AWK et PERL, que nous avons utilisés, et d’autres plus récents, TCL/TK et PYTHON par exemple. Les langages de scripts, qui offrent une relative souplesse d’écriture, qui garantissent une certaine aisance lors d’ajouts de fonctionnalités à une application et [234Ð bonne portabilité sur différents systèmes d’exploitation (cf. note 7), permettent aujourd’hui qui assurent une des développements applicatifs performants. Ils concurrencent quelquefois de “grands langages”. T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration 631 ou, mieux, alignés au niveau des phrases ou des paragraphes, peut sembler particulièrement adaptée pour la documentation de ses rédacteurs. 9 2.1. Un réservoir de traductions mais pas un corpus aligné Le Web constitue un réservoir de traductions souvent disponibles dans plusieurs langues 10, mais cet atout est contrebalancé par trois obstacles au moins qui interdisent de l’exploiter comme un corpus aligné : [235 Ð (i) les documents parallèles du Web ne sont explorés par les moteurs de recherche que page par page, et même si certains sites présentent des textes alignés sur chaque page, ils sont très rares, ce qui interdit usuellement un accès simultané aux textes sources et aux traductions, et conséquemment exclut d’utiliser le Web comme corpus multilingue aligné ; (ii) les documents disponibles dans plusieurs langues sur le Web sont souvent des traductions automatiques ou réalisées par des amateurs non bilingues, ce qui induit que leur qualité linguistique est quelquefois trop douteuse pour qu’ils puissent validement documenter un lexicographe ; (iii) lorsque les pages sont ramenées par un moteur de recherche, aucune n’a fait l’objet d’une sélection en fonction d’hypothèses de travail explicitables. 2.2. Un format ouvert : le HTML Malgré ce triple obstacle, il est indéniable que le Web met à disposition un important volume de textes et qu’un argument technique en fait une ressource intéressante : c’est un lieu de publication électronique remarquable puisque le format de base de la grande majorité des pages Web est un format ouvert 11 – le HTML – qui permet aisément de séparer les codes de formatage des contenus textuels. 9 10 [235 Ð 11 Habituellement, ce sont plutôt des corpus comparables qui sont mobilisés, cf. par exemple Grundy (1996), Grefenstette (2002) ou Baroni & Bernardini (2004), mais des corpus parallèles ou alignés peuvent être utilisés, cf. Kraif (2003 et 2008) ou Cmejrek & Curin (2001). D’autres travaux exploitent le Web pour y quérir des textes traduits : Resnik (1999), Resnik & Smith (2003), Déléger & Zweigenbaum (2006) ou Delbecque & Zweigenbaum (2006), par exemple. La notion de format ouvert s’oppose à celle de format propriétaire. • Le HTML est un format ouvert, c’est-à-dire qu’un fichier HTML peut être lu avec n’importe quel éditeur de texte : – si c’est un éditeur HTML le texte apparaîtra mis en forme (cf. figure a) ; 632 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia [236 Ð Figure a. http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html dans Internet Explorer, un navigateur Web – si ce n’est pas un éditeur dédié au format HTML (par exemple TextPad), les codes de formatage seront visibles mêlés au texte (dans la copie d’écran présentée en figure b, les balises <H1>[…]</H1> et <H2>[…]</H2> encadrent les titres, les balises <P>[…]</P> sont respectivement en début et en fin de paragraphes, comme <I>[…]</I> en début et fin de segments en italiques, et les liens hypertextes sont matérialisés par <A href=[…]> […]</A>). Figure b. http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html dans TextPad, un éditeur de textes basique qui n’interprète pas le HTML • Quand les mémoires de traduction, pour les documents alignés, ou les traitements de textes permettent d’enregistrer des fichiers dont le contenu n’est lisible qu’avec le logiciel d’origine ou un logiciel compatible, on parle de format propriétaire. Dans le texte de la figure c, celui du document HTML précédent enregistré en DOC dans Microsoft Word et ouvert dans TextPad, un éditeur de textes basique, les premières lignes présentent des suites de caractères indécodables pour nous, des liens vers les fichiers d’images (INCLUDEPICTURE \d "E:\\Hébergements [237 Ð EXPO 2005 AICHI, JAPON_fichiers\\logo.gif") et le texte de la page entrecoupé de liens et de caractères non interprétables comme « ¶┌ ┴ ┴ » par exemple. Figure c. http://www-1.expo2005.or.jp/fr/visitingjapan/accommodation.html enregistré en format DOC puis ouvert dans TextPad qui ne l’interprète pas T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration 633 [237 Ð D’autres formats sont utilisés sur le Web et une part croissante des documents en ligne sont des PDF, mais leur conversion en format texte brut pose parfois beaucoup de problèmes, ce qui a induit leur exclusion de ce corpus. Hors du Web, même si la chaîne de production des textes (de leur création à leur publication) se fait de plus en plus de façon électronique et que le XML gagne du terrain, les documents sont créés avec des outils – des mémoires de traduction, ou des traitements de textes – qui ne génèrent pas systématiquement des documents en XML mais encore souvent des fichiers codés dans un format propriétaire (cf. note 11). Par conséquent, outre les difficultés de collecte, regrouper ces documents impliquerait de gérer leur hétérogénéité. 2.3. Principes de sélection des documents multilingues trouvés sur le Web Engager la création d’un corpus fermé (mais extensible) nous a amenés à nous inter[238 roger sur la couverture et la représentativité de ce Ðcorpus 12 afin d’établir des principes de sélection ou d’exclusion des documents multilingues trouvés sur le Web. Ces critères prennent en compte : – l’adéquation thématique ; – la qualité linguistique des textes de chaque langue en présence (idiomaticité, richesse lexicale et respect “standard” des règles grammaticales) : quelques textes qui étaient traduits automatiquement à la demande du consultant ou semblaient l’avoir été antérieurement à leur mise en ligne, mais sans que la sortie du système de traduction ait été révisée, n’ont pas été retenus ; – le parallélisme effectif des textes : des textes longs (probablement les textes sources) étaient mis en parallèle avec des textes courts, qui n’en reprenaient que les idées principales ; ces documents n’étant pas alignables, ils n’ont pas été sélectionnés ; – la présence majoritaire de textes rédigés plutôt que de données présentées sous forme de tableaux de chiffres (tarifs, horaires, etc.). Ces critères ne garantissent pas nécessairement une bonne couverture thématique et linguistique des documents, mais ils permettent d’exclure des textes qui se seraient révélés invalides pour documenter un travail de lexicographie de facture classique 13. [239 Ð Nous avons le projet d’adjoindre des indicateurs typologiques à chaque document, mais à une typologie a priori, qui nous semblait malaisée à constituer eu égard à la diversité des documents trouvables sur le Web, nous avons préféré une typologie fondée sur l’analyse des documents retenus et exclus, qui est en cours de réalisation. [238 Ð 12 13 Cette question devrait tout aussi utilement être posée quand le Web est exploré dans sa globalité aux contours inconnus, mais elle ne l’est généralement pas par ceux qui posent que la quantité de données contenues dans les pages Web compense la disparité de leur qualité linguistique, l’inconnaissabilité de leur représentativité des usages, l’incertitude de leur couverture domaniale, etc., cf. Véronis (2005). Par « lexicographie de facture classique », nous désignons une lexicographie qui ne viserait pas à décrire des usages repérés comme étant écartés des usages les plus communs – les chats, les SMS, etc. –, mais la notion d’usages communs mériterait d’être définie, ce qui n’est pas le propos ici. 634 3. Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Méthodologie de constitution du corpus bilingue aligné du tourisme Aux critères que nous venons d’évoquer se sont ajoutés des éléments d’appréciation qui sont plus informatiquement motivés, comme l’évaluation de la complexité et de la régularité structurelle de chaque site, qui auront des incidences sur la sophistication des manipulations à effectuer. 3.1. Recherche des indices de parallélisme des documents dans les URL Pour chaque site visité il est crucial de savoir dans quelle mesure sa structure fournit des indices fiables pour repérer le parallélisme des documents. Il peut s’agir de la mention de la langue dans l’URL de chaque page 14 ou d’un indice explicitant quelles sont les langues en présence. 15 Durant les repérages préparatoires à la constitution du [240 Ð corpus, une large diversité d’habitudes de nommage des pages dont les contenus étaient parallèles a été observée, cf. figure 1, à laquelle se réfèrent les renvois du texte ci-après. (i) Qu’il s’agisse ou non d’appels de scripts (ASP, PHP, etc.), les noms des documents parallèles pouvaient se résumer à des codes alphabétiques ou numériques dont un à deux caractères représentaient éventuellement la langue ( fr et en ou 1 et 2, cf. lignes a et b). (ii) Quand les noms des documents étaient plus explicites – c’est-à-dire constitués de mots clés ou de titres de pages reformatés pour constituer des noms de fichiers valides –, les noms des documents parallèles pouvaient être identiques pour les pages des différentes langues (cf. ligne c) ou être des traductions dans la langue de chaque page (cf. lignes d et g), ou encore être totalement différents (cf. ligne e) et, dans les URL, ils pouvaient être associés à la mention de la langue de chaque page, que celle-ci soit incluse dans le nom de fichier (cf. ligne f ) ou dans un nom de dossier enchâssant, et qu’elle [239 Ð 14 15 Les travaux de Resnik (1999) et de Resnik & Smith (2003) déjà cités en note 10 exploitent cet indice. Les URL (Uniform Resource Locators) permettent de définir de manière standard la localisation d’un fichier ou d’une ressource sur Internet. Elles débutent toujours par la mention du nom du site décomposable en type de service (http) et nom du serveur ou du domaine. Quand les pages sont statiques et que leur contenu est enregistré dans des fichiers HTML, le nom du fichier est mentionné en position finale dans l’URL et, entre le nom du site et le nom du fichier, s’intercalent, séparés par des slashs (des barres obliques), des noms de dossiers, le premier mentionné à gauche enchâssant celui qui le suit directement à droite, etc., cf. figure d. [240 Ð Figure d. Décodage d’une URL http://www.expo2005.or.jp nom du site / fr / visitingjapan / accommodation.html nom du dossier enchâssant nom du dossier enchâssé nom du fichier Glose : Le site http://www.expo2005.or.jp contient un dossier enchâssant fr qui contient un dossier enchâssé visitingjapan qui contient lui-même un fichier au format HTML accommodation.html Quand les pages ne correspondent pas à des fichiers à contenus stables, mais que leur contenu est dynamiquement inséré par des programmes qui sont activés à l’ouverture de chaque page, ce qui est mentionné en fin d’URL, éventuellement après des noms de dossiers, correspond aux instructions permettant l’exécution de ces programmes (on les appelle des « appels de scripts »). T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration 635 s’exprime au moyen d’un code numérique ou alphabétique (conforme aux codes ISO des langues, cf. lignes c et g, ou non, cf. ligne d), ou d’un nom formulé dans la langue locale du site (ou dans celle du webmaster, cf. ligne h), en anglais ou dans les langues des pages (cf. ligne i). [241 Ð Figure 1. Échantillon d’URL de pages à contenus parallèles URL REMARQUES SUR LA SYNTAXE DES URL a http://www.rouentourisme.com/default.asp?file=pg45-1_fr http://www.rouentourisme.com/default.asp?file=pg45-1_en appels de script avec codes de langue alphabétiques b http://www.marseille-tourisme.com/servlet/otcm?LANGUE=1&dist=2GP http://www.marseille-tourisme.com/servlet/otcm?LANGUE=2&dist=3GP appels de script avec codes de langue numériques c http://www-1.expo2005.or.jp/fr/visitingjapan/accommodation.html http://www-1.expo2005.or.jp/en/visitingjapan/accommodation.html noms de fichiers identiques, avec noms de dossiers enchâssants indiquant les codes de langue normalisés d http://lilletourism.com/se-deplacer-dans-lille.htm http://lilletourism.com/uk/getting-around-lille.htm noms de fichiers dans la langue des pages et dossier (uk) pour la page en anglais e http://www.tourismus-bw.de/pannet/franzoesisch/franzoesisch.htm http://www.tourismus-bw.de/pannet/english/home.htm noms de fichiers et de dossiers totalement différents f http://europa.eu.int/abc/travel/flying/index_fr.htm http://europa.eu.int/abc/travel/flying/index_en.htm codes de langue normalisés inclus dans le nom des fichiers g http://www.institutneerlandais.com/fr/exposition.html http://www.institutneerlandais.com/en/exhibition.html codes de langue normalisés comme noms de dossiers enchâssants et noms de fichiers dans la langue des pages h http://www.antoine.tv/francais/voyages/destination/dest1.htm http://www.antoine.tv/anglais/voyages/destination/dest1.htm noms des langues (dans la langue du webmaster) comme noms de dossiers enchâssants et noms de sous-dossiers et fichiers identiques i http://french.memphistours.com/index.php http://www.deutsch.memphistours.com/ http://www.memphistours.com/ • pas de mention de « www » dans le nom du site en français ; • noms de langue en anglais ou dans la langue de la page, sauf pour la page anglaise, qui ne comporte aucune mention de langue Il s’est également révélé fréquent qu’une partie seulement des sites soient traduite. Afin de circonscrire les rapatriements de fichiers aux seuls sous-ensembles de pages pertinents, il est alors impératif de chercher à repérer quels sont les sous-ensembles de pages qui contiennent bien des textes disponibles dans plusieurs langues, et de les distinguer des pages dont les URL codent des langues différentes sans que les textes contenus soient dans les langues annoncées (mais dans la langue du pays du site ou en anglais). 636 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia 3.2. Rapatriement des contenus des pages En pratique, il s’est avéré efficace de privilégier les sites où la structure de l’URL indique un nom constant et la langue choisie (cf. les URL présentées lignes a, c, f et h) puisque cette manière de nommer les pages permet : [242 Ð 1) de lister les liens vers les différents textes d’une langue à partir du contenu des pages d’accueil de cette langue, puis de mettre en place un téléchargement automatique des pages rédigées dans cette langue ; 2) de générer au moyen d’un script ad hoc les URL des pages rédigées dans l’autre langue et d’automatiser leur téléchargement. Ces manipulations sont d’autant plus efficaces que l’on traite en premier lieu la langue “mineure” du site, celle observée comme ayant le plus petit nombre de pages lors des repérages manuels préalables. Ainsi, si un sous-ensemble seulement des pages est traduit dans le site, les URL générées correspondent toutes effectivement à des pages existantes. De manière plus détaillée, cf. figure 2 : 1) Les URL des liens des pages d’accueil (accueil principal et accueil de rubriques) vers les pages rédigées dans une certaine langue sont réunies semi-automatiquement au sein d’une liste où chaque URL occupe une ligne. Un script AWK traite cette liste afin de générer un fichier de script BASH dans lequel chaque lien a été transformé en un appel de commande WGET 16 qui : – générera un index des pages téléchargées mettant en correspondance leur URL (dont certains des caractères ne sont pas acceptables dans les noms de fichiers : slash, deuxpoints, etc.) avec le nom du fichier qui contient leur texte ; – effectuera le téléchargement de leur contenu. [242 Ð [243 Ð 2) Après avoir analysé les règles de nommage du site et observé, par exemple, que les noms de fichiers sont identiques d’une langue à l’autre mais que les pages de chaque langue sont réunies au sein de dossiers nommés au moyen du code ISO de la langue (comme dans les URL présentées figure 1 ligne c), une commande SED qui convertit la liste des URL de la première langue en URL de la seconde (cf. figure 3) est exécutée, puis le script AWK convoqué pour la première peut être réexploité (en y modifiant [244 l’indication de langue dans les noms de Ðfichiers créés) pour générer le script BASH contenant les appels WGET qui créeront l’index et téléchargeront les pages dans la seconde langue. 16 Les navigateurs Web (comme Internet Explorer ou Firefox) sont des programmes qui permettent de télécharger des pages Web une par une pour en lire le contenu. WGET, lui, est un aspirateur de pages Web, un outil qui permet de télécharger et d’enregistrer les contenus des pages sans les visualiser. En conséquence, une seule commande WGET pourra capturer plusieurs pages d’un site si, dans l’expression du WGET, les noms de dossiers ou de fichiers qui figurent dans les URL peuvent être remplacés par le métacaractère « * » (qui, dans ce contexte, code la présence d’un ou plusieurs caractères quelconques). T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration [243 Ð 637 Figure 2. Schématisation de la procédure de téléchargement des pages Web pages d’accueil du site Web dans la langue mineure (ici le français) È ANALYSE SEMI-AUTOMATIQUE Ä liste des URL des pages de la langue mineure http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html http://www.expo2005.or.jp/fr/visitingjapan/food/menu.html … Ì EXÉCUTION D’UN SCRIPT AWK QUI CRÉE UN SCRIPT BASH EN TRANSFORMANT CHAQUE URL EN APPEL DE COMMANDE WGET wget -t 45 –a log-expo.txt -O EXPO_01_FR.html http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html wget -t 45 –a log-expo.txt -O EXPO_02_FR.html http://www.expo2005.or.jp/fr/visitingjapan/food/menu.html … È EXÉCUTION DES COMMANDES  index listant, à raison d’un par ligne, les couples URL / noms de fichier codifiés WGET QUI CRÉENT UN INDEX http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html EXPO_01_FR.html DES RAPATRIEMENTS ET http://www.expo2005.or.jp/fr/visitingjapan/food/menu.html EXPO_02_FR.html TÉLÉCHARGENT LE FICHIER ASSOCIÉ À CHAQUE URL …  textes rapatriés et enregistrés sous des noms de fichier codifiés EXPO_01_FR.html EXPO_02_FR.html … È EXÉCUTION D’UN SCRIPT SED QUI TRANSFORME CHAQUE URL DE LA LANGUE MINEURE EN URL DE L’AUTRE LANGUE (ICI L’ANGLAIS) Ä liste des URL des pages de l’autre langue http://www.expo2005.or.jp/en/visitingjapan/accommodation.html http://www.expo2005.or.jp/en/visitingjapan/food/menu.html … Ì EXÉCUTION D’UN SCRIPT AWK QUI CRÉE UN SCRIPT BASH EN TRANSFORMANT CHAQUE URL EN APPEL DE COMMANDE WGET È EXÉCUTION DES COMMANDES  index listant, à raison d’un par ligne, les couples URL / noms de fichier codifiés WGET QUI CRÉENT UN INDEX http://www.expo2005.or.jp/en/visitingjapan/accommodation.html EXPO_01_EN.html DES RAPATRIEMENTS ET http://www.expo2005.or.jp/en/visitingjapan/food/menu.html EXPO_02_EN.html TÉLÉCHARGENT LE FICHIER ASSOCIÉ À CHAQUE URL …  textes rapatriés et enregistrés sous des noms de fichier codifiés EXPO_01_EN.html EXPO_02_EN.html … 638 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia [244 Ð Figure 3. Échantillon de la liste des URL du site présenté en figure 1 ligne c LISTE DES URL DES PAGES EN FRANÇAIS : « …/fr/… » http://www.expo2005.or.jp/fr/visitingjapan/accommodation.html http://www.expo2005.or.jp/fr/visitingjapan/food/menu.html http://www.expo2005.or.jp/fr/visitingjapan/food/tea.html http://www.expo2005.or.jp/fr/visitingjapan/food/typical.html http://www.expo2005.or.jp/fr/visitingjapan/introduction/osaka.html http://www.expo2005.or.jp/fr/visitingjapan/introduction/tokyo.html http://www.expo2005.or.jp/fr/visitingjapan/service/volunteer.html http://www.expo2005.or.jp/fr/visitingjapan/service/welcome.html http://www.expo2005.or.jp/fr/visitingjapan/shopping.html […] LISTE DES URL DES PAGES EN ANGLAIS : « …/en/… » http://www.expo2005.or.jp/en/visitingjapan/accommodation.html http://www.expo2005.or.jp/en/visitingjapan/food/menu.html http://www.expo2005.or.jp/en/visitingjapan/food/tea.html http://www.expo2005.or.jp/en/visitingjapan/food/typical.html http://www.expo2005.or.jp/en/visitingjapan/introduction/osaka.html http://www.expo2005.or.jp/en/visitingjapan/introduction/tokyo.html http://www.expo2005.or.jp/en/visitingjapan/service/volunteer.html http://www.expo2005.or.jp/en/visitingjapan/service/welcome.html http://www.expo2005.or.jp/en/visitingjapan/shopping.html […] Ces manipulations impliquent une analyse de la structure des sites Web. Cette tâche manuelle est coûteuse, mais elle s’avère particulièrement rentable quand un grand nombre de documents du même site peuvent être téléchargés 17. À cet égard, les sites d’instances officielles (syndicats d’initiative, musées nationaux ou régionaux, etc.) ou d’entreprises privées bien positionnées dans le domaine du tourisme (tour operator, etc.) peuvent parfois s’avérer très fructueux : c’est le cas quand ils ont des contenus régulièrement renouvelés sans que la structure du site ne soit modifiée 18, puisqu’ainsi [245 Ð une seule analyse permet de capturer les contenus rendus disponibles à différents moments. 3.3. Nettoyage des fichiers HTML Une fois les documents rapatriés, ils doivent être nettoyés (pour éliminer le balisage HTML et harmoniser les codages de caractères) puis être alignés au niveau des paragraphes. [244 Ð 17 18 Cet avantage technique ne va pas sans hypothéquer l’équilibrage du corpus où certaines thématiques ou manières de s’exprimer propres à un site peuvent finir par être surreprésentées. C’est particulièrement le cas pour les sites générés au moyen de CMS (Content Management System comme ZOPE, DRUPAL ou SPIP par exemple). T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration 639 3.3.1. Élimination du balisage Le nettoyage des pages peut se faire avec la commande LYNX-DUMP, mais pour obtenir un produit de meilleure qualité où seuls les segments de textes pertinents sont conservés, il est préférable de pousser à un plus haut niveau de détail l’analyse structurelle déjà engagée et de voir si les textes parallèles sont structurés de manière comparable, si nous pouvons fiablement utiliser ces indices pour les aligner (deux textes pouvant être strictement parallèles et sembler mis en page de manière tout à fait identique sans que le balisage HTML soit le même) 19. Un script PERL exploitant HTML:: TREEBUILDER (un module spécifique qui convertit une page HTML en arbre, ce qui facilite ensuite les manipulations structurelles) a effectué les manipulations utiles pour le corpus Web du tourisme. 3.3.2. Harmonisation des codages de caractères D’autres scripts AWK ou PERL (dont la présentation serait trop complexe pour être introduite ici) ont mené à bien l’unification des codages de caractères qui, malgré l’avantage que représente le codage des documents en HTML, a posé deux types de difficultés : (i) les codages non systématiquement convertibles en code ISO-8859-1 (communément [246 Ð appelé “Latin 1”), comme ceux des ligatures (œ), ont demandé que nous adoptions des encodages alternatifs (sous forme d’entités caractères : Œ) pour garantir leur conservation, et (ii) l’hétérogénéité des formats de caractères (CP1252 sous Windows, ou MacRoman sous Macintosh) a induit l’utilisation de l’outil Linux ICONV afin de les convertir en Latin 1. 20 3.4. Alignement au niveau des paragraphes des textes bilingues L’alignement au niveau des paragraphes 21 qui a été établi est fondé sur une hypothèse : les textes traduits ont le plus souvent le même nombre de paragraphes que les textes sources. Cette hypothèse a dû être validée pour chaque document, ce qui a été vérifié au moyen d’un script PERL qui montre la première ligne de chaque paragraphe de chaque texte dans chaque langue. En cas de problème, une restructuration du texte ayant le moins de paragraphes a été engagée afin d’établir le parallélisme des découpages en paragraphes. Observons que, dans certains sites, les textes sont parfois enregistrés par fragments dans différents fichiers mais que leurs traductions ne sont pas nécessairement décou[245 Ð [246 Ð 19 20 21 Un même titre pourra porter la même valeur de “class” mais être balisé comme <div> ou comme <H1>. L’unicode constitue un progrès pour la standardisation des caractères, mais, contrairement à Unitex, de nombreux outils d’exploration de corpus ne sont pas encore adaptés pour son traitement, ce qui nécessite la mise en place de solutions transitoires, cf. Paulussen (2001). D’autres types d’alignements ont été envisagés et en particulier un alignement au niveau des phrases. Mais seul l’alignement au niveau des paragraphes est actuellement en place. Pour un panorama de différentes techniques d’alignement, cf. Véronis ed. (2000). 640 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia pées de manière strictement identique. La réunion des fragments de chaque langue dans un même fichier est en conséquence indispensable avant de procéder à l’alignement, et la complétude textuelle de chaque fichier doit être vérifiée avant cette étape. [247 Ð 3.5. Ultimes manipulations À la suite de l’alignement, quelques manipulations sont encore utiles pour que les textes des fichiers alignés soient manipulables par le concordancier trilingue ParaSearch : 1) insertion d’une ligne blanche après chaque paragraphe (y compris en fin de fichier) ; 2) révision des noms des fichiers, en respectant le principe de nommage à quatre lettres majuscules 22 attendu par ParaSearch, et regroupement des textes les plus courts pour avoir plusieurs paragraphes par fichier (en n’omettant pas d’actualiser l’index des correspondances URL / nom de fichiers) ; 3) et pour un bon fonctionnement de ParaSearch qui présente n lignes avant et après une occurrence repérée au sein d’un paragraphe, (cf. note 23), découpage des lignes des textes sources en lignes de 70 caractères maximum par ligne, ce qui garantit une fenêtre de contexte de taille raisonnable. Malgré la puissance des outils Linux, toutes les tâches que nous venons d’évoquer n’ont pas pu être intégralement automatisées et, pour chacune, un contrôle manuel (facilité par quelques scripts) reste nécessaire. 4. Méthodologie d’exploration du corpus et d’évaluation de sa rentabilité L’objectif de cette exploration faisant collaborer deux outils est d’évaluer la plus[248 Ð value informationnelle des contextes du corpus constitué par rapport à ceux des contextualisations proposées dans les ouvrages déjà sur le marché et consultables à titre documentaire par les lexicographes. Comme nous travaillons dans le domaine du tourisme, nous avons retenu des données linguistiques présentées dans une sélection de guides de conversation et de dictionnaires bilingues spécialisés ou non (dont les références sont indiquées en fin d’article). Ces données ont été converties manuellement en graphes ou semi-automatiquement en expressions régulières, puis utilisées comme motifs de recherche par Unitex pour analyser les contextes de l’une des deux langues, L1 (le français ci-dessous), puis de l’autre, L2, en cherchant : (i) si, pour les contextes en L1 correspondant aux données présentes dans les ouvrages de référence, les contextes alignés en L2 comportent bien les équivalents traductionnels proposés dans ces ouvrages ; (ii) et si, dans les données neuves, il y aurait de nouvelles équivalences traductionnelles à relever. [247 Ð 22 La première de ces quatre lettres indique à quel sous-corpus appartient le texte, la troisième lettre indique quelle est la langue (F pour le français et E pour l’anglais, cf. figure 5), la combinaison des deuxième et quatrième lettres sert à identifier chaque fichier de manière unique. T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration 641 Le travail d’exploration a ensuite été refait en analysant la L2 à la recherche de constructions qui étaient dans les ouvrages mais aussi des traductions des données neuves de L1 retenues précédemment, afin d’analyser tous leurs équivalents traductionnels observables en corpus. 4.1. Extraction des contextes alignés avec ParaSearch Sans entrer dans le détail de l’analyse linguistique, évoquons l’ensemble des manipulations informatiques mises en place pour effectuer les analyses des contextes alignés rendus disponibles par ParaSearch. Ce concordancier trilingue permet de chercher les occurrences d’un mot ou d’une expression dans les textes d’une langue et, à partir du rang de chaque contexte, de chercher les paragraphes alignés dans la ou les autres langues. 23 [249 Ð ParaSearch génère ainsi une liste où les contextes de chaque langue se succèdent dans un ordre défini par l’utilisateur, en fonction de la langue du motif de recherche. Pour rechercher l’item français musée au singulier comme au pluriel, en minuscules comme en majuscules, l’expression régulière 24 exprimant toutes les formes graphiques à prendre en compte est : [Mm][Uu][Ss][ÉéEe][Ee][Ss]? 25. [250 Ð Figure 4. Extrait de la liste des contextes bilingues produite par ParaSearch === [ACFG:02:01] === Les >>> Musées [248 Ð 23 24 25 Si les paragraphes des textes originaux sont d’une taille supérieure ou égale aux valeurs suivantes, les tailles [249 Ð égales à huit lignes pour la langue du motif de des contextes extraits par ParaSearch sont par défaut recherche et à vingt-quatre lignes pour l’autre langue (afin d’augmenter les chances d’y trouver l’équivalent traductionnel de l’item cherché). L’aide de Parasearch indique que la taille de la “fenêtre” peut être adaptée : Number of context lines in first language: S_CONTEXT_A: lines above KWIC line (default: 4) S_CONTEXT_B: lines below KWIC line (default: 4) Number of context lines in parallel languages: T_CONTEXT_A: lines above KWIC line (default: 12) T_CONTEXT_B: lines below KWIC line (default: 12) Les expressions régulières sont des chaînes de caractères qui sont utilisées pour exprimer des motifs de recherche (à mettre en correspondance avec des segments de texte du corpus exploré) et où certains caractères ont leur valeur littérale alors que d’autres ont des valeurs particulières : – comme les métacaractères représentant un caractère, dont par exemple : « . », qui représente n’importe quel caractère, ou « [Mm] », qui représente soit un M soit un m ; – comme les opérateurs d’optionnalité ou/et de répétabilité : « ? », qui indique la présence optionnelle de ce qui le précède ; « * », qui indique la présence optionnelle unique ou répétable de ce qui le précède ; « + », qui indique la répétabilité de ce qui le précède ; – comme l’opérateur de disjonction : « + », qui indique qu’il faudra choisir entre la mise en correspondance de ce qui est à sa gauche ou de ce qui est à sa droite avec le texte du corpus (cf. note 32 ci-dessous) ; – comme le délimitateur de sous-chaîne de caractères : les parenthèses (cf. note 32 ci-dessous). Cette expression régulière indique que l’on recherche les chaînes de caractères constituées d’une suite ordonnée de lettres majuscules ou minuscules : un m, puis un u, un s, un é ou un e, un e, et optionnellement un s. 642 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia === [ACEG:02:01] === The Museums === [ACFG:05:01] === De nombreux >>> musées archéologiques témoignent de la présence de ces civilisations qui ont peuplé la Corse. De Filotosa à la Dame de Bonifacio les empreintes de l’histoire sont nombreuses. === [ACEG:05:01] === Many archaelogical museums attest the presence of these civilizations which have populated Corsica. From Filitosa to the Dame of Bonifacio the marks of history are numerous. === [ACFG:06:01] === L’Art, plus récent, est aussi présent à travers les prestigieuses collections des primitifs italiens du >>> Musée Fesch d’Ajaccio, la plus riche après celle du Musée du Louvre à Paris. === [ACEG:06:01] === Art, more recent, is also present through the prestigious collections of italian primitives of the Fesch Museum of Ajaccio, the richest one after the Art gallery of the Louvre one, in Paris. === [ACFG:06:02] === L’Art, plus récent, est aussi présent à travers les prestigieuses collections des primitifs italiens du Musée Fesch d’Ajaccio, la plus riche après celle du >>> Musée du Louvre à Paris. === [ACEG:06:02] === Art, more recent, is also present through the prestigious collections of italian primitives of the Fesch Museum of Ajaccio, the richest one after the Art gallery of the Louvre one, in Paris. Dans les contextes de la langue du motif de recherche, la L1, l’occurrence repérée [251 est précédée de trois chevrons. Dans des paragraphes où Ðil y a plusieurs occurrences (cf. les deux dernières paires de la figure 4), chaque occurrence est repérée et extraite par ParaSearch.26 Avant chacun des contextes en français puis en anglais, un identificateur unique permet de connaître le rang de l’occurrence et de repérer le segment de texte extrait en fonction de sa langue et de la position relative du paragraphe 27 dans le fichier de texte où il a été trouvé 28. Ainsi (cf. figure 5), un contexte français porteur d’un F en troisième position dans la partie alphabétique de son identificateur (cf. note 22) sera associé au contexte anglais de même identificateur à la variable langue près : un E remplacera le F. La valeur du rang de l’occurrence est 01 quand il n’y en a qu’une dans le contexte ou qu’il s’agit de la première. Cette valeur est 02, 03, etc. pour les occurrences suivantes (cf. note 26). [251 Ð 26 27 28 Dans un paragraphe où il y a plusieurs occurrences, chaque occurrence est repérée par ParaSearch et chacune donne lieu à la création d’une extraction différenciée de la ou des autres par le rang d’occurrence à droite du code entre crochets (cf. figure 4 : [ACFG:06:01] et [ACFG:06:02] et figure 5). Cette position correspond au rang du paragraphe dans le fichier source. Ce nom de fichier est privé de son extension (.txt), qui ne serait pas pertinente ici. T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration 643 Figure 5. Décodage des identificateurs associés à chaque occurrence repérée par ParaSearch [ACFG:06:02] nom du fichier source langue position du contexte rang de l’occurrence 4.2. Préparation des contextes alignés pour Unitex Unitex, lui, est un concordancier monolingue qui, entre autres fonctionnalités, permet d’annoter les contextes des segments du texte exploré correspondant aux motifs de recherche, et ainsi de posttraiter les concordances alignées de ParaSearch. [252 Ð Comme Unitex ne sait fonctionner que dans une langue à la fois, même s’il est configuré pour traiter le français aussi bien que l’anglais, il convient de séparer dans des fichiers distincts les contextes de chacune des langues (cf. figure 6). Figure 6. Séparation des contextes français et anglais alignés et adaptation des identificateurs des occurrences françaises repérées par ParaSearch en vue des traitements opérés par Unitex DANS LE FICHIER GÉNÉRÉ PAR PARASEARCH === [ACFG:06:02] === L’Art, plus récent, est aussi présent à travers les prestigieuses collections des primitifs italiens du Musée Fesch d’Ajaccio, la plus riche après celle du >>> Musée du Louvre à Paris. ¨ fichier des contextes en français === [ACEG:06:02] === Art, more recent, is also present through the prestigious collections of italian primitives of the Fesch Museum of Ajaccio, the richest one after the Art gallery of the Louvre one, in Paris. ¨ fichier des contextes liés en anglais DANS LE FICHIER DES CONTEXTES EN FRANÇAIS, UNE FOIS L’IDENTIFICATEUR DÉPLACÉ ET ADAPTÉ ====== L’Art, plus récent, est aussi présent à travers les prestigieuses collections des primitifs italiens du Musée Fesch d’Ajaccio, la plus riche après celle du [ACFG-06-02] Musée du Louvre à Paris. DANS LE FICHIER DES CONTEXTES LIÉS EN ANGLAIS === [ACEG:06:02] === Art, more recent, is also present through the prestigious collections of italian primitives of the Fesch Museum of Ajaccio, the richest one after the Art gallery of the Louvre one, in Paris. Mais afin qu’un retour aux contextes alignés soit possible ultérieurement, il est impératif que, après manipulation, les extraits exprimés dans la langue du motif de recherche (le français ici) gardent leur identificateur d’occurrence. Cependant, comme Unitex n’est pas conçu pour définir autrement qu’en nombre de caractères la taille des contextes gauches et droits des segments mis en correspondance avec les motifs de recherche dans les concordances qu’il génère, rien ne garantit que les contextes gauches intègrent toujours leur identificateur s’il reste dans la position fixée par ParaSearch. Les identificateurs sont donc déplacés avant les occurrences repérées par ParaSearch, à 644 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia la place occupée par les trois chevrons. Enfin, les deux points correspondent à des carac[253 Ð tères spéciaux 29 dans les graphes d’Unitex 30 : il a donc été nécessaire de remplacer ceux des identificateurs d’occurrences pour pouvoir ensuite intégrer l’expression les représentant dans les motifs de recherche des graphes 31 (cf. figure 7). [254 Ð Figure 7. Codage comme motif de recherche, dans les graphes d’Unitex,des identificateurs associés à chaque item français repéré et extrait par ParaSearch [ACFG-06-02] Musée nom de fichier : 4 lettres Ú un mot position du contexte : 2 chiffres Ú un nombre rang de l’occurrence : 2 chiffres Ú un nombre item musée (au singulier ou au pluriel) Ú le lemme [<MOT>-<NB>-<NB>] <musée> 4.3. Manipulation des contextes français avec Unitex Les recherches engagées avec Unitex dans les listes de contextes français (L1) produits par ParaSearch conduisent à distinguer ceux qui sont déjà attestés dans les contextualisations d’un ensemble d’ouvrages de référence et ceux qui sont nouveaux. Nous n’étudions pas ici les stratégies qui peuvent être élaborées pour concevoir les modalités de repérage les plus efficaces, nous nous concentrons sur le fonctionnement technique de cette procédure en ne considérant qu’un prototype de portée limitée qui ne prend en compte qu’un ouvrage : le Guide de conversation du routard (anglais) 2005, qui, s.v. musée, indique les phrases à quelle heure ouvre le musée ? et où est le musée d’art contemporain ? associées à une traduction en anglais et à une transcription phonétique élaborées dans un code maison (cf. figure 8). [252 Ð [253 Ð 29 30 31 Ce sont les codes qui introduisent un appel à un sous-graphe. À cause de leur meilleure lisibilité, nous ne présentons que des graphes. Une large partie de ce qui y est codé pourrait être écrit sous forme d’expressions régulières, même si leur portée est plus limitée : les graphes bénéficient de la possibilité de faire appel à des sous-graphes qui prennent en charge une partie du codage et ainsi de pouvoir coder des descriptions d’un très haut degré de complexité tout en restant manipulables. Dans la syntaxe des motifs de recherche d’Unitex : – les étiquettes de classes d’objets particuliers (MOT, pour une suite de lettres, et NB, pour une suite de chiffres, cf. figures 7 et 9, ou PRE pour tout mot débutant par une majuscule, cf. figure 9) sont mentionnées en majuscules et entre chevrons (ou crochets angulaires) pour désigner “tout élément de cette classe” ; – les étiquettes catégorielles (DET pour déterminant et N pour nom, cf. figure 9) sont mentionnées en majuscules et entre chevrons pour désigner “tout item de cette catégorie” ; – les lemmes des items dont la graphie est susceptible de varier (cf. figures 7 et 9) sont écrits en minuscules et encadrés de chevrons pour désigner “toute forme graphique de cet item”. Les identificateurs d’occurrences immédiatement suivis de l’item musée sont donc codés sous la forme : [<MOT>-<NB>-<NB>] <musée>, cf. figure 7. T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration 645 Figure 8. Contextualisations du Guide de conversation du routard (anglais) 2005, s.v. musée X à quelle heure ouvre le musée ? what time does the museum open? [ouate taïm doz Ze miouzieum opeun?] X où est le musée d’art contemporain ? where is the museum of contemporary art? [ouèr iz Ze miouzieum ov keuntèmpeureuri ârtt?] [255 Ð Le graphe 32 présenté en figure 9 permet que chaque contexte français 33 dont le patron de construction correspond à l’une des expressions de ce guide ou s’en approche soit repéré 34 et balisé 35, alors que les contextes qui ne sont pas analogues à ce qui est dans le guide restent non marqués et seront analysés de manière indépendante. L’élaboration d’un graphe de recherche comme celui de la figure 9 ne se fait pas aussi mécaniquement pour tous les chemins. [257 Ð Il est relativement aisé de reprendre les phrases des contextualisations (comme cela a été fait dans la partie supérieure du graphe) et de poser (i) que l’argument verbal dont musée est la tête peut être au singulier ou au pluriel, ce qui a ici des incidences sur la flexion du verbe 36 et qui motive l’insertion des deux nœuds contenant respectivement <ouvrir> et <être> (dont la syntaxe est expliquée en note 31) et (ii) que les déterminants qui sont susceptibles d’être choisis dans un paradigme lexical sans induire un changement de sens global intéressant pour notre étude 37 pourraient être remplacés par une disjonction des éléments du paradigme 38 ou, comme ici, sont remplacés par la mention de l’étiquette catégorielle entre chevrons <DET> (cf. note 31). [255 Ð 32 33 34 35 [257 Ð 36 37 38 Un graphe se parcourt du nœud initial (figuré par la flèche initiale située à gauche) jusqu’au nœud final (figuré par un carré inclus dans un cercle et situé à droite) en empruntant l’un des chemins constitués d’arcs et de nœuds. Ce parcours permet d’exprimer différents motifs à rechercher alternativement, ce qui revient à les inclure dans une disjonction. Les trois premiers chemins du graphe présenté figure 9 correspondent aux motifs : (1) à quelle heure <ouvrir> <DET> [<MOT>-<NB>-<NB>] <musée> (2) où <être> <DET> [<MOT>-<NB>-<NB>] <musée> d’art contemporain (3) [<MOT>-<NB>-<NB>] <musée> réunis en une disjonction : ((à quelle heure <ouvrir> <DET> [<MOT>-<NB>-<NB>] <musée>) + (où <être> <DET> [<MOT>-<NB>-<NB>] <musée> d’art contemporain) + ([<MOT>-<NB>-<NB>] <musée>)) Sur chaque chemin du graphe, un nœud permet de repérer l’identificateur d’occurrence suivi de l’item musée (cf. figure 7 et note 31). Dans la syntaxe des motifs de recherche d’Unitex, certains codes sont employés : cf. note 31. Les balises (de type XML) sont des chaînes de caractères entre chevrons (ou crochets angulaires) qui servent de délimitateurs pour un segment de texte. Dans le cas présent, il s’agit de baliser les extraits du corpus dont les patrons de construction sont conformes ou semblables aux contextualisations de référence. Si nous trouvions dans le corpus un contexte similaire à l’une des contextualisations, il serait précédé et suivi de balises : <patron-dans-Routard-sv-musee>à quelle heure ouvre le […] musée</patron-dans-Routard-sv-musee>. Le nom dans la balise fermante est le même que celui qui est dans la balise ouvrante mais il est précédé d’un slash (ou barre oblique). La syntaxe est la même pour ces balises que pour celles qui, en HTML, permettent par exemple de mettre un segment de texte en italique (<i>musée</i>). Le temps verbal peut également varier : À quelle heure ouvriront les musées ? Dans le premier contexte au moins, le pourrait être remplacé par ce. Cf. note 37. La disjonction des éléments du paradigme serait de la forme (<le> + <ce>). 646 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia [256 Ð Figure 9. Graphe de recherche et d’annotation basé sur les données du Guide de conversation du routard (anglais) 2005, s.v. musée [257 Ð Cette dernière solution surgénère, mais ce n’est pas très important puisque le motif de recherche ne vise qu’à extraire les constructions qui sont présentes dans le corpus monolingue, et nous faisons l’hypothèse que les déterminants effectivement présents dans ces contextes auront été grammaticalement bien choisis par les rédacteurs des pages Web. Il est moins évident de fixer des règles de généralisation qui permettent d’établir des motifs de recherche, dont les patrons ressemblent à ceux des constructions mais ont un potentiel de mise en correspondance supérieur, comme les chemins qui sont définis dans la partie inférieure du graphe où deux ensembles de patrons sont plus ou moins directement dérivés des contextualisations. Globalement sont prévus : – une reformulation de la première question, sous forme de phrase interrogative ou affirmative, active ou passive, avec (i) un changement de l’ordre des constituants, [258 Ð (ii) l’insertion facultative d’un ou plusieurs mots de nature indéterminée entre 39 musée et ouvrir (pour {le} musée (d’art contemporain + que nous allons voir + de la vieille ville + Ø) ouvre à quelle heure ? ou au passif {le} musée sera ouvert à quelle heure ?) et (iii) l’optionnalisation ou le remplacement du complément à quelle heure dans une phrase affirmative (comme {le} musée ouvre (à ((10 + dix) heures) + midi + Ø)), le complément pouvant être séparé du verbe par une nouvelle insertion d’un ou plusieurs mots de nature indéterminée ; [258 Ð 39 Le déterminant n’est pas dans le motif de recherche, donc il n’est pas présent dans le segment de texte mis en correspondance avec le motif, mais il améliore la lisibilité des exemples de segments reconnus présentés dans ces parenthèses. T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration 647 – un élargissement du pouvoir de repérage des thèmes de musées dans le cadre de la seconde question puisque (a) ce n’est plus seulement musée d’art contemporain qui est codé mais toutes les expressions construites sur le patron musée (de N)? 40 et (b) ce sont un paradigme de verbes (dont l’item musée est sujet ou objet, anté- ou postposé) et de sous-chaînes de caractères à l’initiale de compléments de lieu (dans + à <PRE>) 41 qui sont codés afin qu’ils soient repérés dans les constructions de phrases affirmatives pouvant correspondre à l’expression (partielle ou complète) de la localisation d’un musée. Entre le nœud initial du graphe et les premiers nœuds de chaque motif de recherche et entre les derniers nœuds de ces chemins et le nœud terminal, des nœuds vides ont été insérés. Comme ils sont vides, ils n’interviennent pas directement dans la mise en correspondance des segments de texte du corpus monolingue avec chaque motif exprimé, mais comme ils sont porteurs de balises déclarées comme étant des transductions 42 40 41 42 Le chemin ne passant pas nécessairement par les nœuds de la préposition et du nom, de N est optionnel. Cf. note 31. Ici, <PRE> doit permettre de repérer les noms propres de villes. Une transduction est une instruction qui remplace une chaîne de caractères répondant à différentes contraintes par une autre. Dans la figure e, la transduction mise en place permet d’assurer la réécriture de ce qui est [259 Ð (d’art africain + d’art amérindien + d’art asiatique + d’art colonial + d’art contemlisté dans le nœud – porain + d’arts décoratifs + d’art moderne + d’art précolombien + d’arts premiers) – par ce qui est mentionné sous le nœud – [de art(s) ADJ] –, si les syntagmes sont trouvés dans le texte exploré. Figure e. Transduction repérant les syntagmes prépositionnels listés et les remplaçant par [de art(s) ADJ] Dans le graphe présenté en figure f, les transductions sont portées par des nœuds vides (triangulaires) placés dans le chemin d’expression du motif de recherche. Si le motif de recherche est mis en correspondance avec des segments de textes, ces segments seront modifiés : les chaînes de caractères placés sous les nœuds vides (ici des balises de type XML) seront insérées dans les segments à la position relative des nœuds vides les portant dans le motif de recherche : musée d’art africain deviendra <musee-de-art-ADJ>musée d’art africain </musee-de-art-ADJ>. Figure f. Transduction repérant musée(s) suivi de l’un des syntagmes prépositionnels listés et insérant les balises de type XML <musee-de-art-ADJ> et </musee-de-art-ADJ> avant et après ces segments 648 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Ð associées à ces nœuds 43, ils permettent d’insérer ces balises et d’annoter chaque contexte correspondant à ces motifs dans la concordance générée 44 (cf. figure 10). [260 Figure 10. Segments de texte reconnus et balisés comme étant semblables à l’une des contextualisations du Guide de conversation du routard (anglais) 2005, s.v. musée ====== {S}Non loin de là se trouvent Radmirje et ses précieux trésors sacraux, et le Château de Gornji grad, son imposante église et son <patron-semblable-Routard-sv-musee> [AHFV-06-01] musée situé dans</patron-semblable-Routard-sv-musee> la tour défensive.{S} canyon Pekel (« l’enfer ») formé d’une suite de cascades et de rapides, Vrhnika et les sources karstiques de la Ljubljanica et l’ancien monastère Bistra, qui <patron-semblableRoutard-sv-musee>abrite dorénavant le [AHFR-08-01] musée de technologie</patronsemblable-Routard-sv-musee> de Slovénie, Zbiljsko jezero (le lac de Zbilje) Un dernier cheminement est enfin autorisé (au centre du graphe de la figure 9) : il n’est constitué que d’un nœud entre le nœud initial et le nœud terminal du graphe, celui permettant de repérer l’occurrence de l’item musée porteuse d’un identificateur d’occurrence. Il n’engendrera pas l’insertion d’un balisage (cf. figure 11). Figure 11. Segment de texte non reconnu comme étant identique ou semblable à l’une des contextualisations du Guide de conversation du routard (anglais) 2005, s.v. musée les prestigieuses collections des primitifs italiens du [ACFG-06-01] musée Fesch d’Ajaccio, la plus riche après celle du Musée du Louvre à Paris. {S} Une fois les recherches effectuées dans le corpus de L1, les concordances générées sont analysées manuellement afin d’en éliminer les contextes inintéressants ou invalides, comme celui de la figure 12 où ouverte est bien une forme du verbe ouvrir postposée [261 Ð et séparée de musée par des <MOT> (trois ici), mais ce sont les fenêtres qui sont ouvertes, pas les musées. Figure 12. Segment de texte reconnu et balisé comme étant semblable à l’une des contextualisations du Guide de conversation du routard (anglais) 2005, s.v. musée mais éliminé lors de l’analyse manuelle des contextes extraits arts plastiques quelques-uns de ses plus grands noms.{S} Nos <patron-dans-Routard-svmusee>[FAFB-06-01] musées sont des fenêtres ouvertes</patron-dans-Routard-sv-musee> sur leur monde singulier.{S} 43 [260 Ð 44 Pour que ces transductions soient prises en compte par Unitex pour insérer les balises, il convient de sélectionner l’option “Merge with input text” au moment où la localisation des segments correspondant aux motifs de recherche du graphe est engagée. Entre le nœud initial du graphe et les premiers nœuds des motifs les plus génériques, la transduction associée au nœud vide correspond à une balise ouvrante <patron-semblable-Routard-sv-musee> (pour indiquer que ce ne sont pas des contextualisations effectivement attestées ni les patrons qui en seraient les plus proches, mais des patrons établis à partir de ce qui a été vu s.v. musée dans le Guide de conversation du routard en prévoyant des reformulations ou des formulations incomplètes) et, entre les derniers nœuds de ces chemins et le nœud terminal, la transduction contient la balise fermante correspondante </patron-semblable-Routard-svmusee>. T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration 649 Trois types de contextes peuvent être retenus suite au tri manuel des lignes de concordance : 1) ceux qui ne correspondent à aucun contexte attesté et pour lesquels il est possible de rechercher les contextes alignés afin d’envisager leur adaptation comme contextualisation ; 2) ceux différents des contextualisations mais conformes aux reformulations qui en sont inspirées, s’ils correspondent à des compléments d’information qui pourraient être ajoutés (comme les deux premiers, cités en figure 10, qui pourraient, avec leurs traductions, être des bases de réécriture pour des réponses qui accompagneraient la question Où est le musée ?) ; 3) et ceux déjà attestés (exactement ou sous une forme approchée) dans les ouvrages de référence et pour lesquels nous vérifions si les contextes anglais L2 alignés contiennent les équivalents traductionnels proposés dans les ouvrages 45 ou s’ils en contiennent d’autres dont il faudra évaluer l’idiomaticité et le bénéfice qu’il y aurait à les introduire à leur tour. [262 Ð Dans tous les cas, le retour aux contextes anglais se fait en exploitant l’identificateur de contextualisation présent dans chaque ligne de concordance extraite du corpus monolingue français (ce qui est schématisé en figure 13). Techniquement, des scripts PERL assurent : – le traitement des lignes de concordances nettoyées des contextes invalides pour y repérer les identificateurs d’occurrence et les stocker dans un tableau de hashage 46 comme clés dont les contextes français constituent les valeurs qui leur sont associées ; – la conversion de chaque identificateur d’occurrence en identificateur de contexte aligné ; – la recherche du contexte anglais aligné porteur de l’identificateur reconstruit et son stockage dans un tableau de hashage en lui associant comme clé l’identificateur français ; – la présentation de chaque paire de contextes en lisant simultanément les deux tableaux. [261 Ð 45 [262 Ð 46 Ceci peut en partie être analogiquement rapproché de ce qui est fait par Léon (2006), qui, en se plaçant dans le cadre des recherches de “Mondes lexicaux” (cf. Véronis (2003)), établit des traductions possibles en anglais de termes complexes français à partir des équivalents de chacun de leurs constituants proposés dans des dictionnaires bilingues, puis élimine des possibles les traductions qui n’ont pas été trouvées sur le Web. Les tableaux manipulés par le langage PERL sont constitués de paires clé / valeur. Dans les tableaux simples, les clés sont des indices numériques entiers positifs (l’expression $nom-tableau[1] permet d’accéder à la valeur associée à l’indice 1 ). Dans un tableau de hashage, les clés ne sont pas prédéfinies. Pour le stockage des contextes valides ce sont les indicateurs d’occurrences qui constituent les clés, ce qui permet d’accéder au premier contexte de la figure g par exemple avec l’expression $nom-tableau-hashage{"[AHFV-06-01]"}. Figure g. Tableau de hashage des contextes français retenus (cf. figure 10) CLÉS VALEURS [AHFV-06-01] ====== {S}Non loin de là se trouvent Radmirje et ses précieux trésors sacraux, et le Château de Gornji grad, son imposante église et son <patron-semblable-Routard-sv-musee>[AHFV-06-01] musée situé dans</patron-semblable-Routard-sv-musee> la tour défensive.{S} canyon Pekel (« l’enfer ») formé d’une suite de cascades et de rapides, Vrhnika et les sources karstiques de la Ljubljanica et l’ancien monastère Bistra, qui <patron-semblable-Routard-svmusee>abrite dorénavant le [AHFR-08-01] musée de technologie</patron-semblable-Routard-svmusee> de Slovénie, Zbiljsko jezero (le lac de Zbilje) [AHFR-08-01] 650 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia [263 Ð Figure 13. Algorithme du retour aux contextes de L2 (anglais) pour les contextes de L1 (français) retenus ====== {S}Non loin de là se trouvent Radmirje et ses précieux trésors sacraux, et le Château de Gornji grad, son imposante église et son <patron-semblable-Routardsv-musee>[AHFV-06-01] musée situé dans</patronsemblable-Routard-sv-musee> la tour défensive.{S} REPÉRAGE DE L’IDENTIFICATEUR D’OCCURRENCE DE L1 [AHFV-06-01] GÉNÉRATION DE L’IDENTIFICATEUR POUR LA LANGUE ANGLAISE (L2) [AHEV:06:01] EXTRACTION DU CONTEXTE ANGLAIS (L2) === [AHEV:06:01] === Not far away are Radmirje with its valuable church treasury and Gornji grad with its imposing church and museum exhibitions in the defense tower. In Nazarje, there is an interesting museum of lumbering and forestry in Vrbovec Castle. The center of the Upper Savinja Valley is Mozirje, where Mozirski gaj, an attractive botanical park of flowers and ethnological objects, is located. Rising above the city are Dobrovlje and Menina mountains and the protected region of the Golte plateau with its popular tourist recreation center and ski resort and wide offer of summer activities. From Gora Oljka pilgrimage church, to which trails lead from Smartno ob Paki and Polzela, there are wonderful views of Golte, the Savinja Valley, and the Kamniske-Savinjske Alps. ALIGNEMENT DES DEUX CONTEXTES ET ANALYSE MANUELLE DE L’ÉQUIVALENT TRADUCTIONNEL ====== {S}Non loin de là se trouvent === [AHEV:06:01] === Radmirje et ses précieux trésors sacraux, et Not far away are Radmirje with its valuable church treasury and le Château de Gornji grad, son imposante Gornji grad with its imposing church and museum exhibitions in the église et son <patron-semblable-Routard-sv- defense tower. In Nazarje, there is an interesting museum of musee>[AHFV-06-01] musée dans</patron-semblable-Routard-svmusee> la tour défensive.{S} situé lumbering and forestry in Vrbovec Castle. The center of the Upper Savinja Valley is Mozirje, where Mozirski gaj, an attractive botanical park of flowers and ethnological objects, is located. Rising above the city are Dobrovlje and Menina mountains and the protected region of the Golte plateau with its popular tourist recreation center and ski resort and wide offer of summer activities. From Gora Oljka pilgrimage church, to which trails lead from Smartno ob Paki and Polzela, there are wonderful views of Golte, the Savinja Valley, and the Kamniske-Savinjske Alps. T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration 651 [264 Ð Des manipulations comparables permettent d’obtenir une évaluation automatique de la présence de contextes semblables à ceux des ouvrages de références : si l’exploration du français (L1) vers l’anglais (L2) permet de repérer les contextes français présents à la fois dans les ouvrages et le corpus, une exploration symétrique des contextes anglais qui leur sont alignés (avec un graphe intégrant les équivalents traductionnels anglais des constructions françaises de la figure 9) repérera les contextes anglais présents à la fois dans les ouvrages et le corpus et par déduction les équivalences traductionnelles français / anglais coprésentes. Cette extraction en deux temps serait mieux sécurisée si, en plus de l’identificateur d’occurrence, chaque contexte portait un identificateur de contextualisation ou de patron reconnu, ce nouvel identificateur pouvant être introduit lors du traitement avec Unitex, comme le sont les balises (cf. figure 9). Dans la pratique, le volume de données concernées s’est révélé très faible et n’a pas nécessité de sécuriser la procédure. 5. Conclusion En débutant la constitution de ce corpus bilingue à partir du Web, nous avions défini trois topiques d’évaluation (cf. § 1.) : – cf. (i) : Les étudiants du M2 LTTAC (2005-2006) nous ont montré qu’après leur formation et en recourant ponctuellement aux conseils de leurs enseignants, ils étaient suffisamment autonomes pour constituer et explorer ce corpus. Ils nous ont ainsi prouvé que, techniquement parlant, les lexicographes peuvent se former et mener à bien des travaux de ce type. Il reste à savoir si le produit mérite cet investissement de formation et le temps qui lui a été consacré. – cf. (ii) et (iii) : Du point de vue de l’évaluation de la qualité relative du contenu de ce corpus et celle des automatisations de dépouillements, nos explorations n’ont pas encore été poussées assez loin pour que nous puissions formuler des jugements catégoriques, cependant certaines tendances se dégagent. Les ciblages des dictionnaires ou guides bilingues utilisés comme référence sont [265 Ð clairs : ils s’adressent pour les uns à des professionnels du tourisme ou à de futurs professionnels, pour les autres à des voyageurs qui ne sont pas encadrés dans des circuits organisés mais indépendants dans leurs déplacements et qui ont besoin d’avoir un minimum d’autonomie linguistique. Les sites, eux, n’ont pas de ciblages aussi précis : ils sont prévus pour être consultés par des personnes très différentes dans des circonstances tout aussi variées. Le seul point commun des documents du Web est qu’ils fournissent des informations : descriptions de sites ou du patrimoine local, d’équipements ou d’aménagements touristiques, de coutumes alimentaires ou vestimentaires. Les grands thèmes couverts par les dictionnaires et guides de conversation comme ceux où nous avons observé les traductions et contextualisations de l’item musée – la localisation, les horaires d’ouverture, les appréciations que les visiteurs peuvent formuler – sont également présents dans les sites Web, mais les expressions y sont différentes : 652 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia la localisation d’un musée ne sera pas nécessairement formulée dans une phrase construite comme cela est prévu en figure 9. Certains contextes s’en approchent 47 : Figure 14. Segment de texte non reconnu comme étant semblable à l’une des contextualisations du Guide de conversation du routard (anglais) 2005 s.v. musée mais de construction très proche et de sens similaire Situé sur la Promenade des Arts, le [BIFU-10-01] musée à l’architecture originale a été conçu par D’autres en sont très éloignés. C’est le cas par exemple quand la localisation est introduite dans un titre ou en début de paragraphe, comme localisateur général, ou qu’elle est postposée à la mention du musée, entre parenthèses ou séparée par une virgule. [266 Ð Figure 15. Échantillon de formulations observées en corpus pour la localisation des musées À Montréal, le [EFFU:29:01] musée d’art contemporain Le [ADFG:26:01] musée des Milelli (AJACCIO) Dans son berceau d’oliviers, la maison des Milelli, Le [BFFO:209:01] musée des vignerons (direction Roaix) [BFFS:76:01] musée de la Genèse (dans le bâtiment de l’église). Le [DJFG:18:01] musée Zoologique, 29 boulevard de la Victoire Ces premières observations montrent que le travail d’estimation du recouvrement que nous avons engagé ne peut fournir qu’un indicateur de proximité textuelle. 48 Il serait injuste d’évaluer uniquement ainsi la richesse du corpus et le rendement de sa consultation. Enfin, l’évaluation qualitative d’un corpus bilingue ne mérite pas d’être effectuée si la qualité des textes alignés n’a pas été scrupuleusement évaluée lors des sélections de pages à intégrer au corpus. Dans le cadre de l’expérience que nous avons menée, les compétences linguistiques des personnes impliquées n’ont pas toujours permis de garantir un filtrage efficace, en particulier pour les textes en anglais. Le travail que nous avons engagé en 2005-2006 a permis de constituer à partir du Web un corpus bilingue français / anglais aligné au niveau des paragraphes d’une taille de 645 978 mots (330 009 pour le français et 315 969 pour l’anglais). En le réalisant nous avons validé l’hypothèse de sa faisabilité avec une maîtrise élémentaire des outils de manipulation de textes (commandes du Shell Linux et scripts AWK ou PERL). Nous avons par ailleurs réfléchi à des stratégies d’exploration qui visaient à automatiser autant que possible les recherches afin d’assister au mieux des lexicographes consultants. Ces premiers résultats couronnent une expérience stimulante même s’ils ne répondent pas à toutes nos espérances. [265 Ð 47 [266 Ð 48 L’un aurait même dû être trouvé : Le Moulin de Chalier, à l’entrée du village d’Arpaillargues, moulin à blé puis à huile d’olive, abrite aujourd’hui le [EEFQ-04-01] musée 1900 et le Musée du Train et du Jouet. Cet indicateur nous a incités à réfléchir à une éventuelle réorientation des principes de sélection des pages Web bilingues à intégrer au corpus après que nous ayons observé que l’exploration de sites pédagogiques produisait un meilleur retour à partir des motifs de recherche codant les constructions des dictionnaires et guides. T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration [267 Ð 653 Remerciements Nous tenons à remercier les membres du CRTT qui ont organisé les journées Corpus et dictionnaires de langues de spécialité en septembre 2006, et qui nous offrent aujourd’hui un espace où présenter nos travaux. Merci aux participants des journées du CRTT et du séminaire “Constitution et exploration de corpus” de l’UMR STL qui ont formulé diverses questions ou remarques dont cette rédaction a bénéficié. Merci également à Pierre Corbin qui a collaboré à un certain nombre de nos séances de travail et qui a critiqué une version préliminaire de ce texte. Merci aux relecteurs du CRTT qui ont contribué à en améliorer la qualité finale. Merci enfin aux étudiants du M2 LTTAC promotion 2005-2006. Références Dictionnaires bilingues spécialisés et guides utilisés comme ouvrages de référence [269 Ð Americain. Guide de conversation et lexique pour le voyage, Princeton, Berlitz Publishing Company, 1999. Anglais. Guide de conversation et lexique pour le voyage, Singapore, Berlitz Publishing Company / Apa Publications GmbH & Co. Verlag KG, 2003. Anglais. Guide de conversation pour le voyage, Lausanne, JPMGuides, 2005. French. Phrase book & dictionary, Singapore, Berlitz Publishing / Apa Publications GmbH & Co. Verlag KG, 2003. Guide de conversation. Anglais, Paris, Lonely Planet, 2006. Guide de conversation du routard (anglais) = Le guide de conversation du routard. Anglais, Hachette, en collaboration avec Larousse, 2005. [270 Ð HOURCADE B. (1995), Dictionnaire de l’anglais des métiers du tourisme anglais-français français-anglais, vol. 4087, coll. Langues pour tous, Paris, Pocket. L’anglais britannique de poche, Chennevières-sur-Marne, Assimil évasion, 2004. L’anglais de poche pour globe-trotters, Chennevières-sur-Marne, Assimil évasion, 2005. L’anglais easy. L’essentiel pour voyager, Paris, Larousse, 2003. L’anglais pour mieux voyager en Amérique, Montréal, Guides de voyage Ulysse, 2002. L’anglais pour mieux voyager en Grande-Bretagne, Montréal, Guides de voyage Ulysse, 2003. Le Grand Robert Collins électronique, version 1.0, Paris, Dictionnaires Le Robert / VUEF, 2003. MUKERJEE A. (2005), Je parle anglais, Paris, Marabout Flash. Parler l’anglais en voyage, Edinburgh, Harraps, 2006. Petite conversation en anglais. Les mots essentiels pour voyager, Paris, Lonely Planet, 2006. 654 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Autres références [267 Ð BARONI M. & BERNARDINI S. (2004), « BootCaT: bootstrapping corpora and terms from the Web », in Proceedings of the 4 th International Conference on Language Resources and Evaluation (LREC 2004), Lisbon, Portugal, 24-30 May 2004, pp. 1313-1316. CMEJREK M. & CURIN J. (2001), « Automatic extraction of terminological translation lexicon from Czech-English parallel texts », International Journal of Corpus Linguistics 6, special issue, pp. 1-12. DELBECQUE T. & ZWEIGENBAUM P. (2006), « Exploitation de corpus médicaux extraits d’internet : une expérience », communication à la journée d’étude de l’ATALA « Le Web comme ressource pour le TAL », Paris, École Nationale Supérieure des Télécommunications, mars 2006, http://www.sodad.com/publications/atala06.pdf. DÉLÉGER L. & ZWEIGENBAUM P. (2006), « Constitution et exploitation d’un corpus parallèle issu du web pour l’extension d’une terminologie multilingue », communication à la journée d’étude de l’ATALA « Le Web comme ressource pour le TAL », Paris, École Nationale Supérieure des Télécommunications, mars 2006. [268 Ð GASIGLIA N. (2004), « Faire coopérer deux concordanciers-analyseurs pour optimiser les extractions en corpus », Revue française de linguistique appliquée IX.1, pp. 45-62. GREFENSTETTE G. (2002), « The WWW as a resource for lexicography », in M.-H. Corréard ed., Lexicography and Natural Language Processing. A festschrift in honour of B.T.S. Atkins, EURALEX, pp. 199-215. GRUNDY V. (1996), « L’utilisation d’un corpus dans la rédaction d’un dictionnaire bilingue, in H. Béjoint & P. Thoiron éds, Les dictionnaires bilingues, coll. Champs linguistiques, Aupelf-Uref / Louvain-la-Neuve, Duculot, pp. 127-149. KRAIF O. (2003), « From translational data to contrastive knowledge: using bi-text for bilingual lexicons extraction », International Journal of Corpus Linguistics 8.1, pp. 1-29. KRAIF O. (2008), « Extraction automatique de lexique bilingue : application pour la recherche d’exemples en lexicographie », in F. Maniez, P. Dury, N. Arlin & C. Rougemont dir., Corpus et dictionnaires de langues de spécialité, Grenoble, Presses Universitaires de Grenoble, pp. 69-86.] LÉON S. (2006), « Acquisition automatique de traductions de termes complexes par comparaison de “mondes lexicaux” sur le Web », in RÉCITAL 2006, Leuven, 10-13 avril 2006, pp. 700-709. PAULUSSEN H. (1999), A Corpus-based Contrastive Analysis of English “on”/“up”, Dutch “op” and French “sur” within a Cognitive Framework, PhD, University of Gent. PAULUSSEN H. (2001), « Character encoding standards: a matter of content and form », in R. Temmerman & M. Lutjeharms eds, Proceedings of the International Colloquium: Trends in Special Language & Language Technology, Brussel, 29-30 March 2001, Antwerpen, Standaard Editions, pp. 105-117. [269 Ð RESNIK P. (1999), « Mining the Web for bilingual text », in 37 th Annual Meeting of the Association for Computational Linguistics. Proceedings of the Conference. 20-26 June 1999, University of Maryland, College Park, Maryland, USA, The Association for Computational Linguistics, pp. 527-534 ; en ligne : http://umiacs.umd.edu/~resnik/pubs/acl99.ps.gz. RESNIK P. & SMITH N.A. (2003), « The Web as a parallel corpus », Computational Linguistics 29.3, pp. 349-380 ; en ligne : http://acl.ldc.upenn.edu/J/J03/J03-3002.pdf. T10 – De la création d’un corpus bilingue du tourisme à partir du Web à son exploration 655 VÉRONIS J. ed. (2000), Parallel Text Processing: Alignment and use of translation corpora, Dordrecht / Boston / London, Kluwer Academic Publishers. VÉRONIS J. (2003), « Hyperlex : cartographie lexicale pour la recherche d’informations », in Actes de la Conférence Traitement Automatique des Langues (TALN’2003), pp. 265-274. VÉRONIS J. (2005), « La linguistique de l’infiniment petit », communication aux quatrièmes Journées de la linguistique de corpus, Lorient, 15-17 septembre 2005, non publié.