Les dictionnaires électroniques - Traitement Automatique des
Transcription
Les dictionnaires électroniques - Traitement Automatique des
Les dictionnaires électroniques Michael Zock* — John Carroll** * LIMSI-CNRS Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com ** University of Sussex, Brighton Les dictionnaires sont un composant fondamental de tout système de traitement de la langue qu’il s’agisse d’un être humain ou d’une machine1. Comme ce type de connaissance, pourtant capitale, n’est pas inné, il est normal que l’on s’intéresse à son acquisition (dans le cas d’un être humain), à sa construction (dans le cas du traitement par la machine), et à son utilisation (dans les deux cas). La qualité d’un dictionnaire se mesure essentiellement par les informations qu’il contient et les moyens qu’il offre pour y accéder. Or, les stratégies d’accès dépendront à la fois des connaissances disponibles lors de la consultation et de la tâche qui motive cette consultation. En analyse, on part des mots pour chercher le sens, tandis qu’en synthèse, on part des concepts pour trouver les mots les exprimant. Cette variété de besoins et de connaissances disponibles lors de la consultation a donné lieu à des dictionnaires de natures assez différentes : dictionnaires de langue monolingues, bilingues et « multicible », dictionnaires de synonymes, thesaurus, encyclopédies, etc. 1. Le terme dictionnaire électronique est ambigu en ce sens qu’il renvoie à la fois au composant lexical d’un système conçu pour traiter automatiquement la langue (analyseur, générateur) et à la ressource conçue pour aider l’homme à traiter la langue (production et lecture assistées). Bien entendu, l’utilisation faite dans chacun des deux cas n’est pas la même. Si nous avons néanmoins gardé ce terme malgré son ambiguïté, c’est que nous pensons que les travaux portant sur les dictionnaires électroniques peuvent être utiles pour les deux types d’utilisateurs. D’ailleurs, le titre original de la journée d’étude de l’ATALA qui a amorcé ce numéro, « Les dictionnaires électroniques : pour l’être humain, la machine, ou les deux ? », ne posait pas ce type de problème, mais comme la maison d’édition préférait un titre plus court, nous avons retenu celui-ci. TAL. Volume 44 – n° 2/2003, pages 7 à 10 Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com 8 TAL. Volume 43 – n° 2/2003 Cette politique consistant à créer des dictionnaires différents en fonction des besoins, limités en taille et en possibilités de consultation2, était compréhensible à une époque où le papier était le support privilégié pour stocker des informations. En revanche, elle n’est plus justifiée du tout à notre époque, étant donné que l’on peut stocker, modifier et accéder rapidement à des quantités gigantesques d’information à un coût très réduit. La taille du dictionnaire, son hétérogénéité ou plutôt sa richesse3 ne sont donc plus vraiment un problème, pas plus que ne l’est l’accès à l’information recherchée. Les hyperliens, combinés à la recherche multicritère, offrent de nombreuses possibilités de navigation. L’informatique nous libère donc de la camisole papier (accès basé sur l’orthographe parfaite et l’ordre alphabétique4), mettant l’information recherchée à la portée d’un clic de souris, pour peu qu’il y ait un lien, encodé dans le dictionnaire ou calculé dynamiquement, entre deux termes. Si les dictionnaires traditionnels sont passifs et assez limités en termes d’accès, les dictionnaires électroniques permettent de présenter rapidement, et sous des formes diverses (ordre alphabétique, thématique, affichage par domaine, fréquence, niveau de langue, etc.), l’information recherchée. Les possibilités sont donc énormes, permettant de faire sauter de nombreux verrous connus dans le passé (parcours monocritère, séquentiel), mais pour réaliser ces possibilités il faut d’abord effectuer une bonne analyse des besoins (homme, machine), puis, il faut se débarrasser des réflexes d’hier, réflexes liés aux contraintes des anciens supports. Les articles présentés dans ce numéro vont dans cette direction. Ils répondent essentiellement à deux types de problèmes. Construction de dictionnaire Dendien et Pierrel discutent les problèmes rencontrés lors de la transformation d’un grand dictionnaire papier, Le Trésor de la Langue Française, en version électronique. Par ailleurs, ils en montrent les nombreuses possibilités d’accès. Polguère explique comment structurer une base de données lexicales, grâce à une hiérarchie d’étiquettes sémantiques dépendante de la langue. Cette hiérarchie n’est pas une ontologie conceptuelle à valeur extralinguistique, mais un produit dérivé de l’activité lexicographique. 2. Pour des raisons d’ordre économique (coût) ou pratique (support papier), les dictionnaires de langue étaient assez limités en taille, monotâches (généralement conçus pour l’analyse), monocritères (le seul accès offert était principalement l’ordre alphabétique), et statiques (les réponses offertes étaient toujours les mêmes). 3. Mélange d’informations associées aux entrées : traduction, informations sémantiques (définition), encyclopédiques, grammaticales, etc. 4. Or, l’orthographe peut justement être l’objet de la recherche. Quant à l’ordre alphabétique il est de peu de secours en production, lorsqu’on cherche le mot exprimant une idée. Aussi, conceptuellement parlant, y a-t-il plus de choses en commun entre amour et haine (sentiment), qu’entre amour et amovible, même si les deux derniers mots se trouvent plus proches dans un dictionnaire organisé alphabétiquement. Présentation 9 Fellbaum et Miller présentent une amélioration à WordNet, les liens morphosémantiques. Ces liens permettent de dériver des noms à partir de verbes et inversement. Les auteurs discutent les problèmes que pose le traitement de tels liens à un système automatique. Hartrumpf et al. présentent HaGenLex, qui est à la fois un dictionnaire électronique de l’allemand et un environnement informatique (boîte à outils) aidant le lexicographe à construire sa base de données lexicales. De plus, le système est capable d’augmenter semi-automatiquement sa base de données en ajoutant de nouvelles entrées lexicales. Arregi et al. présentent deux méthodes, l’une pour transformer automatiquement la version MRD (Machine Readable) d’un dictionnaire basque en dictionnaire électronique, l’autre pour faciliter l’accès à l’information recherchée. Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com Ma et al. montrent comment on peut créer automatiquement des lexiques de termes à partir de dictionnaires bilingues, pour rechercher ensuite des informations dans des documents multilingues. Mangeot et al. discutent les stratégies utilisées pour construire collectivement une grande base lexicale multilingue. Une grande partie de l’article est consacrée à la description de la méthode utilisée pour amorcer la construction de la base lexicale initiale. Accès à l’information Selva et al. se sont intéressés à la question de savoir comment tirer parti de l’informatique pour aider un apprenant de langue à trouver l’information recherchée. Ils partent donc des besoins de l’utilisateur. Bilac et al. proposent un système qui permet de consulter un dictionnaire à partir de connaissances partielles, voire imparfaites de la langue. Ce problème se pose notamment pour des langues qu’on ne sait pas lire à cause de leur système d’écriture (arabe, japonais, russe, etc.). Wong et Mao s’intéressent également au problème posé par la lecture des entrées d’un dictionnaire fait pour une langue dont l’écriture n’est pas alphabétique ou syllabique, le chinois. Ils proposent une interface permettant de consulter le dictionnaire sans connaissances de l’écriture chinoise. Remerciements Nous tenons à remercier l’ATALA qui nous a permis d’organiser une journée spéciale consacrée aux dictionnaires électroniques, le comité de rédaction de la revue Traitement automatique des langues, en particulier Pierre Zweigenbaum qui a été notre interlocuteur privilégié, ainsi que le comité de lecture spécifique de ce numéro. 10 TAL. Volume 43 – n° 2/2003 Membres du comité de lecture spécifique à ce numéro Christian Boitet (GETA, Grenoble) Pierrette Bouillon (ISSCO, Genève) Nicoletta Calzolari (ILC, Pisa) Laurence Danlos (LATTICE, Paris-7) Christiane Fellbaum (Princeton University, Princeton) Charles Fillmore (ICSI, University of California, Berkeley) Thierry Fontenelle (Microsoft, Natural Language Group, Redmond) Ulrich Heid (IMS, Universität Stuttgart) Guy Lapalme (RALI, Université de Montréal) Fiammetta Namer (LANDISCO, Nancy) Alain Polguère (OST, Université de Montréal) Thierry Selva (Katholieke-Universiteit, Leuven) Gilles Sérasset (GETA, CLIPS, Grenoble) Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com Monique Slodzian (INALCO, Paris) Patrick Saint-Dizier (IRIT, Toulouse) Jean Véronis (Université de Provence, Aix en Provence) Evelyne Viegas (Microsoft, Natural Language Group, Redmond) Piek Vossen (Irion Technologies, Delft), Leo Wanner (IIS, Universität Stuttgart) Rémi Zajac (Systran Software, San Diego).