Les dictionnaires électroniques - Traitement Automatique des

Transcription

Les dictionnaires électroniques - Traitement Automatique des
Les dictionnaires électroniques
Michael Zock* — John Carroll**
* LIMSI-CNRS
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
** University of Sussex, Brighton
Les dictionnaires sont un composant fondamental de tout système de traitement de
la langue qu’il s’agisse d’un être humain ou d’une machine1. Comme ce type de
connaissance, pourtant capitale, n’est pas inné, il est normal que l’on s’intéresse à son
acquisition (dans le cas d’un être humain), à sa construction (dans le cas du traitement
par la machine), et à son utilisation (dans les deux cas). La qualité d’un dictionnaire se
mesure essentiellement par les informations qu’il contient et les moyens qu’il offre
pour y accéder. Or, les stratégies d’accès dépendront à la fois des connaissances
disponibles lors de la consultation et de la tâche qui motive cette consultation. En
analyse, on part des mots pour chercher le sens, tandis qu’en synthèse, on part des
concepts pour trouver les mots les exprimant. Cette variété de besoins et de
connaissances disponibles lors de la consultation a donné lieu à des dictionnaires de
natures assez différentes : dictionnaires de langue monolingues, bilingues et
« multicible », dictionnaires de synonymes, thesaurus, encyclopédies, etc.
1. Le terme dictionnaire électronique est ambigu en ce sens qu’il renvoie à la fois au
composant lexical d’un système conçu pour traiter automatiquement la langue (analyseur,
générateur) et à la ressource conçue pour aider l’homme à traiter la langue (production et
lecture assistées). Bien entendu, l’utilisation faite dans chacun des deux cas n’est pas la
même. Si nous avons néanmoins gardé ce terme malgré son ambiguïté, c’est que nous
pensons que les travaux portant sur les dictionnaires électroniques peuvent être utiles pour les
deux types d’utilisateurs. D’ailleurs, le titre original de la journée d’étude de l’ATALA qui a
amorcé ce numéro, « Les dictionnaires électroniques : pour l’être humain, la machine, ou les
deux ? », ne posait pas ce type de problème, mais comme la maison d’édition préférait un titre
plus court, nous avons retenu celui-ci.
TAL. Volume 44 – n° 2/2003, pages 7 à 10
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
8
TAL. Volume 43 – n° 2/2003
Cette politique consistant à créer des dictionnaires différents en fonction des
besoins, limités en taille et en possibilités de consultation2, était compréhensible à
une époque où le papier était le support privilégié pour stocker des informations. En
revanche, elle n’est plus justifiée du tout à notre époque, étant donné que l’on peut
stocker, modifier et accéder rapidement à des quantités gigantesques d’information à
un coût très réduit. La taille du dictionnaire, son hétérogénéité ou plutôt sa richesse3
ne sont donc plus vraiment un problème, pas plus que ne l’est l’accès à l’information
recherchée. Les hyperliens, combinés à la recherche multicritère, offrent de
nombreuses possibilités de navigation. L’informatique nous libère donc de la
camisole papier (accès basé sur l’orthographe parfaite et l’ordre alphabétique4),
mettant l’information recherchée à la portée d’un clic de souris, pour peu qu’il y ait
un lien, encodé dans le dictionnaire ou calculé dynamiquement, entre deux termes.
Si les dictionnaires traditionnels sont passifs et assez limités en termes d’accès, les
dictionnaires électroniques permettent de présenter rapidement, et sous des formes
diverses (ordre alphabétique, thématique, affichage par domaine, fréquence, niveau
de langue, etc.), l’information recherchée. Les possibilités sont donc énormes,
permettant de faire sauter de nombreux verrous connus dans le passé (parcours
monocritère, séquentiel), mais pour réaliser ces possibilités il faut d’abord effectuer
une bonne analyse des besoins (homme, machine), puis, il faut se débarrasser des
réflexes d’hier, réflexes liés aux contraintes des anciens supports. Les articles
présentés dans ce numéro vont dans cette direction. Ils répondent essentiellement à
deux types de problèmes.
Construction de dictionnaire
Dendien et Pierrel discutent les problèmes rencontrés lors de la transformation
d’un grand dictionnaire papier, Le Trésor de la Langue Française, en version
électronique. Par ailleurs, ils en montrent les nombreuses possibilités d’accès.
Polguère explique comment structurer une base de données lexicales, grâce à une
hiérarchie d’étiquettes sémantiques dépendante de la langue. Cette hiérarchie n’est
pas une ontologie conceptuelle à valeur extralinguistique, mais un produit dérivé de
l’activité lexicographique.
2. Pour des raisons d’ordre économique (coût) ou pratique (support papier), les dictionnaires
de langue étaient assez limités en taille, monotâches (généralement conçus pour l’analyse),
monocritères (le seul accès offert était principalement l’ordre alphabétique), et statiques (les
réponses offertes étaient toujours les mêmes).
3. Mélange d’informations associées aux entrées : traduction, informations sémantiques
(définition), encyclopédiques, grammaticales, etc.
4. Or, l’orthographe peut justement être l’objet de la recherche. Quant à l’ordre alphabétique
il est de peu de secours en production, lorsqu’on cherche le mot exprimant une idée. Aussi,
conceptuellement parlant, y a-t-il plus de choses en commun entre amour et haine
(sentiment), qu’entre amour et amovible, même si les deux derniers mots se trouvent plus
proches dans un dictionnaire organisé alphabétiquement.
Présentation
9
Fellbaum et Miller présentent une amélioration à WordNet, les liens
morphosémantiques. Ces liens permettent de dériver des noms à partir de verbes et
inversement. Les auteurs discutent les problèmes que pose le traitement de tels liens
à un système automatique.
Hartrumpf et al. présentent HaGenLex, qui est à la fois un dictionnaire
électronique de l’allemand et un environnement informatique (boîte à outils) aidant
le lexicographe à construire sa base de données lexicales. De plus, le système est
capable d’augmenter semi-automatiquement sa base de données en ajoutant de
nouvelles entrées lexicales.
Arregi et al. présentent deux méthodes, l’une pour transformer automatiquement
la version MRD (Machine Readable) d’un dictionnaire basque en dictionnaire
électronique, l’autre pour faciliter l’accès à l’information recherchée.
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Ma et al. montrent comment on peut créer automatiquement des lexiques de
termes à partir de dictionnaires bilingues, pour rechercher ensuite des informations
dans des documents multilingues.
Mangeot et al. discutent les stratégies utilisées pour construire collectivement
une grande base lexicale multilingue. Une grande partie de l’article est consacrée à
la description de la méthode utilisée pour amorcer la construction de la base lexicale
initiale.
Accès à l’information
Selva et al. se sont intéressés à la question de savoir comment tirer parti de
l’informatique pour aider un apprenant de langue à trouver l’information recherchée.
Ils partent donc des besoins de l’utilisateur.
Bilac et al. proposent un système qui permet de consulter un dictionnaire à partir
de connaissances partielles, voire imparfaites de la langue. Ce problème se pose
notamment pour des langues qu’on ne sait pas lire à cause de leur système d’écriture
(arabe, japonais, russe, etc.).
Wong et Mao s’intéressent également au problème posé par la lecture des entrées
d’un dictionnaire fait pour une langue dont l’écriture n’est pas alphabétique ou
syllabique, le chinois. Ils proposent une interface permettant de consulter le
dictionnaire sans connaissances de l’écriture chinoise.
Remerciements
Nous tenons à remercier l’ATALA qui nous a permis d’organiser une journée
spéciale consacrée aux dictionnaires électroniques, le comité de rédaction de la revue
Traitement automatique des langues, en particulier Pierre Zweigenbaum qui a été
notre interlocuteur privilégié, ainsi que le comité de lecture spécifique de ce numéro.
10
TAL. Volume 43 – n° 2/2003
Membres du comité de lecture spécifique à ce numéro
Christian Boitet (GETA, Grenoble)
Pierrette Bouillon (ISSCO, Genève)
Nicoletta Calzolari (ILC, Pisa)
Laurence Danlos (LATTICE, Paris-7)
Christiane Fellbaum (Princeton University, Princeton)
Charles Fillmore (ICSI, University of California, Berkeley)
Thierry Fontenelle (Microsoft, Natural Language Group, Redmond)
Ulrich Heid (IMS, Universität Stuttgart)
Guy Lapalme (RALI, Université de Montréal)
Fiammetta Namer (LANDISCO, Nancy)
Alain Polguère (OST, Université de Montréal)
Thierry Selva (Katholieke-Universiteit, Leuven)
Gilles Sérasset (GETA, CLIPS, Grenoble)
Cet article des Editions Lavoisier est disponible en acces libre et gratuit sur tal.revuesonline.com
Monique Slodzian (INALCO, Paris)
Patrick Saint-Dizier (IRIT, Toulouse)
Jean Véronis (Université de Provence, Aix en Provence)
Evelyne Viegas (Microsoft, Natural Language Group, Redmond)
Piek Vossen (Irion Technologies, Delft), Leo Wanner (IIS, Universität Stuttgart)
Rémi Zajac (Systran Software, San Diego).