Une Base de Données sur le Lexique du Français Contemporain

Transcription

Une Base de Données sur le Lexique du Français Contemporain
OMNILEX : Une Base de Données sur le Lexique du Français Contemporain
Alain Desrochers
Résumé : OMNILEX est une base de données lexicales conçue pour la recherche en
psycholinguistique. Cette base de données assure présentement deux fonctions
principales : a) la sélection de stimuli expérimentaux par l’application simultanée de
filtres et b) l’analyse quantitative des propriétés du lexique du français. Nous faisons un
retour sur le concept de base de données lexicale et ses applications en recherche. Puis,
nous décrivons le contenu et l’interface graphique du premier prototype d’OMNILEX
accessible par l’Internet : www.omnilex.uottawa.ca. Enfin, nous discutons quelques
pistes d’expansion de cette base de données.
Mots-clés : Psycholinguistique, base de données lexicales, sélection des stimuli
expérimentaux, lexique du français, propriétés lexicales
Keywords: Psycholinguistics, Lexical database, Selection of experimental stimuli, French
lexicon, Lexical properties
1. Introduction
Le but de cet article est de présenter les principales caractéristiques
d’OMNILEX, une base de données sur le lexique du français contemporain. Nous
faisons d’abord un retour sur le concept de base de données lexicales et nous en
présentons quelques applications. Nous décrivons ensuite le contenu actuel
d’OMNILEX en mettant, tour à tour, l’accent sur ses entrées lexicales
constitutives, leur classement et leur mode de saisie. Puis, nous résumons les
caractéristiques de l’interface d’interrogation de la base de données. Enfin, nous
évoquons quelques pistes que nous nous proposons de poursuivre dans
l’expansion de ce projet.
2. Le Concept de Base de Données Lexicales
Une base de données lexicales fournit une description structurée des entrées
lexicales d’une langue. Le niveau d’abstraction de ces entrées peut varier selon les
objectifs poursuivis par les concepteurs de la base de données. Le choix le plus
typique consiste à utiliser le lexème comme forme de citation orthographique
principale. On peut définir le lexème comme la forme de citation non fléchie d’un
mot. Chaque forme de citation peut alors être associée à des variantes de forme
(par énumération ou par l’indication d’une classe flexionnelle) ou à des variantes
d’unités forme-sens. Comme le soulignent Sáenz et Vaquero (2005), la
CLO/OPL
Janvier/January 2006, Vol. 34: 25-34
Alain Desrochers
conception des bases de données lexicales évoluent progressivement vers une
standardisation, mais aucun code strict ne guide présentement les pratiques
courantes.
Il reste que les bases de données sont ordinairement organisées en tables. Une
table est un fichier constitué d’enregistrements (des ensembles d’informations
organisés en rangées) et de champs (des catégories de données organisées en
colonnes). Les unités lexicales qui servent de point d’ancrage dans une table
peuvent également être projetées dans d’autres tables, elles-mêmes constituées
d’enregistrements et de champs. Pour illustrer, considérons l’exemple du lexème
« bout » dans une Table 1. et sa projection dans une Table 2. qui distingue ses
différents sens.
Table 1.
Table 2.
Catégorie
Grammaticale
Genre
Bout
Nom
masc
Boutade
Nom
fém
Limite d’un espace
bout-dehors
Nom
masc
Fin d’une durée
boute-en-train
Nom
masc
Boutefas
Nom
masc
Boutefeu
Nom
masc
Graphie
SENS
→
Partie terminale d’un
objet
Partie de quelque
chose
Ce qui est petit,
incomplet
Cordage
Nous évoquions, plus haut, l’idée qu’une base de données lexicales est
constituée d’enregistrements qui décrivent les entrées lexicales d’une langue.
Rappelons que cette description peut porter autant sur les formes que sur les sens
des citations. Les modalités descriptives ne sont limitées que par des
considérations conceptuelles ou technologiques. Un enregistrement dans une table
peut très bien
réunir des informations catégorielles (p.ex., la catégorie
grammaticale ou sémantique), quantitatives (p.ex., le nombre de phonèmes, la
fréquence d’occurrence), relationnelles (p.ex., sur les synonymes ou les
26
OMNILEX
homographes), figuratives (p.ex., un dessin d’objet ou une photographie) ou
auditives (p.ex., la prononciation du mot). Le contenu d’une base de données
lexicales est généralement dicté par les applications auxquelles on la destine.
3. L’utilité d’une Base de Données Lexicales
L’application la plus courante d’une base de données lexicales pour la recherche
en psycholinguistique est la sélection des stimuli expérimentaux. Les logiciels de
gestion de base de données (p.ex., Microsoft Access) permettent aux utilisateurs
d’élaborer une requête en activant des filtres de sélection. Ces filtres servent à
spécifier les critères d’inclusion ou d’exclusion sur des variables particulières. Par
exemple, on pourra appliquer ces critères à la forme orthographique ou
phonologique des mots recherchés, à leur catégorie grammaticale ou à leur
fréquence d’occurrence, etc., selon les besoins de la recherche. Le lancement
d’une requête résulte typiquement en une liste sélective d’entrées lexicales et de
ses caractéristiques. La base OMNILEX a d’abord été conçue pour faciliter cette
application, mais il ne s’agit pas d’une caractéristique distinctive. D’autres bases
lexicales peuvent également être utilisées aux mêmes fins : BRULEX (Content,
Mousty, & Radeau, 1990), NOVLEX (Lambert & Chesnet, 2001), LEXIQUE
(New, Pallier, Ferrand, & Matos, 2001), VOCOLEX (Dufour, Peereman, Pallier,
& Radeau, 2002) et MANULEX (Lété, Sprenger-Charolles, & Colé, 2004). Ce
qui distingue OMNILEX des autres bases, c’est son interface graphique
explicitement axée sur la sélection des stimuli expérimentaux, l’étendue de ses
entrées lexicales et de ses champs de données constitutifs ainsi que ses données
normatives établies auprès d’échantillons de répondants canadiens d’expression
française.
Une deuxième fonction d’une base de données lexicales est de permettre
l’analyse de la structure interne des mots et celle des relations entre les mots. Une
base de plus de plusieurs milliers de mots fournit un matériel idéal pour extraire
les patrons de régularité dans la structure des mots (p.ex., les patrons syllabiques
ou morphologiques, les procédés de formation lexicale). Par ailleurs, plusieurs
variables relationnelles ne peuvent être calculées que si on dispose d’un
27
Alain Desrochers
échantillon de mots considérable. C’est le cas, par exemple, de l’indice N de
voisinage orthographique proposé par Coltheart, Davelaar, Jonasson et Besner
(1977). Les voisins orthographiques d’un mot comprennent ceux de même
longueur qui se différencient de lui par une seule lettre (p.ex., noir – soir – voir;
pour un traitement détaillé, voir Mathey, 2001). Le recours à une riche base de
données lexicales est essentiel pour l’établissement des indices de similitude de
formes (p.ex., les voisins orthographiques ou phonologiques, les homographes) ou
de sens (p.ex., les synonymes).
Si on adjoint à une base de données lexicales des définitions, on peut alors lui
faire jouer un rôle central dans l’apprentissage des langues assisté par ordinateur.
Selva, Verlinde et Binon (2003), par exemple, ont élaboré le Dictionnaire
d’Apprentissage du Français Langue Étrangère ou Seconde (DAFLES) qu’ils ont
ensuite exploité pour générer des exercices lexicaux en contexte et pour fournit
aux apprenants du français une rétroaction sur la justesse de leurs réponses. Si, au
lieu d’adjoindre une définition aux entrées lexicales, on différencie leurs
composantes sémantiques, la base de données lexicales peut alors constituer
l’ensemble des noeuds terminaux d’un réseau sémantique interrogeable. Dutoit et
ses collaborateurs (Dutoit & Nugues, 2002; Dutoit, Nugues, & Torcy, 2003) ont
élaboré une base de données, appelée le Dictionnaire Intégral, dont les entrées
lexicales sont organisées en graphes hiérarchiques de concepts. Les arcs entre les
concepts permettent de spécifier divers types de relations sémantiques entre les
mots (p.ex., la synonymie, l’hypernymie, l’hyponymie). Cette application permet,
notamment, aux utilisateurs de soumettre une définition et de recevoir en
rétroaction les termes qui lui correspondent le mieux dans le lexique (p.ex., une
personne qui vend des fleurs Æ fleuriste, floriculteur, bouquetière, maraîcher).
Dans toutes ces applications, la base de données lexicales fournit les matériaux de
base pour établir des relations entre des unités de forme ou de sens.
28
OMNILEX
4. Le Contenu d’OMNILEX 1
Le contenu du premier prototype d’OMNILEX peut être décrit de diverses
manières. Si on axe cette description sur la répartition des entrées lexicales par
catégorie grammaticale, nous obtenons une première vue sur sa composition.
Catégorie grammaticale
Nombre d’entrées lexicales
Nom
48,570
Adjectif
27,289
Verbe
13,845
Adverbe
1,878
TOTAL
96,031
Il est également possible de décrire le contenu d’OMNILEX en mettant
l’accent sur la fonction des classes de données inscrites dans les enregistrements.
Par exemple, les données de base (p.ex., l’orthographe, la transcription
phonétique, la catégorie grammaticale) servent principalement à différencier les
unités lexicales les unes des autres. Les données structurelles visent à caractériser
soit la structure interne des mots (p.ex., la structure phonologique or
morphologique) et les rapports de forme entre les mots (p.ex., la similitude
orthographique ou phonologique). Les données distributionnelles se rapportent
aux caractéristiques statistiques des unités langagières dans la langue (p.ex., la
fréquence d’occurrence des mots). Enfin, les données sémantiques visent à
caractériser la valeur de symbole des formes lexicales (p.ex., la catégorie
sémantique, la typicité catégorielle, la valeur d’imagerie).
Le schème de classement optimal des entrées d’une base de données dépend
du cadre théorique qui en guide la conception ou de la fonction à laquelle elle est
destinée. Peu importe le cadre théorique auquel on se rattache ou la fonction que
l’on cherche à assurer, les modalités de saisie des données pertinentes seront
nécessairement variables. Au stade initial de l’élaboration d’une base de données,
certaines données devront être saisies manuellement (p.ex., l’orthographe, la
catégorie grammaticale). Il en ira de même pour les informations qui n’existent
dans aucune autre base de données similaires (p.ex., la fréquence subjective, l’âge
d’acquisition, la valeur d’imagerie, l’indice de typicité). Une fois la saisie des
29
Alain Desrochers
données primitives complétée, il devient alors possible d’élaborer des algorithmes
pour produire de nouvelles données et ainsi enrichir la base. Par exemple, si on
prend la forme orthographique ou phonologique comme input, il est possible de
calculer des indices de longueur (p.ex., en lettres, en phonèmes, en syllabes) ou de
similitude (p.ex., le voisinage, le point d’unicité). Les analyses de corpus peuvent
également contribuer à enrichir une base de données en fournissant des
indicateurs supplémentaires (p.ex., la distance sémantique ou les co-occurrences
entre les mots). Dans l’élaboration d’OMNILEX 1, nous avons réuni des
informations provenant de toutes les classes et en exploitant toutes les modalités
de saisie (sauf l’analyse de corpus) citées plus haut.
La présente version d’OMNILEX comprend les champs de données suivants :
•
•
•
•
•
•
•
•
•
•
•
•
L’orthographe de l’entrée lexicale
Sa transcription phonétique d’après les dictionnaires usuels
Sa catégorie grammaticale
Son genre grammatical, s’il y a lieu
Son nombre grammatical
Sa longueur en lettres
Sa longueur en phonèmes
Sa fréquence d’occurrence dans la langue écrite dans la 2e moitié du 20e
siècle d’après le Dictionnaire des fréquences du Trésor de la langue
française (Imbs, 1971)
Sa fréquence subjective sur une échelle de Likert en 7 points d’après les
données normatives de Desrochers et Bergeron (2000)
Sa valeur d’imagerie sur une échelle de Likert en 7 points d’après les
données normatives de Desrochers et Bergeron (2000)
Le nombre de ses voisins orthographiques
Le nombre de ses voisins phonologiques
Examinons maintenant comment l’interface graphique d’OMNILEX permet
d’exploiter ces informations et de construire des listes.
5. L’ interface Graphique d’OMNILEX 1
L’interface graphique d’OMNILEX 1 a été largement influencée par celle que
Coltheart (1981) a conçu pour la MRC Psycholinguistic Database. Elle fournit
aux utilisateurs un ensemble de fonctions simples et centrées sur la sélection des
entrées lexicales. L’organisation de cette interface conduit l’utilisateur à répondre
30
OMNILEX
à quatre questions : a) quels champs de données désirez-vous retenir dans votre
liste de mots? b) quels filtres désirez-vous activer dans votre recherche? c) sur
quelles variables désirez-vous trier les mots dans votre liste? et d) dans quel ordre
désirez-vous appliquer vos clés de tri? Une fois que l’utilisateur a fixé ses choix,
il peut lancer sa requête par un simple clic et le résultat apparaît à l’écran. Il a
alors l’option d’imprimer la liste de mots qu’il a obtenue ou de la sauvegarder
dans un fichier (p.ex., Microsoft Excel ou Word).
Ce premier prototype d’OMNILEX est accessible sur l’Internet à l’adresse
suivante : www.omnilex.uottawa.ca. S’il est facile de retracer les étapes qui ont
conduit à l’état actuel de la base de données, il est plus difficile de prédire
jusqu’où nous la mènerons.
6. L’Expansion d’OMNILEX
Dans l’immédiat, nous nous proposons de poursuivre le travail déjà amorcé et
d’enrichir OMNILEX sur le plan du contenu et de la versatilité pour la sélection
des stimuli expérimentaux à des fins de recherche. La prochaine étape vise à
élargir la collection des variables lexicales en y ajoutant des données sur la
structure syllabique et morphologique, à augmenter à plus de 6,000 le nombre de
mots pour lesquels des données normatives sur la fréquence subjective et la valeur
d’imagerie sont disponibles et à ajouter la représentation graphique des mots
présentement en cours de rectification orthographique.
A plus long terme, nous explorons la possibilité d’enrichir la base de données
de quatre façons. Premièrement, nous souhaiterions lui ajouter des données sur la
fréquence d’occurrence à l’écrit et à l’oral, de préférence basées sur des corpus
d’origine canadienne française, en prenant en compte les considérations
méthodologiques évoquées par Lété et al. (2004) et Zeno, Ivens, Millard et
Duvvuri (1995). Deuxièmement, nous nous proposons d’étayer la caractérisation
sémantique des entrées lexicales de la base. Troisièmement, il nous serait utile de
doter OMNILEX de divers outils de traitement automatique du langage tels un
transcripteur phonétique et un syllabeur. Enfin, à l’instar des concepteurs du
English Lexicon Project, David Balota et ses collaborateurs, nous pourrions
31
Alain Desrochers
ajouter à OMNILEX des données sur la justesse et la latence du traitement lexical
en situation de décision lexicale et de lecture orale. Ces ajouts auraient pour
conséquence d’augmenter l’utilité de la base de données pour la sélection des
stimuli
expérimentaux
à
des
fins
de
recherche
et
de
modélisation
computationnelle.
7. Conclusion
Le projet OMNILEX est né d’une nécessité pratique, celle d’élaborer un outil
efficace et versatile pour sélectionner des stimuli expérimentaux conformes à des
critères stricts. Au fil du temps, cette base s’est enrichie de plusieurs milliers
d’entrées lexicales, que nous avons cherché à décrire de manière de plus en plus
détaillée faisant ressortir les caractéristiques qui leur sont spécifiques et celles
qu’elles partagent avec d’autres entrées. Plusieurs facteurs pourront jouer un rôle
déterminant dans l’évolution de ce projet tels les besoins de la recherche en
psycholinguistique, les applications parallèles et les innovations technologiques.
8. Remerciements
Ce projet a été rendu possible grâce aux subsides de recherche reçus du
Programme Éduc-Action du Ministère de l’éducation de l’Ontario, du Conseil de
recherche en sciences humaines du Canada, du Conseil de recherche en sciences
naturelles et en génie du Canada et de la Faculté des sciences sociales de
l’Université d’Ottawa. Notre reconnaissance va également à Hubert Séguin et à
Marie-Hélène Côté pour leurs conseils sur des questions linguistiques, à Alain
Côté pour sa contribution à la programmation de l’interface graphique et aux
membres du Laboratoire de psychologie cognitive de l’Université d’Ottawa qui,
collectivement et au fil des ans, ont conduit OMNILEX à son état d’achèvement
actuel.
32
OMNILEX
Bibliographie
Coltheart, Max. (1981) The MRC Psycholinguistic Database. Quarterly Journal
of Experimental Psychology 33A: 497-505.
Coltheart, Max, Eileen Davelaar, Jon Torfi Jonasson and Derek Besner (1977)
Access to the internal lexicon. In Stan Dornic (Ed.), Attention and
performance VI : 535-555. Hillsdale, NJ: Erlbaum.
Content, Alain, Philippe Mousty and Monique Radeau (1990) BRULEX: une
base de données lexicales informatisées pour le français écrit et parlé. L’Année
Psychologique 90 : 551-566.
Desrochers, Alain and Mylène Bergeron (2000) Valeurs de fréquence subjectiveet
d’imagerie pour un échantillon de 1,016 substantifs de la langue française.
Revue canadienne de psychologie expérimentale 54 : 274-325.
Dufour, Sophie, Ronard Peereman, Christophe Pallier and
Monique Radeau
(2002) VOCOLEX: une base de données lexicales sur les similarities
phonologiques entre les mots français. L’année Psychologique 102:725-746.
Dutoit, Dominique and Pierre Nugues (2002) A lexical database and an
algorithm to find words from definitions. Actes de European Conference on
Artificial Intelligence : 450-454. Lyon, France.
Dutoit, Dominique, Pierre Nugues and Patrick de Torcy (2003) The Integral
Dictionary : A lexical network based on computational semantics.
Communication présentée à l’International Conference on Computational
Science and its Applications, Calgary, Canada.
Imbs, Paul (1971) Études statistiques sur le vocabulaire français - Dictionnaire
des fréquences I: Table alphabétique. Paris: Didier.
Lambert, Eric and David Chesnet, (2001) Novlex : une base de données lexicales
pour les élèves de primaire. L’Année Psychologique 101 : 277-288.
Lété, Bernard, Liliane Sprenger-Charolles and Pascale Colé (2004) MANULEX :
A grade-level lexical database from French elementary school readers.
Behavioral Research Methods, Instruments, and Comptuters 36 :156-166.
33
Alain Desrochers
Mathey, Stéphanie (2001) L’influence du voisinage orthographique lors de la
reconnaissance des mots écrits. Revue canadienne de psychologie
expérimentale 55 : 1-23.
New, Boris, Christophe Pallier, Ludovic Ferrand and Rafael Matos (2001) Une
base de données lexicales du français contemporain sur internet : LEXIQUE.
L’Année Psychologique 101: 447-462.
Sáenz, Fernando and Antonio Vaquero (2005) Knowledge representation issues
and implementation of lexical data bases. In Jesus Cardeñosa, Alexander
Gelbukh, & Edmundo Tovar (Eds.), Universal network language: Advance in
theory and application. Research on Computer Science 12: 430-442.
Selva, Thierry, Serge Verlinde and Jean Binon (2003) Vers une deuxième
génération de dictionnaires électroniques. In Michael Zock & John Carroll
(Eds.), Les dictionnaires électroniques. Traitement automatique des langues
44.2 :177-197.
Zeno, Susan M., Stephen H. Ivens, Robert T. Millard, and Raj Duvvuri (1995)
The educator’s word frequency guide. Brewster, NY : Touchstone Applied
Science Associates.
34