Nomenclature de dictionnaire et analyse de corpus

Transcription

Nomenclature de dictionnaire et analyse de corpus
Serge VERLINDE
Thierry SELVA
NOMENCLATURE DE DICTIONNAIRE
ET ANALYSE DE CORPUS
Since the Dictionnaire des fréquences, published in 1971 by P. IMBS and based mainly
on literary texts, no real important frequency count of the French vocabulary has been
undertaken.
As we are working on a (electronic) learner’s dictionary for French (DAFLES Dictionnaire d’apprentissage du français langue étrangère ou seconde), we try to use
objective criteria for selecting the words described in our dictionary by an analysis of a 50
million words corpus of newspaper texts. A thorough comparison of our frequency list with
the word list of another French learner’s dictionary (Dictionnaire du français) and with the
list of the Dictionnaire des fréquences reveals unambiguously the strengths and the
weaknesses of our own word list. This comparison also shows the necessity of a corpus
analysis to give empirical evidence to the lexicographer’s personal intuition.
0. La nomenclature d'un dictionnaire est déterminée en fonction de son public-cible. Un
dictionnaire de langue monolingue destiné à des allophones se devra ainsi de ratisser large en
décrivant tout le lexique d'une langue, à l’exception des emplois désuets ou très techniques.
Le Petit Robert (PR), représentant type de cette catégorie de dictionnaires, en arrive ainsi à
une nomenclature de quelque 60 000 mots. Pour un dictionnaire destiné à des apprenants, par
contre, une sélection beaucoup plus poussée doit être effectuée. Il convient en effet de ne
retenir que le lexique auquel ces apprenants seront confrontés (décodage) et dont ils auront
besoin dans les situations de communication standard (encodage). La question qui se pose dès
lors est de savoir comment saisir ce lexique.
Les critères de sélection appliqués dans les nombreux dictionnaires pour apprenants
anglais sont essentiellement basés sur une analyse de corpus, comme par exemple dans le
Collins Cobuild. Il est vrai qu'il existe pour l'anglais de solides corpus, échantillons équilibrés
de langue parlée et de langue écrite actuelles réunissant différents "genres" de textes, avec
entre autres des extraits de textes journalistiques (journaux et magazines), de littérature, de
rapports et de lettres. Il s'agit pour l'essentiel des corpus The Bank of English (BOE, 2000) et
du British National Corpus (BNC, 2000).
La lexicographie française n'a, semble-t-il, pas véritablement suivi les grandes maisons
d'édition anglaises dans l'analyse systématique et automatisée de corpus de textes, même si
toutes les grandes maisons d'éditions françaises utilisent des bases textuelles lors de la
rédaction de leurs dictionnaires, et ceci malgré la voie tracée voici plus de trente ans par le
Trésor de la langue française (TLF). C'est ainsi que le seul véritable dictionnaire
d'apprentissage actuel pour le français, le Dictionnaire du français (DF) identifie ses quelque
22 000 entrées comme "les mots courants de la conversation et de la presse" (DF, 1999 : VII),
en des termes très généraux, sans préciser davantage sur quelle base la sélection de la
nomenclature a été effectuée.
Dans le contexte d'un projet de dictionnaire d'apprentissage électronique du français
pour non-francophones (Dictionnaire d'apprentissage du français langue étrangère ou
seconde - DAFLES) que nous menons au sein de notre groupe de recherche (Grelep - Groupe
de recherche en lexicographie pédagogique), nous avons voulu objectiviser la procédure de
saisie de la nomenclature. Pour ce faire, nous avons constitué un important corpus de textes
(1.) que nous avons analysé sous différents angles (2.). Afin de tester la qualité de notre
nomenclature, nous avons procédé à une comparaison de notre nomenclature avec celle du
DF (3.) et avec la liste de fréquences tirée du corpus du TLF (1971-1994), qui continue à être
avancée par beaucoup comme la liste de référence pour le français (4.).
1. Corpus de textes.
Les seuls grands corpus de textes disponibles pour le français sont des corpus de textes
journalistiques et des corpus littéraires. Parmi les corpus littéraires, on compte la base de
données Frantext, accessible en ligne.1 Des textes littéraires peuvent également être
rassemblés par d'autres moyens, comme par exemple sur le site de la Bibliothèque
Universelle (ABU, 2000) où l'on trouve le texte intégral et téléchargeable de 267 oeuvres
littéraires françaises (situation en juillet 2000), ou sur des sites dédiés à certains auteurs en
particulier (Th. SELVA, 2000 par exemple). Il s'agit là toutefois de corpus essentiellement
"historiques".
Seuls les textes journalistiques peuvent fournir de véritables corpus importants de
langue courante actuelle, essentiellement grâce aux cédéroms d'archivage. C'est en utilisant la
fonctionnalité d'exportation des textes des articles des cédéroms 1998 des journaux Le Monde
(France) et Le Soir (Belgique) que nous avons constitué un corpus de taille moyenne,
comptant un peu plus de 54 millions de mots, soit approximativement 100 000 pages de texte
A4 ou plus de 350 Mo de texte en version électronique. Les composantes française et belge
ont été conservées séparément afin de pouvoir saisir les variantes géographiques.
Le corpus a ensuite été lemmatisé à l'aide du logiciel Cordial 6 (version universitaire).
Lors de la lemmatisation, chaque forme verbale est rattachée à son infinitif, sauf le participe,
qui est reconnu comme lemme indépendant dans un certain nombre de cas, chaque adjectif à
sa forme du masculin singulier et chaque substantif à sa forme au singulier. En ce qui
concerne le paramétrage de reconnaissance des expressions (combinaisons de mots ou
collocations), nous avons opté pour le découpage de ces unités. D’une part, ce choix est
justifié par le fait que les critères d’identification ne sont pas transparents. Ainsi, Cordial
semble isoler les unités lexicales que Benveniste appelle des synapsies (pomme de terre,
chemin de fer - M.-F. MORTUREUX 1997 : 53-54), mais pour des expressions moins figées,
l’identification est moins systématique : une expression comme travail à la chaîne est
reconnue, mais non une expression comme travail au noir. Le paramétrage choisi a pour
conséquence la scission systématique des unités indissociables comme afin de, quant à, etc.
ainsi que des mots composés, qui seront récupérés ultérieurement lors de l’analyse.2
L'application du logiciel à n’importe quel fichier texte donne lieu à la génération d’un
fichier où figurent trois colonnes : le mot du texte original, sa forme canonique (le lemme)
ainsi qu'une identification morphologique de chaque mot sous la forme d'une code
numérique. Un traitement informatique des fichiers de sortie Cordial a permis de restaurer le
texte sous son apparence d'origine, concaténé, avec, toutefois, des lemmes (ou des lemmes
accompagnés du code numérique) au lieu des formes originales. Le corpus lemmatisé compte
1
Pour plus d’informations, on se référera au site INALF (2000), sous la rubrique ‘ressources textuelles’.
L’accès à la base est possible moyennant le paiement d’un forfait annuel de 2 000 FRF hors taxes.
2
On avance généralement un taux d’erreur de 5 % lors de la lemmatisation automatique d’un texte.
51 845 143 lemmes avec 25 727 742 lemmes pour le corpus Le Monde et 26 117 401 lemmes
pour le corpus Le Soir. L’écart entre les 54 millions de mots du corpus original et les quelque
52 millions de lemmes correspond aux fiches documentaires qui accompagnent chaque article
et que nous avons écartées.
Le processus de lemmatisation a donc permis d'enrichir les textes originaux de deux
types d'informations linguistiques supplémentaires : le lemme et l'identification
morphologique de chaque mot. En outre, il a été possible de récupérer, à l'aide de
programmes rédigés en C, des informations extra-linguistiques concernant les rubriques des
journaux, les dates, etc. Ces informations sont déterminantes pour mieux cerner le
vocabulaire typique à un domaine, pour évaluer la dispersion (ir)régulière d'un mot sur une
période, etc., analyses qui cadrent davantage dans des études de lexicométrie.
Une analyse poussée de ces fichiers de textes lemmatisés est possible grâce à des
logiciels d'analyse de textes, dont un certain nombre sont disponibles à des prix
démocratiques, voire même gratuitement sur Internet.3 Ces logiciels offrent un certain
nombre de fonctionnalités qui facilitent le travail du lexicographe, entre autres la possibilité
d'établir des listes de fréquences ou d'effectuer des recherches sur des mots simples, des mots
tronqués ou des combinaisons de mots, avec une série de concordances à la sortie.
2. Analyses de corpus : listes de fréquences
Selon A. JUILLAND (1970 : XVI), il faut faire remonter les premiers comptages
effectués sur des corpus de textes français aux années 20 avec les listes de fréquences de
V.A.C. HENMON (1924) et de G.E. VANDER BEKE (1929). Depuis lors, d’autres
comptages ont été réalisés, mais il faut bien reconnaître qu'ils sont souvent assez peu
performants dans la perspective de l'étude de la langue actuelle. Il y a bien évidemment la
liste de fréquences établie lors de l'élaboration du TLF pour un corpus de textes littéraires de
1789 à 1964 d'un peu plus de 70 millions de mots et de plus de 71 000 lemmes ; données qui
ont été exploitées exhaustivement par É. BRUNET (1981). Les travaux de A. JUILLAND
(1970) et de G. ENGWALL (1984) sont également basés sur des textes littéraires, avec un
nombre d'occurrences beaucoup plus restreint, aux alentours de 500 000 mots. Dans le
domaine littéraire, il y a en outre les listes de fréquences (des mots du texte et non des
lemmes) fournies avec chacune des oeuvres littéraires disponibles sur le site ABU cité
précédemment.
A notre connaissance, la seule liste de fréquences établie à partir de textes
journalistiques disponible à l'heure actuelle, est celle proposée par Jean VÉRONIS sur son
site web (VÉRONIS, 2000). Elle a été réalisée pour les textes du Monde diplomatique 19871997 (11 139 376 d’occurrences) et comporte des formes non lemmatisées.
Pour la langue parlée, la seule liste accessible au grand public est celle de G.
GOUGENHEIM (1967), basée sur quelque 300 000 mots. D'autres projets sont mentionnés çà
et là (T. GREIDANUS, 1990 : 13 ; Cl. BLANCHE-BENVENISTE, 1996 : 27). L'ampleur du
travail de transcription constitue toutefois un frein important au développement de tels corpus
et de leur analyse.
Dans le domaine du français sur objectifs spécifiques, il existe également deux listes
établies pour le français commercial (A.A. LYNE 1985 et W. CLIJSTERS 1990), sur des
corpus plus restreints encore. Dans le Dictionnaire d'apprentissage du français des affaires
(DAFA), nous avons utilisé des comptages effectués sur un corpus de 25 millions de mots de
textes journalistiques et scientifiques pour assigner à chaque mot de la nomenclature
3
On se reportera au site du Grelep (VERLINDE, 2000) pour l’adresse de sites qui font l’inventaire de ces
logiciels.
économique du dictionnaire une indication de fréquence relative en fonction de quatre
tranches de fréquence.
2.1. Liste de fréquences du corpus complet
Pour établir la liste de fréquences de notre corpus de 51 845 143 millions de lemmes, et
par voie de conséquence la nomenclature de notre dictionnaire d'apprentissage, nous avons
écarté en premier lieu tous les mots étiquetés comme nom propre (6,53 % du total des
lemmes). Nous comptons récupérer ces informations à un stade ultérieur de la rédaction du
dictionnaire.
Le corpus original sans les noms propres comprend 48 458 014 lemmes, avec 73 975
lemmes différents pour la partie Le Monde et 102 594 lemmes différents pour la partie Le
Soir. Après avoir fusionné les deux listes, nous avons isolé les lemmes à fréquence supérieure
à 100 et soumis cette liste à un examen minutieux qui nous a amenés à une correction
manuelle d'erreurs de lemmatisation. En effet, comme l'illustre le tableau 1, la liste à l'étude
présentait des lemmatisations déviantes sous la forme d'une série de formes du féminin ou du
pluriel (autres, financière, ancienne, etc.) ainsi que des erreurs de lemmatisation manifestes
(jusqu pour jusque, yeu pour oeil, matche, etc.). Les premiers lemmes ont été rattachés à la
forme canonique et les quelques erreurs de lemmatisation corrigées à la main.
lemme déviant
aujourd
hui
jusqu
autres
parce
afin
quant
financière
auprès
tandis
plupart
yeu
première
ancienne
toute
nombreuse
actuelle
sociale
professionnelle
est-à-dire
cents
principaux
française
locale
dernière
beaux
fréquence
34671
34668
30282
21665
15397
10954
9937
8766
7638
7231
6917
6673
6473
6355
5363
5355
4840
4727
4475
4445
3513
3484
3394
3368
3034
3007
seule
spécialiser
internationale
bureaux
sportive
haute
éventuelle
législative
nationale
traditionnelle
différents
quelqu
matche
présidentielle
blair
sainte
sexuelle
encontre
exceptionnelle
tableaux
éliminé
positive
annuelle
individuelle
définitive
ores
2861
2758
2754
2572
2534
2525
2522
2483
2271
2260
2225
2169
2128
2002
1948
1936
1725
1667
1643
1630
1598
1590
1587
1580
1546
1504
Tableau 1. Lemmatisations déviantes (échantillon - fréquence supérieure à 1 500).
En outre, quelques noms propres qui n’ont pas été reconnus comme tels par Cordial,
comme par exemple Blair, Festina, Jacquet ou Gaulle ont également été écartés de la liste.
Dans les cas où un participe passé coexistait avec un infinitif, nous n'avons retenu le
participe employé comme adjectif que là où l'emploi adjectival était évident. Dans de
nombreux cas toutefois, la décision reste purement subjective. Ce fait ne surprend pas si l'on
compare par exemple les nomenclatures du PR et du DF qui sont en désaccord fréquent quant
au statut que doit recevoir la forme du participe passé. Parmi de nombreux autres exemples
on citera domicilier (PR, uniquement à l’infinitif) et domicilié (DF, uniquement comme
adjectif).
Dans le tableau, on voit également apparaître les unités lexicales composées d’au moins
deux éléments tels que parce que, afin de, quant à, auprès de, à l’encontre de, etc., qui n’ont
pas été reconnues comme telles suite au paramétrage de lemmatisation choisi. Nous avons
reconstitué ces unités lexicales pour les intégrer également à notre liste de lemmes. Le
nombre d'occurrences des particules que, de et à dans ces unités lexicales a été déduit de leur
total.
Le mot aujourd'hui qui, lors de la lemmatisation, avait été scindé, a été reconstitué.
Suite au paramétrage, la lemmatisation de Cordial scinde pratiquement
systématiquement les mots composés avec trait d'union. Pour les récupérer, nous avons utilisé
le corpus non lemmatisé pour en extraire tous les mots composés avec trait d'union. Ceux qui
présentaient une fréquence supérieure à 100 ont été ajoutés sous forme lemmatisée à notre
liste de fréquences. En guise d'illustration, nous avons consigné dans le tableau 2 les mots
composés (non lemmatisés) les plus fréquents (fréquence supérieure à 2 000) que nous avons
extraits du corpus non lemmatisé.
noms composés
non lemmatisés
mots-clés
comptes-rendus
etats-unis
*peut-être
fréquence
totale
38688
24366
17175
10617
a-t-il
*lui-même
*week-end
jean-pierre
*celui-ci
*au-delà
e-u
*celle-ci
est-ce
pays-bas
*après-midi
*rendez-vous
jean-claude
7382
6701
6334
6046
5631
4976
4841
4780
4629
4551
4387
4360
4358
jean-marie
*porte-parole
est-il
grandebretagne
jean-luc
*ceux-ci
jean-louis
dit-il
p-b
*elle-même
*eux-mêmes
jean-paul
faut-il
*vice-président
*demi-finales
*au-dessus
*vis-à-vis
3848
3613
3516
3448
3084
2961
2881
2851
2770
2654
2538
2537
2356
2277
2206
2203
2030
Tableau 2. Mots composés (non lemmatisés) les plus fréquents (échantillon - fréquence
supérieure à 2 000).
Les mots précédés de l'astérisque ont été intégrés, après lemmatisation manuelle, dans
la liste de lemmes à fréquence supérieure à 100 ; les autres étant des formes verbales, des
abréviations ou des noms propres.4 L’intégration de ces mots composés a donné lieu à une
réduction proportionnelle de la fréquence de chacune des composantes dans la liste de
fréquences des lemmes.
Ni les homonymes grammaticaux (bien (nom) et bien (adverbe)), ni les homonymes
sémantiques (voler (dérober) et voler (se mouvoir dans les airs)) n’ont pu être différenciés.
Dans le DAFLES, des indications de fréquence sont établies pour chaque homonyme
séparément. Pour le premier type d’homonymes, nous procédons à un comptage des codes
numériques différents assignés par Cordial à chaque homonyme ; pour le second, nous
effectuons un comptage manuel sur un échantillon du texte.
Suite aux corrections de lemmatisation présentées ci-dessus et à l’exclusion des sigles,
des abréviations et des chiffres romains, la liste originale de 13 247 lemmes supérieurs à la
fréquence 100 a été ramenée à une liste de 12 156 lemmes.
Au premier abord, l'importance de cette liste et donc de la future nomenclature du
DAFLES contraste avec les quelque 22 000 entrées du DF. Elle est toutefois largement
suffisante si l'on tient compte du fait que ces 12 156 lemmes couvrent 93,14 % de tous les
mots de notre corpus d'origine, déduction faite des noms propres. Le tableau suivant illustre
l'évolution de la couverture des textes d'origine en fonction du nombre de lemmes (colonne
rang) et de la fréquence des lemmes (colonne occurrences). L'appartenance d'un mot à l'une
des classes distinguées sera reflétée dans le dictionnaire par l'assignation d'une combinaison
d'astérisques (dans la colonne ‘indication fréquence’) : de cinq (pour les mots les plus
fréquents) à un (pour les mots entre les rangs 3 921 et 12 156).5
classe
indice de
fréquence DAFLES
rang
occurrences
1
2
3
4
5
6
*****
****
***
**
*
<= 427
<= 990
<= 1 926
<= 3 920
<= 12 156
>= 11 183
>= 5 273
>= 2 482
>= 854
>= 100
< 100
% (arrondi) du
texte (sans
noms propres)
couvert
66
75
82
88
93
100
Tableau 3. Répartition des lemmes par tranche de fréquence.
On notera que l'ajout d'une tranche de 10 000 lemmes supplémentaires, faisant passer la
nomenclature de quelque 12 000 à quelque 22 000 lemmes, ne fait augmenter la couverture
des textes que de 1 % approximativement, soit une proportion dérisoire par rapport à
l'importance du stock de mots à prendre en considération.
Les annexes 1, 2 et 3 présentent trois extraits de la liste de fréquences pour l'ensemble
du corpus.
4
On notera que les deux premiers mots de la liste sont surreprésentés puisqu'ils apparaissent systématiquement
dans les fiches documentaires qui accompagnent les textes d'origine. Comme nous l’avons signalé, ces fiches
documentaires ont été écartées de la version lemmatisée du corpus.
5
A titre de comparaison, les deux premières tranches de fréquence du dictionnaire d'apprentissage anglais
Collins Cobuild rendent compte de 75 % des textes du corpus utilisé, mais avec 1 900 mots, soit le double du
français.
Lorsque l'on parcourt la liste complète, on est frappé par le nombre assez important de
termes spécifiques à la langue parlée qu'elle recèle (maman (rang 3502, fréquence 1025),
papa (rang 4091, fréquence 795), job (rang 5658, fréquence 450), sympa (rang 7152,
fréquence 293), bosser (rang 8875, fréquence 192), bouffer (rang 10653, fréquence 132),
gaffe (11170, fréquence 119), etc.) tout comme un nombre assez important de formes
tronquées de mots, dont la présence aussi massive dans un corpus écrit peut surprendre (pro
(rang 2470, fréquence 174), prof (rang 3580, fréquence 986), ado (rang 6024, fréquence 403),
sympa (rang 7152, fréquence 293), manif (rang 7488, fréquence 267), maths (rang 8194,
fréquence 226), accro (rang 9476, fréquence 167), métallo (rang 11283, fréquence 117), etc.).
On y retrouve également des séries de co-hyponymes complètes, tels les jours de la
semaine et les mois de l'année, ainsi que la plupart des termes qui indiquent le degré de
parenté (père (rang 592, fréquence 8882), mère (rang 922, fréquence 5776), parent (rang 795,
fréquence 6795), fils (rang 993, fréquence 5270), fille (rang 674, fréquence 7802), enfant
(rang 148, fréquence 24607), grand-père (rang 4886, fréquence 588), grand-mère (rang 5249,
fréquence 517), grands-parents (rang 7595, fréquence 260), oncle (rang 4455, fréquence
691), tante (rang 6780, fréquence 327), neveu (rang 7357, fréquence 276), nièce (rang 11091,
fréquence 121), mais non les combinaisons avec arrière (-grand-parents, -grand-père et grand-mère).
En ce qui concerne les adjectifs dérivés de noms géographiques, il va de soi que
l'actualité détermine en partie l'absence ou la présence de certains adjectifs (bosniaque (rang
6481, fréquence 353), zimbabwéen (rang 9757, fréquence 158), kosovar (rang 11629,
fréquence 110) entre autres). De même, on note l’influence du pays d'origine du quotidien,
compte tenu de la fréquence élevée des mots brabançon (rang 4003, fréquence 825), brainois
(rang 10143, fréquence 145), borain (rang 6796, fréquence 325), etc. dans le journal Le Soir,
où la rubrique des informations locales occupe une place importante. Au rédacteur du
dictionnaire de décider bien évidemment de la pertinence de ces termes.
2.2. Listes de fréquences des corpus partiels Le Monde/Le Soir
Le fait de disposer de deux corpus provenant de deux communautés linguistiques
différentes offre la possibilité de cerner de façon relativement précise les termes spécifiques à
chacune de ces communautés. Il nous semble que les variantes géographiques les plus
fréquentes ont leur place dans un dictionnaire d'apprentissage, ne serait-ce que comme
révélateurs d'une réalité culturelle sous-jacente.
Pour établir les listes des termes spécifiques aux deux communautés (France : Le
Monde - Belgique : Le Soir) nous avons procédé à une double analyse.
En premier lieu, nous avons extrait des deux corpus les lemmes qui apparaissaient moins de
20 fois dans l'autre corpus. Dans le tableau 4 est consigné le résultat de cette comparaison
pour les lemmes les plus fréquents du corpus Le Monde.
lemme
ballottage
*insee
*cnpf
*mdc
*smic
*rmi
cantonal
fréquence
corpus Le
Monde
1565
781
743
647
497
464
446
*snes
*ena
préfectoral
baccalauréat
*gdf
*secam
*loto
280
261
253
240
239
238
238
*cgc
*cftc
*anpe
*ratp
*unedic
minitel
*rmc
422
412
376
358
320
313
285
*unef
*bts
* cdd
intéressement
*afb
*iut
219
213
208
206
200
200
Tableau 4. Échantillon de lemmes : fréquence >= 200 corpus Le Monde/<= 20 corpus Le
Soir.
Comme on peut le constater, la liste renferme avant tout des sigles ou des abréviations,
précédés de l'astérisque et notés systématiquement en minuscules par Cordial. Quelques mots
désignant des réalités typiquement françaises apparaissent en outre : ballottage, préfectoral,
baccalauréat entre autres. Viennent plus loin dans la liste d'autres mots peu/non utilisés en
Belgique francophone : intersyndicale, bachelier, septennat et gazole entre autres.
Le tableau 5 présente les lemmes plus spécifiquement belges.
lemme
*mn
*psc
liégeois
échevin
*fb
*asbl
*prl
*rtbf
*cpas
namurois
brugeois
*sncb
*fdf
maïeur/mayeur
fréquence
corpus Le Soir
12817
4434
3498
3430
3413
3330
2868
1919
1693
1560
1392
1258
1233
1000
*tec
limbourgeois
*vld
brabançon
*ulb
*ucl
flandrien
montois
hennuyer
néerlandophone
*cgsp
playoffs
députation
996
930
856
825
788
772
730
726
717
705
630
532
529
Tableau 5. Échantillon de lemmes : fréquence >= 500 corpus Le Soir/<= 20 corpus Le
Monde.
Ici aussi, il est relativement simple d'extraire les mots, les sigles et les abréviations
typiquement belges, tels échevin ou maïeur/mayeur. La suite de la liste contient d'autres
particularités propres à la (langue de la) Belgique (francophone) : subsidier, navetteur,
précompte, minimexé, etc.
Les sigles occupent une place importante dans les textes et se doivent d'être mentionnés
dans un dictionnaire d'apprentissage.6
6
Le DF leur réserve une section séparée. Il nous semble toutefois que leur place est à l'intérieur de la
nomenclature et non en fin de volume puisque cela ne facilite aucunement la recherche, d'autant plus que
quelques sigles se retrouvent bel et bien intégrés dans la nomenclature.
Une deuxième analyse porte sur la fréquence relative des termes à fréquence supérieure
à 20 dans les deux corpus. La faible fréquence absolue dans un corpus n'est en effet pas le
seul critère pour identifier un lemme comme caractéristique d'une communauté linguistique ;
la probabilité d'emploi en constitue sans conteste un autre. Comme les journaux relatent les
informations des pays voisins, beaucoup de termes propres aux pays limitrophes se glissent
dans les textes, mais certainement pas dans les mêmes proportions. C'est sur cette
constatation qu'est basée notre deuxième analyse. Dans un premier temps, nous avons ramené
toutes les fréquences absolues des lemmes à leur probabilité d'apparition dans leur corpus
respectif selon la formule suivante :
p = nombre d'occurrences total du lemme/nombre total d'occurrences dans le corpus partiel
Un mot comme français présente ainsi une probabilité d'apparition de p=0,0011 (28 969
occurrences/25 727 742 lemmes) dans le corpus Le Monde et de p=0,0006 dans le corpus Le
Soir. Inversement, belge a une proportion d'apparition de p=0,0009 dans le corpus Le Soir
contre p=0,00007 dans le corpus Le Monde.
Ce calcul, appliqué à la totalité des lemmes à fréquence supérieure à 20, révèle une
proportion d'emploi nettement plus élevée des lemmes suivants dans le corpus Le Monde
(tableau 6). La liste ne reprend que les disparités les plus flagrantes, illustrées par
l'importance du chiffre qui accompagne le lemme. Les sigles et les abréviations sont à
nouveau précédés de l'astérisque.
lemme
*cfdt
*cgt
*rpr
*udf
départemental
*sncf
*edf
*cnrs
*cac
préfet
*pcf
*bnp
lycéen
*fo
lyonnais
interministériel
fréquence relative x fois plus
importante dans le corpus Le
Monde par rapport au corpus Le
Soir
66,5
61,9
51,6
37,5
32,6
29
25,5
24,5
20,8
19,2
18,6
16,6
14
12,9
12,4
11,4
Tableau 6. Mots typiques du corpus Le Monde (échantillon).
Dans la suite de la liste, on relève d'autres mots plus spécifiques au français de France,
tels que cantonal, préfecture, maire, lycée, préretraite, etc.
Les mots nettement plus utilisés dans le corpus Le Soir que dans le corpus Le Monde
sont les suivants (tableau 7).
lemme
wallon
bruxellois
communal
*sp
anversois
tram
subside
duché
infographie
flamand
*mcc
dixit
volley
coach
voirie
ardennais
urbanistique
*pj
germanophone
fréquence relative x fois plus
importante dans le corpus Le Soir
par rapport au corpus Le Monde
126,6
47,1
44,7
43,6
40,5
35,4
34,3
23,2
22,5
22,4
21,6
19,3
17,7
17
15,4
15
14
13,4
12,9
Tableau 7. Mots typiques du corpus Le Soir (échantillon).
Plus loin dans la liste apparaissent des termes comme provincial, intercommunal,
braderie ou régionaliser qui sont également davantage propres au français de Belgique.
Ces quelques exemples montrent comment, en disposant de deux corpus provenant de deux
communautés linguistiques différentes, il est possible, par simple comparaison, d'extraire
d'intéressantes informations quant aux termes et aux sigles propres à chacune de ces
communautés. Ici aussi, le rédacteur du dictionnaire devra décider si ces informations sont
pertinentes par rapport à son public-cible.
Un autre aspect de la vie de la langue qui peut être saisi à partir de cette comparaison de
corpus est l'assimilation de mots anglais. De ce point de vue, la France a toujours adopté une
politique de défense de la langue en proposant avec un succès inégal de nombreuses
alternatives aux termes anglais, principalement dans des domaines comme l'économie ou
l'informatique, voire pour le vocabulaire de la vie quotidienne. Sans avoir ici des données
complètes à fournir, il semble toutefois que les termes anglais sont bien représentés, tant dans
le corpus Le Monde que dans le corpus Le Soir. Dans ce dernier, les mots anglais sont
légèrement plus fréquents, bien que, à quelques rares exceptions près, que nous avons fait
précéder d’un astérisque, la différence de fréquence ne soit pas vraiment pertinente. Le
tableau 8 présente un échantillon de mots anglais relevés dans les deux corpus.
mot anglais
business
*coach
cool
design
efficience
fréquence
corpus Le Monde
446
83
108
305
27
fréquence
corpus Le Soir
471
1424
169
312
23
efficient
fast-food
goal
*goodwill
*hardware
holding
internet
joint(-)venture
leasing
lobbying
marketing
software
*team
trader
Web/web7
14
42
69
2
4
573
4178
84
29
137
847
7
76
48
1057
23
88
108
48
15
505
2272
95
69
114
767
17
590
35
514
Tableau 8. Échantillon de mots anglais relevés dans les corpus.
Une étude plus approfondie du phénomène serait nécessaire. Dans un certain nombre de
cas, le terme français équivalent semble s'être imposé, comme par exemple dans le cas de
logiciel (respectivement 1 392 et 721 occurrences dans les deux corpus, contre 7 et 17 pour
software), alors que pour d'autres mots, le terme anglais semble bien ancré, comme pour Web
ou internet face à toile, qui apparaît moins de 200 fois dans le corpus Le Monde, voire moins
de 20 fois dans le corpus Le Soir, ou encore marketing face à mercatique, qui doit se
contenter de 2 attestations dans l’ensemble du corpus.
3. Comparaison liste de fréquences - nomenclature du DF
3.1. Congruence des listes
Comme nous l'avons fait remarquer ci-dessus, le DF met en évidence le fait que sa
nomenclature couvre la langue journalistique et la langue parlée quotidienne. L'on s'attendrait
dès lors à retrouver l'essentiel des mots de notre nomenclature dans celle de ce dictionnaire
d'apprentissage. Tel n'est pas vraiment le cas puisque 12,1 % des mots de notre liste de
fréquences n'y apparaissent pas. La progression du décalage entre les deux listes est
inversement proportionnelle à la fréquence des mots (tableau 9).
tranche de notre nombre de
liste de
mots
fréquences
absents du
DF
0-500
0
501-1000
2
1001-1500
3
1501-2000
1
2001-2500
10
2501-3000
16
3001-3500
18
7
pourcentage
sur cette
tranche
nombre
cumulé
pourcentage
cumulé
0
0,4
0,6
0,2
2
3,2
3,6
0
2
5
6
16
32
50
0
0,2
0,3
0,3
0,6
1,1
1,4
La graphie avec majuscule, étiquetée comme nom propre lors de la lemmatisation, est la plus courante dans le
corpus.
3501-4000
4001-4500
4501-5000
5001-5500
5501-6000
6001-6500
6501-7000
7001-7500
7501-8000
8001-8500
8501-9000
9001-9500
9501-10000
10001-10500
10501-11000
11001-11500
11501-12000
28
40
45
48
61
58
67
39
87
80
102
120
115
110
129
154
124
5,6
8
9
9,6
12,2
11,6
13,4
7,8
17,4
16
20,4
24
23
22
25,8
30,8
24,8
78
118
163
211
272
330
397
436
523
603
705
825
940
1050
1179
1333
1457
2
2,6
3,3
3,8
4,5
5,1
5,7
5,8
6,5
7,1
7,8
8,7
9,4
10
10,7
11,6
12,1
Tableau 9. Évaluation du décalage entre la liste de fréquences et la nomenclature du DF.
Comme l'illustre le tableau 9, les mots jusqu'au rang 2 000 sont quasiment tous présents
dans la nomenclature du DF. L'écart se creuse toutefois rapidement à partir du rang 3 500
pour atteindre plus de 20 % dans les tranches à fréquence supérieure à 8 500 de notre liste.
Le tableau 10 récapitule par ordre de fréquence décroissante les mots, les sigles et les
abréviations (précédés d’un astérisque) les plus fréquents qui sont absents de la nomenclature
du DF.
lemme
*ex.
*tél.
*pt.
investisseur
budgétaire
entité
concertation
restructuration
infrastructure
forum
info8
privatisation
*pib
amendement
*mm.
*ndlr
rwandais
*pp.
namurois
technologique
8
fréquence
corpus complet
7885
6850
5152
3922
3731
2494
2204
2198
2166
2080
1870
1831
1798
1793
1728
1726
1687
1640
1569
1549
brugeois
bénéficiaire
lyonnais
intercommunal
modalité
*tv
instar (à l’~ de)
mini
*mo
sélectionneur
qualifié
régularisation
correctionnel
gantois
expertise
management
jusque-là
blues
concéder
holding
1392
1381
1374
1373
1345
1338
1293
1272
1271
1267
1262
1189
1177
1147
1126
1116
1102
1091
1081
1078
Le mot est mentionné dans l’article consacré à information, mais il ne fait pas l’objet d’une entrée séparée.
*sicav
coach
infographie
spécialisé
socialdémocrate
yougoslave
1516
1507
1455
1414
1404
1399
internaute
open
supporteur
centrer
*éd.
maïeur/mayeur
1064
1060
1052
1003
1003
1000
Tableau 10. Principaux absents de la nomenclature du DF en termes de fréquence
(fréquence >= 1000).
Les mots en italique du tableau sont représentés dans le DF par au moins un autre
membre de leur famille lexicale. Du point de vue de la compréhension, l'utilisateur trouvera
donc par inférence dans le dictionnaire au moins quelques indications sur le sens du mot
absent. Du point de vue de la production, compte tenu des irrégularités et/ou de la complexité
du système dérivationnel du français, aucune information complémentaire ne peut pallier
l'absence du mot.
Il est possible en outre de cibler davantage les lacunes dans certains domaines. De ce
point de vue, le vocabulaire économique semble sous-représenté dans le DF (tableau 11).
lemme
investisseur
budgétaire
restructuration
privatisation
pib
technologique
sicav
bénéficiaire
management
holding
libéralisation
consultant
coter
business
compétitivité
reconversion
logistique
réorganisation
obligataire
fréquence corpus complet
3922
3731
2198
1831
1798
1549
1516
1381
1116
1078
932
927
920
917
873
813
758
753
752
Tableau 11. Principaux termes économiques absents de la nomenclature du DF.
Compte tenu de l’ensemble de nos observations, on conviendra du fait qu’il faut
nuancer l'affirmation selon laquelle la nomenclature du DF rend compte des mots de la
presse.
Cette constatation est confirmée par l'analyse des entrées du DF qui n'apparaissent pas
dans notre liste de fréquences. En effet, après avoir écarté de la liste des entrées du DF les
formes verbales et nominales irrégulières et les noms propres, il reste un ensemble de mots
dont peu paraissent essentiels dans un contexte de communication écrite ou orale standard. Le
tableau 12 en présente un échantillon tiré du début de la lettre A.
a fortiori
à gogo
à jeun
a.z.t.
abasourdi
abat-jour
abats
abattant
abattis
abêtir
abêtissant
abjurer
ablution
aboiement
abois (aux)
abominablement
abortif
aboutissants
abracadabrant
abrasif
abreuvoir
abricotier
abrutir
abrutissant
abscisse
absenter (s')
abyssin
acadien
acariâtre
accablement
accessoiriste
accotement
accouder (s')
accoudoir
accoutrement
accoutrer
accroupir (s')
accumulateur
accus
achalandé
Tableau 12. Mots de la nomenclature du DF à fréquence inférieure à 100 dans le corpus.
Ce fait légitime un peu plus le choix de textes journalistiques, pour lequel nous n'avions
jusqu'à présent que deux arguments pragmatiques, leur disponibilité et le fait qu'ils soient
utilisés fréquemment dans l'enseignement, comme point de départ de l'élaboration d'une
nomenclature de dictionnaire d'apprentissage. Pour l'oral, toutefois, la question reste
partiellement ouverte, faute de véritable point de comparaison.
Compte tenu des listes des mots divergents, la nomenclature du DF semble plutôt
orientée vers le littéraire, ce qui nous semble coller moins au contexte d'apprentissage actuel
des langues étrangères. Mais, comme nous le constaterons dans ce qui suit, l’établissement
d’une nomenclature basée sur des indications de fréquence est également sujette à caution.
Ainsi, pour le DAFLES, afin de présenter une nomenclature cohérente, il conviendra de
repêcher certains mots nécessaires pour compléter des familles de mots : s'absenter devra
ainsi figurer aux côtés de absent, malgré sa fréquence inférieure à 100. Par contre, des mots
comme abasourdi, abats, abattis, etc. pourront définitivement être écartés sur une base
objective.
3.2. Congruence des indications de fréquence et d'importance
Le DF offre pour chaque mot de la nomenclature une indication de son 'importance' :
"Est important un mot dont on ne peut se passer dans le vie quotidienne, ou pour comprendre,
ou pour s'exprimer" (DF, 1999 : IX). Le critère de l'importance est considéré comme
supérieur à celui de la fréquence puisque
Une grande partie des mots fréquents sont importants (dormir, interdit, argent,
vite), mais d'autres moins fréquents sont extrêmement utiles parce qu'ils désignent
des choses précises sans avoir de synonymes (coincer, comparable,
obligatoirement). (DF, 1999 : IX)
L'importance du mot est signalée par une flèche bleue en marge.
Comme nous disposons d'indications de fréquence précises pour notre nomenclature, il
nous a paru intéressant de les comparer aux indications d'importance données dans le DF.
Nous avons effectué cette comparaison pour la lettre A, avec, d'une part, 1 046 lemmes de
notre nomenclature et, d'autre part, 1 571 lemmes comparables pour le DF, c'est-à-dire les
entrées du dictionnaire sans formes irrégulières de verbes, d'adjectifs ou de noms, sans noms
propres et sans distinction d'homonymes.9
Le tableau 13 donne un aperçu général de cette comparaison. Dans les cellules figure le
nombre de mots qui correspond aux critères respectifs.
classe
1
2
3
4
5
6
indice de
mots
fréquence - importants
DAFLES
- DF
*****
34
****
41
***
76
**
116
247
*
135
-
mots moins
importants DF
4
6
16
49
336
511
mots absents du
DF
0
0
0
4
117
Tableau 13. Comparaison fréquence corpus - critère d'importance du DF.
Les chiffres mettent en évidence un important groupe de mots à fréquence limitée dans
le corpus mais considérés comme importants par les auteurs du dictionnaire (en italique dans
le tableau 13). Les tableaux 14 et 15 présentent un échantillon de ces mots, respectivement
pour la classe 5 (fréquence comprise entre 853 et 100) et la classe 6 (fréquence inférieure à
100).
abaisser
abdiquer
abîmer
abstraction
académique
accélérateur
accidenté
accourir
abandonné
abdominal
abominable
abstrait
accablant
accessoire
acclamer
accro
abattu
abeille
abondant
absurde
accabler
accidentel
accordéon
accueillant
abbé
aberrant
abordable
abusif
accaparer
accidentellement
accouchement
accumulation
Tableau 14. Mots importants (DF) à faible fréquence (classe 5 corpus).
abcès
aboyer
absenter (s’)
accoutumé
adhésif
adroitement
affectueux
affolement
abîmé
abrégé
acajou
accroupi
adipeux
aérer
affliger
affranchissement
ablation
abréviation
acclamation
acrylique
adoucissement
affairé
affolant
affreusement
aboiement
abruti
accoupler
acuponcture
adroit
affectueusement
affolé
affublé
Tableau 15. Mots importants (DF) à très faible fréquence (classe 6 corpus).
Une interprétation de ce genre de données reste bien évidemment subjective, mais il
semble quand même qu'au-delà du critère de l'importance, la fréquence reste un critère
9
Dans les cas où deux homonymes présentaient deux indications d'importance différente, nous avons
systématiquement assignée la plus importante au lemme. Parfois, l'importance est attribuée uniquement à l'un
des sens du mot. Dans ces cas, nous l'avons systématiquement reporté au lemme.
indispensable. En effet, lorsque l'on compare ces deux échantillons, on relève sans conteste
dans le deuxième certains mots qui ne sont pas prioritaires dans le cadre d'un apprentissage
de la langue : ablation, acajou, acrylique, adipeux, affranchissement, affublé entre autres.
Leur absence de la nomenclature d'un dictionnaire d'apprentissage semble dès lors s'imposer.
Inversement, on peut s'étonner de voir 26 mots particulièrement fréquents dans notre
corpus ne pas être considérés comme importants par le DF (en gras dans le tableau 13) :
Classe 1
à10, année, américain, allemand
Classe 2
afin de/que, ami, assez, actuellement, anglais, accès
Classe 3
aménagement, asiatique, autoriser, actionnaire, administratif, associer, application, africain,
arrêté, approuver, assistance, attribuer, affecter, arabe, albanais, auparavant
Tous ces mots, sauf peut-être albanais, sont sans aucun doute des mots courants et
mériteraient de figurer parmi les mots importants de la langue.
Le critère d'importance d'un mot est sans conteste un critère opérationnel. Il permet de
récupérer certains mots courants qui font défaut dans le corpus (aboyer, adroit, agrafer, allô,
amphi, ampli, aspirateur, au revoir). Toutefois, un avis subjectif concernant l'importance des
mots doit en tout cas être accompagné d'un contrôle de leur fréquence.
4. Comparaison listes de fréquence corpus journalistique - corpus TLF
Dans P. IMBS (1971) sont consignées les données de fréquence relatives au TLF sous
la forme d’une liste de lemmes, classés par fréquence décroissante. Nous avons prélevé de
cette liste un échantillon de taille analogue à celle de notre liste de fréquences : 12 174
lemmes, soit les lemmes à fréquence supérieure à 155.11
Les divergences entre les deux listes sont assez marquées puisque nous comptons
16 475 lemmes différents après fusion. Ce chiffre élevé s’explique en partie par la
lemmatisation particulière adoptée par le TLF, qui distingue trois formes du verbe (infinitif,
participe passé, soit plusieurs centaines de cas, et participe présent). En outre, la
lemmatisation n’est pas complète pour de nombreux mots grammaticaux (la, l’, les, une, sa,
etc.) et on relève un certain nombre de lemmes déviants (longue, semaines, chère, etc.).
Une comparaison des deux listes met en relief de façon très évidente les spécificités des
deux corpus. Absents de l’échantillon du TLF sont toute une série de mots actuels dont le
rang traduit une fréquence d’usage importante, à l’exception de mots tels que wallon ou
bruxellois, qui sont surreprésentés dans le corpus belge (tableau 16). On notera que nous
n’avons pas tenu compte des abréviations présentes dans notre liste de fréquences.
lemme
10
rang corpus
journalistique
La présence du mot à dans cette liste peut surprendre. Assez étrangement, ce n'est pas le seul mot
particulièrement fréquent qui n'est pas taxé d'important par le DF. Ainsi, parmi les 30 mots les plus fréquents de
notre corpus (voir Annexe 1), 6 mots ne sont pas accompagnés de la flèche bleue identifiant les mots
importants: le, un, à, il, tout et leur.
11
On notera que la liste originale comprend 12 427 lemmes dont la fréquence est supérieure à 155. Pour faciliter
la comparaison informatisée des deux listes, nous avons toutefois dû exclure les doublons (aimant (nom,
participe), alerte (adjectif, nom), aperçu (nom, participe), etc.).
régional
match
wallon
soit
euro
championnat
football
culturel
sûr
télévision
festival
bruxellois
finale
week-end
entraîneur
314
329
360
383
436
554
557
570
573
629
641
699
719
783
802
salarié
internet
fédéral
francophone
fiscal
chômeur
nouvelle
bourgmestre
record
gérer
investir
compétition
diffuser
néerlandais
palestinien
804
823
859
951
998
1015
1018
1024
1052
1065
1109
1113
1142
1158
1171
Tableau 16. Mots absents de la liste de fréquences du TLF (fréquence >= 155) (échantillon).
En analysant les mots absents de notre liste, on se rend compte que le corpus
journalistique couvre mieux les mots très fréquents du corpus TLF qu’inversement, comme
en témoigne le rang des mots consignés dans le tableau 17. Les lacunes à fréquence élevée
dans le corpus TLF ont trait à quelques mots spécifiques de la conversation et à une série de
mots dont bon nombre désignent des concepts qui sont datés (tableau 17).
lemme
ha
eu
hé
ho
hélas
pardessus
sou
paupière
sire
aurore
vôtre
monseigneur
providence
immortel
sottise
rang corpus
TLF
203
207
303
306
936
1530
1627
1904
2381
2395
2518
2529
2618
2644
2689
divinité
continuel
environs
fâché
gémir
évangile
tressaillir
gentilhomme
rameau
orient
piété
accoutumé
hideux
écu
matelot
2705
2728
2733
2761
2762
2805
2842
3044
3078
3130
3184
3211
3280
3282
3285
Tableau 17. Mots absents de la liste de fréquences du corpus journalistique (échantillon).
De façon générale, la comparaison avec la liste du TLF met en évidence des lacunes
assez prononcées du corpus journalistique dans le domaine du vocabulaire touchant les
domaines propres aux personnes (sentiments, attitudes, etc.) (tableau 18).
lemme
fâché
rang corpus
TLF
2761
ravissant
3916
gémir
tressaillir
accoutumé
balbutier
infâme
rancune
frissonner
affectueux
lugubre
pressentiment
pensif
tendrement
gaiement
orgueilleux
2762
2842
3211
3380
3397
3426
3450
3592
3699
3741
3766
3779
3789
3876
blâmer
étreinte
blême
inexplicable
paresseux
promptement
canaille
langueur
pâleur
frémissant
puéril
adoration
gâté
ennuyé
3963
3989
4005
4007
4033
4038
4040
4103
4107
4114
4142
4159
4172
4175
Tableau 18. Mots absents de la liste de fréquences du corpus journalistique
(vocabulaire touchant aux personnes) (échantillon).
Ces données nous permettent d’apporter un autre correctif nécessaire à notre
nomenclature originale sous la forme de l’inclusion dans le DAFLES de mots tels que fâché,
rancune, lugubre, tendrement, gaiement, etc.
5. Conclusion
L'élaboration d'une nomenclature est l'une des premières étapes dans le processus de
rédaction d'un dictionnaire. Cet aspect est d'autant plus crucial pour un dictionnaire
d'apprentissage qu'il détermine de façon évidente la qualité du dictionnaire : les apprenants
doivent y retrouver les mots auxquels ils vont être confrontés et qu'ils doivent utiliser.
Nous avons choisi de fonder notre nomenclature sur une analyse de corpus de textes.
Pour l'écrit, les textes journalistiques offrent toutes les garanties de diversité et de
disponibilité nécessaires. Ils traitent en outre de thèmes actuels en termes courants, non
spécialisés.
Nous avons comparé une liste de fréquences élaborée à partir de ce corpus et qui servira
de nomenclature au DAFLES à la liste de fréquences du TLF ainsi qu'à la nomenclature du
seul dictionnaire d'apprentissage actuel du français, le DF. Les comparaisons ont montré des
divergences assez marquées. Le corpus journalistique présente une langue actuelle qui couvre
assez bien le vocabulaire le plus général tel qu’il est répertorié dans les deux autres sources. Il
présente certaines lacunes dans le domaine du vocabulaire spécifique aux actions et aux
sentiments des personnes. Certains mots passe-partout de la langue parlée sont également
absents. Inversement, le fait de coller à l’actualité donne un aperçu très complet des mots et
concepts utilisés fréquemment dans la communication quotidienne. L’indice de fréquence
permet en outre de corriger l’intuition du lexicographe quant à l’importance d’un mot.
De façon générale, on peut poser que les lexicographes ont tout intérêt à intégrer une
analyse de corpus lors du processus de définition de la nomenclature et de rédaction d’un
dictionnaire. Comme le note l'éminent lexicographe anglais J. SINCLAIR (traduction reprise
à V. GRUNDY 1996 : 131) :
(...), il y a une différence énorme et systématique entre les impressions [que] des
gens notent sur les détails de la langue et les faits de langue réels que l'on peut
observer dans les textes. Cela laisse à supposer que les êtres humains ont une idée
tout à fait particulière de la langue et que cette idée ne correspond pas du tout à ce
qui se passe effectivement lorsqu'ils utilisent cette langue.
Le corpus est le moyen par excellence de saisir une variété d'informations qui sont le
reflet de la compétence linguistique d'un nombre important de locuteurs. Cette masse
d'informations permet de se faire une image nuancée du fonctionnement de la langue, même
s’il s’avère nécessaire d’y apporter quelques correctifs compte tenu des lacunes du corpus ou
de la prise en compte d’autres critères de sélection, comme par exemple la disponibilité des
mots ou le fait d’appartenir à une série conceptuelle. Face à la richesse des résultats de
l’analyse de corpus, on ne peut que déplorer une fois de plus l’absence d’un grand
échantillonnage de textes pour le français.
Serge VERLINDE
Thierry SELVA
Groupe de recherche en lexicographie pédagogique (Grelep)
K.U.Leuven, Belgique
BIBLIOGRAPHIE
BLANCHE-BENVENISTE, Claire (1996) : « De l’utilité du corpus linguistique », Revue
française de linguistique appliquée, I-2, 25-42.
BRUNET, Étienne (1981) : Le vocabulaire français de 1789 à nos jours d’après les données
du Trésor de la langue française, Genève, Paris, Slatkine, Champion, 3 vol. (Travaux
de linguistique quantitative, 17).
CLIJSTERS, Willy (1990) : Mille lettres d’affaires. Richesse formelle, richesse lexicale,
stock lexical, lexitope et lexitraits, combits, Paris, Genève, Champion, Slatkine.
(Travaux de linguistique quantitative, 46).
ENGWALL, Gunnel (1984) : Vocabulaire du roman français (1962-1968), Dictionnaire des
fréquences, Stockholm, Almqvist & Wiksell International.
GOUGENHEIM, Georges ; René MICHÉA, Paul RIVENC et Aurélien SAUVAGEOT
(1967) : L’élaboration du Français Fondamental (1er degré), Paris, Didier.
GREIDANUS, Tine (1990) : Les constructions verbales en français parlé, Étude quantitative
et descriptive de la syntaxe des 250 verbes les plus fréquents, Tübingen, Max Niemeyer
Verlag. (Linguistische Arbeiten, 243).
GRUNDY, Valerie (1996) : « L’utilisation d’un corpus dans la rédaction du dictionnaire
bilingue », in BÉJOINT, Henri et Philippe THOIRON, Les dictionnaires bilingues,
Louvain-la-Neuve, Duculot, 127-149.
HENMON, V.A.C. (1924) : A French word book based on a count of 400,000 running words,
Madison, Wisc., University of Wisconsin.
IMBS, Paul (1971) : Dictionnaire des fréquences. Vocabulaire littéraire des XIXe et XXe
siècles, I – Table alphabétique, II - Table des fréquences décroissantes. Nancy, Paris,
C.N.R.S., Didier.
JUILLAND, Alphonse ; Dorothy BRODIN et Catherine DAVIDOVITCH (1970) : Frequency
Dictionary of French Words, La Haye, Paris, Mouton.
LYNE, Anthony A. (1985) : The vocabulary of French business correspondance. Word
frequencies, collocations and problems of lexicometric method, Genève, Paris, Slatkine,
Champion. (Travaux de linguistique quantitative, 23).
MORTUREUX, Marie-Françoise (1997) : La lexicologie entre la langue et le discours, Paris,
Sedes.
VANDER BEKE, G.E. (1929) : French Word Book, New York, (Publications of the
American and Canadian Committees on Modern Languages, vol. XV).
Dictionnaires
PR. REY-DEBOVE, Josette et Alain REY (1993) : Le nouveau Petit Robert. Dictionnaire
alphabétique et analogique de la langue française, Paris, Dictionnaires Le Robert.
Collins Cobuild. SINCLAIR, John (1995) : Collins Cobuild English Dictionary, Londres,
HarperCollins Publishers.
DAFA. BINON, Jean, Serge VERLINDE, Jan VAN DYCK et Ann BERTELS (2000) :
Dictionnaire d’apprentissage du français des affaires, Paris, Didier.
DF. REY-DEBOVE, Josette (1999) : Dictionnaire du français, Référence, Apprentissage,
Paris, Dictionnaires Le Robert, CLE International.
TLF. IMBS, Paul (1971-1994) : Trésor de la langue française, Paris, C.N.R.S., Gallimard.
Sites Web
ABU (2000) : http://cedric.cnam.fr/ABU/
BOE (2000) : http://titania.cobuild.collins.co.uk/boe_info.html
BNC (2000) : http://info.ox.ac.uk/bnc/
INALF (2000) : http://www.inalf.cnrs.fr/produits.html
SELVA, Th. (2000) : http://maupassant.free.fr
VERLINDE, S. (2000) : http://www.kuleuven.ac.be/ilt/Grelep/outinfor/outinfin.htm
VÉRONIS, J. (2000) : http://www.up.univ-mrs.fr/~veronis
Logiciels
Cordial 6 (version universitaire). Synapse développement. (http://www.synapse-fr.com)
Wordcruncher. Redstone Publishing Inc.
Cédéroms
Le Monde sur CD-ROM, 1997-1998, SA Le Monde, CEDROM-SNI.
Le Soir, un an d’actualité sur CD-ROM, 1998. Rossel & Cie S.A. – Le Soir, CEDROM-SNI.
Annexe 1. Liste de fréquences – corpus Le Monde/Le Soir – rangs 1 - 144
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
le
4771159
de
4050075
un
1402180
être
1031568
à
995167
et
918697
avoir
894894
en
707854
du
618501
que
563995
ce
539348
il
487660
au
480436
ne
404043
pour
397440
son
396359
se
395902
dans
378609
qui
378063
par
343586
pas
271970
sur
271194
plus
226764
tout (~ + ~ à fait + ~
le monde)
175581
avec
175224
faire
162389
on
158122
mais
155462
pouvoir
138199
leur
135159
elle
124223
ou
117065
je
108704
comme
103892
deux
102577
nous
102556
an
99829
y
94281
premier
92410
devoir
91544
autre
90551
si
88271
même
79125
grand
73432
aussi
71709
nouveau
71681
m
70503
sans
68680
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
entre
66330
celui
64374
bien (~ + ~ que) 63051
après
62034
lui
60579
depuis
60106
où
60052
monde
58684
année
57906
dire
57497
notre
56156
dernier
55633
aller
55427
dont
55267
prendre
51002
encore
50671
mettre
49992
pays
49361
quelque
48898
français
48851
très
48239
politique
47103
président
46955
contre
46267
trois
46252
jour
45782
voir
43074
heure
42030
moins
41977
avant
41141
falloir
40889
ministre
40380
certain
39915
homme
39909
public
39564
vouloir
39540
venir
39390
peu
39216
travail
39124
groupe
38926
alors (~ + ~ que)38856
petit
38582
temps
37953
sous
37692
vous
37184
ainsi
37048
jeune
36730
européen
36541
fois
36473
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
million
36071
national
35983
place
35035
déjà
34932
bon
34861
aujourd'hui 34671
donner
34633
savoir
34552
rester
34337
seul
34218
donc
34062
non
33991
mois
33611
me (me + Me) 33598
général
33380
franc
33238
passer
32869
personne
32715
américain
32457
fin
32392
toujours
32251
permettre
31788
jusque
31301
selon
30935
affaire
30624
gouvernement 30562
droit
30415
cela
30244
conseil
29869
entreprise
29798
projet
29586
mon
29572
point (~ + ~ de vue)
29186
ancien
28790
trouver
28604
social
28089
vie
28088
lors
26781
service
26778
ville
26458
quatre
26116
devenir
25958
marché (~ + bon ~)
25926
région
25590
là (~ + par ~) 25344
expliquer
25164
fait
25083
Annexe 2. Liste de fréquences – corpus Le Monde/Le Soir – rangs 6005 - 6151
6005
6006
6007
6008
6009
6010
6011
6012
6013
6014
6015
6016
6017
6018
6019
6020
6021
6022
6023
6024
6025
6026
6027
6028
6029
6030
6031
6032
6033
6034
6035
6036
6037
6038
6039
6040
6041
6042
6043
6044
6045
6046
6047
6048
6049
6050
6051
6052
6053
velours
durcir
hausser
intégriste
manne
pharmacien
sécheresse
semblant
espionnage
explicite
licencié
récital
sommer
combustible
déboires
départir (se)
libraire
unifier
vitalité
ado
boxe
compatible
fourgon
fragiliser
hormone
légalement
scout
407
406
406
406
406
406
406
406
405
405
405
405
405
404
404
404
404
404
404
403
403
403
403
403
403
403
403
socio-économique 403
transiter
403
anomalie
402
anthologie
402
archéologie
402
couvent
402
dénombrer
402
locomotive
402
marquant
402
séisme
402
souder
402
veto
402
âne
401
ardeur
401
assouplir
401
cocaïne
401
croyance
401
exonération
401
lady
401
originel
401
précurseur
401
réfuter
401
6054
6055
6056
6057
6058
6059
6060
6061
6062
6063
6064
6065
6066
6067
6068
6069
6070
6071
6072
6073
6074
6075
6076
6077
6078
6079
6080
6081
6082
6083
6084
6085
6086
6087
6088
6089
6090
6091
6092
6093
6094
6095
6096
6097
6098
6099
6100
6101
6102
ressusciter
sécuritaire
supériorité
baguette
dé
inter
relèvement
riz
typique
atterrissage
balcon
cerf
désespéré
ému
nordique
panorama
plaignant
plénier
progressiste
promis
rythmique
aléatoire
basket
écologie
incendier
lucide
401
401
401
400
400
400
400
400
400
399
399
399
399
399
399
399
399
399
399
399
399
398
398
398
398
398
professionnalisme 398
recherché
398
sincère
398
trier
398
ultérieur
398
amiante
397
encombrer
397
indéterminé
397
patienter
397
sentimental
397
virulent
397
dissuader
396
grandissant
396
inexistant
396
logo
396
nager
396
out
396
vengeance
396
adn
395
ancrage
395
muer
395
nappe
395
obtention
395
6103
6104
6105
6106
6107
6108
6109
6110
6111
6112
6113
6114
6115
6116
6117
6118
6119
6120
6121
6122
6123
6124
6125
6126
6127
6128
6129
6130
6131
6132
6133
6134
6135
6136
6137
6138
6139
6140
6141
6142
6143
6144
6145
6146
6147
6148
6149
6150
6151
préoccupant
395
sociologique
395
trésorerie
395
bailleur
394
bénéfique
394
connaisseur
394
cristal
394
désarmer
394
doré
394
douche
394
gazon
394
lapin
394
méconnu
394
réorganiser
394
sauvegarder
394
statuer
394
vase
394
zoo
394
célébrité
393
levier
393
fraternité
392
incompréhension392
intervalle
392
recycler
392
affectif
391
brusquement
391
conformer (se) 391
malentendu
391
poupée
391
présentateur
391
primordial
391
abandonné
390
baptême
390
concerter (se) 390
démarquer
390
exagérer
390
hangar
390
involontaire
390
mitigé
390
purger
390
relativiser
390
replacer
390
roder
390
valider
390
affilée (d')
389
blé
389
cerise
389
comptabiliser 389
constatation
389
Annexe 3. Liste de fréquences – corpus Le Monde/Le Soir – rangs 12012 - 12156
12012
12013
12014
12015
12016
12017
12018
12019
12020
12021
12022
12023
12024
12025
12026
12027
12028
12029
12030
12031
12032
12033
12034
12035
12036
12037
12038
12039
12040
12041
12042
12043
12044
12045
12046
12047
12048
12049
12050
12051
12052
12053
12054
12055
12056
12057
12058
12059
carnavalesque
carrure
cocher
coloniser
couronné
déclinaison
délétère
dernier-né
économe
égérie
exagéré
exulter
falsification
fédéraliste
flirt
fourré
friandise
glauque
haineux
inflexible
majuscule
mime
motorisé
numériser
obtempérer
parfumerie
pâture
pénombre
pléthore
poigne
ravageur
rebâtir
respectabilité
sahraoui
talus
thermal
usurper
viticole
ad hoc
adorable
amande
arabisation
autodéfense
béant
bourguignon
calculette
captiver
commissairepriseur
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
102
101
101
101
101
101
101
101
101
101
101
12060
12061
12062
12063
12064
12065
12066
12067
12068
12069
12070
12071
12072
12073
12074
12075
12076
12077
12078
12079
12080
12081
12082
12083
12084
12085
12086
12087
12088
12089
12090
12091
12092
12093
12094
12095
12096
12097
12098
12099
12100
12101
12102
12103
12104
12105
12106
12107
12108
coquetterie
crescendo
date-butoir
déconnecter
ducasse
exacerbé
féminité
foisonner
humer
ignoble
imperturbable
interné
joncher
luth
maçonnerie
malencontreux
menuisier
mitraillette
névrose
niet
pastiche
plombier
pontifical
porte-à-faux
potache
prétentieux
réminiscence
sac-poubelle
sanglot
sieste
subsidiarité
syndiqué
tactiquement
technocratique
transmissible
truculent
vénézuélien
vengeur
vétusté
volatile
affleurer
ballotter
bavarder
bévue
biathlon
blinder
caïd
capituler
cerisier
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
101
100
100
100
100
100
100
100
100
100
12109
12110
12111
12112
12113
12114
12115
12116
12117
12118
12119
12120
12121
12122
12123
12124
12125
12126
12127
12128
12129
12130
12131
12132
12133
12134
12135
12136
12137
12138
12139
12140
12141
12142
12143
12144
12145
12146
12147
12148
12149
12150
12151
12152
12153
12154
12155
12156
chaland
100
connexe
100
crevaison
100
dangerosité
100
dédramatiser
100
délabrement
100
différenciation 100
douloureusement100
étouffement
100
flairer
100
fortifier
100
fructifier
100
gonflable
100
gouache
100
hémophile
100
hirondelle
100
homologuer
100
impardonnable 100
incrédulité
100
irrévocable
100
maniaque
100
méchanceté
100
minimalisme
100
modulable
100
montagnard
100
mouette
100
mythologique 100
parraineur
100
plasma
100
prospectus
100
quote-part
100
radicalisation 100
radiologue
100
rassembleur
100
réévaluation
100
reparaître
100
répréhensible 100
retentissement 100
richement
100
roc
100
sunnite
100
supercross
100
tchadien
100
torchon
100
tour-opérateur 100
truchement
100
turinois
100
volontariat
100