Nomenclature de dictionnaire et analyse de corpus
Transcription
Nomenclature de dictionnaire et analyse de corpus
Serge VERLINDE Thierry SELVA NOMENCLATURE DE DICTIONNAIRE ET ANALYSE DE CORPUS Since the Dictionnaire des fréquences, published in 1971 by P. IMBS and based mainly on literary texts, no real important frequency count of the French vocabulary has been undertaken. As we are working on a (electronic) learner’s dictionary for French (DAFLES Dictionnaire d’apprentissage du français langue étrangère ou seconde), we try to use objective criteria for selecting the words described in our dictionary by an analysis of a 50 million words corpus of newspaper texts. A thorough comparison of our frequency list with the word list of another French learner’s dictionary (Dictionnaire du français) and with the list of the Dictionnaire des fréquences reveals unambiguously the strengths and the weaknesses of our own word list. This comparison also shows the necessity of a corpus analysis to give empirical evidence to the lexicographer’s personal intuition. 0. La nomenclature d'un dictionnaire est déterminée en fonction de son public-cible. Un dictionnaire de langue monolingue destiné à des allophones se devra ainsi de ratisser large en décrivant tout le lexique d'une langue, à l’exception des emplois désuets ou très techniques. Le Petit Robert (PR), représentant type de cette catégorie de dictionnaires, en arrive ainsi à une nomenclature de quelque 60 000 mots. Pour un dictionnaire destiné à des apprenants, par contre, une sélection beaucoup plus poussée doit être effectuée. Il convient en effet de ne retenir que le lexique auquel ces apprenants seront confrontés (décodage) et dont ils auront besoin dans les situations de communication standard (encodage). La question qui se pose dès lors est de savoir comment saisir ce lexique. Les critères de sélection appliqués dans les nombreux dictionnaires pour apprenants anglais sont essentiellement basés sur une analyse de corpus, comme par exemple dans le Collins Cobuild. Il est vrai qu'il existe pour l'anglais de solides corpus, échantillons équilibrés de langue parlée et de langue écrite actuelles réunissant différents "genres" de textes, avec entre autres des extraits de textes journalistiques (journaux et magazines), de littérature, de rapports et de lettres. Il s'agit pour l'essentiel des corpus The Bank of English (BOE, 2000) et du British National Corpus (BNC, 2000). La lexicographie française n'a, semble-t-il, pas véritablement suivi les grandes maisons d'édition anglaises dans l'analyse systématique et automatisée de corpus de textes, même si toutes les grandes maisons d'éditions françaises utilisent des bases textuelles lors de la rédaction de leurs dictionnaires, et ceci malgré la voie tracée voici plus de trente ans par le Trésor de la langue française (TLF). C'est ainsi que le seul véritable dictionnaire d'apprentissage actuel pour le français, le Dictionnaire du français (DF) identifie ses quelque 22 000 entrées comme "les mots courants de la conversation et de la presse" (DF, 1999 : VII), en des termes très généraux, sans préciser davantage sur quelle base la sélection de la nomenclature a été effectuée. Dans le contexte d'un projet de dictionnaire d'apprentissage électronique du français pour non-francophones (Dictionnaire d'apprentissage du français langue étrangère ou seconde - DAFLES) que nous menons au sein de notre groupe de recherche (Grelep - Groupe de recherche en lexicographie pédagogique), nous avons voulu objectiviser la procédure de saisie de la nomenclature. Pour ce faire, nous avons constitué un important corpus de textes (1.) que nous avons analysé sous différents angles (2.). Afin de tester la qualité de notre nomenclature, nous avons procédé à une comparaison de notre nomenclature avec celle du DF (3.) et avec la liste de fréquences tirée du corpus du TLF (1971-1994), qui continue à être avancée par beaucoup comme la liste de référence pour le français (4.). 1. Corpus de textes. Les seuls grands corpus de textes disponibles pour le français sont des corpus de textes journalistiques et des corpus littéraires. Parmi les corpus littéraires, on compte la base de données Frantext, accessible en ligne.1 Des textes littéraires peuvent également être rassemblés par d'autres moyens, comme par exemple sur le site de la Bibliothèque Universelle (ABU, 2000) où l'on trouve le texte intégral et téléchargeable de 267 oeuvres littéraires françaises (situation en juillet 2000), ou sur des sites dédiés à certains auteurs en particulier (Th. SELVA, 2000 par exemple). Il s'agit là toutefois de corpus essentiellement "historiques". Seuls les textes journalistiques peuvent fournir de véritables corpus importants de langue courante actuelle, essentiellement grâce aux cédéroms d'archivage. C'est en utilisant la fonctionnalité d'exportation des textes des articles des cédéroms 1998 des journaux Le Monde (France) et Le Soir (Belgique) que nous avons constitué un corpus de taille moyenne, comptant un peu plus de 54 millions de mots, soit approximativement 100 000 pages de texte A4 ou plus de 350 Mo de texte en version électronique. Les composantes française et belge ont été conservées séparément afin de pouvoir saisir les variantes géographiques. Le corpus a ensuite été lemmatisé à l'aide du logiciel Cordial 6 (version universitaire). Lors de la lemmatisation, chaque forme verbale est rattachée à son infinitif, sauf le participe, qui est reconnu comme lemme indépendant dans un certain nombre de cas, chaque adjectif à sa forme du masculin singulier et chaque substantif à sa forme au singulier. En ce qui concerne le paramétrage de reconnaissance des expressions (combinaisons de mots ou collocations), nous avons opté pour le découpage de ces unités. D’une part, ce choix est justifié par le fait que les critères d’identification ne sont pas transparents. Ainsi, Cordial semble isoler les unités lexicales que Benveniste appelle des synapsies (pomme de terre, chemin de fer - M.-F. MORTUREUX 1997 : 53-54), mais pour des expressions moins figées, l’identification est moins systématique : une expression comme travail à la chaîne est reconnue, mais non une expression comme travail au noir. Le paramétrage choisi a pour conséquence la scission systématique des unités indissociables comme afin de, quant à, etc. ainsi que des mots composés, qui seront récupérés ultérieurement lors de l’analyse.2 L'application du logiciel à n’importe quel fichier texte donne lieu à la génération d’un fichier où figurent trois colonnes : le mot du texte original, sa forme canonique (le lemme) ainsi qu'une identification morphologique de chaque mot sous la forme d'une code numérique. Un traitement informatique des fichiers de sortie Cordial a permis de restaurer le texte sous son apparence d'origine, concaténé, avec, toutefois, des lemmes (ou des lemmes accompagnés du code numérique) au lieu des formes originales. Le corpus lemmatisé compte 1 Pour plus d’informations, on se référera au site INALF (2000), sous la rubrique ‘ressources textuelles’. L’accès à la base est possible moyennant le paiement d’un forfait annuel de 2 000 FRF hors taxes. 2 On avance généralement un taux d’erreur de 5 % lors de la lemmatisation automatique d’un texte. 51 845 143 lemmes avec 25 727 742 lemmes pour le corpus Le Monde et 26 117 401 lemmes pour le corpus Le Soir. L’écart entre les 54 millions de mots du corpus original et les quelque 52 millions de lemmes correspond aux fiches documentaires qui accompagnent chaque article et que nous avons écartées. Le processus de lemmatisation a donc permis d'enrichir les textes originaux de deux types d'informations linguistiques supplémentaires : le lemme et l'identification morphologique de chaque mot. En outre, il a été possible de récupérer, à l'aide de programmes rédigés en C, des informations extra-linguistiques concernant les rubriques des journaux, les dates, etc. Ces informations sont déterminantes pour mieux cerner le vocabulaire typique à un domaine, pour évaluer la dispersion (ir)régulière d'un mot sur une période, etc., analyses qui cadrent davantage dans des études de lexicométrie. Une analyse poussée de ces fichiers de textes lemmatisés est possible grâce à des logiciels d'analyse de textes, dont un certain nombre sont disponibles à des prix démocratiques, voire même gratuitement sur Internet.3 Ces logiciels offrent un certain nombre de fonctionnalités qui facilitent le travail du lexicographe, entre autres la possibilité d'établir des listes de fréquences ou d'effectuer des recherches sur des mots simples, des mots tronqués ou des combinaisons de mots, avec une série de concordances à la sortie. 2. Analyses de corpus : listes de fréquences Selon A. JUILLAND (1970 : XVI), il faut faire remonter les premiers comptages effectués sur des corpus de textes français aux années 20 avec les listes de fréquences de V.A.C. HENMON (1924) et de G.E. VANDER BEKE (1929). Depuis lors, d’autres comptages ont été réalisés, mais il faut bien reconnaître qu'ils sont souvent assez peu performants dans la perspective de l'étude de la langue actuelle. Il y a bien évidemment la liste de fréquences établie lors de l'élaboration du TLF pour un corpus de textes littéraires de 1789 à 1964 d'un peu plus de 70 millions de mots et de plus de 71 000 lemmes ; données qui ont été exploitées exhaustivement par É. BRUNET (1981). Les travaux de A. JUILLAND (1970) et de G. ENGWALL (1984) sont également basés sur des textes littéraires, avec un nombre d'occurrences beaucoup plus restreint, aux alentours de 500 000 mots. Dans le domaine littéraire, il y a en outre les listes de fréquences (des mots du texte et non des lemmes) fournies avec chacune des oeuvres littéraires disponibles sur le site ABU cité précédemment. A notre connaissance, la seule liste de fréquences établie à partir de textes journalistiques disponible à l'heure actuelle, est celle proposée par Jean VÉRONIS sur son site web (VÉRONIS, 2000). Elle a été réalisée pour les textes du Monde diplomatique 19871997 (11 139 376 d’occurrences) et comporte des formes non lemmatisées. Pour la langue parlée, la seule liste accessible au grand public est celle de G. GOUGENHEIM (1967), basée sur quelque 300 000 mots. D'autres projets sont mentionnés çà et là (T. GREIDANUS, 1990 : 13 ; Cl. BLANCHE-BENVENISTE, 1996 : 27). L'ampleur du travail de transcription constitue toutefois un frein important au développement de tels corpus et de leur analyse. Dans le domaine du français sur objectifs spécifiques, il existe également deux listes établies pour le français commercial (A.A. LYNE 1985 et W. CLIJSTERS 1990), sur des corpus plus restreints encore. Dans le Dictionnaire d'apprentissage du français des affaires (DAFA), nous avons utilisé des comptages effectués sur un corpus de 25 millions de mots de textes journalistiques et scientifiques pour assigner à chaque mot de la nomenclature 3 On se reportera au site du Grelep (VERLINDE, 2000) pour l’adresse de sites qui font l’inventaire de ces logiciels. économique du dictionnaire une indication de fréquence relative en fonction de quatre tranches de fréquence. 2.1. Liste de fréquences du corpus complet Pour établir la liste de fréquences de notre corpus de 51 845 143 millions de lemmes, et par voie de conséquence la nomenclature de notre dictionnaire d'apprentissage, nous avons écarté en premier lieu tous les mots étiquetés comme nom propre (6,53 % du total des lemmes). Nous comptons récupérer ces informations à un stade ultérieur de la rédaction du dictionnaire. Le corpus original sans les noms propres comprend 48 458 014 lemmes, avec 73 975 lemmes différents pour la partie Le Monde et 102 594 lemmes différents pour la partie Le Soir. Après avoir fusionné les deux listes, nous avons isolé les lemmes à fréquence supérieure à 100 et soumis cette liste à un examen minutieux qui nous a amenés à une correction manuelle d'erreurs de lemmatisation. En effet, comme l'illustre le tableau 1, la liste à l'étude présentait des lemmatisations déviantes sous la forme d'une série de formes du féminin ou du pluriel (autres, financière, ancienne, etc.) ainsi que des erreurs de lemmatisation manifestes (jusqu pour jusque, yeu pour oeil, matche, etc.). Les premiers lemmes ont été rattachés à la forme canonique et les quelques erreurs de lemmatisation corrigées à la main. lemme déviant aujourd hui jusqu autres parce afin quant financière auprès tandis plupart yeu première ancienne toute nombreuse actuelle sociale professionnelle est-à-dire cents principaux française locale dernière beaux fréquence 34671 34668 30282 21665 15397 10954 9937 8766 7638 7231 6917 6673 6473 6355 5363 5355 4840 4727 4475 4445 3513 3484 3394 3368 3034 3007 seule spécialiser internationale bureaux sportive haute éventuelle législative nationale traditionnelle différents quelqu matche présidentielle blair sainte sexuelle encontre exceptionnelle tableaux éliminé positive annuelle individuelle définitive ores 2861 2758 2754 2572 2534 2525 2522 2483 2271 2260 2225 2169 2128 2002 1948 1936 1725 1667 1643 1630 1598 1590 1587 1580 1546 1504 Tableau 1. Lemmatisations déviantes (échantillon - fréquence supérieure à 1 500). En outre, quelques noms propres qui n’ont pas été reconnus comme tels par Cordial, comme par exemple Blair, Festina, Jacquet ou Gaulle ont également été écartés de la liste. Dans les cas où un participe passé coexistait avec un infinitif, nous n'avons retenu le participe employé comme adjectif que là où l'emploi adjectival était évident. Dans de nombreux cas toutefois, la décision reste purement subjective. Ce fait ne surprend pas si l'on compare par exemple les nomenclatures du PR et du DF qui sont en désaccord fréquent quant au statut que doit recevoir la forme du participe passé. Parmi de nombreux autres exemples on citera domicilier (PR, uniquement à l’infinitif) et domicilié (DF, uniquement comme adjectif). Dans le tableau, on voit également apparaître les unités lexicales composées d’au moins deux éléments tels que parce que, afin de, quant à, auprès de, à l’encontre de, etc., qui n’ont pas été reconnues comme telles suite au paramétrage de lemmatisation choisi. Nous avons reconstitué ces unités lexicales pour les intégrer également à notre liste de lemmes. Le nombre d'occurrences des particules que, de et à dans ces unités lexicales a été déduit de leur total. Le mot aujourd'hui qui, lors de la lemmatisation, avait été scindé, a été reconstitué. Suite au paramétrage, la lemmatisation de Cordial scinde pratiquement systématiquement les mots composés avec trait d'union. Pour les récupérer, nous avons utilisé le corpus non lemmatisé pour en extraire tous les mots composés avec trait d'union. Ceux qui présentaient une fréquence supérieure à 100 ont été ajoutés sous forme lemmatisée à notre liste de fréquences. En guise d'illustration, nous avons consigné dans le tableau 2 les mots composés (non lemmatisés) les plus fréquents (fréquence supérieure à 2 000) que nous avons extraits du corpus non lemmatisé. noms composés non lemmatisés mots-clés comptes-rendus etats-unis *peut-être fréquence totale 38688 24366 17175 10617 a-t-il *lui-même *week-end jean-pierre *celui-ci *au-delà e-u *celle-ci est-ce pays-bas *après-midi *rendez-vous jean-claude 7382 6701 6334 6046 5631 4976 4841 4780 4629 4551 4387 4360 4358 jean-marie *porte-parole est-il grandebretagne jean-luc *ceux-ci jean-louis dit-il p-b *elle-même *eux-mêmes jean-paul faut-il *vice-président *demi-finales *au-dessus *vis-à-vis 3848 3613 3516 3448 3084 2961 2881 2851 2770 2654 2538 2537 2356 2277 2206 2203 2030 Tableau 2. Mots composés (non lemmatisés) les plus fréquents (échantillon - fréquence supérieure à 2 000). Les mots précédés de l'astérisque ont été intégrés, après lemmatisation manuelle, dans la liste de lemmes à fréquence supérieure à 100 ; les autres étant des formes verbales, des abréviations ou des noms propres.4 L’intégration de ces mots composés a donné lieu à une réduction proportionnelle de la fréquence de chacune des composantes dans la liste de fréquences des lemmes. Ni les homonymes grammaticaux (bien (nom) et bien (adverbe)), ni les homonymes sémantiques (voler (dérober) et voler (se mouvoir dans les airs)) n’ont pu être différenciés. Dans le DAFLES, des indications de fréquence sont établies pour chaque homonyme séparément. Pour le premier type d’homonymes, nous procédons à un comptage des codes numériques différents assignés par Cordial à chaque homonyme ; pour le second, nous effectuons un comptage manuel sur un échantillon du texte. Suite aux corrections de lemmatisation présentées ci-dessus et à l’exclusion des sigles, des abréviations et des chiffres romains, la liste originale de 13 247 lemmes supérieurs à la fréquence 100 a été ramenée à une liste de 12 156 lemmes. Au premier abord, l'importance de cette liste et donc de la future nomenclature du DAFLES contraste avec les quelque 22 000 entrées du DF. Elle est toutefois largement suffisante si l'on tient compte du fait que ces 12 156 lemmes couvrent 93,14 % de tous les mots de notre corpus d'origine, déduction faite des noms propres. Le tableau suivant illustre l'évolution de la couverture des textes d'origine en fonction du nombre de lemmes (colonne rang) et de la fréquence des lemmes (colonne occurrences). L'appartenance d'un mot à l'une des classes distinguées sera reflétée dans le dictionnaire par l'assignation d'une combinaison d'astérisques (dans la colonne ‘indication fréquence’) : de cinq (pour les mots les plus fréquents) à un (pour les mots entre les rangs 3 921 et 12 156).5 classe indice de fréquence DAFLES rang occurrences 1 2 3 4 5 6 ***** **** *** ** * <= 427 <= 990 <= 1 926 <= 3 920 <= 12 156 >= 11 183 >= 5 273 >= 2 482 >= 854 >= 100 < 100 % (arrondi) du texte (sans noms propres) couvert 66 75 82 88 93 100 Tableau 3. Répartition des lemmes par tranche de fréquence. On notera que l'ajout d'une tranche de 10 000 lemmes supplémentaires, faisant passer la nomenclature de quelque 12 000 à quelque 22 000 lemmes, ne fait augmenter la couverture des textes que de 1 % approximativement, soit une proportion dérisoire par rapport à l'importance du stock de mots à prendre en considération. Les annexes 1, 2 et 3 présentent trois extraits de la liste de fréquences pour l'ensemble du corpus. 4 On notera que les deux premiers mots de la liste sont surreprésentés puisqu'ils apparaissent systématiquement dans les fiches documentaires qui accompagnent les textes d'origine. Comme nous l’avons signalé, ces fiches documentaires ont été écartées de la version lemmatisée du corpus. 5 A titre de comparaison, les deux premières tranches de fréquence du dictionnaire d'apprentissage anglais Collins Cobuild rendent compte de 75 % des textes du corpus utilisé, mais avec 1 900 mots, soit le double du français. Lorsque l'on parcourt la liste complète, on est frappé par le nombre assez important de termes spécifiques à la langue parlée qu'elle recèle (maman (rang 3502, fréquence 1025), papa (rang 4091, fréquence 795), job (rang 5658, fréquence 450), sympa (rang 7152, fréquence 293), bosser (rang 8875, fréquence 192), bouffer (rang 10653, fréquence 132), gaffe (11170, fréquence 119), etc.) tout comme un nombre assez important de formes tronquées de mots, dont la présence aussi massive dans un corpus écrit peut surprendre (pro (rang 2470, fréquence 174), prof (rang 3580, fréquence 986), ado (rang 6024, fréquence 403), sympa (rang 7152, fréquence 293), manif (rang 7488, fréquence 267), maths (rang 8194, fréquence 226), accro (rang 9476, fréquence 167), métallo (rang 11283, fréquence 117), etc.). On y retrouve également des séries de co-hyponymes complètes, tels les jours de la semaine et les mois de l'année, ainsi que la plupart des termes qui indiquent le degré de parenté (père (rang 592, fréquence 8882), mère (rang 922, fréquence 5776), parent (rang 795, fréquence 6795), fils (rang 993, fréquence 5270), fille (rang 674, fréquence 7802), enfant (rang 148, fréquence 24607), grand-père (rang 4886, fréquence 588), grand-mère (rang 5249, fréquence 517), grands-parents (rang 7595, fréquence 260), oncle (rang 4455, fréquence 691), tante (rang 6780, fréquence 327), neveu (rang 7357, fréquence 276), nièce (rang 11091, fréquence 121), mais non les combinaisons avec arrière (-grand-parents, -grand-père et grand-mère). En ce qui concerne les adjectifs dérivés de noms géographiques, il va de soi que l'actualité détermine en partie l'absence ou la présence de certains adjectifs (bosniaque (rang 6481, fréquence 353), zimbabwéen (rang 9757, fréquence 158), kosovar (rang 11629, fréquence 110) entre autres). De même, on note l’influence du pays d'origine du quotidien, compte tenu de la fréquence élevée des mots brabançon (rang 4003, fréquence 825), brainois (rang 10143, fréquence 145), borain (rang 6796, fréquence 325), etc. dans le journal Le Soir, où la rubrique des informations locales occupe une place importante. Au rédacteur du dictionnaire de décider bien évidemment de la pertinence de ces termes. 2.2. Listes de fréquences des corpus partiels Le Monde/Le Soir Le fait de disposer de deux corpus provenant de deux communautés linguistiques différentes offre la possibilité de cerner de façon relativement précise les termes spécifiques à chacune de ces communautés. Il nous semble que les variantes géographiques les plus fréquentes ont leur place dans un dictionnaire d'apprentissage, ne serait-ce que comme révélateurs d'une réalité culturelle sous-jacente. Pour établir les listes des termes spécifiques aux deux communautés (France : Le Monde - Belgique : Le Soir) nous avons procédé à une double analyse. En premier lieu, nous avons extrait des deux corpus les lemmes qui apparaissaient moins de 20 fois dans l'autre corpus. Dans le tableau 4 est consigné le résultat de cette comparaison pour les lemmes les plus fréquents du corpus Le Monde. lemme ballottage *insee *cnpf *mdc *smic *rmi cantonal fréquence corpus Le Monde 1565 781 743 647 497 464 446 *snes *ena préfectoral baccalauréat *gdf *secam *loto 280 261 253 240 239 238 238 *cgc *cftc *anpe *ratp *unedic minitel *rmc 422 412 376 358 320 313 285 *unef *bts * cdd intéressement *afb *iut 219 213 208 206 200 200 Tableau 4. Échantillon de lemmes : fréquence >= 200 corpus Le Monde/<= 20 corpus Le Soir. Comme on peut le constater, la liste renferme avant tout des sigles ou des abréviations, précédés de l'astérisque et notés systématiquement en minuscules par Cordial. Quelques mots désignant des réalités typiquement françaises apparaissent en outre : ballottage, préfectoral, baccalauréat entre autres. Viennent plus loin dans la liste d'autres mots peu/non utilisés en Belgique francophone : intersyndicale, bachelier, septennat et gazole entre autres. Le tableau 5 présente les lemmes plus spécifiquement belges. lemme *mn *psc liégeois échevin *fb *asbl *prl *rtbf *cpas namurois brugeois *sncb *fdf maïeur/mayeur fréquence corpus Le Soir 12817 4434 3498 3430 3413 3330 2868 1919 1693 1560 1392 1258 1233 1000 *tec limbourgeois *vld brabançon *ulb *ucl flandrien montois hennuyer néerlandophone *cgsp playoffs députation 996 930 856 825 788 772 730 726 717 705 630 532 529 Tableau 5. Échantillon de lemmes : fréquence >= 500 corpus Le Soir/<= 20 corpus Le Monde. Ici aussi, il est relativement simple d'extraire les mots, les sigles et les abréviations typiquement belges, tels échevin ou maïeur/mayeur. La suite de la liste contient d'autres particularités propres à la (langue de la) Belgique (francophone) : subsidier, navetteur, précompte, minimexé, etc. Les sigles occupent une place importante dans les textes et se doivent d'être mentionnés dans un dictionnaire d'apprentissage.6 6 Le DF leur réserve une section séparée. Il nous semble toutefois que leur place est à l'intérieur de la nomenclature et non en fin de volume puisque cela ne facilite aucunement la recherche, d'autant plus que quelques sigles se retrouvent bel et bien intégrés dans la nomenclature. Une deuxième analyse porte sur la fréquence relative des termes à fréquence supérieure à 20 dans les deux corpus. La faible fréquence absolue dans un corpus n'est en effet pas le seul critère pour identifier un lemme comme caractéristique d'une communauté linguistique ; la probabilité d'emploi en constitue sans conteste un autre. Comme les journaux relatent les informations des pays voisins, beaucoup de termes propres aux pays limitrophes se glissent dans les textes, mais certainement pas dans les mêmes proportions. C'est sur cette constatation qu'est basée notre deuxième analyse. Dans un premier temps, nous avons ramené toutes les fréquences absolues des lemmes à leur probabilité d'apparition dans leur corpus respectif selon la formule suivante : p = nombre d'occurrences total du lemme/nombre total d'occurrences dans le corpus partiel Un mot comme français présente ainsi une probabilité d'apparition de p=0,0011 (28 969 occurrences/25 727 742 lemmes) dans le corpus Le Monde et de p=0,0006 dans le corpus Le Soir. Inversement, belge a une proportion d'apparition de p=0,0009 dans le corpus Le Soir contre p=0,00007 dans le corpus Le Monde. Ce calcul, appliqué à la totalité des lemmes à fréquence supérieure à 20, révèle une proportion d'emploi nettement plus élevée des lemmes suivants dans le corpus Le Monde (tableau 6). La liste ne reprend que les disparités les plus flagrantes, illustrées par l'importance du chiffre qui accompagne le lemme. Les sigles et les abréviations sont à nouveau précédés de l'astérisque. lemme *cfdt *cgt *rpr *udf départemental *sncf *edf *cnrs *cac préfet *pcf *bnp lycéen *fo lyonnais interministériel fréquence relative x fois plus importante dans le corpus Le Monde par rapport au corpus Le Soir 66,5 61,9 51,6 37,5 32,6 29 25,5 24,5 20,8 19,2 18,6 16,6 14 12,9 12,4 11,4 Tableau 6. Mots typiques du corpus Le Monde (échantillon). Dans la suite de la liste, on relève d'autres mots plus spécifiques au français de France, tels que cantonal, préfecture, maire, lycée, préretraite, etc. Les mots nettement plus utilisés dans le corpus Le Soir que dans le corpus Le Monde sont les suivants (tableau 7). lemme wallon bruxellois communal *sp anversois tram subside duché infographie flamand *mcc dixit volley coach voirie ardennais urbanistique *pj germanophone fréquence relative x fois plus importante dans le corpus Le Soir par rapport au corpus Le Monde 126,6 47,1 44,7 43,6 40,5 35,4 34,3 23,2 22,5 22,4 21,6 19,3 17,7 17 15,4 15 14 13,4 12,9 Tableau 7. Mots typiques du corpus Le Soir (échantillon). Plus loin dans la liste apparaissent des termes comme provincial, intercommunal, braderie ou régionaliser qui sont également davantage propres au français de Belgique. Ces quelques exemples montrent comment, en disposant de deux corpus provenant de deux communautés linguistiques différentes, il est possible, par simple comparaison, d'extraire d'intéressantes informations quant aux termes et aux sigles propres à chacune de ces communautés. Ici aussi, le rédacteur du dictionnaire devra décider si ces informations sont pertinentes par rapport à son public-cible. Un autre aspect de la vie de la langue qui peut être saisi à partir de cette comparaison de corpus est l'assimilation de mots anglais. De ce point de vue, la France a toujours adopté une politique de défense de la langue en proposant avec un succès inégal de nombreuses alternatives aux termes anglais, principalement dans des domaines comme l'économie ou l'informatique, voire pour le vocabulaire de la vie quotidienne. Sans avoir ici des données complètes à fournir, il semble toutefois que les termes anglais sont bien représentés, tant dans le corpus Le Monde que dans le corpus Le Soir. Dans ce dernier, les mots anglais sont légèrement plus fréquents, bien que, à quelques rares exceptions près, que nous avons fait précéder d’un astérisque, la différence de fréquence ne soit pas vraiment pertinente. Le tableau 8 présente un échantillon de mots anglais relevés dans les deux corpus. mot anglais business *coach cool design efficience fréquence corpus Le Monde 446 83 108 305 27 fréquence corpus Le Soir 471 1424 169 312 23 efficient fast-food goal *goodwill *hardware holding internet joint(-)venture leasing lobbying marketing software *team trader Web/web7 14 42 69 2 4 573 4178 84 29 137 847 7 76 48 1057 23 88 108 48 15 505 2272 95 69 114 767 17 590 35 514 Tableau 8. Échantillon de mots anglais relevés dans les corpus. Une étude plus approfondie du phénomène serait nécessaire. Dans un certain nombre de cas, le terme français équivalent semble s'être imposé, comme par exemple dans le cas de logiciel (respectivement 1 392 et 721 occurrences dans les deux corpus, contre 7 et 17 pour software), alors que pour d'autres mots, le terme anglais semble bien ancré, comme pour Web ou internet face à toile, qui apparaît moins de 200 fois dans le corpus Le Monde, voire moins de 20 fois dans le corpus Le Soir, ou encore marketing face à mercatique, qui doit se contenter de 2 attestations dans l’ensemble du corpus. 3. Comparaison liste de fréquences - nomenclature du DF 3.1. Congruence des listes Comme nous l'avons fait remarquer ci-dessus, le DF met en évidence le fait que sa nomenclature couvre la langue journalistique et la langue parlée quotidienne. L'on s'attendrait dès lors à retrouver l'essentiel des mots de notre nomenclature dans celle de ce dictionnaire d'apprentissage. Tel n'est pas vraiment le cas puisque 12,1 % des mots de notre liste de fréquences n'y apparaissent pas. La progression du décalage entre les deux listes est inversement proportionnelle à la fréquence des mots (tableau 9). tranche de notre nombre de liste de mots fréquences absents du DF 0-500 0 501-1000 2 1001-1500 3 1501-2000 1 2001-2500 10 2501-3000 16 3001-3500 18 7 pourcentage sur cette tranche nombre cumulé pourcentage cumulé 0 0,4 0,6 0,2 2 3,2 3,6 0 2 5 6 16 32 50 0 0,2 0,3 0,3 0,6 1,1 1,4 La graphie avec majuscule, étiquetée comme nom propre lors de la lemmatisation, est la plus courante dans le corpus. 3501-4000 4001-4500 4501-5000 5001-5500 5501-6000 6001-6500 6501-7000 7001-7500 7501-8000 8001-8500 8501-9000 9001-9500 9501-10000 10001-10500 10501-11000 11001-11500 11501-12000 28 40 45 48 61 58 67 39 87 80 102 120 115 110 129 154 124 5,6 8 9 9,6 12,2 11,6 13,4 7,8 17,4 16 20,4 24 23 22 25,8 30,8 24,8 78 118 163 211 272 330 397 436 523 603 705 825 940 1050 1179 1333 1457 2 2,6 3,3 3,8 4,5 5,1 5,7 5,8 6,5 7,1 7,8 8,7 9,4 10 10,7 11,6 12,1 Tableau 9. Évaluation du décalage entre la liste de fréquences et la nomenclature du DF. Comme l'illustre le tableau 9, les mots jusqu'au rang 2 000 sont quasiment tous présents dans la nomenclature du DF. L'écart se creuse toutefois rapidement à partir du rang 3 500 pour atteindre plus de 20 % dans les tranches à fréquence supérieure à 8 500 de notre liste. Le tableau 10 récapitule par ordre de fréquence décroissante les mots, les sigles et les abréviations (précédés d’un astérisque) les plus fréquents qui sont absents de la nomenclature du DF. lemme *ex. *tél. *pt. investisseur budgétaire entité concertation restructuration infrastructure forum info8 privatisation *pib amendement *mm. *ndlr rwandais *pp. namurois technologique 8 fréquence corpus complet 7885 6850 5152 3922 3731 2494 2204 2198 2166 2080 1870 1831 1798 1793 1728 1726 1687 1640 1569 1549 brugeois bénéficiaire lyonnais intercommunal modalité *tv instar (à l’~ de) mini *mo sélectionneur qualifié régularisation correctionnel gantois expertise management jusque-là blues concéder holding 1392 1381 1374 1373 1345 1338 1293 1272 1271 1267 1262 1189 1177 1147 1126 1116 1102 1091 1081 1078 Le mot est mentionné dans l’article consacré à information, mais il ne fait pas l’objet d’une entrée séparée. *sicav coach infographie spécialisé socialdémocrate yougoslave 1516 1507 1455 1414 1404 1399 internaute open supporteur centrer *éd. maïeur/mayeur 1064 1060 1052 1003 1003 1000 Tableau 10. Principaux absents de la nomenclature du DF en termes de fréquence (fréquence >= 1000). Les mots en italique du tableau sont représentés dans le DF par au moins un autre membre de leur famille lexicale. Du point de vue de la compréhension, l'utilisateur trouvera donc par inférence dans le dictionnaire au moins quelques indications sur le sens du mot absent. Du point de vue de la production, compte tenu des irrégularités et/ou de la complexité du système dérivationnel du français, aucune information complémentaire ne peut pallier l'absence du mot. Il est possible en outre de cibler davantage les lacunes dans certains domaines. De ce point de vue, le vocabulaire économique semble sous-représenté dans le DF (tableau 11). lemme investisseur budgétaire restructuration privatisation pib technologique sicav bénéficiaire management holding libéralisation consultant coter business compétitivité reconversion logistique réorganisation obligataire fréquence corpus complet 3922 3731 2198 1831 1798 1549 1516 1381 1116 1078 932 927 920 917 873 813 758 753 752 Tableau 11. Principaux termes économiques absents de la nomenclature du DF. Compte tenu de l’ensemble de nos observations, on conviendra du fait qu’il faut nuancer l'affirmation selon laquelle la nomenclature du DF rend compte des mots de la presse. Cette constatation est confirmée par l'analyse des entrées du DF qui n'apparaissent pas dans notre liste de fréquences. En effet, après avoir écarté de la liste des entrées du DF les formes verbales et nominales irrégulières et les noms propres, il reste un ensemble de mots dont peu paraissent essentiels dans un contexte de communication écrite ou orale standard. Le tableau 12 en présente un échantillon tiré du début de la lettre A. a fortiori à gogo à jeun a.z.t. abasourdi abat-jour abats abattant abattis abêtir abêtissant abjurer ablution aboiement abois (aux) abominablement abortif aboutissants abracadabrant abrasif abreuvoir abricotier abrutir abrutissant abscisse absenter (s') abyssin acadien acariâtre accablement accessoiriste accotement accouder (s') accoudoir accoutrement accoutrer accroupir (s') accumulateur accus achalandé Tableau 12. Mots de la nomenclature du DF à fréquence inférieure à 100 dans le corpus. Ce fait légitime un peu plus le choix de textes journalistiques, pour lequel nous n'avions jusqu'à présent que deux arguments pragmatiques, leur disponibilité et le fait qu'ils soient utilisés fréquemment dans l'enseignement, comme point de départ de l'élaboration d'une nomenclature de dictionnaire d'apprentissage. Pour l'oral, toutefois, la question reste partiellement ouverte, faute de véritable point de comparaison. Compte tenu des listes des mots divergents, la nomenclature du DF semble plutôt orientée vers le littéraire, ce qui nous semble coller moins au contexte d'apprentissage actuel des langues étrangères. Mais, comme nous le constaterons dans ce qui suit, l’établissement d’une nomenclature basée sur des indications de fréquence est également sujette à caution. Ainsi, pour le DAFLES, afin de présenter une nomenclature cohérente, il conviendra de repêcher certains mots nécessaires pour compléter des familles de mots : s'absenter devra ainsi figurer aux côtés de absent, malgré sa fréquence inférieure à 100. Par contre, des mots comme abasourdi, abats, abattis, etc. pourront définitivement être écartés sur une base objective. 3.2. Congruence des indications de fréquence et d'importance Le DF offre pour chaque mot de la nomenclature une indication de son 'importance' : "Est important un mot dont on ne peut se passer dans le vie quotidienne, ou pour comprendre, ou pour s'exprimer" (DF, 1999 : IX). Le critère de l'importance est considéré comme supérieur à celui de la fréquence puisque Une grande partie des mots fréquents sont importants (dormir, interdit, argent, vite), mais d'autres moins fréquents sont extrêmement utiles parce qu'ils désignent des choses précises sans avoir de synonymes (coincer, comparable, obligatoirement). (DF, 1999 : IX) L'importance du mot est signalée par une flèche bleue en marge. Comme nous disposons d'indications de fréquence précises pour notre nomenclature, il nous a paru intéressant de les comparer aux indications d'importance données dans le DF. Nous avons effectué cette comparaison pour la lettre A, avec, d'une part, 1 046 lemmes de notre nomenclature et, d'autre part, 1 571 lemmes comparables pour le DF, c'est-à-dire les entrées du dictionnaire sans formes irrégulières de verbes, d'adjectifs ou de noms, sans noms propres et sans distinction d'homonymes.9 Le tableau 13 donne un aperçu général de cette comparaison. Dans les cellules figure le nombre de mots qui correspond aux critères respectifs. classe 1 2 3 4 5 6 indice de mots fréquence - importants DAFLES - DF ***** 34 **** 41 *** 76 ** 116 247 * 135 - mots moins importants DF 4 6 16 49 336 511 mots absents du DF 0 0 0 4 117 Tableau 13. Comparaison fréquence corpus - critère d'importance du DF. Les chiffres mettent en évidence un important groupe de mots à fréquence limitée dans le corpus mais considérés comme importants par les auteurs du dictionnaire (en italique dans le tableau 13). Les tableaux 14 et 15 présentent un échantillon de ces mots, respectivement pour la classe 5 (fréquence comprise entre 853 et 100) et la classe 6 (fréquence inférieure à 100). abaisser abdiquer abîmer abstraction académique accélérateur accidenté accourir abandonné abdominal abominable abstrait accablant accessoire acclamer accro abattu abeille abondant absurde accabler accidentel accordéon accueillant abbé aberrant abordable abusif accaparer accidentellement accouchement accumulation Tableau 14. Mots importants (DF) à faible fréquence (classe 5 corpus). abcès aboyer absenter (s’) accoutumé adhésif adroitement affectueux affolement abîmé abrégé acajou accroupi adipeux aérer affliger affranchissement ablation abréviation acclamation acrylique adoucissement affairé affolant affreusement aboiement abruti accoupler acuponcture adroit affectueusement affolé affublé Tableau 15. Mots importants (DF) à très faible fréquence (classe 6 corpus). Une interprétation de ce genre de données reste bien évidemment subjective, mais il semble quand même qu'au-delà du critère de l'importance, la fréquence reste un critère 9 Dans les cas où deux homonymes présentaient deux indications d'importance différente, nous avons systématiquement assignée la plus importante au lemme. Parfois, l'importance est attribuée uniquement à l'un des sens du mot. Dans ces cas, nous l'avons systématiquement reporté au lemme. indispensable. En effet, lorsque l'on compare ces deux échantillons, on relève sans conteste dans le deuxième certains mots qui ne sont pas prioritaires dans le cadre d'un apprentissage de la langue : ablation, acajou, acrylique, adipeux, affranchissement, affublé entre autres. Leur absence de la nomenclature d'un dictionnaire d'apprentissage semble dès lors s'imposer. Inversement, on peut s'étonner de voir 26 mots particulièrement fréquents dans notre corpus ne pas être considérés comme importants par le DF (en gras dans le tableau 13) : Classe 1 à10, année, américain, allemand Classe 2 afin de/que, ami, assez, actuellement, anglais, accès Classe 3 aménagement, asiatique, autoriser, actionnaire, administratif, associer, application, africain, arrêté, approuver, assistance, attribuer, affecter, arabe, albanais, auparavant Tous ces mots, sauf peut-être albanais, sont sans aucun doute des mots courants et mériteraient de figurer parmi les mots importants de la langue. Le critère d'importance d'un mot est sans conteste un critère opérationnel. Il permet de récupérer certains mots courants qui font défaut dans le corpus (aboyer, adroit, agrafer, allô, amphi, ampli, aspirateur, au revoir). Toutefois, un avis subjectif concernant l'importance des mots doit en tout cas être accompagné d'un contrôle de leur fréquence. 4. Comparaison listes de fréquence corpus journalistique - corpus TLF Dans P. IMBS (1971) sont consignées les données de fréquence relatives au TLF sous la forme d’une liste de lemmes, classés par fréquence décroissante. Nous avons prélevé de cette liste un échantillon de taille analogue à celle de notre liste de fréquences : 12 174 lemmes, soit les lemmes à fréquence supérieure à 155.11 Les divergences entre les deux listes sont assez marquées puisque nous comptons 16 475 lemmes différents après fusion. Ce chiffre élevé s’explique en partie par la lemmatisation particulière adoptée par le TLF, qui distingue trois formes du verbe (infinitif, participe passé, soit plusieurs centaines de cas, et participe présent). En outre, la lemmatisation n’est pas complète pour de nombreux mots grammaticaux (la, l’, les, une, sa, etc.) et on relève un certain nombre de lemmes déviants (longue, semaines, chère, etc.). Une comparaison des deux listes met en relief de façon très évidente les spécificités des deux corpus. Absents de l’échantillon du TLF sont toute une série de mots actuels dont le rang traduit une fréquence d’usage importante, à l’exception de mots tels que wallon ou bruxellois, qui sont surreprésentés dans le corpus belge (tableau 16). On notera que nous n’avons pas tenu compte des abréviations présentes dans notre liste de fréquences. lemme 10 rang corpus journalistique La présence du mot à dans cette liste peut surprendre. Assez étrangement, ce n'est pas le seul mot particulièrement fréquent qui n'est pas taxé d'important par le DF. Ainsi, parmi les 30 mots les plus fréquents de notre corpus (voir Annexe 1), 6 mots ne sont pas accompagnés de la flèche bleue identifiant les mots importants: le, un, à, il, tout et leur. 11 On notera que la liste originale comprend 12 427 lemmes dont la fréquence est supérieure à 155. Pour faciliter la comparaison informatisée des deux listes, nous avons toutefois dû exclure les doublons (aimant (nom, participe), alerte (adjectif, nom), aperçu (nom, participe), etc.). régional match wallon soit euro championnat football culturel sûr télévision festival bruxellois finale week-end entraîneur 314 329 360 383 436 554 557 570 573 629 641 699 719 783 802 salarié internet fédéral francophone fiscal chômeur nouvelle bourgmestre record gérer investir compétition diffuser néerlandais palestinien 804 823 859 951 998 1015 1018 1024 1052 1065 1109 1113 1142 1158 1171 Tableau 16. Mots absents de la liste de fréquences du TLF (fréquence >= 155) (échantillon). En analysant les mots absents de notre liste, on se rend compte que le corpus journalistique couvre mieux les mots très fréquents du corpus TLF qu’inversement, comme en témoigne le rang des mots consignés dans le tableau 17. Les lacunes à fréquence élevée dans le corpus TLF ont trait à quelques mots spécifiques de la conversation et à une série de mots dont bon nombre désignent des concepts qui sont datés (tableau 17). lemme ha eu hé ho hélas pardessus sou paupière sire aurore vôtre monseigneur providence immortel sottise rang corpus TLF 203 207 303 306 936 1530 1627 1904 2381 2395 2518 2529 2618 2644 2689 divinité continuel environs fâché gémir évangile tressaillir gentilhomme rameau orient piété accoutumé hideux écu matelot 2705 2728 2733 2761 2762 2805 2842 3044 3078 3130 3184 3211 3280 3282 3285 Tableau 17. Mots absents de la liste de fréquences du corpus journalistique (échantillon). De façon générale, la comparaison avec la liste du TLF met en évidence des lacunes assez prononcées du corpus journalistique dans le domaine du vocabulaire touchant les domaines propres aux personnes (sentiments, attitudes, etc.) (tableau 18). lemme fâché rang corpus TLF 2761 ravissant 3916 gémir tressaillir accoutumé balbutier infâme rancune frissonner affectueux lugubre pressentiment pensif tendrement gaiement orgueilleux 2762 2842 3211 3380 3397 3426 3450 3592 3699 3741 3766 3779 3789 3876 blâmer étreinte blême inexplicable paresseux promptement canaille langueur pâleur frémissant puéril adoration gâté ennuyé 3963 3989 4005 4007 4033 4038 4040 4103 4107 4114 4142 4159 4172 4175 Tableau 18. Mots absents de la liste de fréquences du corpus journalistique (vocabulaire touchant aux personnes) (échantillon). Ces données nous permettent d’apporter un autre correctif nécessaire à notre nomenclature originale sous la forme de l’inclusion dans le DAFLES de mots tels que fâché, rancune, lugubre, tendrement, gaiement, etc. 5. Conclusion L'élaboration d'une nomenclature est l'une des premières étapes dans le processus de rédaction d'un dictionnaire. Cet aspect est d'autant plus crucial pour un dictionnaire d'apprentissage qu'il détermine de façon évidente la qualité du dictionnaire : les apprenants doivent y retrouver les mots auxquels ils vont être confrontés et qu'ils doivent utiliser. Nous avons choisi de fonder notre nomenclature sur une analyse de corpus de textes. Pour l'écrit, les textes journalistiques offrent toutes les garanties de diversité et de disponibilité nécessaires. Ils traitent en outre de thèmes actuels en termes courants, non spécialisés. Nous avons comparé une liste de fréquences élaborée à partir de ce corpus et qui servira de nomenclature au DAFLES à la liste de fréquences du TLF ainsi qu'à la nomenclature du seul dictionnaire d'apprentissage actuel du français, le DF. Les comparaisons ont montré des divergences assez marquées. Le corpus journalistique présente une langue actuelle qui couvre assez bien le vocabulaire le plus général tel qu’il est répertorié dans les deux autres sources. Il présente certaines lacunes dans le domaine du vocabulaire spécifique aux actions et aux sentiments des personnes. Certains mots passe-partout de la langue parlée sont également absents. Inversement, le fait de coller à l’actualité donne un aperçu très complet des mots et concepts utilisés fréquemment dans la communication quotidienne. L’indice de fréquence permet en outre de corriger l’intuition du lexicographe quant à l’importance d’un mot. De façon générale, on peut poser que les lexicographes ont tout intérêt à intégrer une analyse de corpus lors du processus de définition de la nomenclature et de rédaction d’un dictionnaire. Comme le note l'éminent lexicographe anglais J. SINCLAIR (traduction reprise à V. GRUNDY 1996 : 131) : (...), il y a une différence énorme et systématique entre les impressions [que] des gens notent sur les détails de la langue et les faits de langue réels que l'on peut observer dans les textes. Cela laisse à supposer que les êtres humains ont une idée tout à fait particulière de la langue et que cette idée ne correspond pas du tout à ce qui se passe effectivement lorsqu'ils utilisent cette langue. Le corpus est le moyen par excellence de saisir une variété d'informations qui sont le reflet de la compétence linguistique d'un nombre important de locuteurs. Cette masse d'informations permet de se faire une image nuancée du fonctionnement de la langue, même s’il s’avère nécessaire d’y apporter quelques correctifs compte tenu des lacunes du corpus ou de la prise en compte d’autres critères de sélection, comme par exemple la disponibilité des mots ou le fait d’appartenir à une série conceptuelle. Face à la richesse des résultats de l’analyse de corpus, on ne peut que déplorer une fois de plus l’absence d’un grand échantillonnage de textes pour le français. Serge VERLINDE Thierry SELVA Groupe de recherche en lexicographie pédagogique (Grelep) K.U.Leuven, Belgique BIBLIOGRAPHIE BLANCHE-BENVENISTE, Claire (1996) : « De l’utilité du corpus linguistique », Revue française de linguistique appliquée, I-2, 25-42. BRUNET, Étienne (1981) : Le vocabulaire français de 1789 à nos jours d’après les données du Trésor de la langue française, Genève, Paris, Slatkine, Champion, 3 vol. (Travaux de linguistique quantitative, 17). CLIJSTERS, Willy (1990) : Mille lettres d’affaires. Richesse formelle, richesse lexicale, stock lexical, lexitope et lexitraits, combits, Paris, Genève, Champion, Slatkine. (Travaux de linguistique quantitative, 46). ENGWALL, Gunnel (1984) : Vocabulaire du roman français (1962-1968), Dictionnaire des fréquences, Stockholm, Almqvist & Wiksell International. GOUGENHEIM, Georges ; René MICHÉA, Paul RIVENC et Aurélien SAUVAGEOT (1967) : L’élaboration du Français Fondamental (1er degré), Paris, Didier. GREIDANUS, Tine (1990) : Les constructions verbales en français parlé, Étude quantitative et descriptive de la syntaxe des 250 verbes les plus fréquents, Tübingen, Max Niemeyer Verlag. (Linguistische Arbeiten, 243). GRUNDY, Valerie (1996) : « L’utilisation d’un corpus dans la rédaction du dictionnaire bilingue », in BÉJOINT, Henri et Philippe THOIRON, Les dictionnaires bilingues, Louvain-la-Neuve, Duculot, 127-149. HENMON, V.A.C. (1924) : A French word book based on a count of 400,000 running words, Madison, Wisc., University of Wisconsin. IMBS, Paul (1971) : Dictionnaire des fréquences. Vocabulaire littéraire des XIXe et XXe siècles, I – Table alphabétique, II - Table des fréquences décroissantes. Nancy, Paris, C.N.R.S., Didier. JUILLAND, Alphonse ; Dorothy BRODIN et Catherine DAVIDOVITCH (1970) : Frequency Dictionary of French Words, La Haye, Paris, Mouton. LYNE, Anthony A. (1985) : The vocabulary of French business correspondance. Word frequencies, collocations and problems of lexicometric method, Genève, Paris, Slatkine, Champion. (Travaux de linguistique quantitative, 23). MORTUREUX, Marie-Françoise (1997) : La lexicologie entre la langue et le discours, Paris, Sedes. VANDER BEKE, G.E. (1929) : French Word Book, New York, (Publications of the American and Canadian Committees on Modern Languages, vol. XV). Dictionnaires PR. REY-DEBOVE, Josette et Alain REY (1993) : Le nouveau Petit Robert. Dictionnaire alphabétique et analogique de la langue française, Paris, Dictionnaires Le Robert. Collins Cobuild. SINCLAIR, John (1995) : Collins Cobuild English Dictionary, Londres, HarperCollins Publishers. DAFA. BINON, Jean, Serge VERLINDE, Jan VAN DYCK et Ann BERTELS (2000) : Dictionnaire d’apprentissage du français des affaires, Paris, Didier. DF. REY-DEBOVE, Josette (1999) : Dictionnaire du français, Référence, Apprentissage, Paris, Dictionnaires Le Robert, CLE International. TLF. IMBS, Paul (1971-1994) : Trésor de la langue française, Paris, C.N.R.S., Gallimard. Sites Web ABU (2000) : http://cedric.cnam.fr/ABU/ BOE (2000) : http://titania.cobuild.collins.co.uk/boe_info.html BNC (2000) : http://info.ox.ac.uk/bnc/ INALF (2000) : http://www.inalf.cnrs.fr/produits.html SELVA, Th. (2000) : http://maupassant.free.fr VERLINDE, S. (2000) : http://www.kuleuven.ac.be/ilt/Grelep/outinfor/outinfin.htm VÉRONIS, J. (2000) : http://www.up.univ-mrs.fr/~veronis Logiciels Cordial 6 (version universitaire). Synapse développement. (http://www.synapse-fr.com) Wordcruncher. Redstone Publishing Inc. Cédéroms Le Monde sur CD-ROM, 1997-1998, SA Le Monde, CEDROM-SNI. Le Soir, un an d’actualité sur CD-ROM, 1998. Rossel & Cie S.A. – Le Soir, CEDROM-SNI. Annexe 1. Liste de fréquences – corpus Le Monde/Le Soir – rangs 1 - 144 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 le 4771159 de 4050075 un 1402180 être 1031568 à 995167 et 918697 avoir 894894 en 707854 du 618501 que 563995 ce 539348 il 487660 au 480436 ne 404043 pour 397440 son 396359 se 395902 dans 378609 qui 378063 par 343586 pas 271970 sur 271194 plus 226764 tout (~ + ~ à fait + ~ le monde) 175581 avec 175224 faire 162389 on 158122 mais 155462 pouvoir 138199 leur 135159 elle 124223 ou 117065 je 108704 comme 103892 deux 102577 nous 102556 an 99829 y 94281 premier 92410 devoir 91544 autre 90551 si 88271 même 79125 grand 73432 aussi 71709 nouveau 71681 m 70503 sans 68680 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 entre 66330 celui 64374 bien (~ + ~ que) 63051 après 62034 lui 60579 depuis 60106 où 60052 monde 58684 année 57906 dire 57497 notre 56156 dernier 55633 aller 55427 dont 55267 prendre 51002 encore 50671 mettre 49992 pays 49361 quelque 48898 français 48851 très 48239 politique 47103 président 46955 contre 46267 trois 46252 jour 45782 voir 43074 heure 42030 moins 41977 avant 41141 falloir 40889 ministre 40380 certain 39915 homme 39909 public 39564 vouloir 39540 venir 39390 peu 39216 travail 39124 groupe 38926 alors (~ + ~ que)38856 petit 38582 temps 37953 sous 37692 vous 37184 ainsi 37048 jeune 36730 européen 36541 fois 36473 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 million 36071 national 35983 place 35035 déjà 34932 bon 34861 aujourd'hui 34671 donner 34633 savoir 34552 rester 34337 seul 34218 donc 34062 non 33991 mois 33611 me (me + Me) 33598 général 33380 franc 33238 passer 32869 personne 32715 américain 32457 fin 32392 toujours 32251 permettre 31788 jusque 31301 selon 30935 affaire 30624 gouvernement 30562 droit 30415 cela 30244 conseil 29869 entreprise 29798 projet 29586 mon 29572 point (~ + ~ de vue) 29186 ancien 28790 trouver 28604 social 28089 vie 28088 lors 26781 service 26778 ville 26458 quatre 26116 devenir 25958 marché (~ + bon ~) 25926 région 25590 là (~ + par ~) 25344 expliquer 25164 fait 25083 Annexe 2. Liste de fréquences – corpus Le Monde/Le Soir – rangs 6005 - 6151 6005 6006 6007 6008 6009 6010 6011 6012 6013 6014 6015 6016 6017 6018 6019 6020 6021 6022 6023 6024 6025 6026 6027 6028 6029 6030 6031 6032 6033 6034 6035 6036 6037 6038 6039 6040 6041 6042 6043 6044 6045 6046 6047 6048 6049 6050 6051 6052 6053 velours durcir hausser intégriste manne pharmacien sécheresse semblant espionnage explicite licencié récital sommer combustible déboires départir (se) libraire unifier vitalité ado boxe compatible fourgon fragiliser hormone légalement scout 407 406 406 406 406 406 406 406 405 405 405 405 405 404 404 404 404 404 404 403 403 403 403 403 403 403 403 socio-économique 403 transiter 403 anomalie 402 anthologie 402 archéologie 402 couvent 402 dénombrer 402 locomotive 402 marquant 402 séisme 402 souder 402 veto 402 âne 401 ardeur 401 assouplir 401 cocaïne 401 croyance 401 exonération 401 lady 401 originel 401 précurseur 401 réfuter 401 6054 6055 6056 6057 6058 6059 6060 6061 6062 6063 6064 6065 6066 6067 6068 6069 6070 6071 6072 6073 6074 6075 6076 6077 6078 6079 6080 6081 6082 6083 6084 6085 6086 6087 6088 6089 6090 6091 6092 6093 6094 6095 6096 6097 6098 6099 6100 6101 6102 ressusciter sécuritaire supériorité baguette dé inter relèvement riz typique atterrissage balcon cerf désespéré ému nordique panorama plaignant plénier progressiste promis rythmique aléatoire basket écologie incendier lucide 401 401 401 400 400 400 400 400 400 399 399 399 399 399 399 399 399 399 399 399 399 398 398 398 398 398 professionnalisme 398 recherché 398 sincère 398 trier 398 ultérieur 398 amiante 397 encombrer 397 indéterminé 397 patienter 397 sentimental 397 virulent 397 dissuader 396 grandissant 396 inexistant 396 logo 396 nager 396 out 396 vengeance 396 adn 395 ancrage 395 muer 395 nappe 395 obtention 395 6103 6104 6105 6106 6107 6108 6109 6110 6111 6112 6113 6114 6115 6116 6117 6118 6119 6120 6121 6122 6123 6124 6125 6126 6127 6128 6129 6130 6131 6132 6133 6134 6135 6136 6137 6138 6139 6140 6141 6142 6143 6144 6145 6146 6147 6148 6149 6150 6151 préoccupant 395 sociologique 395 trésorerie 395 bailleur 394 bénéfique 394 connaisseur 394 cristal 394 désarmer 394 doré 394 douche 394 gazon 394 lapin 394 méconnu 394 réorganiser 394 sauvegarder 394 statuer 394 vase 394 zoo 394 célébrité 393 levier 393 fraternité 392 incompréhension392 intervalle 392 recycler 392 affectif 391 brusquement 391 conformer (se) 391 malentendu 391 poupée 391 présentateur 391 primordial 391 abandonné 390 baptême 390 concerter (se) 390 démarquer 390 exagérer 390 hangar 390 involontaire 390 mitigé 390 purger 390 relativiser 390 replacer 390 roder 390 valider 390 affilée (d') 389 blé 389 cerise 389 comptabiliser 389 constatation 389 Annexe 3. Liste de fréquences – corpus Le Monde/Le Soir – rangs 12012 - 12156 12012 12013 12014 12015 12016 12017 12018 12019 12020 12021 12022 12023 12024 12025 12026 12027 12028 12029 12030 12031 12032 12033 12034 12035 12036 12037 12038 12039 12040 12041 12042 12043 12044 12045 12046 12047 12048 12049 12050 12051 12052 12053 12054 12055 12056 12057 12058 12059 carnavalesque carrure cocher coloniser couronné déclinaison délétère dernier-né économe égérie exagéré exulter falsification fédéraliste flirt fourré friandise glauque haineux inflexible majuscule mime motorisé numériser obtempérer parfumerie pâture pénombre pléthore poigne ravageur rebâtir respectabilité sahraoui talus thermal usurper viticole ad hoc adorable amande arabisation autodéfense béant bourguignon calculette captiver commissairepriseur 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 102 101 101 101 101 101 101 101 101 101 101 12060 12061 12062 12063 12064 12065 12066 12067 12068 12069 12070 12071 12072 12073 12074 12075 12076 12077 12078 12079 12080 12081 12082 12083 12084 12085 12086 12087 12088 12089 12090 12091 12092 12093 12094 12095 12096 12097 12098 12099 12100 12101 12102 12103 12104 12105 12106 12107 12108 coquetterie crescendo date-butoir déconnecter ducasse exacerbé féminité foisonner humer ignoble imperturbable interné joncher luth maçonnerie malencontreux menuisier mitraillette névrose niet pastiche plombier pontifical porte-à-faux potache prétentieux réminiscence sac-poubelle sanglot sieste subsidiarité syndiqué tactiquement technocratique transmissible truculent vénézuélien vengeur vétusté volatile affleurer ballotter bavarder bévue biathlon blinder caïd capituler cerisier 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 101 100 100 100 100 100 100 100 100 100 12109 12110 12111 12112 12113 12114 12115 12116 12117 12118 12119 12120 12121 12122 12123 12124 12125 12126 12127 12128 12129 12130 12131 12132 12133 12134 12135 12136 12137 12138 12139 12140 12141 12142 12143 12144 12145 12146 12147 12148 12149 12150 12151 12152 12153 12154 12155 12156 chaland 100 connexe 100 crevaison 100 dangerosité 100 dédramatiser 100 délabrement 100 différenciation 100 douloureusement100 étouffement 100 flairer 100 fortifier 100 fructifier 100 gonflable 100 gouache 100 hémophile 100 hirondelle 100 homologuer 100 impardonnable 100 incrédulité 100 irrévocable 100 maniaque 100 méchanceté 100 minimalisme 100 modulable 100 montagnard 100 mouette 100 mythologique 100 parraineur 100 plasma 100 prospectus 100 quote-part 100 radicalisation 100 radiologue 100 rassembleur 100 réévaluation 100 reparaître 100 répréhensible 100 retentissement 100 richement 100 roc 100 sunnite 100 supercross 100 tchadien 100 torchon 100 tour-opérateur 100 truchement 100 turinois 100 volontariat 100