Nathalie GASIGLIA Des usages en corpus aux

Transcription

Nathalie GASIGLIA Des usages en corpus aux
Nathalie GASIGLIA
Des usages en corpus
aux descriptions dictionnairiques
VOLUME
1 : Document de synthèse
Habilitation à diriger des recherches
Université Charles-de-Gaulle - Lille 3, 6 décembre 2010
Jury : Dany AMIOT (Garante)
Gaston GROSS
Ulrich HEID
Jean PRUVOST (Rapporteur)
Serge VERLINDE
Pierre ZWEIGENBAUM (Rapporteur)
© Nathalie GASIGLIA, 2010
Avant-texte général
Le dossier que cet avant-texte introduit a été élaboré en vue de l’obtention d’une
habilitation à diriger des recherches (HDR). Préparé de juillet 2009 à octobre 2010, il
est, conformément à l’usage, composé d’un document de synthèse et de la compilation
des contributions commentées.
Cet avant-texte expose le principe d’organisation de ce dossier et exprime mes remerciements à ceux qui, d’une manière ou d’une autre, ont contribué à ce que ce travail
arrive à son terme.
Principes d’organisation
Le premier volume est lui-même composé de deux subdivisions majeures : les paratextes introductifs et le document de synthèse proprement dit.
Les paratextes réunissent la table des matières, une table des sigles et des abréviations utilisés dans la synthèse et plusieurs inventaires, qui détaillent respectivement
mes publications et productions scientifiques, mes communications et exposés, les projets financés auxquels j’ai participé, les ressources (corpus, bases de données métalexicographiques et prototypes de dictionnaires) que j’ai développées dans le cadre de mes
recherches, mes relations avec le monde industriel ou socio-économique, le séminaire
de recherche et de formation doctorale que j’ai animé et les mémoires dirigés, seule ou
en collaboration.
Chacun des éléments inventoriés est associé à un code constitué d’une ou plusieurs
lettre(s) qui en spécifie(nt) la nature et d’un nombre qui indique son rang, défini en
fonction de son ordre chronologique au sein du sous-ensemble des objets de même
nature. Par exemple, T1 réfère au premier texte rédigé et publié, Rcorp1 à la première
ressource de type corpus, etc. Tout ce qui est répertorié dans la rubrique « Inventaires »
(pp. XXIII-XLVIII), à l’exception des communications et exposés (codes C et E) et des
mémoires dirigés (Mdir), est également listé sur le marque-page joint aux volumes. Les
mentions des projets (P), des ressources (Rcorp, Rbd et Rdic), des relations avec le
monde professionnel (Exp) et du séminaire (S) sont accompagnées de courts descriptifs dans le paratexte introductif, mais pas dans ce récapitulatif autonome.
Le texte du document de synthèse est structuré en deux parties principales, qui,
comme l’exprime le titre général Des usages en corpus aux descriptions dictionnairiques, correspondent à un découpage de mes activités de recherche en deux grands
sous-ensembles : d’une part les traitements de corpus et d’autre part les études métalexicographiques, qui peuvent être orientées vers des analyses de produits éditoriaux
ou des conceptions de prototypes dictionnairiques.
Les deux autres volumes réunissent, eux, les vingt-quatre textes publiés ou en cours
de publication et les cinq textes de diffusion restreinte sur lesquels portent les commentaires formulés dans le mémoire. Ces textes connaissent pour la circonstance une
réédition qui permet de gommer les séquelles des différents accidents éditoraux advenus lors de certaines éditions originales et d’homogénéiser la présentation des contributions.
II
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Ce dossier, qui revient sur les activités de recherche qui ont été les miennes depuis
mon recrutement comme maître de conférences en linguistique et informatique en 1999,
témoigne de la polyvalence que j’ai acquise au fil des ans. Comme il est destiné à des
spécialistes de différents domaines qui sont susceptibles de ne pas avoir les mêmes
repères dans tous ceux qu’abordent mes travaux, j’ai tenté de conjoindre dans le texte
de la synthèse une densité technique conforme à ce qui peut être attendu dans ce type
d’écrit et un didactisme utile pour que chacun puisse disposer des repères nécessaires
à la compréhension de chaque développement.
Remerciements
En sa qualité de production écrite, ce document existe pour les lecteurs qui lui consacreront ou lui ont déjà consacré du temps et de l’attention.
Parmi ceux-ci, je voudrais dire ma reconnaissance aux membres du jury, qui me font
l’honneur de lire ou relire les pièces de ce document : Dany Amiot, Gaston Gross, Ulrich
Heid, Jean Pruvost, Serge Verlinde et Pierre Zweigenbaum. Chacun d’eux ayant des
domaines de recherche intersectifs avec les miens mais aussi des terrains autres (en
morphologie, syntaxe et sémantique, en traitements automatiques de corpus, et en lexicographie et métalexicographie), les commentaires qu’ils formuleront seront empreints
de leurs connaissances respectives et assurément complémentaires. Je les remercie
d’avoir bien voulu lire ce copieux document dans un temps très court et je me réjouis
de pouvoir bénéficier de leurs critiques et de leurs éclairages.
D’autres personnes ont lu des versions préliminaires. Je tiens à remercier une nouvelle fois ici ceux qui, avant leur publication, ont commenté certains des textes compilés dans les deux autres volumes. Je voudrais également exprimer ma gratitude à Pierre
Corbin et à Frédérique Landeau pour leur accompagnement et pour les annotations
critiques qu’ils ont portées sur les premières versions du texte de la synthèse.
Le document présenté dans le cadre d’une HDR est à la fois le produit du travail
borné dans le temps de la préparation du mémoire et celui de l’ensemble des activités
de recherche de la première partie d’une carrière.
Les travaux développés depuis 1999 seraient autres si je n’avais pas eu à animer
avec Pierre Corbin la formation professionnelle de lexicographes qu’il a créée avec
Danielle Corbin. C’est très souvent à cet ancrage pédagogique que mes recherches ont
dû les rencontres dont mes travaux se sont nourris.
Je souhaite exprimer ma sympathie aux étudiants avec lesquels j’ai eu des échanges
stimulants, et en particulier ceux qui ont contribué à des développements de corpus
(comme Vassil Mostrov, qui a consacré une année post-DESS à l’un d’eux).
Je tiens par ailleurs à remercier les partenaires professionnels, qu’ils représentent
des entreprises privées, des laboratoires de recherche ou des organismes d’État, qui
nous font profiter de la richesse de leur expérience et qui m’ont aidée à acquérir des
compétences informatiques et lexicographiques, ainsi qu’une certaine connaissance
de la vie des maisons d’édition et de prépresse ou des industries de la langue. Les
échanges de vues que nous avons eus ont dynamisé mes recherches en leur offrant un
cadre. Les noms de ces partenaires sont évoqués à l’occasion, au fil des pages du mémoire, et je ne peux malheureusement pas les reprendre tous ici. Mais je veux néan-
Avant-texte général
III
moins mentionner expressément ceux de Luc Audrain, Martyn Back, Ann Bertels, Jean
Binon, Ralf Brockmeier, Estelle Campion, Laurent Catach, Claude de Loupy, MarieJeanne Derouin, Alexandre Ecker, Ralph Fichtner, Thierry Fontenelle, Bénédicte
Gaillard, Valerie Grundy, Ilan Kernerman, Dominique Le Fur, Sylvain Loiseau, Julian
Parish, Hans Paulussen, Thierry Poibeau, Roger Rainero, Pierre Rézeau, Thierry Selva
et Serge Verlinde.
J’ai plaisir aussi à exprimer mes remerciements aux collègues enseignants-chercheurs,
chercheurs et autres partenaires au contact desquels mes travaux se sont élaborés ou
avec lesquels des projets sont engagés : Fabio Acerbi, Antonio Balvet, Henri Béjoint,
Jean-Claude Boulanger, François Corbin, Alise Lehmann, André Le Meur, Camille
Martinez, Jean-Marie Pierrel, Jean Pruvost, Dejan Stosic, Danièle Van de Velde, Jean
Véronis, Geoffrey Williams, et tous ceux avec lesquels j’ai des échanges plus informels.
J’aimerais enfin témoigner ma reconnaissance aux informaticiens – Édouard Neidenberger pour l’UMR STL, et Franck Wisniewski et ses collaborateurs pour les salles
pédagogiques de l’Université Lille 3 – qui m’ont fourni une précieuse assistance technique, aux personnels qui assurent la gestion de nos activités de recherche (projets,
déplacements, etc.) et aux collègues qui ont dirigé et animé l’UMR qui m’accueille.
Paratextes introductifs
du volume 1
Table des matières
Volume 1
Avant-texte général....................................................................................................
I
Paratextes introductifs du volume 1 .........................................................................
V
Table des matières ................................................................................................
VII
Volume 1 ..........................................................................................................
IX
Volume 2 ..........................................................................................................
XIII
Volume 3 ..........................................................................................................
XIV
Table des sigles et des abréviations .....................................................................
XVII
Inventaires ............................................................................................................
XXIII
Publications et productions scientifiques .......................................................
XXV
Communications et exposés ............................................................................
XXIX
Projets financés................................................................................................
XXXII
Ressources développées ...................................................................................
XXXV
Relations avec le monde industriel ou socio-économique : valorisation de la
recherche ..........................................................................................................
XL
Animation de séminaire de recherche et de formation doctorale..................
XLI
Mémoires dirigés .............................................................................................
XLII
Document de synthèse ...............................................................................................
1
0. Introduction .....................................................................................................
3
1. Traitements de corpus.....................................................................................
11
1.1. Définir des manières d’envisager les traitements de corpus ................
13
1.2. Définir un objet de recherche qui motive de recourir à des corpus.......
19
1.2.1. Explorer un corpus de presse pour observer des unités lexicales
liées morphosémantiquement [T1 (2001)] .....................................
19
1.2.2. Problématiser le recours aux corpus en lexicographie [T2 (2002) ;
Tdr1]................................................................................................
23
1.3. Préconiser le haut rendement par une sélection stricte des documents
primaires : les commentaires de matchs de football..............................
33
1.3.1. Introduction de la notion de corpus à haut rendement [T3 (2005b) ;
Rcorp1 ; Rcorp2] .........................................................................
40
1.3.2. Maturité du corpus de commentaires footballistiques radiodiffusés
[T4 (2004a) ; Rcorp1 ; Rcorp2 ; Rcorp4] .................................
43
1.3.3. Le haut rendement valorisé par des explorations méthodiques
[T5 (2008b) ; Rcorp1 ; Rcorp3 ; Rdic3] ....................................
53
1.3.4. Expérience bilingue : le corpus serbe / français [P3 ; Rcorp16]...
65
1.3.5. Conclusion : aborder le rendement exploratoire des corpus par le
typage discursif des documents qui les constituent.......................
67
1.4. Créer d’autres corpus thématiques pour étudier l’incidence de chaque
variation domaniale.................................................................................
71
X
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
1.4.1. Les corpus de transcriptions du projet OURAL [P2 ; T8 (2008c) ;
Rcorp5 ; Rcorp6] .........................................................................
72
1.4.2. Le corpus bilingue du tourisme [T10 (2008d) ; Rcorp7].............
77
1.4.3. Le corpus de lexicographie [T18 (2009a) ; Rcorp12 ; Rdic2] ...
83
1.4.4. Conclusion : la thématisation des corpus ne garantit pas leur rendement..............................................................................................
89
1.5. Fournir une expertise technique pour des corpus variés ......................
93
1.5.1. Élargir les perspectives de collaborations [S1 ; Tdr2 (2006)] .....
94
1.5.2. D’un corpus littéraire à une base textuelle en ligne [P3 ; Rcorp15]
97
1.5.3. D’un corpus des versions et traductions d’un texte à l’édition critique parallèle de celui-ci [P5]........................................................
100
1.5.4. De l’étude de la “densité déductive” de théorèmes mathématiques
à leur publication électronique [P4 ; Rcorp14]...........................
102
1.5.5. Conclusion : quand l’informatique éditoriale fait partie intégrante
des traitements de corpus ...............................................................
104
1.6. Définir des principes de structuration déterminés par la nature des
explorations prévues................................................................................
109
1.6.1. Le corpus de textes de lecture [T20 (à paraître d) ; Rcorp13]...
110
1.6.2. Le corpus des écrits de Danielle Corbin [Tdr4 (en préparation a) ;
Rcorp8 ; Rcorp9 ; Rcorp10 ; Rcorp11]..................................
115
1.6.3. Conclusion : Annoter un corpus en prévision des explorations à
venir .................................................................................................
127
1.7. Conclusion : place des traitements de corpus ........................................
129
2. Métalexicographie ...........................................................................................
133
2.1. Définir une manière d’étudier des dictionnaires ...................................
135
2.1.1. Objets, méthodes et moyens............................................................
135
2.1.2. Références et descriptions des répertoires monolingues généraux :
la base du marché éditorial [Rbd1] ...............................................
140
2.1.3. Plan du commentaire des travaux métalexicographiques ............
145
2.2. Analyses structurelles : du repérage des composants d’articles à l’étude
de leurs contenus .....................................................................................
149
2.2.1. Analyse structurelle d’articles de dictionnaires monolingues ......
151
2.2.1.1. L’article tuer du Nouveau Petit Robert..................................
151
2.2.1.2. Le Larousse pratique ...............................................................
157
2.2.1.3. Le Larousse des débutants [Rdic4]........................................
167
2.2.1.4. Conclusion : des articles monolingues aux bilingues...............
171
2.2.2. Analyse structurelle d’articles de dictionnaires bilingues [T6
(2004b)] ............................................................................................
171
2.2.3. Balisage semi-automatique d’articles bilingues et repérage des
relations privilégiées liant certains composants [T7 (2005a)]......
178
2.2.4. Conclusion : xmlisation de répertoires pour la valorisation des
textes imprimés et l’analyse métalexicographique........................
184
Table des matières
XI
2.3. Identification des unités linguistiques et de leurs différents emplois
décrits dans les articles de dictionnaires ...............................................
193
2.3.1. Étude des principes de sélection de nomenclatures [T24 (à paraître a)] ...........................................................................................
194
2.3.2. Comparaison de nomenclatures à partir des formes graphiques
en adresses macro- et microstructurelles [Rbd5] .........................
202
2.3.3. Analyse des relations entre unités linguistiques et représentations
graphiques de leurs référents [Rbd2] ...........................................
214
2.3.4. Identification des unités linguistiques par leur(s) forme(s) phonique(s) et graphique(s) [T23 (2010b)] ..........................................
225
2.3.5. Analyse de descriptions de constructions syntaxiques [T9 (2009c)] .
236
2.3.6. Analyse des modalités d’identification des unités linguistiques à
partir des formes graphiques rencontrées dans des textes et de
leurs contextes d’emploi [Tdr5 (en préparation b)] ......................
250
2.3.7. Conclusion : du choix au repérage de ce qui fait l’objet de traitements................................................................................................
256
2.4. Étude des marquages ou prescriptions d’emplois lexicaux dans des dictionnaires monolingues ...........................................................................
261
2.4.1. Étude de la variété des marquages [T11 (à paraître b) ; Rbd3] ..
269
2.4.2. Analyse fonctionnelle des marquages interprétables comme prescriptifs [T14 (à paraître e)] ............................................................
292
2.4.3. Étude du marquage des mots du “parler enfantin” [T22 (à paraître c) ; Rbd6] ..............................................................................
300
2.4.4. Conclusion : un panorama et des études particulières pour mieux
comprendre l’emploi des marques et marquages textuels ............
314
2.5. Étude des indications relatives à l’origine des mots décrits dans des
dictionnaires scolaires .............................................................................
319
2.5.1. Étude de la variété des sélections et expressions des mentions
d’origines étrangères [T12 (2008a) ; Rbd4] .................................
320
2.5.2. Analyse des fonctions des mentions d’origines étrangères et de
leurs associations avec d’autres informations [T13 (2008g) ; T16
(2008f )] .............................................................................................
334
2.5.3. Analyse critique des identifications diachroniques dans une sélection de dictionnaires pour le cycle 3 et le début du collège [T15
(2008e)].............................................................................................
343
2.5.4. Conclusion : vers un dictionnaire historique de la langue junior ? ..
350
2.6. Susciter et faire dialoguer des analyses plurielles de dictionnaires.....
353
2.6.1. Croiser des modes de lecture innovants [Tdr3 (2010)].................
353
2.6.2. Apprécier d’éventuelles évolutions dictionnairiques [T19 (2009b)]...
357
2.6.3. Conclusion : stimuler le partage de thématiques de recherche ....
361
2.7. Incidences des évolutions informatiques dans les processus éditoriaux ...
363
2.7.1. Appréhender les évolutions éditoriales [T17 (2009d) §§ 1. et 2.]..
364
XII
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
2.7.2. Spéculations dictionnairiques : vers un prototype de dictionnaire
scolaire [T17 (2009d) § 3. ; T21 (2010a) ; Rdic6]......................
368
2.7.3. Conclusion : de l’observation de pratiques éditoriales à l’élaboration de prototypes de dictionnaires.................................................
375
2.8. Conclusion : place de la métalexicographie (analytique et de conception)..
379
3. Conclusion........................................................................................................
383
Références bibliographiques.................................................................................
389
Références de dictionnaires, d’encyclopédies, de bases lexicales et de didacticiels ................................................................................................................
391
Autres références .............................................................................................
399
Table des matières
XIII
Volume 2
Paratextes introductifs du volume 2 .........................................................................
XLIX
Avant-texte des textes publiés, à paraître ou à diffusion restreinte..................
LI
Rappel de la table des matières ...........................................................................
LIII
Volume 1 ..........................................................................................................
LV
Volume 2 ..........................................................................................................
LIX
Volume 3 ..........................................................................................................
LX
Textes publiés ou à paraître
(1e
partie).....................................................................
413
« Meaning and the Generation of Reference » (2001, en collaboration
avec Pierre CADIOT & François NEMO) .................................................
415
T2
« Pour un traitement automatique optimisant la consultation de corpus
électroniques en lexicographie » (2002) ................................................
427
T3
« Stratégie de constitution de corpus oraux transcrits (1) : arguments
pour un corpus plurithématique à haut rendement » (2005b) ............
435
T4
« Faire coopérer deux concordanciers-analyseurs pour optimiser les extractions en corpus » (2004a).................................................................
451
T5
« Stratégie de consultation de corpus oraux transcrits : pistes méthodologiques pour l’exploration d’un corpus thématique à haut rendement » (2008b)........................................................................................
471
« Lire les dictionnaires (2). Une DTD pour le Robert & Collins Junior
bilingue : spéculations métalexicographiques » (2004b, en collaboration avec Pierre CORBIN) ....................................................................
491
T7
« Étude de faisabilité d’une conversion XML semi-automatique du texte
du Robert & Collins Junior bilingue (1) : délimitation des éléments
et calcul de portée des contextualisations phrastiques » (2005a) .......
549
T8
« Stratégie de constitution de corpus oraux transcrits (2) : pistes méthodologiques adoptées pour la création d’un corpus thématique dans
le cadre du projet OURAL » (2008c) .....................................................
591
« Le monde étrange des dictionnaires (9). La quadrature du cercle des
dictionnaires monolingues imprimés pour l’expression : le cas du
Dictionnaire du français au collège » (2009c, en collaboration avec
Pierre CORBIN) .......................................................................................
603
T10 « De la création d’un corpus bilingue du tourisme à partir du Web à
son exploration avec ParaSearch et Unitex pour la documentation
des lexicographes » (2008d, en collaboration avec Hans PAULUSSEN)...
629
T11 « Éléments pour un état de la description de la variété des usages lexicaux dans les dictionnaires français monolingues (1980-2008) » (à
paraître b, en collaboration avec Pierre CORBIN) .................................
657
T12 « Le traitement des emprunts dans les dictionnaires d’apprentissage
français : options descriptives et choix rédactionnels » ( 2008a).........
677
T13 « Le traitement des anglicismes dans quelques dictionnaires français
pour jeunes lecteurs » (2008g)...............................................................
723
T1
T6
T9
XIV
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Volume 3
Paratextes introductifs du volume 3 .........................................................................
LXIII
Rappel de la table des matières ...........................................................................
LXV
Volume 1 ..........................................................................................................
LXVII
Volume 2 ..........................................................................................................
LXXI
Volume 3 ..........................................................................................................
LXXII
Textes publiés ou à paraître (2e partie).....................................................................
741
T14 « Les divers aspects de la prescription dans les dictionnaires scolaires »
(à paraître e)...........................................................................................
743
T15 « Le traitement des “identifications diachroniques” dans des dictionnaires scolaires français : évaluation de pratiques et proposition de
principes de rédaction alternatifs » (2008e) .........................................
759
T16 « Description of loan words in French school dictionaries: treatment of
words of foreign origin in Dictionnaire Hachette junior (2006) and
Le Robert junior illustré (2005) » (2008f )..............................................
789
T17 « Évolutions informatiques en lexicographie : ce qui a changé et ce qui
pourrait émerger » (2009d)....................................................................
799
T18 « Approche des métaphores dans le lexique afférent à la lexicographie »
(2009a, en collaboration avec Pierre CORBIN) ......................................
857
T19 « Changer les dictionnaires ? Une pluralité d’approches » (2009b, en
collaboration avec Pierre CORBIN) ........................................................
879
T20 « Stratégie de constitution d’un corpus de textes scolaires dédié à des
études métalexicographiques et à la conception d’un module d’hyperappel de dictionnaire » (à paraître d, en collaboration avec Stavroula
MARKEZI) ................................................................................................
909
T21 « Some editorial orientations for a multi-tier electronic monolingual
school dictionary » (2010a) ....................................................................
925
T22 « Étude des marquages d’emplois lexicaux identifiés comme relevant
du “parler enfantin” dans quatre dictionnaires Robert monolingues
contemporains » (à paraître c)...............................................................
931
T23 « Donner un accès aisé aux formes phoniques des mots décrits dans un
dictionnaire : étude pour un dictionnaire monolingue français destiné à de jeunes utilisateurs » (2010b) ..................................................
945
T24 « Représentations lexicographiques actuelles du lexique français : aperçus sur les choix de nomenclatures » (à paraître a, en collaboration
avec Pierre CORBIN) ...............................................................................
959
Textes à diffusion restreinte ......................................................................................
985
Tdr1 « Electronic corpora for lexicographers: how we can optimise the output of KWIC lists consultations » (2001) ..............................................
987
Tdr2 « Comité d’orientation pour Frantext : contribution de linguistes de
l’UMR STL pour la réunion du 16 novembre 2006 » (2006) ................
995
Table des matières
XV
Tdr3 « Lire les dictionnaires : une pluralité d’approches. Présentation du
projet » (2010).........................................................................................
1009
Tdr4 « Vers une édition critique électronique des écrits de Danielle Corbin
(1) : du corpus structuré à l’interface de consultation en ligne » (en
préparation a) ........................................................................................
1021
Tdr5 « Le Dictionnaire Hachette benjamin met-il à la portée des élèves du
CE1 les mots d’un manuel de français ? » (en préparation b) .............
1027
Table des sigles et des abréviations
Les abréviations relatives aux ouvrages sont décodées en bibliographie.
AFNOR
Agence Française de NORmalisation
AGILE [projet]
Atelier de Génie Informatique et Linguistique
ALITHILA
Analyses LITtéraires et HIstoire de la LAngue (EA 1061, Université Lille 3)
ALT
Apprentissage des Langues et Technologies
ANHIMA
ANthropologie et HIstoire des Mondes Antiques (UMR 8210, Université
Paris Diderot)
ANR
Agence Nationale de la Recherche
API
Alphabet Phonétique International
ARTFL [projet]
American and French Research on the Treasury of the French Language
ATALA
Association pour le Traitement Automatique des LAngues
ATILF
Analyse et Traitement Informatique de la Langue Française (UMR 7718,
Nancy-Université)
AWK
langage de programmation inventé par Alfred Aho, Peter Weinberger et
Brian Kernighan
BQR
Budget Qualité Recherche (des universités)
C
Communication
CALL
Computer-Assisted Language Learning
CALN
Compréhension Automatique du Langage Naturel (anciennement
équipe du LIF)
CDD
Contrat de travail à Durée Déterminée
CE1 / CE2
Cours Élémentaire 1e / 2e années (de l’enseignement primaire)
CIFRE
Convention Industrielle de Formation par la REcherche
CIFRE (contrat) contrat de travail subventionné dans le cadre d’une Convention Industrielle de Formation par la REcherche
CLIN [meeting]
Computational Linguistics In the Netherlands
CMLF
Congrès Mondial de Linguistique Française
CM1 / CM2
Cours Moyen 1e / 2e années (de l’enseignement primaire)
CNRS
Centre National de la Recherche Scientifique
CNRTL
Centre National de Ressources Textuelles et Lexicales
COD
Complément d’Objet Direct
CP
Cours Préparatoire (de l’enseignement primaire)
CRISCO
Centre de Recherches Inter-langues sur la Signification en COntexte (EA
4255, Université de Caen)
CRTT
Centre de Recherche en Terminologie et Traduction (EA 4162, Université
Lumière Lyon 2)
CSS
Cascading Style Sheets
XX
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
D
Direction d’ouvrages collectifs
DEA
Diplôme d’Études Approfondies
DEL
“Diplôme Européen de Lexicographie”
DELIC
DEscription Linguistique Informatisée sur Corpus (anciennement EA
3779, Université de Provence)
DESS
Diplôme d’Études Supérieures Spécialisées
DFG
Deutsche Forschungsgemeinschaft
DGLF
Délégation Générale à la Langue Française
DGLFLF
Délégation Générale à la Langue Française et aux Langues de France
DTD
Définition de Type de Document
E
Exposé
EA
Équipe d’Accueil
EACL [congrès]
European Chapter of the Association for Computational Linguistics
EAO
Enseignement Assisté par Ordinateur
Exp
mission d’Expertise ou de conseil
FLE
Français Langue Étrangère
FLS
Français Langue Seconde
FOS
Français sur Objectifs Spécifiques
HDR
Habilitation à Diriger des Recherches
HTML (ou HTM) Hypertext Markup Language
IDL (maîtrise)
maîtrise “Industries De la Langue”
ILF
Institut de Linguistique Française (fédération de recherche 2393)
INALCO
Institut NAtional des Langues et Civilisations Orientales
INaLF
Institut National de la Langue Française (anciennement fédération de
recherche)
IRD
Institut de Recherche pour le Développement
ISBN
International Standard Book Number
ISO
International Organization for Standardization
KWIC list
Key Word In Context list
LADL
Laboratoire d’Automatique Documentaire et Linguistique (anciennement
laboratoire du CNRS)
LDI
Lexiques, Dictionnaires, Informatique (UMR 7187, Universités Paris 13
et de Cergy-Pontoise)
LIF
Laboratoire d’Informatique Fondamentale de Marseille (UMR 6166, Universités Aix-Marseille 1 et 2)
LT (DESS)
DESS “Lexicographie et Terminographie”
Table des sigles et des abréviations
XXI
LTTAC (DESS,
M2 ou master)
DESS, M2 ou master “Lexicographie, Terminographie et Traitement
Automatique des Corpus”
Mdir
Mémoire dirigé
MÉTADIF
centre de recherches MÉTAlexicographiques et DIctionnairiques Francophones (anciennement UMR 8127, Université de Cergy-Pontoise)
MRAP
Mouvement contre le Racisme et pour l’Amitié entre les Peuples
M1 / M2
master 1e / 2e années
n.
note
nn.
notes
P
Projet financé
p.
page
PAO
Publication Assistée par Ordinateur
#PCDATA
mot-clé des langages de balisage SGML et XML désignant des “données”
(DATA) de type caractères (C ) analysables par un parseur (P ) (le dièse
indiquant que PCDATA est un mot-clé)
PDF
Portable Document Format
PHP
PHP: Hypertext Preprocessor (langage de scripts utilisé pour produire
des pages Web dynamiques)
pp.
pages
Rbd
Ressource développée de type base de données métalexicographique
Rcorp
Ressource développée de type corpus (ou outil ou produit associé)
Rdic
Ressource développée de type prototype de dictionnaire
S
Séminaire
SGML
Standard Generalized Markup Language
SHS
Sciences Humaines et Sociales
SILEX
Syntax Interprétation LEXique (anciennement UMR 8528, Université
Lille 3)
SQL
Structured Query Language
STEVIN [programme]
Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands
STL
Savoirs, Textes, Langages (UMR 8163, Universités Lille 1 et 3)
T
Texte publié ou à paraître
TAL
Traitement Automatique des Langues
TAL (M1)
M1 “ Traitement Automatique des Langues”
TALEP
Traitement Automatique du Langage Écrit et Parlé (composante du LIF)
TALN [conférence]
Traitement AUtomatique des Langues Naturelles
XXII
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Tdr
Texte à diffusion restreinte
TEI
Text Encoding Initiative
UMR
Unité Mixte de Recherche
URL
Uniform Resource Locator
W3C
World Wide Web Consortium
XML
eXtensible Markup Language
XPath
XML Path Language
XSL
eXtensible Stylesheet Language
XSL-FO
eXtensible Stylesheet Language - Formatting Objects
XSLT
eXtensible Stylesheet Language Transformations
Inventaires
Publications et productions scientifiques
Directions d’ouvrages collectifs
2009, en collaboration avec Pierre CORBIN, Lexique 19, « Changer les dictionnaires ? », 305 p.
[D1]
Contributeurs : Henri Béjoint, Jean Binon, François Corbin, Pierre Corbin, Thierry Fontenelle, Nathalie Gasiglia, Thierry Selva, Danièle Van de Velde, Serge Verlinde.
en préparation, Lexique 22, « Lire les dictionnaires. Une pluralité d’approches ». [D2]
Contributeurs : Lucie Barque, Pierre Corbin, Nathalie Gasiglia, Alexandre Ecker, Ralph
Fichtner, Philippe Gréa, Sylvain Loiseau, Camille Martinez, Alain Polguère.
Articles publiés avant la soutenance de thèse
1996a, « Pressoir à/pour olives et ventilateur à/avec hélice, deux indices interprétatifs pour
les N1 à N2 noms d’instruments », LINX, numéro d’hommage à Jean Dubois, pp. 169186.
1996b, « Le rôle de la préposition et de certains suffixes dans l’interprétation automatique
de séquences N1 à N2 désignant des instruments, et dont le N1 est en liaison avec un
verbe », Recueil du Centre d’Études Linguistiques, Université de Dunkerque, pp. 56-68.
Thèse
1998, Constructions de représentations sémantiques de séquences polylexicales de structure
N1 à N2 désignant des instruments à partir des indices portés par la préposition à, la
morphosémantique des N1 et N2 et de propriétés extraites sur ces noms, thèse de doctorat nouveau régime en linguistique théorique, formelle et automatique, soutenue le 8
octobre 1998, Université Paris VII.
Jury : Bernard Bosredon, Pierre Cadiot (rapporteur), Benoît Habert (codirecteur), Hélène
Huot, Danièle Leeman (rapporteur), François-Xavier Testard-Vaillant (directeur).
Articles publiés depuis la soutenance de thèse (ou à paraître)
2001, en collaboration avec Pierre CADIOT & François NEMO, « Meaning and the Generation of Reference », in Pierrette Bouillon & Kyoko Kanzaki eds, First International Workshop on Generative Approaches to the Lexicon. April 26-28, 2001, Geneva, Switzerland,
Genève, Université de Genève, École de Traduction et d’Interprétation, pp. non numérotées [225-232]. [T1]
2002, « Pour un traitement automatique optimisant la consultation de corpus électroniques
en lexicographie », in Anna Braasch & Claus Povlsen eds, Proceedings of the Tenth International EURALEX Congress, EURALEX 2002, Copenhague, Center for Sprogteknologi,
vol. I, pp. 105-111. [T2]
XXVI
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
2004a, « Faire coopérer deux concordanciers-analyseurs pour optimiser les extractions en
corpus », Revue française de linguistique appliquée IX.1 (« Linguistique et informatique :
nouveaux défis », Benoît Habert dir.), pp. 45-62. [T4]
2004b, en collaboration avec Pierre CORBIN, « Lire les dictionnaires (2). Une DTD pour le
Robert & Collins Junior bilingue : spéculations métalexicographiques », Cahiers de lexicologie 84 (« Hommage à Michel Glatigny », Jean Pruvost éd.), pp. 135-194. [T6]
2005a, « Étude de faisabilité d’une conversion XML semi-automatique du texte du Robert
& Collins Junior bilingue (1) : délimitation des éléments et calcul de portée des contextualisations phrastiques », in Michaela Heinz éd., L’exemple lexicographique dans les
dictionnaires français contemporains. Actes des “Premières journées allemandes des
dictionnaires”, Lexicographica Series Maior 128, Tübingen, Max Niemeyer Verlag, pp.
147-186. [T7]
2005b, « Stratégie de constitution de corpus oraux transcrits (1) : arguments pour un corpus plurithématique à haut rendement », in Geoffrey Williams dir., La linguistique de
corpus en France ou en français, collection Rivages linguistiques, Rennes, Presses Universitaires de Rennes, pp. 219-232. [T3]
2008a, « Le traitement des emprunts dans les dictionnaires d’apprentissage français : options descriptives et choix rédactionnels », in Jean Pruvost dir., Les Journées des dictionnaires de Cergy. Dictionnaires et mots voyageurs. Les 40 ans du Petit Robert. De
Paul Robert à Alain Rey, collection Actes de colloque, Éragny-sur-Oise, Éditions des
Silves, pp. 153-212. [T12]
2008b, « Stratégie de consultation de corpus oraux transcrits : pistes méthodologiques
pour l’exploration d’un corpus thématique à haut rendement », in Geoffrey Williams
éd., Actes des Troisièmes Journées de la Linguistique de Corpus, revue électronique
Texte et Corpus, pp. 145-164, http://web.univ-ubs.fr/corpus/jlc3/2_5_gasiglia.pdf. [T5]
2008c, « Stratégie de constitution de corpus oraux transcrits (2) : pistes méthodologiques
adoptées pour la création d’un corpus thématique dans le cadre du projet OURAL », in
Geoffrey Williams éd., Actes des quatrièmes Journées de la Linguistique de Corpus, revue
électronique Texte et Corpus, pp. 13-23, http://web.univ-ubs.fr/corpus/jlc4/acteJLC2005_
2_gasiglia.pdf. [T8]
2008d, en collaboration avec Hans PAULUSSEN, « De la création d’un corpus bilingue du
tourisme à partir du Web à son exploration avec ParaSearch et Unitex pour la documentation des lexicographes », in François Maniez, Pascaline Dury, Nathalie Arlin &
Claire Rougemont dir., Corpus et dictionnaires de langues de spécialité, Grenoble,
Presses Universitaires de Grenoble, pp. 231-270. [T10]
2008e, « Le traitement des “identifications diachroniques” dans des dictionnaires scolaires
français : évaluation de pratiques et proposition de principes de rédaction alternatifs »,
in Jacques Durand, Benoît Habert & Bernard Laks resp., Congrès mondial de linguistique française. Paris, 9-12 juillet 2008, Paris, Institut de Linguistique Française / EDP
Sciences, pp. 1117-1136 du CD-ROM ; http://www.linguistiquefrancaise.org/articles/cmlf/
pdf/2008/01/cmlf08236.pdf, pp. 1129-1148. [T15]
2008f, « Description of loan words in French school dictionaries: treatment of words of foreign origin in Dictionnaire Hachette junior (2006) and Le Robert junior illustré (2005) »,
in Elisenda Bernal & Janet DeCesaris eds, Proceedings of the XIII EURALEX International Congress (Barcelona 15-19 July 2008), Sèrie Activitats 20, Barcelona, Institut
Universitari de Lingüística Aplicada, pp. 1115-1122. [T16]
Inventaires
XXVII
2008g, « Le traitement des anglicismes dans quelques dictionnaires français pour jeunes
lecteurs », in François Maniez & Pascaline Dury dir., Lexicographie et terminologie :
histoire de mots. Hommage à Henri Béjoint, Travaux du CRTT, Gap, Louis Jean Imprimeur, pp. 157-174. [T13]
2009a, en collaboration avec Pierre CORBIN, « Approche des métaphores dans le lexique
afférent à la lexicographie », in Pascaline Dury, François Maniez, Nathalie Arlin &
Claire Rougemont éds, La métaphore en langues de spécialité, Travaux du CRTT, Grenoble, Presses Universitaires de Grenoble, pp. 83-116. [T18]
2009b, en collaboration avec Pierre CORBIN, « Changer les dictionnaires ? Une pluralité
d’approches », Lexique 19 (« Changer les dictionnaires ? », Pierre Corbin & Nathalie
Gasiglia dir.), pp. 7-38. [T19]
2009c, en collaboration avec Pierre CORBIN, « Le monde étrange des dictionnaires (9). La
quadrature du cercle des dictionnaires monolingues imprimés pour l’expression : le cas
du Dictionnaire du français au collège », Lexique 19 (« Changer les dictionnaires ? »,
Pierre Corbin & Nathalie Gasiglia dir.), pp. 41-68. [T9]
2009d, « Évolutions informatiques en lexicographie : ce qui a changé et ce qui pourrait émerger », Lexique 19 (« Changer les dictionnaires ? », Pierre Corbin & Nathalie Gasiglia dir.),
pp. 224-298. [T17]
2010a, « Some editorial orientations for a multi-tier electronic monolingual school dictionary », in Sylviane Granger & Magali Paquot eds, eLexicography in the 21st Century:
New challenges, new applications. Proceedings of eLex 2009, Louvain-la-Neuve, 22-24
october 2009, coll. Cahiers du Cental, vol. 7, Louvain-la-Neuve, UCL, Presses Universitaires de Louvain, pp. 393-398. [T21]
2010b, « Donner un accès aisé aux formes phoniques des mots décrits dans un dictionnaire : étude pour un dictionnaire monolingue français destiné à de jeunes utilisateurs », in Anne Dykstra & Tanneke Schoonheim eds, Proceedings of the XIV Euralex
International Congress (Leeuwarden, 6-10 July 2010), Ljouwert, Fryske Akademy /
Afûk, pp. 1092-1104. [T23]
à paraître a, en collaboration avec Pierre CORBIN, « Représentations lexicographiques actuelles du lexique français : aperçus sur les choix de nomenclatures », Cahiers de lexicologie. [paru en octobre 2010 (Cahiers de lexicologie 96.1 (« Problèmes de lexique »,
Jean-Claude Anscombre & Gaston Gross dir.), pp. 35-65.) ; T24]
à paraître b, en collaboration avec Pierre CORBIN, « Éléments pour un état de la description de la variété des usages lexicaux dans les dictionnaires français monolingues actuels », in Actes du colloque international La marque lexicographique : quel avenir ?,
Université de Chypre, 21-23 octobre 2006. [prévu pour fin 2010 ; T11]
à paraître c, « Étude des marquages d’emplois lexicaux identifiés comme relevant du “parler enfantin” dans quatre dictionnaires Robert monolingues contemporains », Carnets
d’Atelier de Sociolinguistique (actes du colloque Dimensions (visions et représentations)
sociolinguistiques dans les dictionnaires, organisé par Christophe Rey et Philippe Reynes,
Atelier du LESCLaP, Université de Picardie Jules Verne, Amiens, 9 décembre 2009).
[T22]
à paraître d, en collaboration avec Stavroula MARKEZI, « Stratégie de constitution d’un corpus de textes scolaires dédié à des études métalexicographiques et à la conception d’un
module d’hyperappel de dictionnaire », in Geoffrey Williams éd., Actes des sixièmes Journées de la Linguistique de Corpus, revue électronique Texte et Corpus. [T20]
XXVIII
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
à paraître e, « Les divers aspects de la prescription dans les dictionnaires scolaires », in
Danièle Candel & Douglas Kibbee éds, Actes du colloque international Prescriptions en
langue (histoire, succès, limites) (Paris, 15 & 16 novembre 2007). [T14]
Habilitation à diriger des recherches (HDR)
2010, Des usages en corpus aux descriptions dictionnairiques, mémoire d’Habilitation à
diriger des recherches, 3 vol., Université Charles-de-Gaulle, Lille 3.
Jury : Dany Amiot (directrice), Gaston Gross, Ulrich Heid, Jean Pruvost (rapporteur), Serge
Verlinde, Pierre Zweigenbaum (rapporteur).
Textes à diffusion restreinte joints au dossier d’HDR
2001, « Electronic corpora for lexicographers: how we can optimise the output of KWIC lists
consultations », Twelfth CLIN (Computational Linguistics In the Netherlands) Meeting,
Twente (Pays-Bas), 30 novembre 2001. [Tdr1]
2006, « Comité d’orientation pour Frantext : contribution de linguistes de l’UMR STL pour
la réunion du 16 novembre 2006 », Comité d’orientation pour Frantext, ATILF, Nancy,
16 novembre 2006. [Tdr2]
2010, « Lire les dictionnaires : une pluralité d’approches. Présentation du projet ». [Tdr3]
en préparation a, « Vers une édition critique électronique des écrits de Danielle Corbin
(1) : du corpus structuré à l’interface de consultation en ligne ». [Tdr4]
en préparation b, « Le Dictionnaire Hachette benjamin met-il à la portée des élèves du
CE1 les mots d’un manuel de français ? », Lexique 22 (« Lire les dictionnaires. Une
pluralité d’approches », Nathalie Gasiglia dir.). [Tdr5]
Texte en préparation non joint au dossier d’HDR
en préparation c, « Lire les dictionnaires. Présentation d’une sélection de lectures innovantes », Lexique 22 (« Lire les dictionnaires. Une pluralité d’approches », Nathalie
Gasiglia dir.).
Compte rendu d’ouvrage
2004, « Jean Véronis, Parallel Text Processing: Alignment and use of translation corpora,
Kluwer Academic Publishers, 2000, 428 p., ISBN 0-7923-6546-1 », Traitement automatique des langues 45.1, pp. 183-187.
Inventaires
XXIX
Communications et exposés
Communications en colloques internationaux avant la soutenance de thèse
1995a, « Le rôle de la préposition et de certains suffixes dans l’interprétation automatique
de séquences N1 à N2 désignant des instruments et dont le N1 est en liaison avec un
verbe », Rencontres des jeunes linguistes, Dunkerque, 17-18 mars 1995.
1995b, « Éléments pour l’interprétation automatique de séquences N1 à N2 désignant des
instruments », Deuxièmes rencontres de l’Atelier de doctorants de linguistique de l’Université Pais VII, 8 décembre 1995.
1996, « Rôle des N2 et Lexique génératif, deux pistes pour l’interprétation automatique de
séquences N1 à N2 noms d’instruments », Deuxièmes rencontres des jeunes linguistes,
Dunkerque, 15-16 mars 1996.
Communications en colloques internationaux depuis la soutenance de thèse
2001a, en collaboration avec Pierre CADIOT & François NEMO, « Meaning and the Generation of Reference », GL2001, 1st International Workshop on Generative Approaches to
the Lexicon, Genève (Suisse), 26-28 avril 2001. [C1, cf. T1]
2001b, « Corpus électroniques : quelles perspectives pour la lexicographie monolingue ? »,
Journée “Linguistique de corpus et linguistique appliquée”, organisée par l’Association
Française de Linguistique Appliquée (AFLA), Université de Bretagne-Sud, Lorient, 14
septembre 2001. [C2]
2001c, « Corpus alignés et lexicographie bilingue », Huitième Symposium International de
traduction, terminologie et lexicologie de l’Université Dalhousie, Halifax (Canada), 5 octobre 2001. [C3]
2001d, « Electronic corpora for lexicographers: how we can optimise the output of KWIC
lists consultations », Twelfth CLIN (Computational Linguistics In the Netherlands) Meeting, Twente (Pays-Bas), 30 novembre 2001. [C4, cf. Tdr1]
2002a, « Extractions automatiques en corpus de langue commune française : quels enrichissements en attendre pour les descriptions lexicographiques et comment procéder
efficacement ? », Atelier “Les français des corpus”, organisé sous l’égide de l’Association
of French Studies et la Society of French Studies, Bristol (Grande-Bretagne), 16 février
2002. [C5]
2002b, « Pour un traitement automatique optimisant la consultation de corpus électroniques
en lexicographie », Tenth EURALEX International Congress, Copenhague (Danemark),
13-17 août 2002. [C6, cf. T2]
2002c, « Vers un corpus thématisé de dialogues radiodiffusés : défense et illustration », Journées “Linguistique de corpus et linguistique appliquée”, organisées par le Centre de Recherche en Littérature, Linguistique et Civilisation (CRELLIC), Université de BretagneSud, Lorient, 12-14 septembre 2002. [C7, cf. T3]
2003, « Pistes méthodologiques pour l’exploration d’un corpus à haut rendement relatif au
parler du football, une langue de spécialité de grande diffusion », 3 es journées de linguistique de corpus, organisées par le Centre de Recherche en Littérature, Linguistique et
XXX
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Civilisation (CRELLIC), Université de Bretagne-Sud, Lorient, 11-13 septembre 2003.
[C8, cf. T5]
2004, « Une DTD pour typologiser les contextualisations : étude exploratoire du Robert &
Collins Junior bilingue », 1 ères Journées allemandes des dictionnaires - Colloque international de lexicographie : “Entre définition et citation : l’exemple. L’exemple lexicographique dans les dictionnaires français contemporains”, organisé par Michaela Heinz,
Klingenberg am Main (Allemagne), 25-27 juin 2004. [C9, cf. T7]
2005a, en collaboration avec Pierre CORBIN, « La quadrature du cercle des dictionnaires
monolingues imprimés pour l’expression : le cas du Dictionnaire du français au collège », Journée des dictionnaires 2005 : “Cent ans du Petit Larousse illustré et une lexicographie laroussienne de plus de cent cinquante ans”, organisée par l’UMR MÉTADIF,
Université de Cergy-Pontoise, 23 mars 2005. [C10, cf. T9]
2005b, « Stratégie de constitution de corpus oraux transcrits (2) : pistes méthodologiques
adoptées pour la création d’un corpus thématique dans le cadre du projet OURAL »,
Quatrièmes journées de la linguistique de corpus, organisées par le Centre de Recherche
en Littérature, Linguistique et Civilisation (CRELLIC), Université de Bretagne-Sud,
Lorient, 15-17 septembre 2005. [C11, cf. T8]
2006a, en collaboration avec Hans PAULUSSEN, « De la création d’un corpus bilingue du tourisme à partir du Web à son exploration avec ParaSearch et Unitex pour la documentation des lexicographes », Colloque “Corpus et dictionnaires de langues de spécialité”,
organisé par le Centre de Recherche en Terminologie et Traduction (CRTT), Université
Lumière Lyon 2, 28-29 septembre 2006. [C12, cf. T10 & E8]
2006b, en collaboration avec Pierre CORBIN, « Les marques dans les dictionnaires français
monolingues : état actuel », Colloque international “La marque lexicographique : quel
avenir ?”, organisé par le Département d’Études Françaises, Université de Chypre, Nicosie,
20-23 octobre 2006. [C13, cf. T11]
2007a, « Le traitement des emprunts dans les dictionnaires d’apprentissage français : options descriptives et choix rédactionnels », Journée des dictionnaires 2007 : “Dictionnaires et mots voyageurs. Les 40 ans du Petit Robert. De Paul Robert à Alain Rey”, organisée par l’UMR MÉTADIF, Université de Cergy-Pontoise, 14 mars 2007. [C14, cf. T12]
2007b, « The treatment of anglicisms in a selection of dictionaries designed for young schoolchildren in France », 38 th Poznán Linguistic Meeting PLM 2007, organisé par The School
of English, Adam Mickiewicz University, Poznán (Pologne), 13-16 septembre 2007. [C15]
2007c, « Le traitement des anglicismes dans quelques dictionnaires français pour jeunes
lecteurs », Colloque international “Lexicographie et terminologie : histoire de mots. Hommage à Henri Béjoint”, organisé par le Centre de Recherche en Terminologie et Traduction (CRTT), Université Lumière Lyon 2, 27-29 septembre2007. [C16, cf. T13]
2007d, « Marquage et prescription dans les dictionnaires scolaires », Colloque international
“Prescriptions en langue (histoire, succès, limites)”, organisé par Danielle Candel &
Douglas Kibbee, Ministère délégué à la Recherche, Paris, 15-16 novembre 2007. [C17,
cf. T14]
2008a, « Le traitement des “identifications diachroniques” dans des dictionnaires scolaires
français : évaluation de pratiques et proposition de principes de rédaction alternatifs »,
Congrès mondial de linguistique française, organisé par l’Institut de Linguistique Française (ILF ), Cité universitaire internationale, Paris, 9-12 juillet 2008. [C18, cf. T15]
2008b, « Description of loan words in French school dictionaries: treatment of words of foreign origin in Dictionnaire Hachette junior (2006) and Le Robert junior illustré (2005) »,
Inventaires
XXXI
XIII EURALEX International Congress, Université Pompeu Fabra, Barcelone, 15-19 juillet 2008. [C19, cf. T16]
2008c, en collaboration avec Pierre CORBIN, « La métaphore dans le lexique de la lexicographie », Journée du CRTT “La métaphore en langues de spécialité”, Université Lumière
Lyon 2, 26 septembre 2008. [C20, cf. T18]
2009a, en collaboration avec Stavroula MARKEZI, « Stratégie de constitution de corpus pour
une étude métalexicographique et la conception d’un module d’hyperappel de dictionnaire », 6 es Journées internationales de linguistique de corpus, organisées par l’équipe
Linguistique de Corpus et des Ressources Numériques (LiCoRN), Université de BretagneSud, Lorient, 10-12 septembre 2009. [C21, cf. T20]
2009b, « Some editorial orientations for a multi-tier electronic monolingual school dictionary », Colloque international “eLexicography in the 21st century: new challenges, new
applications” (eLex2009), organisé par le Centre for English Corpus Linguistics (CECL),
Université Catholique de Louvain, Louvain-la-Neuve (Belgique), 22-24 octobre 2009.
[C22, cf. T21]
2009c, « Étude des marquages d’emplois lexicaux identifiés comme relevant du “parler enfantin” dans des dictionnaires monolingues français contemporains », Colloque international “Dimensions (visions et représentations) sociolinguistiques dans les dictionnaires”,
organisé le Laboratoire d’Études Sociolinguistiques sur les Contacts de Langues et la
Politique Linguistique (LESCLaP), Université de Picardie Jules Verne, Amiens, 10-11
décembre 2009. [C23, cf. T22]
2010, « Donner un accès aisé aux formes phoniques des mots décrits dans un dictionnaire :
étude pour un dictionnaire monolingue français destiné à de jeunes utilisateurs », XIV
EURALEX International Congress, Fryske Akademy, Leeuwarden, 06-10 juillet 2010.
[C24, cf. T23]
Exposés en séminaires ou groupes de travail
2000a, « Retour critique sur les recherches menées dans le cadre du doctorat », séminaire
interne de l’UMR SILEX, Université Lille 3, 4 février 2000. [E1]
2000b, « Exploitation de la cocompositionnalité du sens observée au sein des séquences N1
à N2 permettant de désigner des instruments pour la génération automatique de patrons interprétatifs », séminaire interne du LADL, Université Paris 7, 28 février 2000.
[E2]
2000c, « Réflexions sur la formalisation de descriptions lexicales (1) », groupe de travail
“Sémantique et indexicalité du sens”, fondé et animé par Pierre Cadiot (Université
Paris 8 et ELSAP), 15 mars 2000. [E3]
2000d, « Réflexions sur la formalisation de descriptions lexicales (2) », groupe de travail
“Sémantique et indexicalité du sens”, fondé et animé par Pierre Cadiot (Université
Paris 8 et ELSAP), 14 juillet 2000. [E4]
2003, « Quel outillage informatique pour le travail du linguiste ? », séminaire de l’École doctorale ACCES, Université Lille 3, 20 février 2003. [E5, cf. T4]
2004a, « Quand deux concordanciers-analyseurs collaborent pour étudier la langue du football », séminaire interne de l’UMR SILEX, Université Lille 3, 13 février 2004. [E6, cf.
T4]
XXXII
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
2004b, « Un objet d’étude linguistique – les verbes exprimant la transmission du ballon au
football –, deux concordanciers-analyseurs. », séminaire de l’École doctorale ACCES,
Université Lille 3, 16 mars 2004. [E7, cf. T4]
2006a, en collaboration avec Hans PAULUSSEN, « Créer un corpus bilingue aligné à partir
du Web et l’exploiter : comment procéder et quels bénéfices en tirer ? », Séminaire “Constitution et exploration de corpus”, UMR STL, Université Lille 3, 18 septembre 2006.
[E8, cf. T10 & C12]
2006b, « Comité d’orientation pour Frantext : contribution de linguistes de l’UMR STL pour
la réunion du 16 novembre 2006 », Comité d’orientation pour Frantext, ATILF, Nancy,
16 novembre 2006. [E9, cf. TC4]
2007a, « Frantext (1) », séminaire “Constitution et exploration de corpus”, UMR STL & École
doctorale, Université Lille 3, 9 janvier 2007. [E10]
2007b, « Constitution de corpus multilingues à partir de traductions saisies dans des traitements de texte et des mémoires de traduction (1) », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 11 janvier 2007. [E11]
2007c, « Frantext (2) », séminaire “Constitution et exploration de corpus”, UMR STL & École
doctorale, Université Lille 3, 23 janvier 2007. [E12]
2007d, « Frantext (3) », séminaire “Constitution et exploration de corpus”, UMR STL & École
doctorale, Université Lille 3, 2 février 2007. [E13]
2007e, « Structuration de corpus monolingues en XML », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 28 mars 2007. [E14]
2007f, « Frantext (4) : exploration avec Unitex des exports de Frantext », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 3 avril
2007. [E15]
2007g, « Constitution de corpus à partir de CD-ROM de presse », séminaire “Constitution
et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 13 avril 2007.
[E16]
2007h, « Structuration en XML de corpus multilingues de textes alignés », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 16
mai 2007. [E17]
2007i, « Présentation de différentes techniques d’alignement de textes traduits réunis dans
un corpus multilingue », séminaire “Constitution et exploration de corpus”, UMR STL
& École doctorale, Université Lille 3, 16 mai 2007. [E18]
Projets financés
P1 Projet Matoutou (en 2001)
Françoise et Pierre Grenand, anthropologues de l’Institut de Recherche pour le Développement (IRD) d’Orléans, travaillaient avec différents linguistes (dont François Nemo et Pierre
Cadiot) à la description de langues parlées en Guyane française : le wayana, le wayampi et le
palikur. Ces recherches ont motivé le projet d’un dictionnaire bilingue wayana-français augmenté d’équivalences traductionnelles en wayampi et palikur.
Inventaires
XXXIII
Ce projet, intitulé Matoutou et porté par Françoise Grenand, a été financé de janvier à novembre 2001 par la DGLF (Délégation Générale à la Langue Française, maintenant DGLFLF ),
le CNRS et l’IRD. Il est fondé sur le principe que tout travail mené sur une des langues de
Guyane doit être utilisable ultérieurement pour d’autres langues et par d’autres chercheurs.
J’ai pour ma part participé à la conception de l’organisation structurelle du dictionnaire,
– en travaillant avec les différents partenaires,
– en encadrant les mémoires consacrés à ce sujet de deux étudiantes de la promotion 20002001 du DESS “Lexicographie et Terminographie” (Marianne Ebersberg (Mdir4) et Caroline
Moulart (Mdir6)),
– et en codirigeant avec François Nemo les stages de quatre mois (prolongés par des CDD
d’un mois) de ces deux étudiantes.
Du 15 mars au 15 août 2001 j’ai ainsi
– participé à la définition du projet dictionnairique et à la délimitation de son programme
d’informations avec l’ensemble des partenaires,
– conçu une structuration en composants d’information élémentaires conforme au projet et un
schéma de relations de la base SQL qui devait accueillir les descriptions, puis implémenté
celle-ci sous 4D, un système de gestion de base de données compatible Mac, avec la collaboration des deux étudiantes,
– et supervisé la rédaction par ces dernières d’un mode d’emploi de la base lexicographique
destiné à la formation des chercheurs et des informateurs (bilingues wayana / français en particulier) qui seraient amenés à la manipuler.
P2 Projet OURAL (de 2003 à 2005)
Le projet OUtils et Ressources pour l’Analyse de la Langue (OURAL) est l’un des constituants
du projet AGILE (Atelier de Génie Informatique et Linguistique), financé dans le cadre de la
campagne “Technolangue”.
OURAL a impliqué des chercheurs de 6 entités :
– l’entreprise Sinequa SAS (porteur du projet : Claude de Loupy),
– mon UMR de rattachement (UMR 8528 - SILEX, pour laquelle j’ai assumé la responsabilité
du projet),
– le Laboratoire de Psychologie Expérimentale (UMR 8581) de l’université Paris V,
– le Laboratoire d’Informatique de l’université Paris VI,
– le Laboratoire d’Informatique d’Avignon de l’université d’Avignon et des Pays de Vaucluse,
– et le Laboratoire VALORIA (EA 2593) de l’université de Bretagne Sud.
Ce projet avait vocation à mettre à la disposition des industries de la langue et des chercheurs
en linguistique et informatique, de manière gratuite ou à faible coût, des outils et des ressources de base pour le traitement de la langue écrite ou parlée. Pour ce qui concernait SILEX
et VALORIA, il s’agissait de produire des corpus xmlisés à partir de documents oraux transcrits, au sein desquels chaque mot-occurrence soit associé à une lemmatisation et à un étiquetage en parties du discours.
Outre le travail sur les corpus, mon implication dans ce projet m’a conduite à faire recruter
un étudiant par l’université durant un an et cinq stagiaires durant deux à trois mois chacun,
afin qu’ils participent à mes côtés à la constitution de deux corpus, le premier (de 55 000
mots-occurrences) réunissant des émissions radiophoniques relatives à des questions juridiques (Rcorp5), et le second (de 99 000 mots-occurrences) rassemblant des entretiens portant sur des questions de gestion locative de bien immobiliers (Rcorp6).
Pour des raisons de non-obtention des droits d’exploitation des sources radiophoniques, seul
le second corpus a été livré en fin de projet.
[cf. http://www2.enseignementsup-recherche.gouv.fr/technolangue/projet/projlabel.htm]
P3 Projet Constitution du corpus parallèle français-serbe (depuis 2008)
Le projet multicomposantes Constitution du corpus parallèle français-serbe est porté par Dejan
Stosic (Université d’Arras, EA 4521 - Centre de Recherche en Linguistique française et en
Didactique du français, également connu sous le nom de Grammatica).
XXXIV
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
D’abord financé par une dotation du BQR (le Budget Qualité Recherche) de l’université d’Arras,
il l’est maintenant par l’ÉGIDE dans le cadre du programme franco-serbe (projet PHC Pavle
Savic 2010, cf. http://www.egide.asso.fr/jahia/Jahia/accueil/appels/phc/appelphc/savic).
Le projet initial prévoyait le développement de quatre corpus, dont deux en français (dédiés
respectivement à des études de français langue étrangère (FLE) ou de français sur objectifs
spécifiques (FOS) et à des analyses morphologiques de mots construits du vocabulaire médical), et deux bilingues ou trilingues serbe / français et optionnellement anglais, dédiés à des
études syntaxiques et sémantiques sur chaque langue ou en les comparant.
Ce sont les créations des deux derniers corpus qui sont financées par l’ÉGIDE et c’est à elles
que je participe. Il s’agit
– d’un corpus de textes littéraires alignés (Rcorp15), développé avec l’équipe d’un mathématicien de l’université de Belgrade (Duško Vitas, qui a déjà créé plusieurs corpus bilingues) et
pour lequel je contribue aux traitements informatiques des textes et à l’élaboration de l’interface de consultation,
– et d’un corpus footballistique serbe / français réunissant des commentaires radiophoniques
et télévisuels transcrits (Rcorp16), qui doit me fournir l’occasion de comparer avec Dejan
Stosic les modes narratifs des deux langues et, de manière plus autonome, des productions
orales en français selon qu’elles sont ou non accompagnées d’images.
P4 Projet Algo (depuis 2009)
Le projet Structures déductives algorithmiques dans les mathématiques pré-algébriques, dont
le nom d’usage est Algo, est un projet ANR “blanc” (réf. ANR-09-BLAN-0300-01) porté par
Fabio Acerbi (UMR 8163 - STL) et Bernard Vitrac (UMR 8210 - ANHIMA) et coordonné par
le premier.
Les textes étudiés dans le cadre de ce projet portent sur les mathématiques de l’époque prémoderne : grecques anciennes, arabes, arabo-latines, babyloniennes, chinoises, égyptiennes et
indiennes. L’objectif est d’analyser les caractéristiques algorithmiques de certains de leurs
schémas inférentiels.
Ma participation à ce projet est limitée au traitement des Données d’Euclide étudiées par
Fabio Acerbi. Leur structuration en un corpus xmlisé (Rcorp14) doit permettre de les exploiter pour développer un système d’analyse automatique de la “densité déductive” de leur contenu.
Cet outil d’analyse doit contribuer à documenter les commentaires des textes étudiés qui, à
terme, constitueront des paratextes de leurs éditions critiques.
[cf. http://algo.hypotheses.org/a-propos]
P5 Projet Eurolab (depuis 2010)
Le projet ANR-DFG Eurolab. Dynamique des langues vernaculaires dans l’Europe de la Renaissance. Acteurs et lieux a été sélectionné dans le cadre du « Programme franco-allemand en
sciences humaines et sociales ANR-DFG » (réf. ANR-09-FASHS-027 / DFG).
Il est cofinancé par la Deutsche Forschungsgemeinschaft (2010-2012) et porté par Elsa Kammerer (EA 1061 - ALITHILA, Université Lille 3) et Jan-Dirk Müller (Institut für Deutsche
Philologie, Ludwig-Maximilians-Universität de Munich).
Son objectif est de permettre, par l’étude de textes, de mieux comprendre comment, entre la fin
du XVe et le début du XVIIe siècle, les différentes langues européennes se sont élaborées comme
langues de savoir, d’art et de communication.
J’ai été invitée à participer à ce projet pour aider les analystes à réfléchir à l’opportunité de
structurer en XML les textes qu’ils étudient et ainsi contribuer à faire évoluer leur manière
d’aborder les éditions critiques qu’ils sont amenés à publier.
Il est prévu que je fasse un premier exposé en mars 2011 dans le cadre du séminaire “Langues,
glossaires et bases de données informatiques”, qui est un des séminaires de recherche adossés
à ce projet (inclus dans le cycle “Vie des mots, dynamique des langues : l’Europe du Moyen
Âge à l’époque moderne”).
[cf. http://eurolab.meshs.fr/ et http://alithila.recherche.univ-lille3.fr/AXE%201.html]
Inventaires
XXXV
Ressources développées
Corpus et outils ou produits d’exploration associés
Rcorp1
Corpus footballistique de multiplex (de 2002 à 2005)
Ce corpus a été conçu avec Pierre Corbin dans le cadre d’une réflexion relative à l’importance
des choix de documents primaires à retenir afin de constituer une ressource à haut rendement de consultation en fonction des analyses prévues. Il réunit des commentaires de matchs
de football radiodiffusés dans le cadre de multiplex, qui ont été transcrits et dont les transcriptions ont été structurées en XML. Le balisage permet de délimiter les tours de parole en
identifiant les locuteurs et annote une sélection de particularités linguistiques (comme des
prononciations remarquables) et d’entités nommées (noms de joueurs, de stades, etc.). Le corpus compte 200 000 mots-occurrences.
Rcorp2
Corpus footballistique du journal L’Équipe (en 2002-2003)
Ce corpus a été constitué pour comparer son rendement de consultation à celui de Rcorp1. Il
compile des articles du journal L’Équipe publiés à la suite des matchs dont les commentaires
sont transcrits dans Rcorp1. Il compte 60 000 mots-occurrences.
Rcorp3
Ontologie des actions de jeu du football (de 2002 à 2005)
Cette structure de description des actions de jeu qui sont susceptibles de se dérouler sur un
terrain durant un match de football a vocation à permettre d’analyser les expressions employées par les commentateurs qui les narrent. Chaque action y est décrite en fonction de
quatre paramètres d’analyse qui définissent ses acteurs, son caractère offensif ou défensif, si
elle implique le ballon et si elle se fait dans le cours du match ou lors d’une remise en jeu ou
qu’elle induit une interruption de jeu.
Cette structure, dite ontologique du fait des typages par traits de chaque action, a été conçue
avec Pierre et François Corbin.
Rcorp4
Corpus Web footballistique (en 2003-2004)
Ce corpus a été constitué pour comparer son rendement de consultation à celui de Rcorp1 et
Rcorp2. Il compile des textes de pages Web consacrées au football et compte 60 000 motsoccurrences.
Rcorp5
Corpus juridique radiodiffusé (en 2003-2004 ; cf. P2)
Constitué de transcriptions d’émissions juridiques radiodiffusées saisies avec Transcriber, ce
corpus xmlisé, qui compte 55 000 mots-occurrences, a ses tours de parole délimités mais pas
d’autres enrichissements.
Rcorp6
Corpus d’entretiens relatifs à la gestion locative de biens immobiliers
(en 2004-2005 ; cf. P2)
Des entretiens organisés sur le thème de la gestion locative de biens immobiliers ont mobilisé
des propriétaires et des locataires. Les enregistrements des propos échangés, transcrits avec
Transcriber, constituent un corpus xmlisé de 99 000 mots-occurrences au sein duquel les tours
de parole sont délimités et chaque mot-occurrence associé à la mention de son lemme et d’un
code morphoflexionnel.
Rcorp7
Corpus bilingue du tourisme (de 2005 à 2007)
Conçue avec Hans Paulussen dans le cadre d’une réflexion relative à un corpus plurithématique
multilingue dont elle devait être le premier constituant, cette ressource compile des textes relatifs au tourisme conjointement disponibles (en HTML) sur des sites Web en français et en
XXXVI
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
anglais. Il compte 645 978 mots-occurrences (330 009 pour les documents en français et 315 969
pour ceux en anglais) et est aligné au niveau des paragraphes selon le principe de structuration requis par ParaSearch, le concordancier multilingue utilisé pour son exploration.
Rcorp8
Corpus des écrits de Danielle Corbin (depuis 2006)
Conçu avec Pierre Corbin, ce corpus en cours de développement est dédié à des études épistémologiques, linguistiques et terminologiques en vue de l’édition critique électronique de
l’œuvre scientifique de la morphologue. Les textes, structurés en XML, doivent être très finement annotés, ce qui est déjà le cas pour les deux premiers. Pour documenter les types d’étude
envisagés, le balisage délimite et caractérise les références à d’autres travaux (évocations, citations ou commentaires critiques), les unités lexicales et infralexicales sur lesquelles portent
les développements et les informations fournies à leur sujet (indications constructionnelles,
gloses, etc.) et la terminologie employée par Danielle Corbin pour son propre compte ou en
écho aux textes qui l’ont documentée.
Ce balisage est ensuite exploité par des transformations XSLT qui extraient des sélections de
données et les stockent dans des bases SQL (Rcorp9, 10 et 11) en vue de leur exploitation
pour les paratextes de l’édition critique.
Rcorp9
Base de données des références bibliographiques de Danielle Corbin
(depuis 2006)
Les références des travaux auxquels se réfère Danielle Corbin ainsi que toutes les localisations des passages où elle les mobilise et les indications de la manière dont elle le fait (évocation, citation, commentaire) sont extraites du corpus Rcorp8 en fonction du développement
de celui-ci. À ces données sont ajoutées sélectivement des informations relatives aux textes
référencés (par exemple leur plan).
Rcorp10 Base de données des unités lexicales et infralexicales mentionnées par
Danielle Corbin (depuis 2006)
Les unités lexicales et infralexicales qui fondent ou illustrent les propos de Danielle Corbin
ainsi que les informations fournies à leur sujet sont extraites du corpus Rcorp8 en fonction
du développement de celui-ci, ce qui permet de compiler ce qui est dit sur chacune en différents endroits d’un même texte ou dans des textes différents. Outre ce qui est extrait du corpus, la base stocke des descriptions rédigées qui synthétisent les informations extraites.
Rcorp11 Base de données des termes employés par Danielle Corbin (depuis 2006)
Les termes employés par Danielle Corbin, balisés et typés dans le corpus Rcorp8 en fonction
du développement de celui-ci, sont extraits et associés, dans la base de données, à une description synthétique de leur(s) valeur(s).
Rcorp12 Corpus de paratextes dictionnairiques (depuis 2007)
Ce corpus, en cours de constitution, rassemble des paratextes de présentation de dictionnaires
français contemporains, à la fois internes aux répertoires (préfaces, etc.) et extérieurs à ceuxci (en particulier les sites Web des éditeurs), afin de permettre l’étude du vocabulaire utilisé
par les professionnels de l’édition lexicographique quand ils s’adressent à un large public.
Rcorp13 Corpus de textes de lecture (depuis 2009)
Les textes de lecture introduisant les différentes subdivisions du manuel de français À portée
de mots CE1 édité par Hachette, considéré dans ses deux éditions successives de 2003 et 2009,
ont été numérisés, et leurs près de 20 000 mots-occurrences balisés en XML et associés d’une
part à leur lemme et à un code morphoflexionnel, et d’autre part à une codification de la localisation dans le Dictionnaire Hachette benjamin de la description de sens qui explique les emplois
rencontrés quand celle-ci existe. Ce corpus est étudié à des fins métalexicographiques et lexicographiques : il permet d’évaluer la capacité du dictionnaire à aider des écoliers qui ne compren-
Inventaires
XXXVII
draient pas les mots de leurs textes de lecture et d’étudier comment un module d’hyperappel
du dictionnaire depuis les textes pourrait conduire aux descriptions de sens pertinentes.
Rcorp14 Corpus de mathématiques en grec ancien (depuis 2009 ; cf. P4)
Les textes des quatre-vingt quatorze théorèmes des Données d’Euclide de l’édition critique de
référence proposée par Henricus Menge en 1896 ont été extraits du Thesaurus Linguae Graecae® version E (cf. http://www.tlg.uci.edu/about/history.php). Balisés en XML afin de délimiter
en leur sein les subdivisions internes de chaque théorème (énoncé, ecthèse, construction, démonstration, etc.), les ponctuations ajoutées (virgules, points bas et points hauts) et les items
lexicaux simples et complexes qui marquent la progression déductive d’une preuve mathématique, les textes de ces théorèmes sont manipulés par des transformations XSLT qui permettent
d’analyser automatiquement la “densité déductive” de leurs contenus.
Rcorp15 Corpus littéraire trilingue serbe / français / anglais (depuis 2010 ; cf. P3)
Des textes littéraires disponibles en serbe, en français et optionnellement en anglais, sélectionnés par Dejan Stosic, sont alignés par ce dernier et l’équipe de Duško Vitas, à l’université
de Belgrade. Je travaille ensuite avec Dejan Stosic pour que ces textes, structurés en XML
puis convertis en base de données SQL au moyen de transformations XSLT, soient à terme
interrogeables en ligne via des scripts PHP afin que des internautes puissent accéder aux
contextes d’emploi des mots de leur choix et aux segments de textes alignés qui contiennent
la traduction dans une ou deux langues de chacun de ces contextes.
Rcorp16 Corpus footballistique bilingue serbe / français (depuis 2010 ; cf. P3)
Les commentaires radiodiffusés et télévisuels de deux matchs de qualification pour la Coupe
du Monde 2010 opposant les équipes de France et de Serbie ont été transcrits et alignés à
leurs sources sonores, ce qui donne la possibilité de les aligner entre eux sur la base du temps
de jeu écoulé. Cet alignement mécanique doit ensuite être affiné afin de permettre d’accéder
aux narrations des actions de jeu et des autres événements survenant sur le terrain durant le
match qui sont formulées dans les deux langues et via les deux médias, et ainsi de confronter
leurs expressions.
Bases de données métalexicographiques
Rbd1 Base du marché dictionnairique monolingue français (depuis 2001)
Les répertoires monolingues généraux français contemporains sont enregistrés dans une base
de données SQL qui stocke pour chacun des données identificatrices (titre, ISBN, etc.), des
informations généalogiques (pour les textes dérivés ou produits par métissage), des descriptions de leur contenu dictionnairique et de leurs différents paratextes (planches thématiques,
atlas, etc.), et des indications fournies dans les présentations des ouvrages (dont en particulier les données quantifiées : nombre d’items à la nomenclatures, de sens décrits, etc.).
Rbd2 Base des iconographies des éditions imprimée de 1997 et électronique de
1999 du Robert junior (en 2002-2003)
Les iconographies du Robert junior imprimé ayant été exploitées dans l’édition électronique
de ce dictionnaire par une multiplication de leurs lieux d’insertion, la base SQL iconographique décrit chaque emploi de chaque image dans chaque répertoire, en notant les variations qu’ils présentent (recadrage, changement d’inclinaison, retrait de dispositif de pointage,
etc.), et elle indique pour quels autres items chacune serait à nouveau réutilisable, à la manière de ce que pourrait faire l’éditeur s’il désirait augmenter encore le nombre de réemplois
des images originales.
XXXVIII
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Rbd3 Base des unités lexicales marquées dans les dictionnaires scolaires Hachette, Larousse et Robert (en 2006-2007)
Une sélection d’unités lexicales est associée dans les dictionnaires scolaires à des spécifications d’usage formulées textuellement, ou plus rarement sous forme de marques. La base
SQL qui enregistre ces marquages spécifie pour chacun quels sont l’item marqué et son mode
d’adressage, localise le segment textuel qui exprime le marquage, repère en son sein l’opérateur de celui-ci et en précise la portée et le type selon les catégories de Hausmann (1989).
Rbd4 Base étymologique des unités lexicales signalées comme étant d’origine
étrangère dans une large sélection de dictionnaires pour enfants (en
2007-2008)
Certains items d’origine étrangère (hérités du latin ou empruntés à diverses langues) voient
cette propriété signalée à leur sujet dans les dictionnaires, scolaires ou non, destinés aux enfants. Chacune des mentions d’origine étrangère observée dans une large sélection de répertoires a été relevée et enregistrée dans une base de données SQL, où elle est liée à l’indication
de l’item pour lequel cette information est fournie, à la localisation de celle-ci (dans quel dictionnaire, quel article, quel composant d’article) et à des notes relatives aux autres types d’informations communiquées pour le même item (dont en particulier les remarques phonographiques).
Rbd5 Base des unités linguistiques présentes dans les nomenclatures des dictionnaires pour les cycles 2 et 3 de l’enseignement primaire (depuis 2008)
L’étude comparée des nomenclatures de dictionnaires scolaires a motivé la création d’une
base SQL qui enregistre les unités linguistiques traitées dans au moins l’un de ces répertoires et, pour chacune, ses modes d’adressage dans les répertoires dans lesquels elle est prise
en compte et, le cas échéant, ses dérivés mentionnés comme tels dans l’article (si elle appartient à la nomenclature principale).
Cette base inclut également les unités que le Nouveau Petit Robert électronique de 2001 propose dans sa liste des entrées. Leur présence est corrélée au fait que cette liste a servi de base
à la constitution de celle des unités linguistiques effectivement traitées dans les répertoires
scolaires. Elle reste motivée par le projet d’étudier si les nomenclatures des dictionnaires
scolaires comptent assez d’unités pour répondre aux besoins de leurs utilisateurs ou si celles
de répertoires de milieu de gamme destinés à un large public (qui comptent 40 000 unités),
voire d’ouvrages plus volumineux encore, seraient plus adéquates.
Rbd6 Base des unités lexicales marquées comme relevant du “parler enfantin”
dans onze dictionnaires Hachette, Larousse et Robert (en 2009)
Selon un principe comparable à celui défini pour la base des marquages observés dans les
dictionnaires scolaires (Rbd3), la base SQL du “parler enfantin” enregistre toutes les unités
lexicales à propos desquelles un des onze dictionnaires étudiés au moins signale qu’il relève
du parler enfantin ou qu’il vient d’un mot enfantin. Pour chaque unité lexicale considérée dans
chaque dictionnaire, la base stocke les indications relatives d’une part à son mode d’adressage et d’autre part à l’expression et au lieu d’insertion du marquage dont elle fait l’objet.
Les onze dictionnaires dépouillés sont :
– pour Hachette : le Dictionnaire Hachette. Langue française & synonymes électronique de 2002,
le Dictionnaire Hachette encyclopédique 2002, le Dictionnaire Hachette junior de 1998 et le
Dictionnaire Hachette benjamin de 1996 ;
– pour Larousse : le Petit Larousse électronique 2005, le Larousse junior de 2003 et le Larousse
des débutants de 2005 ;
– pour Le Robert : le Nouveau Petit Robert électronique de 2001, deux versions du Robert junior
(le texte de 1999 réédité en version électronique sous le titre de Robert des enfants en 2006 et
l’édition imprimée refondue de 2005) et le Robert benjamin de 1997.
Inventaires
XXXIX
Prototypes de dictionnaires
Rdic1 Dictionnaire encyclopédique wayana / wayampi / palikur / français du
projet Matoutou (en 2001 ; cf. P1)
Le dictionnaire encyclopédique mis en chantier à l’initiative de Françoise Grenand dans le
cadre du projet Matoutou (P1) devait mêler, pour chaque unité lexicale du wayana, d’une part
des indications linguistiques et des connaissances sur les référents des objets nommés rédigées en français, et d’autre part des équivalences traductionnelles en français et optionnellement en wayampi et en palikur (ce qui paraît préfigurer les objectifs des Encyclopédies palikur,
wayana et wayãpi qui, sous la direction de Françoise Grenand, ont commencé à paraître par
fascicules depuis 2009). La structure de ce dictionnaire, conçue à partir des besoins exprimés
par Françoise Grenand et François Nemo, qui collaborait avec elle sur ce projet, a donné lieu
à l’élaboration conjointe d’une DTD en vue de la rédaction du dictionnaire en XML et d’un schéma
de relations SQL sur lesquels j’ai travaillé avec les deux étudiantes du DESS “Lexicographie
et Terminographie” qui ont effectué leur stage dans le cadre du projet P1 (cf. supra). Une base
SQL ayant été préférée, le système de gestion de base de données 4D (compatible Mac) a été
utilisé pour créer la base livrée aux rédacteurs.
Rdic2 Dictionnaire des mots afférents à la lexicographie (de 2001 à 2006)
Le vocabulaire employé par ceux qui parlent des dictionnaires est vaste et les choix lexicaux
opérés par chacun des énonciateurs sont variés. Afin de décrire la diversité de ces usages, la
rédaction d’un dictionnaire alphabétique et thématique des unités lexicales de la lexicographie
a été engagée très tôt sous la forme empirique d’une première rédaction de quelques centaines
d’articles par plusieurs promotions d’étudiants en formation professionnelle. Les présentations
thématiques des descriptions de sens permettent de regrouper celles-ci en fonction des domaines
dans lesquels les emplois lexicaux s’observent (par exemple l’informatique éditoriale), de l’étymologie des mots décrits (en prenant en compte la langue d’origine des emprunts et la datation
des usages) et des types d’énonciateurs ou de discours. Relativement abouti quant à la conception de sa structure, Rdic2 serait à reprendre du point de vue rédactionnel pour être enrichi
par l’exploration méthodique des matériaux paratextuels compilés dans Rcorp12.
Rdic3 Dictionnaire des actions de jeu du football (de 2002 à 2005)
Les expressions employées pour narrer les actions de jeu relevées dans les transcriptions du
corpus de commentaires de matchs radiodiffusés (Rcorp1) et étudiées en prenant en compte
les caractérisations des actions selon les quatre paramètres de l’ontologie de celles-ci (Rcorp3)
ont donné lieu à des descriptions structurées en XML. Celles-ci se conforment à une DTD conçue pour permettre de présenter les descriptions de chaque emploi lexical dans des articles
triés en fonction de l’ordre alphabétique de leurs items en adresses ou regroupés thématiquement (par types d’actions, de joueurs impliqués, etc.). Dans ce cadre, une promotion d’étudiants
en formation professionnelle de lexicographie a rédigé plusieurs centaines d’articles, dont la
qualité varie notamment en fonction des connaissances footballistiques des rédacteurs. et qui
demandent en conséquence à être homogénéisés.
Rdic4 Rétroconversion xmlisée du Larousse des débutants (depuis 2007)
Un dictionnaire imprimé pour le cycle 2 de l’enseignement primaire, le Larousse des débutants
(édition de 2005), a été scanné, puis le texte des articles structuré en XML. Cette numérisation
a été entreprise dans le cadre de l’étude structurelle de ce répertoire. Mais le produit de ce
travail a maintenant vocation à être exploité pour enrichir de trois manières le corpus de textes
de lecture (Rcorp13) :
– en associant à chacun de ses mots-occurrences les indications d’adressage des descriptions
lexicales du Larousse des débutants qui peuvent éclairer leur compréhension (en complément
du Dictionnaire Hachette benjamin) ;
– en ajoutant également un lien depuis les mots-occurrences de Rcorp13 vers les descriptions
de Rdic4 afin que les secondes puissent être aisément consultées à partir des premiers ;
XL
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– et en dérivant de nouvelles descriptions de celles qui sont actuellement proposées par le
Larousse des débutants, afin de mieux soutenir les jeunes lecteurs dans leurs consultations
d’un dictionnaire pour éclairer la compréhension de chaque mot rencontré dans un texte de
lecture.
Rdic5 Dictionnaire des unités lexicales construites décrites par Danielle
Corbin (depuis 2006)
Conçu comme un prolongement du projet de “dictionnaire dérivationnel” entrepris par la
morphologue (cf. D. Corbin (1990) et D. & P. Corbin (1991)), le dictionnaire des unités lexicales construites est un produit dérivé xmlisé du corpus Rcorp8 et de la base SQL des unités
lexicales et infralexicales Rcorp10, au sein de laquelle les unités linguistiques sont déjà associées à des descriptions synthétiques. Celles des unités lexicales sont retravaillées afin de
pouvoir être consultées indépendamment de l’édition critique des écrits de la morphologue (cf.
Rcorp8), que les descriptions de chaque unité soient classées dans l’ordre alphabétique de
celles-ci ou par type d’opération de construction, par affixe commun, etc. Le développement de
Rdic5 étant indexé sur celui de Rcorp8 et Rcorp10, ce dictionnaire ne concerne actuellement que les deux premiers articles écrits par Danielle Corbin.
Rdic6 Dictionnaire scolaire électronique et évolutif (depuis 2009)
Modeste encore dans son développement, puisque, du fait de son caractère expérimental, il ne
compte encore qu’un petit nombre d’articles inégalement aboutis, le prototype du dictionnaire
scolaire électronique est conçu comme devant accompagner les élèves durant leur scolarité, en
leur proposant des rédactions d’articles d’une complexité proportionnée à leurs compétences
ou à leur besoins ponctuels accessibles via des affichages dédiés à l’aide à la compréhension de
mots rencontrés par ailleurs ou à l’amélioration de leur expression. Intégrant une large partie
des orientations dictionnairiques procédant de mes études métalexicographiques, sa structure
comme son programme d’information sont pour l’heure mieux définis concernant les contenus
dictionnairiques qui ont fait l’objet de ces travaux, comme les indications syntaxico-sémantiques
ou étymologiques.
Relations avec le monde industriel ou socio-économique :
valorisation de la recherche
Exp1 Contribution aux travaux de révision de la norme ISO 1951 (en 2002
et 2003)
Participation aux réunions du groupe d’experts X 03 A - GE 1 « Lexicographie » de la Commission de normalisation X03A « Terminologie – Principes et coordination ». Les réunions de
travail étaient organisées à l’AFNOR (Agence Française de Normalisation) et animées par
André Le Meur. La nouvelle norme a été publiée en 2007 sous la référence NF ISO 1951 Avril
2007.
Exp2 Conseil pour le projet Lëtzebuerger Online Dictionnaire (en 2004-2006)
Le LOD (http://www.lod.lu/lod/), dictionnaire quinqualingue à nomenclature luxembourgeoise
et traductions en allemand, français, portugais et anglais, est réalisé par le groupe “Dictionnaires” du Ministère de la Culture, de l’Enseignement Supérieur et de la Recherche luxembourgeois. Les travaux de rédaction sont encadrés par Ralf Fichtner (responsable du groupe
“Dictionnaires”) et Alexandre Ecker (lexicographe formé à l’université Lille 3). Invitée en qualité d’expert par Ralph Fichtner, je me suis rendue à Luxembourg en novembre 2005 et j’ai di-
Inventaires
XLI
rigé le retour critique sur la DTD du LOD qu’Alexandre Ecker a rédigé dans le cadre de son
mémoire de master (Mdir39 (Ecker (2007))).
Exp3 Expertise pour le Comité d’orientation pour Frantext (en 2006)
Jean-Marie Pierrel a invité des représentants des différents laboratoires de l’ILF à réfléchir aux
évolutions souhaitables pour la base Frantext gérée par l’UMR ATILF. Après une phase de travail dans chaque composante (de juillet à novembre), nous avons eu une réunion de concertation à Nancy (le 16 novembre), au cours de laquelle j’ai présenté, au nom de l’UMR STL, les
propositions consignées dans Tdr2.
Exp4 Expertise des propositions d’articles pour le LEXique d’ONCOlogie
(depuis 2007)
Le répertoire Lexonco (http://www.sor-cancer.fr/index.php?tg=articles&topics=64) est en cours
de rédaction dans le cadre du programme Standards, Options & Recommandations [SOR]
SAVOIR PATIENT de la Fédération Nationale des Centres de Lutte Contre le Cancer (http://
www.sor-cancer.fr/). Le travail d’expertise demandé consiste en une révision des modes rédactionnels des sélections d’informations qui doivent être fournies pour chaque item à la nomenclature.
Exp5 Contribution aux travaux de réflexion relatifs aux produits lexicographiques et à leur commercialisation (depuis 2008)
Participation aux réunions de la Commission de normalisation française (X 03 A) du Comité
Technique “Terminologies et autres ressources langagières” (CT37) de l’AFNOR relative à un
nouveau projet de norme (encore confidentiel) concernant les descriptifs commerciaux de dictionnaires.
Échanges avec les partenaires professionnels de la formation lilloise de lexicographes (depuis 1999)
Invitation des intervenants, animation des conférences (15 à 20 par an), suivi des stages
d’étudiants en entreprises ou institutions, aide au recrutement des diplômés et échanges de
vues avec les partenaires sur leurs activités et les recherches menées à l’UMR STL et en formation et exploitables par eux.
Animation de séminaire de recherche et de formation doctorale
S1
Constitution et exploration de corpus, séminaire UMR STL & École doctorale, Université Lille 3, 2006-2007 :
L’objectif de ce séminaire annuel était de permettre à chaque participant d’utiliser des corpus
existants, d’en constituer pour documenter une recherche en cours, d’explorer des données
antérieurement collectées (ce qui peut éventuellement avoir été fait sans avoir préalablement
réfléchi à leur structuration) ou encore d’aligner des données bilingues ou multilingues pour
pouvoir analyser en parallèle un segment exprimé dans plusieurs langues, voire différentes
versions d’un même texte dans une langue donnée, ou encore un signal sonore et/ou vidéo à
sa transcription orthographique ou phonétique et à des annotations.
[18 séances thématiques ; 57h30 de travail collectif ; 1 conférencier étranger invité (Hans
Paulussen) ; animation des séances assurée par Nathalie Gasiglia avec Cyril Auran, Antonio
Balvet et Ilse Depraetere)]
XLII
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Mémoires dirigés
La liste des mémoires dirigés est arrêtée à ceux engagés en 2009-2010.
Mdir1 DUHOUX V. (2000), Analyse du Dictionnaire Bordas. Le junior en vue de son informatisation, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie]
Mdir2 BECQUET F. (2001), Méthodologie d’élaboration d’un dictionnaire de l’œuvre chantée de Georges Brassens, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie]
Mdir3 CANNESSON E. (2001), Conception d’un dictionnaire bilingue français-anglais des
expressions idiomatiques à caractère numérique, codirection : Pierre Corbin, mémoire
de DESS LT. [lexicographie]
Mdir4 EBERSBERG M. (2001), Participation à l’élaboration d’un ensemble de dictionnaires
bilingues wayana (langue de Guyane)-français : conception d’une base de données, mémoire de DESS LT. [lexicographie]
Mdir5 MOREL D. (2001), Contribution à un projet de développement d’un CD-ROM terminologique et notionnel sur La sémantique du prototype de Georges Kleiber : un parcours hypertextuel, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie]
Mdir6 MOULART C. (2001), Participation à l’élaboration d’un ensemble de dictionnaires
bilingues wayana (langue de Guyane)-français : conception d’une DTD en langage XML,
mémoire de DESS LT. [lexicographie]
Mdir7 WILHEM I. (2001), Contribution à un projet de développement d’un CD-ROM terminologique et notionnel sur La sémantique du prototype de Georges Kleiber : extraction automatique de contextes d’emploi des items traités, codirection : Pierre Corbin,
mémoire de DESS LT. [constitution et/ou exploration de corpus & lexicographie]
Mdir8 ANDREU J. (2002), Vers l’établissement d’une base de données terminologique multilingue des termes de l’ingénierie nucléaire, mémoire de DESS LT. [constitution et/ou
exploration de corpus & lexicographie]
Mdir9 DESCAMPS G. (2002), Éléments pour un dictionnaire biographique interactif des
noms de rues de la ville de Lille, mémoire de DESS LT. [lexicographie]
Mdir10 KARTAL E. (2002), Multimédia et didactique du Français Langue Étrangère, mémoire de DEA Théories et analyses linguistiques. [enseignement assisté par ordinateur ;
étudiant turc]
Mdir11 MARCINIAK A. (2002), Structurer un dictionnaire thématique polonais-français
relatif au lexique des sentiments, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie ; étudiante polonaise]
Mdir12 MORRUZZI É. (2002), Étude de faisabilité d’un dictionnaire de français destiné aux
enfants marocains, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie]
Mdir13 ROULEUX S. (2002), Dictionnaire de l’Ovalie ou le rugby dans tous ses sens, définition problématique des conditions pratiques de l’élaboration d’un dictionnaire de rugby,
codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie]
Mdir14 YAIGRE F. (2002), Conception d’un dictionnaire informatisé du lexique des jeux de
rôles, mémoire de DESS LT. [lexicographie]
Inventaires
XLIII
Mdir15 BLOQUET G. (2003), Élaboration d’un lexique de l’éleveur porcin à partir d’explorations outillées de documents techniques réunis en un corpus spécialisé, mémoire de
DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie]
Mdir16 BRABANT A.-C. (2003), Prolégomènes à un dictionnaire informatisé bilingue français-allemand des mathématiques, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie]
Mdir17 CAMPION E. (2003), Vers un lexique bilingue italien-français de la restauration,
de l’hôtellerie et de la cuisine, codirection : Pierre Corbin, mémoire de DESS LTTAC.
[constitution et/ou exploration de corpus & lexicographie ; étudiante belge]
Mdir18 FILIPCHUK T. (2003), Petit lexique des sigles des institutions européennes, mémoire
de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante
ukrainienne]
Mdir19 HOSTEKINT S. (2003), Extraction d’informations à partir de textes en langage naturel. Étude de plusieurs outils, codirection : Marc Tommasi, mémoire de maîtrise de
sciences cognitives. [constitution et/ou exploration de corpus ; étudiant belge]
Mdir20 KERDRAON A.-L. (2003), Recherches pour l’élaboration d’un dictionnaire des sigles
de la vie étudiante, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie]
Mdir21 LAFFITE E. (2003), Le vocabulaire de la jonglerie, codirection : Pierre Corbin, mémoire de maîtrise de Lettres modernes. [constitution et/ou exploration de corpus & lexicographie]
Mdir22 MARTINUCCI C. (2003), Conception d’un lexique bilingue anglais-français du dresseur de chevaux, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus &
lexicographie]
Mdir23 MOSTROV V. (2003), Élaboration d’un dictionnaire des termes linguistiques en
fonction des besoins des étudiants bulgares en lettres françaises, codirection : Pierre
Corbin, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiant bulgare]
Mdir24 NIKOLAOU G. (2003), Élaboration d’un dictionnaire bilingue français-grec du vocabulaire de la linguistique, codirection : Pierre Corbin, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante grecque]
Mdir25 BOIAN V. (2004), Étude des spécificités d’un dictionnaire électronique trilingue
anglais-français-roumain du vocabulaire de l’informatique, mémoire de DESS LTTAC.
[lexicographie ; étudiante roumaine]
Mdir26 BOURDEAU S. (2004), Conception d’une interface graphique de consultation internet
ou intranet pour un lexique d’entreprise sur l’immobilier, mémoire de DESS LTTAC.
[constitution et/ou exploration de corpus & lexicographie]
Mdir27 BOURGEOIS É. (2004), Élaboration d’un projet de dictionnaire FLE du vocabulaire
administratif pour primo-arrivants, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie]
Mdir28 CARPENTIER J. (2004 non soutenu), Extraction d’informations pour l’étude du parler footballistique : étude comparative de corpus oraux, codirection : Pierre Corbin, mémoire de DEA Théories et analyses linguistiques. [constitution et/ou exploration de corpus]
XLIV
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Mdir29 JOUET L. (2004), Constitution et exploration d’un corpus journalistique en vue de
l’élaboration d’un dictionnaire altermondialiste, mémoire de DESS LTTAC. [constitution
et/ou exploration de corpus & lexicographie]
Mdir30 MARAS S. (2004), Analyse des besoins spécifiques aux enfants turcs nés en France
en vue de l’élaboration d’un dictionnaire bilingue français-turc, mémoire de DESS LTTAC.
[lexicographie]
Mdir31 RICART C. (2004), Conception d’un dictionnaire électronique de la mode, mémoire
de DESS LTTAC. [lexicographie]
Mdir32 SERRANO CARRANZA O.R. (2004), Projet de dictionnaire bilingue espagnol-français
de l’architecture colombienne, mémoire de DESS LTTAC. [lexicographie ; étudiante colombienne]
Mdir33 TAQUECHEL RODRIGUEZ R. (2004), Recherches en vue d’un dictionnaire des hispanicismes d’Amérique Latine, codirection : Pierre Corbin, mémoire de DESS LTTAC. [lexicographie ; étudiante cubaine]
Mdir34 BOGAERT G. (2005), Méthodologie de constitution de corpus de manuscrits d’ancien
et/ou de moyen français, mémoire de M1 TAL. [constitution et/ou exploration de corpus]
Mdir35 AROUMOUGAME V.D. (2006), Évaluation de la faisabilité d’un dictionnaire électronique des outils et projets du TAL, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante indienne]
Mdir36 BÉRIL D. (2005), Évaluation de systèmes d’alignement de textes bilingues, mémoire
de M1 TAL. [constitution et/ou exploration de corpus]
Mdir37 BUSCHHAUS M. (2005), Élaboration d’un dictionnaire bilingue allemand-français
des jeux de plateau, mémoire de M2 LTTAC. [lexicographie ; étudiante franco-allemande]
Mdir38 DEGUERNEL O. (2005), Méthodologie d’élaboration d’un dictionnaire de l’enregistrement en studio et de l’autoproduction pour francophones, mémoire de M2 LTTAC.
[constitution et/ou exploration de corpus & lexicographie]
Mdir39 ECKER A. (2007), Retour sur une expérience professionnelle dans le cadre du projet Lëtzebuerger Online Dictionnaire ( LOD) du Ministère de la Culture, de l’Enseignement Supérieur et de la Recherche luxembourgeois, mémoire de M2 LTTAC. [métalexicographie ; étudiant luxembourgeois]
Mdir40 JEUNOT N. (2005), Traduction automatique et nouvelles écritures : SMS et Communications Médiées par Ordinateur, mémoire de M1 TAL. [constitution et/ou exploration de corpus & linguistique]
Mdir41 KIM M.J. (2005), Étude de la nomenclature musicale d’un dictionnaire coréenfrançais, mémoire de M1 Linguistique. [métalexicographie ; étudiante coréenne]
Mdir42 LAVALLÉE J. (2005), Conception d’un dictionnaire des noms propres et de leurs
référents mentionnés dans le Coran, mémoire de M2 LTTAC. [lexicographie]
Mdir43 MAHIEU A.-M. (2005), Analyse méthodologique pour la création d’un dictionnaire
terminologique et pratique bilingue anglais-français destiné aux professionnels de l’import-export, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie]
Mdir44 RAYMOND C. (2006), Étude des particularités lexicales du français en Guinée, mémoire de M2 LTTAC. [lexicographie]
Mdir45 RIAH F. (2005), Vers un dictionnaire des vrais amis anglais-français pour francophones, mémoire de M2 LTTAC. [lexicographie]
Inventaires
XLV
Mdir46 SHTEREVA G. (2006), Conception d’un répertoire lexical thématique visant à présenter la Bulgarie à des touristes français, mémoire de M2 LTTAC. [lexicographie ; étudiante bulgare]
Mdir47 SICCARDI A. (2006), Conception d’un dictionnaire terminologique du chocolat, mémoire de M2 LTTAC. [lexicographie]
Mdir48 ZOTTI V. (2005), Principes et méthodes d’un nouveau dictionnaire bilingue italienfrançais / français-italien, mémoire de M2 LTTAC. [lexicographie ; étudiante italienne]
Mdir49 ANAGNOSTAKI E. (2007), Mots d’Alexandrie. Création d’un lexique de Constantin
Cavafis à partir du corpus de ses écrits, mémoire de M2 LTTAC. [constitution et/ou
exploration de corpus & lexicographie ; étudiante grecque]
Mdir50 CHEN H. (2006), Comparaison d’articles décrivant des verbes dans deux dictionnaires français-chinois : un bilingue de facture classique et un dictionnaire bilingualisé
créé à partir d’un monolingue français, mémoire de M1 TAL. [métalexicographie ; étudiant chinois]
Mdir51 COULOMBEL F. (2006), Étude des classes sémantiques constituables à partir d’un
sous-ensemble des descriptions de noms proposées dans le Robert benjamin de 1997,
mémoire de M1 TAL. [métalexicographie]
Mdir52 DELOBEL C. (2006), Évaluation d’un système de synthèse vocale basé sur la concaténation de diphones pour la consultation d’articles du Petit Robert électronique de 2001,
mémoire de M1 TAL. [synthèse de la parole & métalexicographie]
Mdir53 JEAN M. (2007), Élaboration d’un dictionnaire spécialisé dans les termes de la
rhétorique latine, mémoire de M2 LTTAC. [lexicographie]
Mdir54 SOW M.K. (2008), Étude des modes de traitement de la polysémie dans trois dictionnaires : le Robert benjamin de 2005, le Hachette benjamin de 2004 et le Larousse
des débutants de 2005, mémoire de M1 TAL. [métalexicographie ; étudiante sénégalaise]
Mdir55 TROULLIEZ É. (2007), Projet de dictionnaire de régionalismes du Nord-Pas-deCalais, mémoire de M2 LTTAC. [lexicographie]
Mdir56 ARNAUD-THUILLIER S. (2008), Éléments pour l’encodage des informations sémantiques d’un dictionnaire de grec ancien de référence : A Greek-English Lexicon, mémoire
de M2 LTTAC. [métalexicographie & lexicographie]
Mdir57 CHEN H. (2008), Projet de dictionnaire de Français Langue Étrangère destiné à
des Chinois, mémoire de M2 LTTAC. [lexicographie ; étudiant chinois]
Mdir58 CHIANDUSSO A. (2007), Dérivation des Robert & Collins Junior bilingue pour l’italien : Du First in English de 2003 vers le Primo in Italiano, mémoire de M1 TAL. [lexicographie]
Mdir59 COULOMBEL F. (2008), Élaboration d’un dictionnaire électronique des synonymes,
mémoire de M2 LTTAC. [lexicographie]
Mdir60 DELOBEL C. (2008), Étude de faisabilité d’un dictionnaire des sciences de la vie et
de la terre à partir de données pédagogiques, mémoire de M2 LTTAC. [lexicographie]
Mdir61 DEMAZEUX L. (2007), Étude contrastive (anglais / français) des subordonnées
adverbiales, codirection : Liliane Haegeman, mémoire de M1 TAL. [linguistique]
Mdir62 DESPUJOS S. (2007), Conception d’un dictionnaire de FLE/FLS, mémoire de M1
TAL. [lexicographie]
Mdir63 GLORIEUX F. (2007), Élaboration d’un dictionnaire de synonymes généré semiautomatiquement à partir des 1 350 nuances du Dictionnaire de la langue française de
XLVI
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
1863-1872 d’Émile Littré, codirection : Pierre Corbin, mémoire de M2 LTTAC. [lexicographie]
Mdir64 JEAN M. (2008), Le Dictionnaire historique de la langue française de l’Académie
française de 1858-1894 : présentation du projet lexicographique et analyse de l’organisation structurelle, codirection : Pierre Corbin, mémoire de M2 Linguistique. [métalexicographie]
Mdir65 KALOMOIRI A. (2007), Conception d’un didacticiel de grec ancien pour élèves grecs
de la première classe du gymnase, mémoire de M2 LTTAC. [lexicographie ; étudiante
grecque]
Mdir66 MÉRESSE C. (2007), Le vocabulaire de la gestion locative de biens immobiliers :
études lexicales à partir d’occurrences extraites d’un corpus d’oral transcrit en vue de la
structuration d’un répertoire terminologique, mémoire de M1 TAL. [constitution et/ou
exploration de corpus & lexicographie]
Mdir67 OUHBAD B. (2007), Méthodologies d’alignement de corpus parallèles français /
anglais en vue de la réalisation d’un concordancier bilingue, codirection : Antonio Balvet,
mémoire de M1 TAL. [constitution et/ou exploration de corpus]
Mdir68 PETKOV Y. (2007), Conception d’un dictionnaire français-bulgare pour la traduction, mémoire de M2 LTTAC. [lexicographie ; étudiant bulgare]
Mdir69 PIECHOTA S. (2007), Développement d’un concordancier dédié à l’exploration de
corpus d’oral transcrit et aligné au son avec Transcriber, codirection : Antonio Balvet,
mémoire de M1 TAL. [constitution et/ou exploration de corpus]
Mdir70 SALAMANCA LAMOUROUX C. (2009), Encyclopédie des fruits exotiques cultivés en
Colombie, mémoire de M2 LTTAC. [lexicographie ; étudiante colombienne]
Mdir71 WANG Y.Y. (2008), Création d’un dictionnaire scolaire chinois-français, mémoire
de M2 LTTAC. [lexicographie ; étudiante chinoise]
Mdir72 ALEXIADOU C. (2008), Élaboration d’un dictionnaire de Grec Langue Étrangère,
mémoire de M2 LTTAC. [lexicographie ; étudiante grecque]
Mdir73 CEUCA DEVREESE A. (2009), Projet de dictionnaire des expressions et synonymes
incluant des mots du corps, mémoire de M2 LTTAC. [lexicographie ; étudiante roumaine]
Mdir74 CHIANDUSSO A. (2010), Rédaction d’une DTD pour livres de cuisine, mémoire de
M2 LTTAC. [informatique éditoriale]
Mdir75 CONDETTE M.-H. (2008), Étude du traitement étymologique des mots espagnols et
d’Amérique du Sud dans le Robert junior de 2005 et son Cahier d’étymologie, mémoire
de M1 TAL. [métalexicographie]
Mdir76 DEMAZEUX L. (2010), Élaboration de la DTD des Topo-guides® de la Fédération
Française de Randonnée, mémoire de M2 LTTAC. [informatique éditoriale]
Mdir77 GALATI P. (2009), Création d’un dictionnaire morphologique, mémoire de M2 LTTAC.
[lexicographie ; étudiante grecque]
Mdir78 GUEVARA G. (2009), Conception d’un système de gestion terminologique en ligne,
mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante équatorienne]
Mdir79 KATSIOTI N. (2009), Élaboration d’un dictionnaire de difficultés de prononciation
pour des apprenants de Français Langue Étrangère (FLE), mémoire de M2 LTTAC.
[lexicographie ; étudiante grecque]
Inventaires
XLVII
Mdir80 MÉRESSE C. (prévu pour 2011), Recherches en vue de l’élaboration d’un dictionnaire du picard actuel, mémoire de M2 LTTAC. [lexicographie]
Mdir81 MOINARD G. (2008), Traitement des informations étymologiques fournies pour les
mots d’origine latine dans le Dictionnaire Hachette junior de 2007, mémoire de M1 TAL.
[métalexicographie]
Mdir82 OUHBAD B. (2009), Proposition d’une méthodologie pour la constitution d’une terminologie bilingue anglais-français de l’infographie 3D, mémoire de M2 LTTAC. [lexicographie & informatique éditoriale]
Mdir83 RACHID B.A. (2008), Création du cahier des charges d’un dictionnaire françaisdari pour traducteurs, mémoire de M1 TAL. [lexicographie ; étudiant afghan]
Mdir84 ZHANG C. (2009), Recherches en vue de l’élaboration d’un dictionnaire d’apprentissage chinois-français, mémoire de M2 LTTAC. [lexicographie ; étudiante chinoise]
Mdir85 LEVEAU C. (2008), Analyse structurelle des articles “longs” du Grand dictionnaire
bilingue français-espagnol / espagnol-français (Larousse, 2007), mémoire de M1 TAL.
[métalexicographie]
Mdir86 CONDETTE M.-H. (2010), Étude de la structure argumentale des nominalisations
déverbales en -tion et -sion dans le corpus French Treebank : étude de l’héritage argumental entre les verbes sources et les nominalisations dérivées et codification de la réalisation syntaxique de surface de la structure argumentale de ces nominalisations dans le
cadre du projet ANR JC NOMAGE, codirection : Rafael Marín, mémoire de M2 LTTAC.
[constitution et/ou exploration de corpus & linguistique]
Mdir87 CONTRERAS E. (2009), Étude comparative des procédés définitoires utilisés dans
le Larousse des débutants éditions 2000 et 2005 : analyse de la réécriture définitionnelle de 2005, mémoire de M1 TAL. [métalexicographie ; étudiant vénézuélien]
Mdir88 FALCONE H. (2009), La lexicographie française et espagnole à travers la comparaison du Grand Robert (2 e édition) et du Diccionario del español actual de Manuel
Seco, mémoire de M1 TAL. [métalexicographie]
Mdir89 LEVEAU C. (2010), Création du dictionnaire de spécialité de l’Assurance Maladie,
mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie]
Mdir90 MARKEZI S. (2010), Conception d’un dictionnaire grec-français de l’escrime, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante grecque]
Mdir91 MOINARD G. (2009), Vers un lexique terminologique actuel du vêtement : l’exemple
des “pulls”, mémoire de M2 LTTAC. [lexicographie]
Mdir92 NIOBEY L. (2009), Le Larousse des débutants face au Dictionnaire fondamental de
la langue française : étude comparative de la lexicographie du français langue maternelle et du français langue étrangère à travers deux dictionnaires pour apprenants débutants, mémoire de M1 TAL. [métalexicographie]
Mdir93 OPREA A.C. (2009), Conception du Dictionnaire des produits cosmétiques des adolescentes, mémoire de M2 LTTAC. [lexicographie ; étudiante roumaine]
Mdir94 QIN N. (2009), Inventaire sélectif de problèmes linguistiques rencontrés dans le
cadre de la traduction automatique en chinois de phrases rédigées en français, mémoire
de M1 TAL. [linguistique]
Mdir95 RENAULT A. (2009), Désambiguïsation de verbes homographes ou paronymes dans
le cadre d’une correction grammaticale automatique, mémoire de M1 TAL. [linguistique]
XLVIII
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Mdir96 VOLKOVA T. (2009), Utilisation des standards XML pour la mise en ligne de documents multilingues, mémoire de M1 TAL. [informatique éditoriale ; étudiante russe]
Mdir97 ALLEMAN C. (2010), Étude du Robert & Collins junior bilingue français-espagnol,
mémoire de M1 TAL. [métalexicographie]
Mdir98 AUBINEAU C. (prévu pour 2011), Analyse contrastive de deux dictionnaires bilingues
français-allemand destinés à des collégiens, mémoire de M1 LTTAC. [métalexicographie]
Mdir99 BANICA D. (2010), Étude des modalités de description des formes phoniques des
unités linguistiques décrites par le Nouveau Petit Robert et le Robert oral-écrit, mémoire
de M1 TAL. [métalexicographie ; étudiante roumaine]
Mdir100 DUTREY C. (2010), Décodage d’énoncés de problèmes de mathématiques avec l’aide
d’un dictionnaire pour le cycle 3, mémoire de M1 TAL. [métalexicographie]
Mdir101 GROS V. (2010), Étude des modalités de consultation des dictionnaires japonaisfrançais ou japonais-anglais : quelles fonctions complémentaires apportent les versions
électroniques ?, mémoire de M1 TAL. [métalexicographie]
Mdir102 NGUYEN NGOC D.V. (2010), Analyse métalexicographique de dictionnaires vietnamiens, mémoire de M1 TAL. [métalexicographie ; étudiante vietnamienne]
Mdir103 TETTELIN L. (2010), Analyse comparée des équivalences traductionnelles proposées
dans deux dictionnaires bilingues français-anglais et de ce qui serait utile pour la compréhension d’une sélection de phrases extraites d’un corpus d’articles de TAL, mémoire
de M1 TAL. [constitution et/ou exploration de corpus & métalexicographie]
Mdir104 CONTRERAS E. (2010), Vers un dictionnaire bilingue de langue familière espagnol (variante vénézuélienne)-français, mémoire de M2 LTTAC. [lexicographie]
Mdir105 FALCONE H. (2010), Vers un dictionnaire de la Formule 1, codirection : Pierre
Corbin, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie]
Mdir106 LECLERC H. (2010), Conception et réalisation d’un dictionnaire de cuisine indienne végétarienne, mémoire de M2 LTTAC. [lexicographie]
Mdir107 NIOBEY L. (2010), Vers un dictionnaire alphabétique et thématique du football :
le vocabulaire fondamental des commentaires de matchs, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie]
Mdir108 QIN N. (2010), Conception d’un lexique bilingue chinois-français visant à présenter les fêtes traditionnelles de la Chine, mémoire de M2 LTTAC. [lexicographie ; étudiante chinoise]
Mdir109 RENAULT A. (2010), Vers une description syntaxico-sémantique des prédicats pour
une analyse sémantique automatique en correction orthographique et en aide à la rédaction : essai sur les verbes de changement d’état physique à alternance, codirection : Danièle Van de Velde, mémoire de M2 LTTAC. [linguistique & lexicographie]
Mdir110 ROCHE O. (2010), Dictionnaire encyclopédique de la musique destiné aux enfants
à partir de 10 ans, mémoire de M2 LTTAC. [lexicographie]
Mdir111 SADOUKI F. (prévu pour 2011), Création d’un lexique bilingue arabe-français
d’expressions journalistiques, mémoire de M2 LTTAC. [constitution et/ou exploration
de corpus & lexicographie ; étudiant algérien]
Document de synthèse
0. Introduction
Élaborer cette synthèse relative aux activités de recherche qui ont été les miennes
depuis la soutenance de ma thèse en 1998 et mon recrutement comme maître de conférences à l’université Lille 3 en 1999 constitue pour moi une tâche stimulante qui, en
m’amenant à faire un point une décennie plus tard, me permet de prendre la mesure
de l’importance de certains choix et de discerner les orientations stables et les évolutions de positionnement.
Recherche et enseignement : deux activités intrinsèquement liées
Ce retour sur mes travaux de recherche fait apparaître à quel point leur articulation avec ma pratique de formation professionnelle de lexicographes et de terminographes a été et est toujours déterminante pour les deux activités. Notre cursus, créé
en 1991 par Danielle et Pierre Corbin, devenu DESS en 1999, l’année où j’ai commencé
à l’animer aux côtés de ce dernier, associé à une maîtrise en 2001 et maintenant
converti en spécialité de master dénommée “Lexicographie, Terminographie et Traitement Automatique des Corpus” (LTTAC) 1, qui attire des étudiants venus de tous les
continents 2, fonctionne comme un laboratoire d’expérimentation, dont la matière se
renouvelle continûment. Loin de distiller, sous couvert de professionnalisation, des
recettes supposées éprouvées, nous faisons bénéficier nos étudiants en formation des
problématisations de la recherche, qui se nourrit en retour de voir ses hypothèses tes1
La formation de niveau bac + 5 a évolué selon la chronologie suivante :
1991-1999 : “Diplôme Européen de Lexicographie” (DEL, diplôme d’université) ;
• 1999-2000 : DESS “Lexicographie et Terminographie” (LT) ;
• 2000-2004 : DESS “Lexicographie, Terminographie et Traitement Automatique des Corpus” (LTTAC) ;
• 2004-2010 : M2 “Lexicographie, Terminographie et Traitement Automatique des Corpus” (LTTAC) de la
spécialité “TAL, Dictionnaires, Terminologies, Corpus” de la mention “Sciences du langage” du master “Arts,
Lettres, Langues et Communication” ;
• 2010-20… : M2 de la spécialité “Lexicographie, Terminographie et Traitement Automatique des Corpus”
(LTTAC) de la mention “Sciences du langage” du master “Arts, Lettres, Langues et Communication”.
– La formation de niveau bac + 4 a pour sa part connu trois phases :
• 2001-2004 : Maîtrise “Industries de la Langue” (IDL) ;
• 2004-2010 : M1 “Traitement Automatique des Langues” (TAL) de la spécialité “TAL, Dictionnaires, Terminologies, Corpus” de la mention “Sciences du langage” du master “Arts, Lettres, Langues et Communication” ;
• 2010-20… : M1 de la spécialité “Lexicographie, Terminographie et Traitement Automatique des Corpus”
(LTTAC) de la mention “Sciences du langage” du master “Arts, Lettres, Langues et Communication”.
– Le site http://stl.recherche.univ-lille3.fr/siteheberges/LTTAC/index.htm détaille la structure actuelle des
M1 et M2 “Lexicographie, Terminographie et Traitement Automatique des Corpus”.
Les étudiants qui ont suivi la formation proviennent, outre la France, de près d’une quarantaine de pays
répartis sur les cinq continents, comme indiqué dans la liste ci-après (où les noms de pays écrits en gras sont
ceux des étudiants inscrits et ceux en italiques ceux des auditeurs libres) :
– EUROPE : Allemagne, Belgique, Bulgarie, Chypre, Espagne, Grèce, Italie, Luxembourg, Pays-Bas,
Pologne, Portugal, Roumanie, Slovénie, Russie, Ukraine ;
– AFRIQUE (MAGHREB) : Algérie, Tunisie ;
– AFRIQUE NOIRE : Bénin, Cameroun, Gabon, R.D. du Congo, Sénégal ;
– ASIE : Afghanistan, Arménie, Chine, Corée du Sud, Inde, Iran, Jordanie, Turquie, Viêtnam ;
– AMÉRIQUE DU NORD : Canada (dont Québec) ;
– AMÉRIQUE LATINE : Colombie, Cuba, Équateur.
–
•
2
6
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
tées de façon concrète. 3 Les partenaires de ce master 4, un nombre important d’entreprises et d’institutions principalement françaises et européennes parmi les plus représentatives des métiers auxquels il forme et des industries de la langue, et plus généralement des entreprises industrielles utilisatrices, pour leur communication interne et
externe, des qualifications de nos étudiants (notamment en matière de constitution
de thésaurus et de structuration de textes), nous transmettent leur expérience pratique
lors de conférences 5, des rendez-vous de suivi de stages d’étudiants qu’ils encadrent
et de contacts qu’ils prennent lors du recrutement de diplômés, qui donnent lieu à des
échanges de vues stimulants pour chacun sur l’activité de ces professionnels et sur
nos recherches. Dans le domaine de la lexicographie, l’articulation entre formation et
recherche est actuellement particulièrement forte sur certains terrains, en raison de
la mutation que constitue la généralisation de l’informatique dans tous les secteurs
concernés par la production de dictionnaires, qui amène à repenser différents aspects
de la conception de ceux-ci. Dans les mémoires qu’ils doivent rédiger, les étudiants du
master sont amenés à imaginer des projets et des solutions dictionnairiques qui préfigurent la lexicographie du futur proche, ce qui explique et justifie que l’UMR STL soit
aussi un partenaire de cette formation, à laquelle elle fournit une aide logistique
significative. 6
Objets, méthodes et moyens d’une décénnie de recherches
Dans le retour critique sur mon activité de chercheur qui va suivre, j’ai choisi
d’adopter une présentation thématique, qui me permet de valoriser certaines des
convergences existant entre mes thèmes de recherche, mais d’autres regroupements
auraient été possibles, qui auraient mis en relief d’autres liens entre mes travaux. Le
plan adopté reflète le regard que je porte aujourd’hui sur mes recherches anciennes et
récentes. En complément des regroupements opérés, les lecteurs disposeront au fil
des pages de multiples renvois vers
3
4
5
6
Les effets de cette conception en synergie de la recherche et de l’enseignement se traduisent dans l’ensemble
de mes communications et publications individuelles ou en collaboration. Une manifestation récente et significative de cette fertilisation réciproque de la réflexion théorique et de l’expérience pratique est constituée
par le numéro 19 de la revue Lexique, intitulé « Changer les dictionnaires ? » (D1 (§ 2.6.2.)), dont tous les
contributeurs, qu’ils soient membres de l’UMR STL ou extérieurs, ont été ou sont actuellement acteurs de
la formation professionnelle.
Au fil des deux décennies de la formation, ces intervenants sont venus d’Allemagne, de Belgique, d’Espagne,
de Grande-Bretagne, de Grèce, d’Israël, d’Italie, du Luxembourg, des Pays-Bas et de Russie, dans des proportions et pour des durées variables (cf. http://stl.recherche.univ-lille3.fr/siteheberges/LTTAC/Partenariats
-professionnels.htm).
Les animateurs de la formation assistent à toutes les interventions des professionnels invités ainsi qu’à
une large part des cours des autres enseignants-chercheurs, de manière à aider les étudiants à articuler et
à mettre en perspective ce qui a été dit par chacun. Il en résulte une forte synergie entre Pierre Corbin et
moi, mais également, plus ponctuellement, entre certains intervenants et moi.
Les nombreuses directions de mémoires (cent onze), que j’ai assumées seule (quatre-vingt huit) ou en collaboration avec Pierre Corbin (dix-sept), Antonio Balvet (deux), Liliane Haegeman (une), Rafael Marín (une),
Marc Tommasi (une) ou Danièle Van de Velde (une), s’inscrivent dans cette logique et, qu’il s’agisse d’études
théoriques ou applicatives, elles obéissent aux mêmes exigences intellectuelles, requièrent les mêmes transmissions de compétences métalexicographiques, linguistiques et informatiques et nécessitent le même suivi
tout au long de l’année.
Document de synthèse - 0. Introduction
7
– les publications (T1 à 24) et une sélection de textes non publiés (Tdr1 à 5) qui
sont reproduits dans le dossier d’habilitation,
– ainsi que vers les autres activités de recherche dont le détail est présenté supra
(rubrique « Inventaires ») :
• directions de publications collectives (D1 et 2),
• communications (C1 à 24) et exposés (E1 à 24),
• participations à des projets financés (P1 à 5),
• constitutions de ressources documentaires réparties en trois sous-ensembles : corpus
et outils de différentes natures qui leur sont associés (Rcorp1 à 16), bases de données
qui documentent des études métalexicographiques (Rbd1 à 6) et prototypes de dictionnaires (Rdic1 à 6),
• missions d’expertise ou de conseil (Exp1 à 5),
• animation de séminaire (S1),
• et directions de mémoires (Mdir1 à 111) 7.
D’une manière ou d’une autre, mes activités de recherche s’ancrent dans des questions de description d’unités lexicales documentées à partir d’observations en corpus
ou dans des dictionnaires, dans la continuité de ce qui avait été entrepris durant la
rédaction de ma thèse de doctorat, mais en intégrant les contraintes particulières des
milieux professionnels où ces descriptions sont produites à des fins commerciales (et
en premier lieu les maisons d’édition de dictionnaires).
Mon intérêt pour les unités linguistiques signifiantes (unités lexicales simples ou
complexes et unités infralexicales) est orienté vers des descriptions finalisées, mobilisant savoirs introspectifs et ressources documentaires métalinguistiques et discursives,
et pouvant permettre des exploitations par des humains (dans le cadre de consultations
fonctionnelles ou culturelles) ou applicatives.
Cette dernière perspective m’avait conduite, pour mon doctorat,
7
La grande majorité des mémoires encadrés ont des thèmes qui relèvent de mes domaines de recherche
puisque
– six traitent de constitution et/ou d’exploration de corpus (dont un qui a été préparé durant une année pleine
mais n’a pas été soutenu faute que l’étudiant ait réussi à le rédiger alors que les analyses linguistiques
étaient élaborées),
– vingt-quatre de ce thème et de lexicographie conjointement,
– un de synthèse de la parole et de lexicographie (le premier de ces domaines n’entrant pas dans mes spécialisations),
– quarante-huit de lexicographie,
– dix-neuf de métalexicographie,
– un des deux derniers thèmes,
– un de métalexicographie et de constitution et/ou exploration de corpus,
– trois de linguistique,
– deux de linguistique et de constitution et/ou exploration de corpus,
– un de linguistique et de lexicographie,
– deux d’informatique éditoriale,
– un de lexicographie et d’informatique éditoriale.
Un traite d’enseignement assisté par ordinateur (EAO). J’ai accepté de le diriger dans la mesure où le projet
de cet étudiant pouvait bénéficier à la fois de mon expérience passée d’enseignante du primaire et de mes
compétences informatiques (j’enseignais alors l’EAO en licence TAL et en maîtrise de FLE).
8
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– à imaginer un contexte applicatif d’extraction terminologique qui motivait l’élaboration d’un algorithme de calcul de valeurs sémantiques possibles d’unités polylexicales
de structure N1 à N2 référant à des instruments (le corpus de test étant constitué
d’un peu plus de neuf cents noms listés par Poncet-Montange (1991)) ;
– et, afin de disposer des connaissances nécessaires pour tester les capacités de calcul
de l’algorithme, à réunir les données syntaxiques et sémantiques relatives aux N1 et
aux N2 hors des unités polylexicales traitées, en élaborant pour elles des méthodes
d’extraction en corpus et un cadre de description formalisé, très largement inspiré du
Lexique génératif de Pustejovsky (1995).
Sans avoir d’ancrage professionnel réel, la finalité applicative de cette recherche
traduisait une volonté de travailler en partenariat avec des industriels, que mon implication professionnelle actuelle a partiellement concrétisée. En effet, si les compétences linguistiques et informatiques mobilisées pour mon doctorat m’ont sensibilisée
à leur interdépendance dans la production de descriptions lexicales, j’ai pu enrichir et
faire fructifier mes savoir-faire par mon implication dans la formation de lexicographes,
qui me permet d’acquérir une connaissance des tâches et contextes professionnels des
partenaires et de nos diplômés. Mes travaux de recherche se sont ainsi naturellement
nourris des enseignements que je dispense dans cette formation comme des conférences
ou des cours qui y sont donnés et auxquels j’assiste afin de mettre en perspective les
apports de chacun pour ma propre documentation mais aussi pour soutenir les
étudiants dans leurs efforts d’appropriation de compétences nouvelles (cf. n. 5).
Il résulte de ce qui précède que mes travaux ont toujours à voir avec la description
d’unités linguistiques, qu’ils concernent :
– la documentation des analystes et descripteurs (linguistes, lexicographes ou terminographes),
– les modalités de rédaction des descriptions (qu’elles soient écrites en langue naturelle,
mais de manière structurée et souvent codifiée, pour des destinataires humains ou
formalisées pour des applications informatiques),
– les contenus informationnels et leurs modes discursifs (dont l’appréciation qualitative
implique l’étude de la lisibilité et de l’adéquation de ce qui est présenté dans les descriptions en fonction d’un projet éditorial et d’un public destinataire) ;
– ou l’utilisation et la réexploitation de descriptions existantes (qui se fait en repérant
les filiations textuelles et en évaluant la possibilité du réemploi de certains textes à
d’autres fins).
Ces recherches exploitent le plus souvent des compétences informatiques (notamment en XML 8 et bases de données SQL 9) à des fins linguistiques, métalexicogra8
Le XML (eXtensible Markup Language) est un métalangage qui permet de définir des langages de balisage
et qui a fait l’objet en 1998 de spécifications officielles (version 1.0) émanant du World Wide Web Consortium
(W3C). Il est dérivé du SGML (Standard Generalized Markup Language), dont il constitue une version dont
la syntaxe est plus contrainte.
Les documents XML sont des documents textuels au sein desquels des éléments (délimités par une balise ouvrante et une balise fermante) contiennent des segments de texte et fournissent des indications de natures
variées à leur sujet. Ces dernières sont exprimées au moyen du nom de l’élément mais aussi de traits (des
paires attributs / valeurs) qui peuvent être portés par chaque occurrence de chaque élément.
Document de synthèse - 0. Introduction
9
phiques et lexicographiques, et elles le font généralement en adoptant des modes
d’exposition aussi pédagogiques que possible (bien que souvent assez techniques),
afin de transmettre les savoir-faire que j’ai acquis à ceux qui pourraient être intéressés par ces questions (lexicographes et terminographes, linguistes et talistes).
Avant d’en venir à la présentation du plan de ce mémoire, un point terminologique
semble utile. Dans ce document, une majorité des emplois de lexicographie réfère aussi
bien à la lexicographie générale que spécialisée, voire à la terminographie. Cette option
métalinguistique, qui pourrait être perçue comme une facilité d’écriture éventuellement source d’imprécisions, est en fait motivée par la conviction, appuyée sur l’expérience, que, si les modalités de rédaction de descriptions d’unités linguistiques diffèrent en fonction des projets éditoriaux des répertoires qu’elles doivent intégrer, elles
ont en partage un objet, des méthodes de documentation et des principes de description, dont les rédacteurs usent sélectivement selon leur cadre de travail. Les emplois
de lexicographie comme hyperonyme de lui-même et de terminographie sont donc assumés et s’accompagnent d’une extension sémantique comparable pour le nom d’agent
lexicographe.
Motivation du plan retenu
Dans le cadre de la lecture thématique de mes activités de recherche adoptée dans
ce document, je montre comment j’ai conçu celles-ci comme un long échange avec les
lexicographes, partenaires professionnels qui me semblent à la fois être
9
Les documents XML doivent être respectueux des règles syntaxiques de base du métalangage : on dit alors
qu’ils sont valides. Ils peuvent en outre se conformer à une description spécifique de leur structure, qui
pourra être soit une DTD (Définition de Type de Document), si elle est codée pratiquement comme elle l’était
déjà pour les documents SGML, soit un schéma, si elle est écrite en XML en employant des éléments prédéfinis pour déclarer les nouveaux éléments et attributs et leur grammaire.
Les contenus textuels des documents balisés en XML peuvent être manipulés au moyen de langages dédiés,
dont en particulier
– XPath (XML Path Language), qui permet de localiser des éléments ou attributs en vue de différents traitements ;
– XSLT (eXtensible Stylesheet Language Transformations), qui est un langage XML avec lequel on écrit
des “feuilles de styles” de transformation qui permettent de créer de nouveaux documents XML, HTML ou
TXT à partir d’un document XML ;
– XSL-FO (eXtensible Stylesheet Language - Formatting Objects), qui est un langage XML avec lequel on
écrit des “feuilles de styles” de formatage de versions imprimables qui permettent de générer un document
PDF à partir d’un document XML.
Des remodelages structurels de documents XML peuvent également être réalisés au moyen de scripts Perl
(un langage de programmation polyvalent qui traite des chaînes de caractères et dont des bibliothèques
offrent des modules spécialisés : XML::Parser, XML::Dom, etc.).
Les bases de données dites “SQL” sont constituées de tables qui enregistrent les données stockées et dont
le contenu est interrogeable au moyen d’un langage de requête, le SQL (Structured Query Language). Les
tables sont composées de champs – les colonnes – et d’enregistrements – les lignes –, ces derniers étant
généralement associés à des identificateurs appelés “clés primaires”. Quand les données de la base sont
réparties dans différentes tables, les clés primaires jouent un rôle capital : en reportant la valeur de la clé
primaire d’un enregistrement d’une table (T_1) dans une autre table (T_2), on crée un enregistrement lié et
la copie de la valeur de cet identificateur est appelée “clé de jointure”. Un enregistrement d’une table (T_1)
peut n’être lié qu’à un seul enregistrement d’une autre table (T_2), et on parle alors de “relation un à un”,
mais il peut alternativement être lié à plusieurs enregistrements, et on parle alors de “relation un à plusieurs”.
10
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– les plus polyvalents, tant par leurs qualités d’analystes attentifs aux variations des
usages linguistiques que par leur qualification technique en matière de documentation,
de rédaction et de suivi éditorial,
– et les plus centraux, du fait que ce qu’ils produisent est au moins partiellement exploitable par d’autres professionnels du monde de l’édition (en particulier les informaticiens éditoriaux qui contribuent directement à la réalisation et au réemploi des productions des premiers) et des industries de la langue (dont les développements applicatifs nécessitent des ressources lexicales).
Le découpage adopté – les traitements de corpus d’une part (partie 1.), la métalexicographie analytique et de conception d’autre part (partie 2.) – reflète un cheminement
allant des usages langagiers observables aux descriptions qui en sont faites (et aux
tâches impliquées par l’élaboration de celles-ci).
L’ordre de ces deux parties reflète aussi, bien qu’imparfaitement, le parcours qui a
été le mien depuis un peu plus d’une décennie :
– utilisatrice de dictionnaires comme ressources documentaires, j’ai commencé par
étudier l’adéquation de leurs descriptions des usages en confrontant ce que certains
d’entre eux présentent avec ce qui peut s’observer en corpus et en explorant comment
ces derniers sont susceptibles de mieux documenter les analyses des lexicographes ;
– percevant l’intérêt pressant des maisons d’édition pour la rétroconversion de textes
et la conception de produits sur support électronique, je me suis mobilisée sur ces deux
aspects de l’activité lexicographique, qui trouvent des échos dans d’autres secteurs de
production talistes ;
– disposant progressivement d’une meilleure connaissance des textes dictionnairiques,
je me suis intéressée à la manière dont certaines informations y sont transmises aux
utilisateurs, avec le projet ambitieux d’étendre l’étude à l’ensemble de celles qui sont
fournies,
• en observant les relations qui peuvent être repérées entre d’une part les éléments
informationnels sélectionnés ainsi que les modes de présentation discursive et typographique qu’ils reçoivent et d’autre part les projets des répertoires qui les proposent,
afin d’évaluer leur compréhensibilité par ceux à qui ils sont destinés ;
• et en envisageant la réexploitabilité des segments de textes exprimant chaque élément informationnel dans d’autres contextes éditoriaux ou applicatifs.
Lors du retour sur chaque production commentée dans ce mémoire, sa présentation
est accompagnée d’éléments qui permettent de situer son contexte d’élaboration et les
liens qu’elle entretient avec mes autres travaux, mais elle peut également appeler des
développements complémentaires utiles pour la compréhension de l’objet traité ou des
modalités de son traitement et dont la teneur connaît des variations d’un commentaire
à l’autre de manière à diversifier autant que possible les modes de relecture de mes
recherches.
Enfin, j’ai adopté pour ce mémoire une option rédactionnelle plutôt descriptive,
m’attachant à expliciter les fondements des réflexions développées durant un peu plus
d’une décennie. Ce choix me semble de nature à faciliter la lecture de développements
qui peuvent être en eux-mêmes assez complexes et à valoriser les articulations des
logiques internes de chaque réflexion.
1. Traitements de corpus
1.1.
Définir des manières d’envisager
les traitements de corpus
Mon implication dans la formation de lexicographes, dont j’ai déjà indiqué la forte
incidence qu’elle a eue sur mes recherches, n’a cependant pas déterminé de manière
exclusive mon investissement en matière d’utilisations de corpus, documenter les
usages linguistiques à l’aide de ceux-ci n’étant pas spécifique aux lexicographes et ces
ressources n’étant pas les seules utilisées à cette fin par ces derniers. Et s’il est vrai
que mes travaux relatifs aux traitements de corpus, qui incluent des créations et des
explorations ciblées, ont assez souvent été conçus dans des perspectives lexicographiques, d’une part ces traitements peuvent être abordés de manière comparable
pour des études proprement linguistiques, et d’autre part j’y recours aussi, depuis
quelque temps, pour documenter des problématiques de recherche épistémologiques.
Objets, méthodes et moyens
Mon activité de recherche concernant les traitements de corpus s’est développée dès
le début des années 2000, en étant stimulée :
– d’une part par les besoins des étudiants lillois en sciences du langage et en lexicographie en matière de formation en linguistique documentée par des corpus, et par des
demandes de doctorants et de collègues linguistes désireux de voir leurs ressources
documentaires structurées afin d’affiner leurs investigations, qui ont suscité plusieurs
collaborations ;
– d’autre part par la réflexion qui s’est développée ces dernières décennies dans le
domaine lexicographique sur l’exploitation de corpus informatisés pour l’élaboration
de dictionnaires, qui, après l’expérience novatrice mais particulière et finalement isolée
du Trésor de la langue française, a connu un important renouvellement et un essor
inégalé dans le monde anglo-saxon (cf. Béjoint (2009, §§ 3.3., 3.5. et 3.7. et 2010,
chap. 9.)).
Dans ce contexte, les corpus ont constitué un ancrage constant de mes recherches,
dont les approches, les objets et les collaborations induites ont connu une large diversification.
Au moment de la rédaction de ce mémoire, mes travaux les concernant comptent
neuf articles publiés 10 et trois textes de diffusion restreinte rédigés 11, vingt-quatre
10
T1 ((2001), rédigé avec François Nemo & Pierre Cadiot), T2 (2002), T3 (2005b), T4 (2004a), T5 (2008b),
T8 (2008c), T10 ((2008d), rédigé avec Hans Paulussen), T18 ((2009 a), rédigé avec Pierre Corbin et
relevant également de la métalexicographie, cf. n. 182), T20 ((à paraître d), rédigé avec Stavroula Markezi
et relevant également de la métalexicographie, cf. n. 182).
14
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
communications ou exposés prononcés 12, un séminaire de recherche (S1, intitulé
« Constitution et exploration de corpus ») proposé et largement animé 13 et trois participations effectives à des projets de recherche 14, ainsi qu’une plus ponctuelle prévue
pour 2010-2011 15. À ces prestations, il convient d’ajouter le développement autonome
ou en collaboration de douze corpus et de quatre outils ou produits associés 16 et la
11
12
13
14
15
16
Tdr1 (2001), Tdr2 (2006) et Tdr4 (en préparation a).
Quatorze n’ont pas donné lieu à publication : C2 (2001b), C3 (2001c), C4 (2001d) [cf. Tdr1], C5 (2002a),
E9 (2006b) [cf. Tdr2], et, dans le cadre du séminaire « Constitution et exploration de corpus » (S1, cf. n. 13),
E10 (2007a), E11 (2007b), E12 (2007c), E13 (2007d), E14 (2007e), E15 (2007f ), E16 (2007g), E17 (2007h)
et E18 (2007i).
Les données de dix autres ont été exploitées dans des articles : C6 (2002b) [cf. T2], C7 (2002c) [cf. T3], E5
(2003) [cf. T4], C8 (2003) [cf. T5], E6 et E7 (2004a et b) [cf. T4], C11 (2005b) [cf. T8], E8 ((2006a), avec Hans
Paulussen) et C12 ((2006a), également avec Hans Paulussen) [cf. T10], et C21 ((2009a), avec Stavroula
Markezi) [cf. T20].
L’idée de S1 est née en 2004 lors de ma participation à l’école thématique « Linguistique de corpus : constitution, archivage, évaluation », organisée avec le soutien du CNRS à l’université de Caen. Les doctorants
lillois qui y participaient également (et qui parfois m’avaient déjà sollicitée à la suite d’un des exposés relatifs
à des traitements de corpus que j’avais présentés à l’UMR (E6) ou à l’école doctorale (E5 et E7)) ont témoigné
un tel intérêt que j’ai eu envie de les aider à poursuivre leur formation et de permettre à d’autres membres
de l’UMR de s’initier à ce type de recours aux données attestées.
Ce séminaire 2006-2007 de l’UMR STL et de l’École doctorale de l’université Lille 3 a comporté dix-huit
séances thématiques (soit 57h30 de travail collectif ) que j’ai animées avec d’autres enseignants-chercheurs
de l’UMR, Cyril Auran, Antonio Balvet, Ilse Depraetere, et la participation d’un conférencier étranger invité
(Hans Paulussen, cf. n. 26). Son objectif était de permettre aux participants d’utiliser des corpus existants,
d’en constituer de nouveaux pour documenter des recherches en cours, d’explorer des données antérieurement
collectées (ce qui peut éventuellement avoir été fait sans avoir préalablement réfléchi à leur structuration),
d’aligner des données bilingues ou multilingues pour pouvoir analyser en parallèle un segment exprimé dans
plusieurs langues, voire différentes versions d’un même texte dans une langue donnée, ou encore d’aligner
un signal sonore et/ou vidéo à sa transcription orthographique ou phonétique et à des annotations.
Ces trois projets (présentés dans la rubrique « Inventaires ») ont des ancrages très différents les uns des autres :
– le projet OURAL (P2, échelonné de 2003 à 2005 et porté par Claude de Loupy dans le cadre de la campagne
Technolangue), qui a induit deux articles relatifs aux travaux faits sous ma direction à l’UMR SILEX/STL
(T8 (§ 1.4.1.) et Mostrov (2008)), visait la production de ressources et d’outils pour le TAL, dont des corpus
d’oral transcrit étiquetés morphoflexionnellement pour lesquels j’ai été mobilisée (Rcorp5 et Rcorp6
(§ 1.4.1.)) ;
– le projet multicomposantes “Constitution du corpus parallèle français-serbe” (P3, débuté en 2008, porté par
Dejan Stosic et financé par différentes sources) doit permettre le développement de deux corpus bilingues
ou trilingues serbe / français et optionnellement anglais, dédiés à des études linguistiques : un corpus de
commentaires footballistiques oraux transcrits (Rcorp16 (§ 1.3.4.)) et un autre de textes littéraires alignés
pour lequel je contribue à leur traitement informatique et à l’élaboration de l’interface de consultation
(Rcorp15 (§ 1.5.2.)) ;
– et le projet ANR “blanc” Algo (P4, débuté en 2009 et porté par Fabio Acerbi et Bernard Vitrac), consacré
à l’étude de textes de mathématiques de l’époque prémoderne rédigés dans différentes langues et dans le
cadre duquel je suis sollicitée pour l’annotation et l’exploration outillée d’un corpus de démonstrations
mathématiques en grec ancien (Rcorp14 (§ 1.5.4.).
Le projet ANR-DFG Eurolab (P5, débuté en 2010 et porté par Elsa Kammerer et Jan-Dirk Müller), dont
l’objet est l’étude de textes de la Renaissance et pour lequel j’ai été sollicitée pour mon expertise technique en
vue de la réunion en un corpus aligné structuré en XML des différentes versions des textes pris en compte.
Ces seize ressources peuvent être regroupées thématiquement comme suit :
– trois corpus footballistiques, créés entre 2002 et 2005, le premier réunissant des transcriptions de multiplex
(Rcorp1, conçu avec Pierre Corbin), le second des articles du journal L’Équipe (Rcorp2) et le troisième
des pages Web consacrées au football (Rcorp4), accompagnés d’une ontologie des actions de jeu (Rcorp3,
conçue avec Pierre et François Corbin) (cf. T3, T4 et T5 (§§ 1.3.1., 1.3.2. et 1.3.3.)) ;
– un corpus d’émissions juridiques radiodiffusées (Rcorp5) et un d’entretiens relatifs à la gestion locative de
biens immobiliers (Rcorp6), constitués dans le cadre du projet OURAL (P2, cf. n. 14 et T8 (§ 1.4.1.)) ;
Document de synthèse – 1.1. Définir des manières d’envisager les traitements de corpus
15
direction de trente-cinq mémoires relatifs à des constitutions et/ou explorations de
corpus 17.
Motivation du plan retenu
Le retour sur mes différents travaux relatifs à des traitements de corpus s’organise
en cinq temps, qui correspondent à des modes d’approche que j’ai progressivement
pris en compte.
La première étape (§ 1.2.) a été celle de la prise de repères, de la définition de ce que
pourrait être ma manière d’employer des corpus et donc des finalités de leur exploitation et, en fonction de celles-ci, du ou des référent(s) à associer au nom corpus.
Le choix de me concentrer sur la documentation des lexicographes a suscité une
réflexion relative aux corpus à haut rendement exploratoire (§ 1.3.), les seuls qui me
paraissent constituables par des éditeurs éventuellement enclins à consentir des efforts
financiers pour des projets ponctuels mais qui ne sont pas en mesure de s’engager
dans des investissements de grande envergure. Les travaux faits dans ce contexte ont
concerné un espace discursif particulier – les commentaires de matchs de football –
envisagé à la fois du point de vue de la sélection des documents primaires à réunir en
corpus et des méthodologies d’exploration mêlant connaissances empiriques des événements narrés et approches outillées informatiquement.
Bénéficiant des acquis de cette première expérience, d’autres corpus thématiques –
pas toujours à haut rendement du fait de certaines contraintes – ont été élaborés
(§ 1.4.). Il s’est agi successivement :
– dans le cadre du projet OURAL (P2), de transcriptions de sources orales pour deux
corpus : l’un d’émissions juridiques radiodiffusées, inachevé faute d’obtention des droits
d’exploitation des sources sonores, et l’autre d’entretiens relatifs à la gestion locative
de biens immobiliers, conçu pour ne pas rencontrer l’écueil précédent mais qui s’est
révélé d’une moins bonne rentabilité ;
17
– un corpus bilingue du tourisme (Rcorp7, élaboré avec Hans Paulussen) en 2005-2007 (cf. T10 (§ 1.4.2.)) ;
– un corpus des écrits de Danielle Corbin (Rcorp8, conçu avec Pierre Corbin) depuis 2006, qui est dédié à
des études épistémologiques, linguistiques et terminologiques, qui a motivé la constitution de trois ressources
dérivées – les bases de données des références bibliographiques de la morphologue (Rcorp9), des unités lexicales et infralexicales traitées (Rcorp10) et des termes employés (Rcorp11) – et qui est présenté dans un
article en préparation (Tdr4 (§ 1.6.2.)) ;
– un corpus de textes de présentation d’ouvrages lexicographiques (préfaces, textes de présentation sur les
sites des éditeurs, etc.) (Rcorp12) depuis 2007 (cf. T18 (§ 1.4.3.)) ;
– un corpus de textes de lecture proposés dans des manuels de français (Rcorp13) depuis 2009, qui est
destiné à des études métalexicographiques relatives aux nomenclatures de dictionnaires scolaires (cf. T20
(§ 1.6.1.) et Tdr5 (§ 2.3.6.)) ;
– un corpus de textes de mathématiques en grec ancien (Rcorp14 (§ 1.5.4.)) élaboré dans le cadre du projet
Algo (P4, cf. n. 14) ;
– un corpus trilingue aligné de textes littéraires serbes, français et anglais – la troisième langue étant optionnelle et sa présence régie par la disponibilité des textes – (cf. Rcorp15 et § 1.5.2.) et un corpus footballistique
bilingue serbe / français (Rcorp16 et § 1.3.4.) constitués dans le cadre du projet arrageois P3 (cf. n. 14).
Vingt-six ont également un objectif lexicographique ou métalexicographique : Mdir8, 15, 16, 18, 20, 22,
26, 27, 29, 35, 38, 43, 49, 66, 78, 89, 90, 103, 107 et 111, et, codirigés avec Pierre Corbin, Mdir7,
17, 21, 23, 24 et 105. Huit autres traitements de corpus sont effectués dans une perspective taliste ou
linguistique : Mdir34, 36, 40, et, codirigé avec Marc Tommasi, Mdir19, codirigé avec Pierre Corbin
Mdir28, codirigés avec Antonio Balvet, Mdir67 et 69, et, codirigé avec Rafael Marín, Mdir86.
16
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– du fait d’interactions avec un intervenant de la formation de lexicographes 18, de la
création, à partir de documents issus du Web, d’un corpus bilingue aligné français /
anglais du tourisme, pour lequel la contrainte du bilinguisme a joué négativement en
imposant d’exclure des documents riches mais sans traduction disponible ;
– et, plus récemment, pour étudier le mode d’expression des lexicographes français,
de la compilation de paratextes de dictionnaires en un corpus qui peut, lui, être considéré comme à haut rendement.
Les exposés faits à Lille relativement à ces premières constitutions de corpus (dans
le cadre du séminaire de l’UMR ou de l’un de ceux de l’école doctorale : E5, E6, E7 et
E8) ont créé une émulation chez différents collègues et doctorants (§ 1.5.) qui m’a incitée à proposer et à animer un séminaire de recherche spécifiquement centré sur les
corpus (S1), à représenter notre UMR lors d’une réflexion relative aux possibles évolutions de la base Frantext (cf. Tdr2), puis à m’engager avec des collègues intéressés
par des questions de linguistique comparative dans le projet arrageois, financé de différentes manières, de développement de corpus bilingues ou trilingues serbe / français /
anglais (P3). Pour l’un des corpus de ce projet comme pour d’autres collaborations qui
m’ont été proposées ensuite, ce sont mes compétences en structuration de documents
(affinées par les traitements de corpus antérieurs mais aussi par les balisages de textes
dictionnairiques (cf. § 2.2.)) qui ont motivé que des chercheurs ou enseignants-chercheurs
me demandent de m’impliquer à leurs côtés. Ces projets renouvellent assez largement
les types de corpus auxquels je suis confrontée comme l’identité de mes partenaires
(cf. nn. 14 et 15) : textes littéraires modernes serbes, français et anglais pour le corpus
arrageois, démonstrations mathématiques en grec ancien pour le projet Algo (P4),
textes littéraires de la Renaissance pour le projet Eurolab (P5), auquel ma participation a été sollicitée consécutivement au suivi technique d’un doctorant médiéviste,
Matthieu Marchal, pour l’exploration du texte qu’il étudiait et dont il constituait un
glossaire structuré en XML.
Enfin (§ 1.6.), j’ai conçu récemment deux autres corpus, seule ou avec Pierre Corbin,
en vue d’études pas exclusivement linguistiques, puisque celui qui nous réunit de
nouveau relève également de l’épistémologie et que l’autre est à visée métalexicographique. Les textes de ces derniers corpus ont en partage avec une large partie des
précédents d’être annotés en XML. Leurs balisages contrastent avec ceux mis en
œuvre jusqu’ici par le nombre d’objets balisés et la précision des annotations introduites à leur sujet en prévision des explorations ciblées à venir. Ils prolongent ainsi
en quelque sorte l’objectif qui sous-tendait déjà la structuration du corpus de multiplex
de football (Rcorp1), mais en amplifiant le procédé. Ces travaux n’impliquent, du
moins pour l’heure, que des collaborations connexes à la formation de lexicographes :
avec une étudiante en lexicographie 19 pour un corpus de textes de lectures scolaires
(Rcorp13 (cf. T10)) qui doit documenter des études métalexicographiques (cf. § 2.3.6.),
et avec Pierre Corbin pour un corpus des écrits de Danielle Corbin (Rcorp8) duquel
doit dériver une édition critique de l’œuvre de cette morphologue.
18
19
Il s’agit de Hans Paulussen, chercheur belge spécialisé en développement de corpus (cf. n. 26).
Il s’agit de Stavroula Markezi, étudiante de la promotion 2008-2009, qui a effectué son stage de fin de formation à l’UMR STL sous ma direction et qui a travaillé sur ce projet dans ce cadre.
Document de synthèse – 1.1. Définir des manières d’envisager les traitements de corpus
17
Les §§ 1.2 à 1.6. reviennent sur les travaux réalisés en abordant la plupart d’entre
eux sous l’angle des textes rédigés à leur sujet. Ces points de vue particuliers ont
parfois nécessité de compléter la présentation d’un corpus ou de ses modalités d’exploration afin de ne pas revenir seulement sur les publications ou textes en préparation
mais de bien prendre en compte globalement le travail de recherche qui a trait aux
traitements des ressources développées. Dans une minorité de cas cependant le travail
présenté ne s’appuie pas sur un texte rédigé, mais les corpus concernés sont constitués
dans le cadre de projets de recherche qui méritent d’être évoqués et auxquels sont
donc consacrés des développements spécifiques. 20
20
Les constitutions de corpus entreprises dans le cadre des projets P3 et P4 ou envisagées dans P5 sont évoquées respectivement aux §§ 1.3.4. et 1.5.2. pour P3, au § 1.5.4. pour P4 et au § 1.5.3. pour P5.
1.2.
Définir un objet de recherche
qui motive de recourir à des corpus
Mes premières interactions, au tournant des années 2000, avec des collègues et
doctorants lillois et dans le cadre d’un séminaire de sémantique indexicale fondé par
Pierre Cadiot auquel j’ai participé pendant quatre ans 21 mobilisaient régulièrement
des “corpus électroniques” dont la nature comme les modes d’exploration dépendaient
des besoins et des compétences de mes partenaires de recherche du moment :
– les archives de presse électroniques étaient souvent mobilisées ainsi qu’on peut l’observer dans T1, élaboré dans ce contexte et publié en 2001 (cf. § 1.2.1.), mais la base
Frantext occupait également une place de choix dans ces travaux (cf. Tdr2, largement
basé sur ces expériences) ;
– les explorations des données extraites se faisaient souvent en utilisant la fonction
recherche des logiciels de traitement de texte ou, mieux, le concordancier Unitex ;
– les finalités de ces explorations touchaient différents domaines de la linguistique
(morphologie, syntaxe et sémantique en particulier).
Ce n’est qu’à partir de T2, paru en 2002, que s’est affirmé mon intérêt pour des
corpus destinés à la documentation des usages lexicaux pour la lexicographie, ce qui
m’a amenée à réfléchir sur les conditions spécifiques de leur élaboration et de leur
exploration dans le contexte français.
1.2.1. Explorer un corpus de presse pour observer des unités lexicales liées
morphosémantiquement [T1 (2001)]
Le premier article rédigé après mon recrutement comme maître de conférences est
également le premier à être commenté ici. Il ne porte pas centralement sur des questions de constitution ou d’exploration de corpus, mais l’étude linguistique développée
mobilise des données discursives attestées, ce qui correspond à une manière classique
mais que j’ai peu employée d’intégrer des exploitations de corpus dans des travaux
métalinguistiques.
T1 est inclus dans le volume des actes du colloque sur le Lexique génératif qui s’est
déroulé à Genève en 2001 (cf. C1). Il présente, concernant deux unités lexicales liées
morphosémantiquement – le verbe balayer et le nom balayage –, une étude sémantique
21
Le séminaire « Indexicalité du sens et formes sémantiques » s’est déroulé à Montrouge et à Aubeterre-surDronne, et j’y ai participé de 1999 à 2002. Il réunissait une quinzaine de chercheurs autour de Pierre Cadiot,
François Nemo, Bernard Victorri et Yves-Marie Visetti.
20
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
dont les développements sont étroitement articulés aux recherches que Pierre Cadiot
et François Nemo 22, coauteurs de ce texte, ont élaborées dans le cadre de la sémantique indexicale et dont les formalisations sont inspirées du Lexique génératif, comme
l’étaient celles des descriptions lexicales de ma thèse de 1998.
Après une tentative de rapprochement théorique des deux cadres que nous cherchions à concilier, qui fait l’objet du § 1., débute au § 2. une analyse d’énoncés
extraits des archives des années 1997-1998 du journal Le Monde et 1998-2000 du
journal Libération contenant le verbe balayer (446 occurrences) ou le nom balayage
(36 occurrences).
Rien n’y est dit concernant les méthodes d’exploration, qui ont mobilisé un outil que
j’utilisais déjà régulièrement – Unitex – et dont il ne m’a pas paru utile d’expliciter
l’emploi (ses fonctionnalités seront exposées au § 1.3.2.). En effet, cet outil permettant
de générer des concordances à partir des lemmes des mots cherchés, il m’a simplement fallu demander les contextes du verbe et ceux du nom, puis sélectionner dans
les lignes des concordances ce qui correspondait à un segment d’énoncé interprétable
et donc à un contexte d’analyse suffisant à retenir pour notre étude. La diffusion des
concordanciers m’a semblé suffisante chez les linguistes réunis au colloque où ce texte a
été présenté pour qu’il ne soit pas nécessaire d’entrer dans le détail des manipulations.
Le § 3. se base sur les emplois observés et décrits précédemment pour proposer
des structures de traits pour chaque item analysé et discuter des difficultés induites
par certains emplois abstraits comme balayer d’un revers de main ou du regard. Les
concernant, nous avions du mal à définir des typages acceptables à déclarer dans les
structures argumentales : un revers de main et le regard peuvent être analysés comme
étant ce avec quoi est fait le balayage, mais pas comme des objets manufacturés contrairement aux autres “outils” utilisés pour balayer.
Sur la base des observations précédentes, nous avons conclu que les unités lexicales
morphosémantiquement liées étudiées présentent des caractéristiques communes, mais
que chacune a des spécificités qui s’actualisent de manière différente en contexte, ce
qui à la fois fait écho, dans une certaine mesure, à des options défendues par James
Pustejovsky sur la compositionnalité du sens tout en prenant en compte les variations
sémantiques en contextes d’emploi qui sous-tendent le cadre de la sémantique indexicale.
Place de T1 dans mes recherches
J’ai pris trop de distances aujourd’hui avec la sémantique indexicale pour être capable d’évaluer la qualité des analyses produites dans notre article par rapport à celles
que ses coauteurs ont pu élaborer dans d’autres contextes, mais, en relisant cette
contribution, il me semble que nous y avons adopté des positions mesurées, peu susceptibles de susciter de francs désaccords, mais néanmoins de nature à contribuer à la
description lexicographique des items étudiés.
Dès la rédaction de T1, j’ai craint que nous ne nous soyons pas suffisamment donné
les moyens de confronter les principes d’analyse de la sémantique indexicale et du
Lexique génératif. Au cours d’échanges préalables à cette rédaction avec des partici22
En particulier Cadiot & Nemo (1997a, 1997b et 1997c).
Document de synthèse – 1.2. Définir un objet de recherche
21
pants au séminaire animé par Pierre Cadiot, j’avais cru percevoir la possibilité de
rapprochements entre les observations de comportements d’unités lexicales en contextes formulées dans les travaux des deux cadres et j’avais invité mes collègues à y
réfléchir. Mais tenter de transposer dans un autre cadre des résultats produits en
sémantique indexicale n’était peut-être pas la meilleure démarche pour évaluer s’il y
a effectivement des convergences dans les manières de décrire les emplois observés,
et le projet lui-même était probablement en partie illusoire, dans la mesure où j’étais
la seule à m’être intéressée aux travaux de James Pustejovsky et où moi-même je ne
travaillais pas exactement dans son cadre, puisque j’en avais dérivé des principes de
description adaptés aux recherches réalisées pour mon doctorat sur la construction
du sens des N1 à N2 désignant des instruments.
Je crois par contre que ce travail était intéressant pour la sémantique indexicale,
pour laquelle nous expérimentions un mode d’expression plus formel des produits de
ses analyses, et à laquelle nous donnions une visibilité dans le champ des études
lexicales. Sur ce dernier point, il me semble que ce cadre sémantique était tout à fait
susceptible de trouver sa place à côté de travaux comme ceux sur les prototypes développés par Hanks (1994) en articulation explicite avec des descriptions lexicographiques, et j’espérais susciter des recherches dans cette direction afin de donner plus
de sens à la poursuite de mon implication dans les activités de ce séminaire de sémantique, à une époque où la formation de lexicographes me mobilisait de plus en plus.
Seule publication que j’aie cosignée avec Pierre Cadiot, avec qui j’avais fructueusement dialogué à la fin de ma thèse, et avec François Nemo, qui travaillait beaucoup
avec lui durant la même période, T1 est le premier témoignage concret d’une préoccupation toujours actuelle dans mes recherches, qui est de donner aux descriptions
proposées par des linguistes une réalisation discursive compatible avec celles en usage
dans les dictionnaires (ou aisément transcodable) et, simultanément, une codification
formelle susceptible d’être exploitable par des applications informatiques à composante
lexicale (outils d’aide à la rédaction, de recherche d’information, etc.) 23.
De ce point de vue, l’analyse de balayer et balayage me semble être probante : les
items choisis sont d’une complexité raisonnable, les emplois observés relèvent de la
langue la plus courante mais aussi de domaines techniques relativement spécialisés,
les contextes étudiés sont extraits de compilations d’articles de presse qui ont toute
légitimité à être exploitées compte tenu des spécificités d’emploi qu’il était pertinent
de prendre en compte, et les éléments d’analyse fournis textuellement ou sous forme
codifiée seraient exploitables pour élaborer des descriptions dictionnairiques de ces
items, ce qui valide l’exploitation de corpus comme ressources documentaires pour la
lexicographie. C’est peut-être du côté de l’explicitation des perspectives et des choix
opérés que T1 risque de manquer de fermeté, ce qui peut être un effet de la dynamique de coécriture ou, plus vraisemblablement, lié au fait qu’il ait été destiné à un
colloque consacré au Lexique génératif et non à des travaux lexicographiques ou linguistiques émanant de cadres théoriques variés.
23
T17 § 3.2. explicite cette articulation entre lexicographie destinée à des lecteurs et descriptions dédiées à
des applications informatiques, mais d’autres analyses d’usages lexicaux en corpus ont donné lieu à des descriptions textuelles et formalisées, en particulier celles élaborées à partir des commentaires radiodiffusés
de matchs de football, cf. T4 et T5 (§§ 1.3.2. et 1.3.3.).
22
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Un projet de recherche peut en appeler un autre (lexicographique celui-ci)
Après la rédaction de T1, ma participation au séminaire de sémantique indexicale
s’est faite plus irrégulière, avant de s’interrompre en 2002. Indirectement, ces quelques
années de compagnonnage intellectuel furent à l’origine d’inflexions ultérieures de
mes activités de recherche. François Nemo m’avait en effet proposé dès 2000 de venir
assurer des charges de cours à Orléans et ces déplacements me mirent en contact avec
deux anthropologues, Françoise et Pierre Grenand, qui, à l’Institut de Recherche pour
le Développement (IRD) d’Orléans, en Guyane française et au Brésil, étudient les évolutions linguistiques et relatives aux savoirs traditionnels (en particulier botaniques
et médicaux) observables au sein de petits groupes d’amérindiens en phase d’acculturation. Ils collaboraient déjà avec François Nemo et Pierre Cadiot pour des études linguistiques impliquant trois langues de Guyane (le wayana, le wayampi et le palikur),
mais Françoise Grenand et François Nemo avaient l’ambition d’adjoindre aux recherches déjà engagées le développement, dans le cadre du projet Matoutou (P1),
d’un dictionnaire multilingue, auquel ils m’ont invitée à collaborer pour l’élaboration
de son cahier des charges et d’un environnement de saisie structuré, qui ont donné
lieu à des séances de travail suivies à Orléans et à Paris, avant de susciter, en 2001,
deux stages d’étudiantes de la formation lilloise (Marianne Ebersberg et Caroline
Moulart) et un séjour à Cayenne avec les stagiaires et François Nemo.
La conception de la structure de ce dictionnaire (Rdic1, cf. également § 2.7.3.) s’est
fondée sur des descriptions antérieurement réalisées par Françoise Grenand et qui
mêlaient, pour chaque unité lexicale du wayana (la première des langues traitées),
des indications linguistiques et des connaissances sur les référents des objets nommés
rédigées en français et des équivalences traductionnelles en français et éventuellement dans les autres langues étudiées. Le travail sur ces premières données a permis
de régulariser les principes de traitement de chaque unité et de densifier le programme
d’information retenu. À la suite de ces réflexions, le développement de la structure de
rédaction a pris deux voies concurrentes : la création d’une base de données SQL 24 et
de règles de balisage en XML. J’ai évalué ces deux options techniques avec les
étudiantes qui devaient effectuer leur stage en Guyane 25, puis nous sommes partis à
Cayenne – où nous avons rencontré certains des informateurs avec lesquels les collègues anthropologues et linguistes travaillaient – pour développer la base SQL, que
nos partenaires ont finalement préférée à la solution XML parce qu’elle leur a paru
de nature à moins contraindre les rédacteurs dans leurs saisies.
Ce projet, qui présentait la particularité de fédérer des collaborations de personnes
ayant des langues, des centres d’intérêt et des compétences informatiques et métalinguistiques très diverses, a été très stimulant dans la mesure où il a impliqué de résoudre des problèmes liés à la définition du projet dictionnairique, à la coprésence des
différentes langues traitées et à l’environnement de développement retenu.
24
25
Cf. n. 9. Celle-ci a été développée sous 4D afin qu’elle soit utilisable sur des ordinateurs Mac et qu’elle soit
plus conviviale qu’une base MySQL associée à des formulaires PHP. 4D est un système de gestion de bases
de données comparable à Microsoft Access, mais il ne dispose pas d’une interface graphique pour effectuer
toutes les actions et implique donc d’en programmer certaines dans un langage qui lui est propre.
Ceci a été réalisé dans le cadre des mémoires de DESS rédigés par chacune sous ma direction : cf. Mdir4
(Ebersberg (2001)) et Mdir6 (Moulart (2001)). La base SQL était alors développée sous Access.
Document de synthèse – 1.2. Définir un objet de recherche
23
Ma collaboration à ce projet s’est interrompue comme prévu après le développement
de la base, qui a constitué une parenthèse lexicographique originale dans mes recherches personnelles, dont en particulier celles portant sur les traitements de corpus,
qui sont les seules à avoir donné lieu à publication à cette époque de ma carrière.
1.2.2. Problématiser le recours aux corpus en lexicographie [T2 (2002) ; Tdr1]
Mon premier article publié à être strictement focalisé sur l’exploration de corpus
(T2) est paru dans les préactes du dixième congrès de l’association européenne de
lexicographie, EURALEX, où j’ai prononcé C6 en août 2002.
S’il s’agit de ma première publication importante dans ce domaine, T2 n’est pas la
seule contribution préparée durant ma troisième année lilloise, qui m’a également vue,
entre septembre 2001 et février 2002, prononcer cinq communications (C1, C2, C3,
C4 et C5) et rédiger une contribution écrite non publiée (Tdr1).
Ces cinq prestations orales et Tdr1 partagent avec C6 et T2 le centrage sur les
corpus et leur exploration pour l’étude d’emplois attestés d’unités linguistiques dans
un cadre lexicographique. Elles se distinguent par contre par leurs publics :
– C3 et C6 ont été prononcées devant des professionnels directement impliqués dans
des gestions de ressources lexicales : C3 à l’occasion d’un symposium de linguistique
organisé à l’université Dalhousie d’Halifax (Canada) pour des traducteurs peu connaisseurs en matière de corpus et C6 devant les lexicographes et métalexicographes
réunis au congrès EURALEX de Copenhague ;
– C1, C2, C4 et C5 ont été présentées à des chercheurs mobilisés par des manipulations de corpus : C1, C2 et C5 à des linguistes, dans le cadre de rassemblements
consacrés aux corpus (les premières journées de linguistique de corpus de Lorient
(université de Bretagne-Sud) et une journée d’étude du département de français de
l’université de Bristol (Grande-Bretagne)), et C4 durant un colloque de TAL (Computational Linguistics In the Netherlands (CLIN) organisé à l’université de Twente
(Pays-Bas)).
En fonction des publics et des contextes de chaque manifestation, j’ai décliné des
thèmes communs et proposé des variations, afin de susciter l’intérêt ou des retours
critiques en fonction des investissements et des compétences de chacun. Les commentaires formulés ci-après sur Tdr1 (qui correspond à C4) puis sur T2 (version publiée
de C6) ne permettent cependant pas de comparer l’incidence des types d’auditeurs
sur leur substance dans la mesure où la présentation de Tdr1, qui précède celle de T2
conformément à l’ordre chronologique de leur rédaction, est très succincte, en proportion de l’importance respective de ces textes dans mes recherches.
Une première contribution qui peine à trouver son public : Tdr1
Tdr1 a été soumis pour publication dans le volume d’actes du colloque CLIN où j’ai
présenté C4, mais ce recueil ne devait retenir qu’une petite sélection des productions
des orateurs et mon texte n’y a pas été inclus. Ensuite, mobilisée par la préparation
de ma contribution à EURALEX 2002, je n’ai pas pris le temps de le soumettre à des
24
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
revues anglophones. Tdr1 est resté non publié et n’a donc eu que peu de lecteurs, ce
qui était certainement prévisible et qui a été principalement induit par mon manque
d’expérience d’alors.
Pour ma première participation à un colloque de cette importance, j’avais préparé
une contribution articulée en cinq parties qui développait des propositions fondées sur
les besoins spéculés des lexicographes français et appuyées sur des travaux de linguistique qui ne connaissaient peut-être pas la diffusion que je leur prêtais auprès du public
qui m’écoutait. L’accueil fait à mon exposé a conséquemment été réservé. Mais outre
les défauts de jeunesse de ma contribution, il me paraît normal qu’elle n’ait pas joui
d’une audience proportionnée à mon investissement et que Tdr1 n’ait pas été publié
dans les actes. Cette tentative était en fait vouée à l’échec en raison des motifs mêmes
qui l’avaient suscitée. Sur les conseils de Philip Miller, alors directeur de l’UMR SILEX,
qui s’inquiétait que je n’aie pas encore publié en TAL alors que j’allais animer la maîtrise
“Industries de la langue” (ouverte en 2001-2002), j’ai envoyé une soumission pour le
colloque CLIN. Elle a été sélectionnée et j’ai participé à cette manifestation, mais, à
écouter les autres contributions, j’ai très vite réalisé que C4 était trop peu technique
par rapport à elles et trop centré sur des questions qui ne mobilisent que ceux qui
travaillent sur le français. Je ne soumettais pas à la conférence TALN alors que j’étais
à cette époque secrétaire de l’ATALA au motif que je pensais que mes travaux n’étaient
pas assez talistes pour y avoir leur place. Je n’aurais pas dû croire qu’il en irait autrement pour CLIN.
Cette mauvaise orientation a néanmoins été profitable à double titre : elle a stimulé
mon souhait d’acquérir un meilleur bagage informatique afin de mieux outiller les
traitements linguistiques que je défendais et, surtout, elle a contribué à me faire situer
mon mode d’approche des corpus (et aussi de la métalexicographie) en deçà des modalités de traitement les plus informatisées.
Du point de vue de son contenu, Tdr1 reprend des notions relativement basiques
en traitement de corpus et leur adjoint des propositions plus innovantes. Les deux
premiers paragraphes situent le contexte de réflexion, le § 1. se focalisant sur les
besoins des lexicographes et le § 2. évoquant une sélection de ressources en langue
française, qu’il s’agisse de compilations de textes ou d’une base textuelle notoire et
assez largement accessible (Frantext), et, plus originalement, un corpus trilingue
constitué par Hans Paulussen 26 dans le cadre de son doctorat (1999) 27. Pour les corpus
26
27
J’ai connu Hans Paulussen par l’intermédiaire d’un intervenant professionnel de la formation de lexicographes, Thierry Fontenelle, qui y assurait une initiation à des manipulations de corpus programmées
principalement en AWK et qui, devant interrompre sa collaboration du fait de son recrutement chez
Microsoft à Redmond, m’a suggéré de proposer à ce linguiste-informaticien de lui succéder, ce qui fut fait et
qui permet à ce dernier de nous faire profiter de son expérience depuis 2002. Les corpus qu’il traite avec les
étudiants lillois ont évolué, puisque, après avoir été constitués de textes bruts, ils sont désormais structurés en XML et que, si quelques scripts AWK sont encore utilisés, leurs manipulations se font maintenant
principalement en Perl, ce qui reflète les évolutions des procédures de traitement de corpus que ce chercheur
met en œuvre dans le laboratoire ALT Research on CALL dans lequel il travaille au campus de Courtrai de
la K.U.Leuven.
Les interventions lilloises de Hans Paulussen ont été à l’origine d’un travail commun présenté dans T10, qui
a aussi fait l’objet de la communication C12 et de l’exposé E8 (§ 1.4.2.).
Ce corpus, le Namur trilingual aligned corpus, n’est pas librement accessible, mais Hans Paulussen m’en a
fourni quelques extractions.
Document de synthèse – 1.2. Définir un objet de recherche
25
qui ne sont pas livrés avec une interface de consultation, le § 3. évoque différents prétraitements basiques (la lemmatisation, l’étiquetage morphosyntaxique des mots et
leur indexation) et envisage des analyses syntaxico-sémantiques aussi automatisées
que possible. Les deux derniers paragraphes engagent les traitements vers l’exploitation de ressources susceptibles d’introduire une composante plus sémantique : le § 4.
présente un exemple d’intégration des relations synonymiques répertoriées dans le
dictionnaire des synonymes du CRISCO 28 et le § 5. introduit un court développement
relatif à l’utilisation des “classes d’objets” 29. Ces deux derniers points étaient très spéculatifs et l’espace consacré à leur exposé était trop contraint pour que je parvienne à
expliciter comment je concevais ces entreprises. Leur reprise dans T2, si elle témoigne
de la persistance du projet, n’a pas permis d’augmenter sensiblement la richesse des
explications, mais le commentaire que j’en fais en présentant le second texte dans ce
mémoire apporte quelques éclairages.
Première participation au congrès EURALEX : T2
T2, qui a été préparé pour des lexicographes et métalexicographes, développe en
quatre paragraphes une synthèse sur l’utilisation des corpus en lexicographie dans le
contexte éditorial français telle que je la pensais utile pour certains de nos partenaires,
en essayant de ne pas tenir un discours trop technique et de repérer ce qui pourrait
être véritablement intéressant dans un cadre professionnel.
Observant un usage peu répandu des corpus électroniques dans l’édition lexicographique commerciale française, le § 1. envisage cinq facteurs – linguistiques, documentaires, techniques, éditoriaux et économiques – considérés comme susceptibles de contribuer à cette situation. 30 Suivent, aux §§ 2. et 3., des développements sur ce dont
les lexicographes pourraient souhaiter disposer en matière de ressources textuelles et
de modes d’exploitation de celles-ci.
Pour ce qui concerne les ressources, le § 2., dans l’esprit de l’époque, souligne l’absence de corpus électroniques “de référence” intégrant des documents provenant de
sources variées et équilibrant ce qui, dans la langue “commune” entendue extensivement, ressortit à des usages non spécialisés et ce qui immigre depuis des langues de
spécialités via des discours vulgarisateurs 31. Cette carence est décrite comme vouant
les lexicographes à la consultation de sources éventuellement riches mais aléatoires,
dépareillées et déséquilibrées, et elle est appréhendée comme susceptible de pénaliser
davantage la description du lexique le moins spécialisé dans la mesure où celle du plus
spécialisé peut prendre appui sur des sous-corpus dont l’élaboration est moins coûteuse
que celle de corpus “de référence”. Dans la communication C5, prononcée en 2002 à
Bristol sur une thématique comparable et qui a été présentée supra, le contraste de
28
29
30
31
Cf. Ploux & Victorri (1998). Cette ressource est consultable sur le site du CRISCO (http://www.crisco.
unicaen.fr/cgi-bin/cherches.cgi) et sur celui du CNRTL (http://www.cnrtl.fr/synonymie/).
Telles qu’elles sont envisagées dans G. Gross (1994) et Le Pesant (1994).
Revenant, sept ans plus tard, sur cette question, j’ai constaté une certaine stabilité de la situation, source
de questionnements en partie renouvelés en fonction de l’évolution du contexte (cf. T17 § 1.1.).
Le propos se concentre sur les souhaits ou besoins des lexicographes des maisons d’édition privées et ne prend
donc pas en compte les ressources exploitées pour la rédaction du Trésor de la langue française, dont la nature
et l’usage qui en a été fait ont donné lieu à une assez abondante littérature qui ne sera pas détaillée ici.
26
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
contextes du mot bus extraits respectivement du quotidien généraliste Le Monde et
du périodique spécialisé 01 Informatique (cf. figures 1 et 2), qui n’a pas pu être intégré
dans T2, montre avec une netteté particulière dans quelle mesure le choix d’une source
textuelle détermine les observations, ce qui illustre tout à la fois l’intérêt de la coprésence des deux types de ressources dans un corpus “de référence” et la capacité de la
seconde à documenter spécifiquement un lexique spécialisé.
Figure 1. Occurrences du nom bus dans le CD-ROM Le Monde 1997-1998
TRANSPORTS : La grève des
le patron de la compagnie des
, ont repris la route, en camions et en
les chauffeurs. Lundi, un seul des 108
quotidien. A travers la vitre teintée d’un
si on vient de décider l’achat de vingt
quartier de la Reynerie, la carcasse d’un
proposition et confirmait la commande de
de ses amis, stationne dans le couloir de
peu de conséquences sur le trafic des
depuis trois quarts d’heure et qui voit le
multiples. Les conducteurs de
agressions subies par les chauffeurs de
qu’on peut craindre d’un tel sujet. " Je
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
a été reconduite pour la journée du mercredi 30
de Nancy. " C’est une rencontre, pas encore la
, pour rentrer chez eux, le calme étant revenu dans
de la compagnie a circulé. Les grévistes ont fait
, on voit, " dans le gris ouaté aux effilochures floc
au gaz de ville. La tradition des voitures
en flammes for me une barricade. Vers 19 heures,
diesel. Et il faudra bien attendre 1999 pour voir 11
. L’un d’eux part acheter des cigarettes dans un
. La direction prévoit de faire circuler deux métros
filer sous son nez, n’ait pas du ressentiment contre
n’ont rien fait. Sinon leur travail, conduire leur
en ont décidé autrement. Le duel impromptu entre
à en mourir ", cinq mots simples et une ambiance
Figure 2. Occurrences du nom bus dans 01 Informatique (http://www.01net.com)
Intel prépare la succession du
PC et serveurs seront équipés du nouveau
la norme Infiniband vise à remplacer les
Intel va doper le Celeron avec un
pourrait atteindre 800 MHz. Parallèlement, le
Celeron 800: Intel généralise le
pour les PC de bureau d’entrée de gamme. Le
Carte graphique Voodoo5 5500 disponible sur
attentes des utilisateurs qui ne disposent pas de
Association d’un
EC est évolutif en biprocesseur. Il exploite un
en comparant leur fréquence et la vitesse de
Le modèle M20 bénéficie d’un
La carte DGE-500SXPCI fonctionne en
Ce serveur exploite deux PIII à 866 MHz sur
AGP 8X: Intel double la vitesse de son
prévoit de porter à 2 Go le taux de transfert du
Mémoire DDR contre mémoire Ram
DR. De son côté, Intel défend toujours la Ram
La technologie de
exploite deux Pentium III à 800 MHz sur
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
bus
PCI
de données Arapahoe. Développé par Intel,
PCI par une technologie à base de
à 100 MHz
de données du processeur devrait passer de
système à 100 MHz
système passe de 66 à 100 MHz.
PCI
AGP dans leur micro et qui souhaitent tout
à 133 MHz et d’un contrôleur Ultra 160 sur
système basé sur un jeu de composants
.
système à 133 MHz et d’un contrôleur Ultra
Master (32 ou 64 bits), c’est-à-dire sans
système à 133 MHz, deux disques durs
Graphique
graphique AGP.
: la bataille commence
.
entrée-sortie à haut débit, Infiniband, servir
système 133 MHz. Son rapport
Document de synthèse – 1.2. Définir un objet de recherche
27
S’agissant des interfaces de consultation de corpus, le § 3., nourri d’échanges avec
des partenaires professionnels de la formation, passe en revue un ensemble de fonctionnalités de recherche (paramétrage des documents explorés et des contextes extraits,
utilisation de caractères génériques, calculs de fréquence absolus ou en cooccurrence)
et de prétraitements des ressources (lemmatisation et étiquetage) qui en facilitent
l’exploration et tendent à en optimiser le rendement (notamment, pour ces derniers,
en permettant d’opérer sur des objets linguistiques identifiés et non plus seulement
sur des chaînes de caractères), et qui, quoique communs en linguistique de corpus,
n’avaient guère jusqu’alors pénétré le monde de la lexicographie privée française.
T2 s’achève, au § 4., sur un développement consacré à des fonctionnalités plus poussées mais aussi plus difficiles à mettre en œuvre, qui me paraissaient, dans leur principe, être de nature à améliorer encore les performances des explorations de corpus
électroniques :
– des analyses syntaxiques (§ 4.1.) présentées comme assez largement automatisables, du type de celles envisagées en 2001 dans C3 concernant les contextes du nom
correspondance, qui avaient pour objet de distinguer parmi eux ceux qui relèvent de
chaque acception (cf. figure 3) :
Figure 3. Analyse des phrases & extraction de constructions incluant le nom correspondance
(contextes extraits de la revue Air France de septembre 2001 et du CD-ROM Le Monde 1997-1998)
Dans la colonne de gauche, les occurrences du nom correspondance sont en gras et soulignées, les verbes
qui régissent ces noms en gras, les noms qui les régissent en italiques et leurs modifieurs ou compléments en petites capitales.
Dans la colonne de droite, N = correspondance, N ’ = autre nom, NΔ = N associé à un modifieur, et les
éléments régis par les verbes ou les noms sont mentionnés entre parenthèses et encadrés par des
crochets associés à leur droite (en indice) à la mention COD pour les constructions directes ou à celle
de la préposition introductrice (avec, de, en, par, sur).
PHRASES ANALYSÉES
Mais il faut distinguer les correspondances COURTES des correspondances LONGUES.
S’appuyant sur la correspondance AVEC INÈS ARMAND, sa maîtresse, […].
Pour les correspondances LONGUES, le passager et son bagage
dispose de plus de 1h15 entre les deux avions.
La croissance du trafic et l’augmentation des correspondances
ont été déterminante pour la construction […].
[…], les bagages en correspondance COURTE se trouvent dans un
conteneur.
Les clients en correspondance espèrent un suivi ponctuel de
leurs effets personnels.
[…] dès qu’il s’agit de passagers en correspondance.
Certains appartiennent à des groupes de presse […] et à des sociétés de vente par correspondance, […].
Les passagers devant emprunter une correspondance […].
Calligraphie chinoise, typographie, correspondance ÉLECTRONIQUE, mais aussi Oulipo et lettres anonymes.
CONSTRUCTIONS OBSERVÉES
distinguer ([NΔ]COD [NΔ]de)
N (courte + longue)
s’appuyer ([N]sur)
N ([N’]avec)
N longue
augmentation ([N]de)
bagage ([N]en)
N courte
client ([N]en)
passager ([N]en)
vente ([N]par)
emprunter ([N]COD)
N électronique
28
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– des analyses sémantiques (§ 4.2.), pour lesquelles est simplement évoquée, sans plus
de détails, la possibilité de prendre appui sur deux sortes de sources d’inspiration qui
m’étaient relativement familières :
• des travaux linguistiques émanant de différents cadres théoriques : “classes d’objets”
(auxquelles j’avais repris les prédicats de la classe des <moyens de transport terrestre
– à moteur – en commun> de G. Gross (1994) pour l’étude du nom bus), sémantique
du prototype et sémantique indexicale ;
• et les cliques développées à partir d’une compilation de dictionnaires de synonymes
(le dictionnaire du CRISCO, cf. Ploux & Victorri (1998) et n. 28), dont j’avais testé les
apports lors d’explorations de corpus conduites non pas à partir de mots mais de notions
verbalisables au moyen de différents synonymes, ce qu’illustrent l’exemple ci-après
(figure 4, également présentée dans le cadre de C3) et celui qui est proposé pour l’item
bus en Figure 4 de Tdr1.
Figure 4. Regroupement des constructions et des phrases incluant le nom correspondance
(extraites de la revue Air France de septembre 2001 et du CD-ROM Le Monde 1997-1998)
en fonction d’informations synonymiques fournies par les cliques du dictionnaire du CRISCO
Les codes employés sont les mêmes que ceux de la figure précédente, mais des typages sémantiques ont
été ajoutés dans certaines constructions (NHUMAIN, NLIEU). Les constructions présentées dans la colonne
centrale tout à la fois ne couvrent pas toute la diversité observée dans la figure précédente (puisque
seules celles qui sont typiques des emplois appariables aux cliques sont listées) et ne se limitent pas
à celles observables dans les exemples figurant dans la colonne de droite.
CLIQUES
Clique 18 :
billet, correspondance, dépêche,
lettre, message
et Clique 34 :
correspondance,
courrier, dépêche,
lettre
Clique 19 :
changement, correspondance
CONSTRUCTIONS
• (avoir + échanger +
entretenir) ([N]COD,
[N’HUMAIN]avec)
• N ([N’HUMAIN]avec)
• N électronique
• (vente + cours)
([N]par)
EXEMPLES DE CONTEXTES SOURCES ANALYSÉS
S’appuyant sur la correspondance AVEC INÈS
ARMAND, sa maîtresse, […].
Certains appartiennent à des groupes de presse […] et
à des sociétés de vente par correspondance, […].
Calligraphie chinoise, typographie, correspondance
ÉLECTRONIQUE, mais aussi Oulipo et lettres anonymes.
Mais il faut distinguer les correspondances COURTES
des correspondances LONGUES.
passagers) ([N]en)
[…], les bagages en correspondance COURTE se trou• N ([N’LIEU]pour)
vent dans un conteneur.
• assurer ([N]COD, entre
Les clients en correspondance espèrent un suivi ponc([N’LIEU1], [N’LIEU2]))
tuel de leurs effets personnels.
[…] dès qu’il s’agit de passagers en correspondance.
Clique 40 :
• (emprunter + prendre Les passagers devant emprunter une correspondance.
correspondance,
+ rater) ([N]COD)
moyen de transport
• N (courte + longue)
• (bagages + clients +
– et, concernant la lexicographie bilingue, l’utilisation des analyses syntaxiques et sémantiques évoquées pour l’alignement de corpus multilingues (§ 4.3., cf. aussi l’illustration qui est proposée en Figure 3 de Tdr1), en écho à des besoins exprimés
Document de synthèse – 1.2. Définir un objet de recherche
29
par la lexicographe britannique Valerie Grundy lors de ses interventions en formation
professionnelle 32 et dans son article de 1996.
Retour sur les positions défendues dans T2
T2 est un texte court et dense, ce qui est induit à la fois par le format de publication d’EURALEX et par la couverture relativement large de mon propos, qui donne à
l’ensemble un caractère programmatique susceptible de rencontrer deux écueils : être
à la fois trop abstrait pour les lexicographes français destinataires potentiels et pas
assez technique sur le terrain de l’informatique linguistique 33. Sans vouloir à toute
force soutenir aujourd’hui toutes les propositions de T2, qui reflètent leur époque et
dont certaines me paraissent moins pertinentes qu’alors (par exemple s’agissant du
recours à tel ou tel cadre théorique pour documenter l’analyse linguistique de corpus),
je vois dans le positionnement adopté le reflet précis de ce qu’était ma situation de
jeune formatrice de lexicographes de diverses nationalités particulièrement attentive
aux pratiques et aux besoins de ceux des maisons d’édition françaises. S’il était perceptible, au colloque EURALEX de Copenhague où fut prononcée la communication C6
dont T2 est le corrélat publié, que les chercheurs et lexicographes britanniques semblaient particulièrement avancés en matière d’outillage informatique de la lexicographie 34, je savais aussi, notamment par les Journées d’étude de lexicographie bilingue
de l’INALCO organisées entre 1998 et 2003 35 et très ouvertes aux langues à diffusion
réduite, quelles pouvaient être la diversité des conditions pratiques d’élaboration de
dictionnaires selon les idiomes et l’inégalité de l’accès aux technologies de pointe. De
là résulte la tonalité plus vulgarisatrice que concrète de T2, qui peut paraître un peu
en porte-à-faux à certains égards et n’est pas exempt d’une part de volontarisme 36.
Dans les limites qui sont les siennes, T2 est la première manifestation écrite de mon
souci d’ancrer mes réflexions sur l’outillage de la lexicographie du domaine français
dans les besoins pratiques des rédacteurs ou des utilisateurs, qui s’est exprimée à la
même époque dans l’ensemble des communications apparentées à cet article déjà évoquées et qui, à une tout autre échelle, a trouvé son développement le plus récent en
2009 dans T17. Aujourd’hui comme hier, deux facteurs qui sont mentionnés au § 1.
32
33
34
35
36
Coresponsable éditoriale du premier dictionnaire bilingue anglais / français exploitant des corpus électroniques, le Dictionnaire Hachette-Oxford français-anglais / anglais-français publié en 1994, elle a assuré une
partie des enseignements de lexicographie bilingue de la formation lilloise de lexicographes de 1993 à 2002.
Ce type de compromis incertain est caractéristique d’écrits vulgarisant de nouvelles approches. À cet égard,
T2 peut être rapproché, par exemple, de Willems (2000), qui, à la même époque et en aussi peu de pages,
s’est livrée à un exercice comparable concernant la place à faire aux corpus dans la recherche linguistique.
Ce dont témoigne toujours, à date récente, l’imposant manuel de lexicographie d’Atkins & Rundell (2008). Cf.
aussi le chapitre fouillé que Béjoint (2010 : 348-380) consacre aux « Computers and corpora in lexicography ».
Cf. Szende dir. (2000a, 2000b, 2003 et 2006).
Pour ne prendre qu’un exemple, le point de vue développé au § 4.1. au sujet de l’automatisation d’analyses
syntaxiques en corpus peut apparaître comme trop optimiste, à en juger notamment par les limites actuelles
des analyseurs syntaxiques qui sont intégrés dans les outils de correction orthographique, auxquels, entre
autres, l’interprétation du rôle syntaxique des compléments prépositionnels pose encore des problèmes. Par
ailleurs, le rapport entre le coût des enrichissements de corpus préconisés au § 4.2. et les bénéfices escomptés
des analyses qu’ils ont vocation à permettre mériterait d’être sérieusement évalué, dans la mesure où celles-ci,
si elles peuvent contribuer efficacement à la recherche d’attestations de propriétés d’items lexicaux déjà
connues, n’apportent en revanche pas d’aide significative à la découverte d’usages non encore décrits.
30
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
de T2 déterminent fortement les modalités de l’aide documentaire dont peuvent bénéficier les lexicographes de l’édition privée française :
– d’une part un contexte socio-économique défavorable, dans lequel la logique gestionnaire des grands groupes éditoriaux depuis un quart de siècle 37 et l’effritement durable
du marché des dictionnaires convergent pour réduire l’essentiel de l’activité lexicographique à l’entretien des titres installés et dissuader les éditeurs d’investir dans la constitution de ressources nouvelles et l’expérimentation technologique ; 38
– et d’autre part l’existence chez certains éditeurs de ressources documentaires traditionnelles dont la richesse est importante, qu’il s’agisse de prélèvements textuels stockés, qui sont toujours pratiqués et pour lesquels des bases de données remplacent les
fiches, ou de répertoires déjà publiés dont l’informatisation permet de réutiliser commodément la matière pour alimenter différents segments des catalogues, ce qui crée
des habitudes de travail susceptibles de susciter des réflexes conservateurs 39.
Face à cette situation, les voies de renouvellement documentaire empruntées par les
maisons d’édition de dictionnaires qui ne laissent pas aux rédacteurs la charge de collecter leurs données par eux-mêmes se discernent mieux maintenant que lors de la
rédaction de T2 (en dépit de la discrétion des responsables éditoriaux sur ce sujet),
priorité étant donnée à la disponibilité et au contrôle des dépenses par l’usage de compilations de presse et du Web, selon des modes d’exploration difficiles à connaître. Les
éditeurs français ne sont donc pas en passe de se doter de corpus dûment échantillonnés et structurés ressemblant aux corpus “de référence” prônés dans T2, dont le concept avait été popularisé dans la décennie précédente 40 et dont le British National
Corpus, constitué entre 1991 et 1994 41, apparaissait comme le fleuron. Les corpus
“de référence”, qui ont contre eux le coût de leur maintenance, peuvent d’ailleurs apparaître aujourd’hui comme menacés, même en terre britannique, par des explorations
outillées menées sur le Web 42 comme celles que permet le Sketch Engine développé par
Adam Kilgarriff (cf. T17 § 1.1.), qui semblent jouir d’une faveur croissante dans la
communauté concernée 43.
37
38
39
40
41
42
43
Cf. Rouet (2007, chap. 1). Absorbés au milieu des années 1980 dans le Groupe de la Cité puis partenaires au
sein de Vivendi Universal Publishing jusqu’en 2003, Larousse et Le Robert appartiennent aujourd’hui respectivement à Hachette et au groupe espagnol Planeta.
Cf. P. Corbin (1991, §§ 1.1. et 1.2.1. ; 1998, § 1.1.1. ; 2002, § 1.2.1. ; 2006, vol. 1 : 173, 176, 233, 236, 250 ;
2008b : 1230) et F. & P. Corbin (2008 : 49).
Les maîtres d’œuvre les plus notoires des dictionnaires Robert se sont signalés à tour de rôle par leurs sorties
contre l’utilisation à l’anglaise des corpus électroniques en lexicographie (cf. Rey-Debove (1991 : 155-156) et
Rey (1995 : 105 et 2005 : XVII)).
Cf. notamment Sinclair (1996), Habert, Nazarenko & Salem (1997 : 143-148), Habert, Fabre & Issac (1998 :
36-37), Blanche-Benveniste (2000 : 13-14).
Cf. http://www.natcorp.ox.ac.uk/corpus/, consulté le 12 septembre 2010.
Cf. Kilgarriff & Grefenstette (2003) et, en 2006, le workshop « Web as Corpus » organisé en marge du onzième
congrès EACL (European Chapter of the Association for Computational Linguistics) par Adam Kilgarriff &
Marco Baroni (cf. http://www.aclweb.org/anthology/W/W06/W06-1700.pdf ).
De nouveaux développements réalisés autour du Sketch Engine, tels qu’ils ont été présentés en 2009 à
Louvain-la-Neuve lors du colloque « eLexicography in the 21st century: New challenges, new applications »
d’une part par Adam Kilgarriff, Kovár Vojtĕch, & Rychlý Pavel (cf. http://www.kilgarriff.co.uk/Publications/
2009-KilgKovarRychly-Elex-TBL.doc) et d’autre part par Michael Rundell (cf. http://www.uclouvain.be/en271028.html), permettent à cet outil non seulement d’extraire des contextes où figure un item, mais aussi
de manipuler automatiquement ce qui est extrait afin de sélectionner certaines occurrences, dont la pertinence
Document de synthèse – 1.2. Définir un objet de recherche
31
Ceci étant, un outil de ce type, conçu dans le contexte éditorial de la production britannique de dictionnaires de langue anglaise pour allophones (les “learner’s dictionaries”), apparaît particulièrement adapté à l’identification des emplois les plus usuels
des items les plus fréquents que ces répertoires ambitionnent de décrire en priorité.
La perception des services rendus pourrait ne pas être la même dans un contexte éditorial différent, qui s’intéresserait aussi ou de façon privilégiée à des emplois soit rarement attestés, soit usuels seulement dans des productions langagières particulières à
un titre ou à un autre et probablement peu représentées dans un large corpus issu du
Web (qu’il soit aussi représentatif que possible de la variété des usages ou constitué
sans leur prêter une attention spécifique).
Recadrage des perspectives de recherche relatives aux traitements de corpus
Ma découverte du Sketch Engine peu de temps après la rédaction de T2 m’a incitée
à prendre du recul pour apprécier ce que cet outil permettrait véritablement de faire
avant d’envisager de nouvelles recherches sur l’exploration de corpus généraux de
grande envergure et à déplacer mes investigations sur d’autres terrains. C’est dans
ces conditions qu’a été conçue la notion de corpus “à haut rendement” fédérables en
corpus “plurithématiques” qui est défendue dans T3, T4 et T5 et qui va être revisitée
au § 1.3. Comme précédemment, les travaux entrepris dans cette voie nouvelle devaient
permettre de valoriser l’intérêt d’un recours bien conçu aux corpus auprès des lexicographes en activité 44 et de ceux qui se formaient à Lille, mais en ayant cette fois
vocation à leur offrir des preuves tangibles de la pertinence et du rendement de ces
ressources, pour certains travaux lexicographiques au moins.
44
est évaluée relativement à leur fréquence d’attestation (donc leur usualité), réunies en sous-ensembles
constitués selon leurs proximités combinatoires (postulées syntaxiques et sémantiques). Le but de ce traitement est de pousser l’aide apportée aux lexicographes dans la rédaction des articles jusqu’à suggérer le plan
de ceux-ci, que les rédacteurs n’auraient qu’à réviser à partir des propositions de regroupements générées
par l’analyse des occurrences en corpus.
Je souhaitais mettre en place sur cette problématique des relations de partenariat avec des maisons d’édition
dictionnairique, ce qui se concrétisa en 2002, peu après EURALEX, par l’élaboration d’un projet de constitution de corpus thématique avec Larousse et Le Robert, qui ne put finalement pas aboutir du fait du démantèlement de Vivendi Universal Publishing et du retour consécutif des deux éditeurs à une situation de
concurrence (cf. n. 37 et la conclusion du § 1.3.1.).
1.3.
Préconiser le haut rendement
par une sélection stricte des documents primaires :
les commentaires de matchs de football
Deux ans après mon recrutement à Lille, ma collaboration avec Pierre Corbin au
sein du DESS “Lexicographie et Terminographie” se densifiant 45, nous voulions partager
un terrain d’expérimentation de traitements de corpus consistant, susceptible de permettre de tester des hypothèses linguistiques et de donner lieu à des explorations informatisées formatrices.
Convaincus de la nécessité de montrer aux étudiants qu’il n’existe pas un clivage
entre d’une part la langue générale (dont le lexique est décrit en lexicographie) et
d’autre part les langues de spécialité (dont les lexiques font l’objet d’études terminologiques), mais des interpénétrations se traduisant à la fois par des usages de termes
spécialisés partagés par un grand nombre de locuteurs d’une langue et par des emplois spécialisés d’unités lexicales relevant de la langue la plus commune incluses
dans des constructions qui peuvent être ou non remarquables, nous cherchions des
espaces d’échanges langagiers 46 propices à la mise en évidence de ces transferts.
Par exemple, les commentateurs de matchs de football disent couramment qu’un joueur donne
pour un autre joueur (cf. n. 70), ce qui constitue une construction originale du verbe donner.
Ces emplois ni généraux ni terminologiques semblaient susceptibles de n’être traités
de manière systématique ni par la lexicographie, ni par la terminographie, ce que la
confrontation (dans T3, cf. § 1.3.1.) de ce qui est observable en corpus et de ce qui est
inventorié dans différents répertoires généraux et spécialisés devait confirmer.
45
46
À l’été 2001, après deux années de collaboration pédagogique, la nécessité d’obtenir une nouvelle habilitation
pour le DESS (cf. n. 1) nous fit pousser plus avant notre réflexion commune sur les besoins de la formation
et ce que pouvaient être nos perspectives de collaboration pédagogique et scientifique dans la durée. Il en
résulta une forte dynamique interactive, constituant pour nos enseignements le ciment de leur cohérence
tout en leur insufflant un état d’esprit qui contribue à leur originalité, et la création, pour l’un comme pour
l’autre, de nouveaux espaces de recherche inconcevables sans cette collaboration, ce dont témoignent particulièrement certaines de nos publications métalexicographiques communes (T6, T9, T18 et T19) et celles
que nous avons rédigées indépendamment l’un de l’autre mais à partir d’une ressource conçue et exploitée
conjointement, le corpus footballistique de multiplex Rcorp1 (cf. T3, T4 et T5 et P. Corbin (2005 et 2008a)).
Afin de sensibiliser les étudiants du DESS à la particularité des productions (écrites ou orales) d’une certaine
technicité destinées à un large public, nous avions déjà engagé en 2000 des travaux de relevés lexicaux dans
des journaux féminins, en concevant avec eux des bases de données SQL pour le stockage des données lexicales extraites accompagnées de commentaires relatifs à leur exploitabilité dans une perspective lexicographique, dont la structuration s’est ultérieurement révélée très proche de celle de la base néologique d’un
éditeur partenaire.
34
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
C’est dans ce contexte que nous avons engagé une réflexion sur la constitution de
corpus, à exploiter en formation professionnelle et pour nos recherches, qui seraient
conçus pour l’étude d’emplois relevant d’activités spécifiques et d’une certaine technicité mais connaissant une diffusion massive, et dont les documents primaires qui les
constitueraient, sélectionnés de manière précise, conjoindraient deux caractéristiques :
– être de taille modeste, afin de garantir leur bonne tenue qualitative et la relative
rapidité de constitution de chaque corpus ;
– et être riches et cohérents d’un point de vue lexical, afin que les explorations fournissent des données consistantes réellement utiles pour l’élaboration de descriptions
minutieuses des particularités linguistiques des emplois spécialisés.
Le premier terrain d’expérimentation choisi a été celui des commentaires de matchs
de football, écoutés ou lus 47 par un large ensemble d’amateurs fidèles ou plus occasionnels et probablement connus au moins de manière indirecte par un plus grand nombre
de locuteurs 48.
Caractérisation d’espaces discursifs dans lesquels se manifestent les interpénétrations à étudier
L’étude des interpénétrations lexicales et des variations d’emplois en fonction des
types d’énoncés dans lesquels elles s’observent m’intéressait par ailleurs dans une
perspective de typage des discours qui pourrait être effectué, afin, d’une part, de définir
des sélections des documents primaires de corpus en fonction de ce que chacun a vocation à représenter, mais aussi, d’autre part, de voir s’il serait possible de l’exploiter
pour le marquage des emplois spécialisés décrits dans les dictionnaires généraux (cf.
§ 2.4., p. 270), ce qui présupposerait que ces emplois aient été observés dans un corpus
dont les métadonnées des documents constituants intègrent ce typage.
Intéressée par les travaux de typologie des textes de Biber (1988, 1995) découverts
dans l’introduction aux linguistiques exploitant des corpus de Habert, Nazarenko &
Salem (1997) 49, je m’interrogeais sur l’exploitabilité des cinq dimensions qui y sont
définies à partir d’études statistiques de traits linguistiques 50 – (i) « production impliquée » ou « informationnelle » 51, (ii) « orientation narrative » ou « non narrative » 52,
(iii) « référence dépendante ou non de la situation d’énonciation », (iv) « visée persuasive
47
48
49
50
51
52
Ils le sont respectivement soit à la radio ou à la télévision, soit dans la presse généraliste ou spécialisée, ou
sur des sites Web spécialisés ou encore dans les matchs en direct sur le Web (accessibles aussi maintenant
sur les smartphones et sur l’iPad).
Ce qui peut être le fait de conversations captées sans y participer ou dont on est l’un des interlocuteurs, ou
d’évocations dans des films par exemple.
Ils présentent ces travaux aux pp. 29-30 et les discutent aux pp. 30-31.
Il « examine les cooccurrences entre 67 traits linguistiques dans les 1 000 premiers mots de 481 textes
d’anglais contemporain écrit et oral » (Habert, Nazarenko & Salem (1997 : 29)).
Les productions impliquées sont caractérisées « par l’usage de do comme pro-verbe, celui de be comme verbe
principal, le présent, les démonstratifs, les contractions de type don’t, la première et la deuxième personne
du singulier, le pronom it » (ibid.).
Les productions impersonnelles le sont par le fait qu’elles « favorisent les noms, les mots longs, des adjectifs
attributs, les prépositions » (ibid.).
Les productions narratives sont caractérisées « par le passé, la 3e personne, la négation synthétique, les
participes présents » (ibid.).
Document de synthèse – 1.3. Préconiser le haut rendement
35
apparente ou non » 53, et (v) « style impersonnel ou non » 54 – pour caractériser, dans
une autre langue (le français au lieu de l’anglais) et dans un autre contexte de travail,
les sources textuelles ou les emplois qui nous occupaient. Je me demandais par ailleurs si d’autres caractérisations devraient utilement être prises en compte et comment
les identifier.
Les réponses à ces questions étant dépendantes des données réunies dans chaque
corpus, elles ont été passablement différentes concernant les corpus footballistiques,
qui partagent leur thème et quelques autres caractéristiques tout en se distinguant
nettement les uns des autres, et les autres corpus thématiques constitués ensuite (cf.
§ 1.4.).
Les commentaires de matchs de football se caractérisent par le fait que ce sont des
narrations qui sont :
– relatives à des moments choisis des matchs : ceux où il se passe quelque chose de
remarquable à un titre ou à un autre sur le terrain ;
– fractionnées dans leur expression, puisqu’elles sont au moins rythmées par les arrêts
de jeu en direct et qu’elles sont coupées par les successions de prises de parole dans le
cadre des multiplex 55 :
[reporter n° 1] – la Ligue 2 avec un deuxième but grenoblois face à Clermont Robert Malm qui
récupère un ballon suite à un corner qui traînait dans la surface et le ballon est propulsé dans
la cage clermontoise Grenoble deux et Clermont zéro
[animateur studio] – merci Serge Pueyo Montpellier Lens à La Mosson Jean-Louis Pacull
[reporter n° 2] – oui avec là une bonne incursion une bonne incursion montpelliéraine dans la
défense lensoise le ballon qui revient toujours zéro à zéro bien sûr un ballon perdu attention
au contre là-bas il y a euh Pedro il y a Moreira Utaka euh devant euh devant le gardien la
frappe lointaine elle est contrée le ballon n’est pas perdu il est toujours dans les pieds lensois
sur le côté droit là-bas la tentative de débordement et la touche toujours zéro à zéro au stade
de La Mosson entre Montpellier et Lens après euh huit minutes de jeu
ou par les besoins propres aux résumés au sein desquels les mentions des minutes de
jeu qui ont vu la réalisation des événements décrits joue un rôle important :
Plaisant, alerte, ce derby crut s’enflammer sur un but de Thomert après une combinaison
Pédron-Sibierski, mais M. Duhamel indiqua justement une position de hors-jeu (25e). Lens
insistait, multipliait les offensives sur les ailes ou plein axe en relais avec Bakari. Insuffisant
cependant pour ouvrir la marque, et le LOSC, toujours aussi affûté physiquement, restait
plutôt menaçant. Warmuz devait ainsi sortir par deux fois dans les pieds de Brunel (30e) puis
Landrin (34e) pour éloigner le danger, et fut même tout heureux de voir Brunel rater d’un rien
sa reprise dans le temps additionnel, après avoir devancé Coly à la réception d’un centre de
Pichot (45e + 2). Et le LOSC persévérait dès la reprise, conscient des hésitations de la défense
53
54
55
Les productions à visée persuasive apparente sont caractérisées par « les infinitifs, les modaux, les subordonnées conditionnelles » (ibid.).
Les productions de style impersonnel sont caractérisées par « les passifs sans agent et les passifs avec by »
(ibid.).
Un multiplex est une émission de radio durant laquelle la parole est distribuée par un ou deux animateurs
en studio à des reporters qui commentent les matchs qui se déroulent simultanément dans les différents
stades où ils se trouvent. Les commentaires sont donc principalement faits en temps réel et les prises de
parole rythmées par une rotation de stade en stade que perturbent occasionnellement des actions particulièrement remarquables (buts ou fautes graves) sur les terrains.
36
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
lensoise. Coulibaly était d’abord obligé de se jeter devant Landrin (51e), mais le danger revenait vite avec un centre côté gauche de Tafforeau, repris dans la surface par Brunel, dont la
frappe trouvait le montant gauche (52e). (« Lille a tenu bon », L’Équipe 29/09/2002)
mais articulant néanmoins des événements en séquences qui correspondent à des
phases de jeu décrites en direct ou reconstituées en léger différé afin de construire un
récit cohérent ;
– et empreintes d’émotion quand le jeu s’anime, ce qui est très perceptible à l’oral par
les intonations et le rythme des paroles mais aussi par des choix lexicaux typiques de
ces moments de tension (attention, en catastrophe, mettre le feu, semer la panique, etc.
[en gras dans les extraits ci-dessous]) :
attention peut-être une balle là pour les Strasbourgeois non un défenseur troyen qui peut
repousser la balle jusqu’à Heurtebis toujours un but partout (multiplex)
pour l’instant les Niçois tentent de se porter à l’attaque on va suivre avec Pamarot Pamarot
qui trouve qui tente de trouver Diawara à l’entrée dans la surface de réparation il y a une sortie
de Viviani et finalement les Montpelliérains qui se dégagent en catastrophe le lob de Pitau
waou juste au-dessus de trente-cinq mètres Viviani était sorti en dehors de sa surface Pitau a
tenté le lob le ballon est passé vingt centimètres au-dessus de la barre transversale trois minutes de jeu zéro zéro entre Nice et Montpellier (multiplex)
deux minutes plus tard c’est cette fois-ci Becas et Rodriguez ces deux joueurs ont vraiment mis
le feu dans la surface de réparation sedanaise et euh les défenseurs sedanais et euh là ça tape
encore finalement ça va sortir en six mètres les défenseurs sedanais qui tiennent très bien la
baraque ce soir (multiplex)
toujours un partout entre Nice et Montpellier on joue depuis 9 minutes en seconde période et
depuis la reprise une domination plutôt montpelliéraine on a vu tout à l’heure à la cinquantedeuxième minute un superbe débordement côté gauche de Barbosa son centre en retrait a semé
la panique dans la défense niçoise (multiplex)
Ces éléments de caractérisation, qui peuvent avoir des liens avec ceux définis par
Douglas Biber sans toutefois avoir été déterminés au moyen de calculs de fréquences
de cooccurrences tels que ceux auxquels il recourt, n’épuisent pas la question du typage
de ces commentaires footballistiques.
La caractérisation des commentaires footballistiques doit en outre prendre en compte
les paramètres de la temporalité et de la médialité :
– le rapport temporel existant entre le moment où l’événement se déroule et celui de
sa description, qui peuvent être les mêmes pour les commentaires en direct ou être en
différé (de quelques minutes pour les matchs en direct du Web ou des résumés d’actions
précédentes lors des prises de parole des multiplex, de quelques heures pour la presse
du lendemain ou davantage pour les évocations a posteriori) ;
– et la variation de l’expression selon les médias, avec une première opposition entre
l’oral et l’écrit, mais aussi, en affinant le typage, une distinction entre l’oral radiodiffusé
et celui qui accompagne des images télévisées.
Alors que la temporalité n’est qu’un critère relatif, puisque les commentaires en
direct peuvent inclure des récits de faits antérieurs survenus durant le match en cours
de déroulement ou plus anciennement dans la saison ou remontant plus loin encore,
la médialité constitue un paramètre de différenciation tout à fait net puisque les commentaires sont écoutés ou lus. Dans le premier cas, l’écoute peut se faire à la radio,
donc sans support visuel, impliquant des reporters une description des actions de jeu
Document de synthèse – 1.3. Préconiser le haut rendement
37
et plus globalement de l’ambiance des stades et donc un rythme énonciatif soutenu et
un propos fécond. Pour la télévision, les paroles énoncées sont indexées sur ce que les
téléspectateurs voient, ce qui façonne souvent le commentaire en permettant que celui-ci
fasse une large place à la mention des noms de joueurs (qui sont éventuellement mal
identifiables sur un écran) mais décrive peu le détail des actions, puisque ceux qui
l’écoutent les voient aussi. 56
Un dernier critère qui serait à retenir pour caractériser les commentaires de matchs
est la qualification de leurs énonciateurs. Mais même en s’en tenant aux médias classiques, et donc en éliminant les sites contributifs où s’exprime qui veut sans décliner
son identité, ce critère n’est pas aisé à employer, puisque, si tous les commentateurs
sont des professionnels, ils peuvent avoir des profils variés et pas toujours connus du
public. Les deux médias d’expression orale se différencient des médias écrits par le fait
que les commentateurs y sont nécessairement identifiés, et ils diffèrent entre eux par
le fait qu’à la radio, certains de ceux qui assurent les retransmissions depuis les stades
de province sont des reporters locaux polyvalents alors qu’à la télévision les commentateurs sont spécialisés et souvent accompagnés de consultants (anciens joueurs ou
entraîneurs).
Sans épuiser tous les paramètres de caractérisation envisageables ni se réclamer
d’une typologie des discours généraliste, les quelques observations qui précèdent
donnent des indications précises sur les facteurs de différenciation des énoncés qui
peuvent être rencontrés dans un ensemble pourtant cohérent par sa nature – le commentaire d’événement sportif – comme par sa thématique – le football. Elles montrent
aussi en quoi les recherches engagées dans ce domaine en vue de la constitution d’un
corpus thématique à haut rendement se distinguent de diverses autres approches
universitaires de caractéristiques linguistiques de discours afférents au football, qui
poursuivent chacune des visées spécifiques et dont certaines exploitent également des
matériaux journalistiques 57.
Point sur les ressources footballistiques développées et les publications qui leur
sont afférentes
Les commentaires télévisuels, qui impliquent de prendre en compte conjointement
les images et les propos énoncés et qui fournissent des énoncés moins denses que ceux
entendus à la radio, étant dans un premier temps laissés de côté, la première ressource constituée a été le corpus de multiplex (Rcorp1), qui réunit des transcriptions
de commentaires de matchs de football radiodiffusés lors de soirées pendant lesquelles
plusieurs matchs se jouent et sont commentés simultanément. Cette ressource, confrontée aux contenus de deux corpus écrits réunissant des commentaires – une sélection d’articles du journal L’Équipe (Rcorp2) et une compilation de textes issus de
pages Web de sites footballistiques (Rcorp4) – et explorée de manière méthodique,
56
57
Pour une problématisation plus biberienne de la spécificité discursive des commentaires sportifs télévisés
appuyée sur une analyse du commentaire d’un match de football, cf. Deulofeu (2000).
Outre la problématique typologique de Deulofeu (2000) évoquée dans la n. 56, on peut mentionner, sans
prétention à l’exhaustivité, le recensement lexicologique précurseur de Galisson (1978), les dictionnaires de
prédicats et d’arguments destinés à une exploitation électronique de Gross & Guenthner (2002), l’analyse
sémiotique de Song (2003) et les recherches de lexicographie fonctionnelle de Leroyer & Møller (2004).
38
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
en prenant appui sur une analyse référentielle des actions observées sur le terrain et
décrites (l’ontologie des actions de jeu, Rcorp3) pour élaborer des descriptions lexicographiques (réunies dans le dictionnaire Rdic3), a vocation à permettre d’apprécier
dans quelle mesure les pratiques langagières orales, bien repérées pour leurs particularités syntagmatiques, présentent des spécificités lexicales.
Les enjeux de cette confrontation sont importants, puisque, dans la mesure où la
lexicographie de l’oral élaborée en France 58 puise communément dans les ressources
écrites, mettre en question cette méthode en disposant d’éléments d’évaluation de
l’intérêt qu’offrirait pour l’étude du lexique la constitution de corpus oraux d’une certaine portée est de nature à modifier la perception que les analystes peuvent avoir des
descriptions élaborées à partir de ressources écrites seulement et peut-être à renouveler les pratiques lexicographiques elles-mêmes.
Un travail engagé depuis deux ans à l’initiative d’un collègue arrageois (Dejan
Stosic) qui m’a sollicitée pour participer à un projet qu’il montait (P3) prolonge les
précédents avec la constitution du corpus footballistique bilingue serbe / français
(Rcorp16) à partir de retransmissions radiophoniques mais aussi télévisuelles. Cette
nouvelle ressource a vocation à permettre d’élargir le champ d’analyse concernant les
descriptions d’expressions orales relatives à des narrations d’événements sportifs, pour
lesquelles le rapport existant entre ce qui est décrit et la verbalisation peut certainement être éclairé par la coprésence des images et des énoncés. En disposant, pour un
match, des énoncés entendus dans les deux langues par les téléspectateurs et les auditeurs, il sera loisible d’étudier précisément pour chacune le rapport existant entre
les commentaires et les images diffusés conjointement à la télévision, mais aussi entre
les commentaires radiodiffusés et les images synchronisées a posteriori en fonction des
temps de jeu dans chaque mi-temps. La disponibilité de versions dans deux langues
permettra également d’évaluer si les commentaires serbes et français exprimés sur
un même canal sont d’une consistance comparable, ce qui constituerait un argument
en faveur de la distinction entre des variétés différentes d’énoncés oraux, selon qu’il
s’agit d’oral isolé ou accompagné d’informations visuelles.
Le travail sur le corpus de multiplex (Rcorp1) et les corpus écrits (Rcorp2 et
Rcorp4) constitués pour comparer les qualités de chacun m’a beaucoup occupée entre
2002 et 2005.
Alors que le projet du corpus Rcorp1 avait été conçu avec Pierre Corbin, le travail
a été nettement distribué entre nous puisque, si nous avons abondamment exploré ce
premier corpus et étudié les emplois observés ensemble, nous n’avons pas coécrit à
son sujet. Pierre Corbin s’est principalement consacré à l’exposé des analyses linguistiques qui en motivaient la création (cf. P. Corbin (2005 et 2008a)), alors que je n’ai
pas encore publié à leur sujet, préférant dédier mes premières rédactions aux aspects
techniques de ce projet, que j’avais naturellement pris en charge du fait de mes compétences informatiques. Durant la phase de développement du corpus de multiplex,
j’ai ainsi conçu les modalités de transcription des commentaires enregistrés, géré les
58
Cf. Cellard & Rey (1980), Bernet & Rézeau (1989 et 2008 (cf. T24 § 2.4.)), Bernet & Rézeau dir. (1995),
Colin, Mével & Leclère (1990).
Document de synthèse – 1.3. Préconiser le haut rendement
39
saisies et relectures 59, réuni les énoncés transcrits et balisés dans Rcorp1 et défini
des modalités d’exploration de ce corpus exploité en version “texte brut” avec deux
outils (Cordial Analyseur et Unitex) et en version balisée au moyen de transformations
XSLT 60.
Ce sont ces tâches et plus largement tout le travail de conception et de développement du corpus de multiplex, des autres corpus footballistiques (celui constitué des
articles de L’Équipe, Rcorp2, et celui issu du Web, Rcorp4) et de la représentation
ontologisée des actions de jeu utilisée pour guider les explorations de corpus (Rcorp3)
qui font l’objet des trois premiers textes commentés ci-après : T3 (§ 1.3.1.), T4 (§ 1.3.2.)
et T5 (§ 1.3.3.).
Présenté aux Journées de linguistique de corpus de Lorient de 2002, quelques
semaines après la tenue d’EURALEX (cf. § 1.2.2.), T3 (cf. C7) constitue le premier
travail de défense d’un corpus à haut rendement relatif au football perçu à travers les
commentaires de matchs. Mais alors que T3 montre, à partir d’une étude métalexicographique, l’utilité du recours à des corpus de cette nature pour y observer des usages
particuliers et compare la rentabilité d’exploitation de documents issus des journaux
Le Monde et L’Équipe et des multiplex, le travail d’évaluation contrastive des qualités
des documents primaires est plus développé dans T4, où le Web est également mobilisé. Une fois démontré que les multiplex présentent un meilleur rendement que les
sources écrites étudiées (cf. T4 § 2.), les modalités de transcription ont été présentées de manière critique dans T5 (au §§ 2.2. et 2.3.), où la structuration XML des
données conforme à une DTD 61 personnelle (strictement conditionnée par la nature
des énoncés et l’usage à venir des transcriptions) est comparée à celle générée par la
DTD de Transcriber, qui est un outil d’alignement des sources sonores avec leur transcription graphique 62.
Les développements de T3, T4 et T5 témoignent ainsi de la naissance du corpus
de commentaires de matchs de football, mais, la réflexion engagée ne se limitant pas
à la constitution de ce corpus et abordant les modes d’exploration de ses données, aussi
denses que peu accessibles à ceux qui n’ont pas été bercés dès leur enfance par une
écoute assidue des retransmissions considérées, deux méthodes d’exploration et
d’exploitation lexicographique des énoncés attestés ont été exposées respectivement
dans T4 §§ 3. et 4. et T5 §§ 3. et 4. Alors que T4 traite des aspects techniques de
l’exploration du corpus, T5 se concentre sur l’exploitation des énoncés extraits en les
référant à une analyse ontologique des actions de jeu afin d’élaborer des descriptions
lexicographiques de bonne tenue linguistique.
Contextes de rédaction et de publication de T3, T4 et T5
La rédaction de T4, comme celle de T5, a débuté en 2003, alors que T3 avait été
livré à son éditeur mais non encore publié, et c’est paradoxalement T4, inclus dans
59
60
61
62
J’ai transcrit le premier multiplex. Ensuite, une large partie des transcriptions et des premières relectures
a été effectuée par les étudiants de la promotion 2002-2003 de notre formation de lexicographes. J’ai enfin
fait des relectures et corrections de toutes les transcriptions avec Pierre Corbin.
eXtensible Stylesheet Language Transformations (cf. n. 8).
Définition de Type de Document (cf. n. 8).
Transcriber a également été utilisé dans le cadre du projet OURAL (P2), cf. T8 (§ 1.4.1.).
40
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
un numéro de la Revue française de linguistique appliquée (RFLA) dirigé par Benoît
Habert, qui a été édité le premier, en 2004, alors même que les articles du volume ont
bénéficié de deux phases de relectures puis corrections qui ont permis à la rédaction
de T4 de profiter de plus de retours critiques sur des versions préliminaires que celle
des deux autres textes.
T3 a finalement été publié en 2005. La publication de T5 dans le volume d’actes
des Journées de linguistique de corpus de Lorient de 2003 a connu des retards induits
par des changements d’éditeur et donc de mise en page jusqu’à ce que Geoffrey
Williams, responsable du volume, décide d’une publication électronique 63, qui a été
effective en 2008, en même temps que celle des actes des Journées de linguistique de
corpus de 2005, qui incluent T8.
Le fait de rédiger les premières versions de T4 et T5 en même temps et dans un laps
de temps assez court m’a incitée à distinguer strictement les objets des deux textes,
par ailleurs proches et complémentaires, ce qui m’amènera, après les avoir évoqués
conjointement ci-dessus, à les commenter séparément à la suite du retour sur T3.
1.3.1. Introduction de la notion de corpus à haut rendement [T3 (2005b) ;
Rcorp1 ; Rcorp2]
T3 évalue ce que des corpus constitués de documents primaires de natures différentes peuvent apporter à une sélection de dictionnaires variés sur la base d’une
comparaison des contenus
– de trois corpus :
• des articles de presse générale, extraits d’un CD-ROM d’archives du journal Le
Monde ;
• des articles de presse spécialisée téléchargés depuis le site du journal L’Équipe
(Rcorp2) ;
• des multiplex radiodiffusés transcrits (Rcorp1) ; 64
– et de trois dictionnaires :
un répertoire généraliste, le Petit Robert électronique de 2001 ;
• un thématique multisport, le Robert des sports (Petiot (1982)) ;
• et un autre spécialisé dans le football, le Dico du foot (Montvalon (1998) 65.
•
63
64
65
Bien que j’aie relu et corrigé une version de mon article dont la mise en page avait été modifiée par rapport
à ce que préconisaient les consignes initialement appliquées, le texte qui a finalement été mis en ligne n’est
pas conforme à mon manuscrit : un paragraphe a été tronqué et des notes redistribuées, ce qui est décrit
dans une note éditoriale ajoutée dans la présente édition (cf. T5 n. B).
Au moment de la rédaction de T3, le corpus Rcorp1 n’était pas encore intégralement transcrit et relu, ce
qui fait que j’ai conservé les données mobilisées au moment de la préparation de C7, extraites des premiers
constituants de Rcorp1 comme de Rcorp2 – une soirée de multiplex et les articles de L’Équipe relatifs
aux premières journées du championnat de France de 2002-2003 – plutôt que d’induire un biais en considérant Rcorp2 dans sa totalité.
Les dictionnaires de football font volontiers une large part aux expressions susceptibles d’amuser les lecteurs.
Le Dico du foot, bien qu’assez bien documenté, s’inscrit dans cette ligne éditoriale. Un autre répertoire, Les
mots du football (Lesay (2006)), publié quatre ans après la rédaction de T3, se caractérise au contraire par
son sérieux et la qualité linguistique de ses descriptions. Documenté à partir de données trouvées sur le
Document de synthèse – 1.3. Préconiser le haut rendement
41
Besoins documentaires en fonction des types de dictionnaires à élaborer
Les besoins documentaires des lexicographes, modélisés au § 1.1. à partir de
l’étude de ces trois dictionnaires de types distincts, sont définis de manière à discriminer les différences de contextes de travail en fonction de la finalité des ouvrages, ce
qui, à l’échelle de rédaction de T3, n’a pas laissé d’espace pour des nuances :
– Pour un dictionnaire général, l’objectif est de décrire ce qui a une certaine idiomaticité en langue “commune”. Les lexicographes doivent donc pouvoir exploiter leurs acquis
personnels et n’utiliser un corpus que pour y contrôler leurs intuitions, y trouver de
quoi combler leurs lacunes ou hiérarchiser les usages décrits.
– Pour un dictionnaire multisport, les rédacteurs doivent repérer ce qui est transversal
à différents sports et, dans certaines limites, ce qui est particulier à certains d’entre
eux, ce qui implique un choix d’items et des principes de description fondés sur l’usualité. Un corpus réunissant des énoncés que le public à qui est destiné le dictionnaire
est susceptible de rencontrer peut (i) informer sur la fréquence de chaque item ou
emploi spécialisé dans ce corpus (et par inférence sur leur diffusion dans d’autres
énoncés comparables) et (ii) suppléer aux méconnaissances des rédacteurs, qui peuvent
ne pas avoir les mêmes investissements personnels dans tous les sports.
– Enfin, pour un dictionnaire du football qui n’aurait pas une visée distractive mais
métalinguistique de bonne facture, les lexicographes doivent fournir une information
aussi exhaustive et précise que possible, qui s’attache à décrire les expressions non
pas les plus imagées mais les plus remarquables d’un point de vue linguistique, comme
score de parité, ou l’emploi de constructions verbales inattendues des néophytes,
comme claquer un but ou capter un ballon, ce qui implique plus nécessairement encore
de recourir à un corpus de qualité.
Cet état des besoins étant posé, le § 1.2. compare le mode de recueil de données
traditionnel en lexicographie (par lectures et relevés) et l’exploration de corpus électroniques, en envisageant d’une part l’inventaire lexical et combinatoire (sélection de
la nomenclature 66 et des emplois à décrire pour chaque item retenu) et d’autre part
la recherche d’illustrations des emplois (la sélection des exemples à associer aux descriptions, qu’ils soient forgés, attestés ou retravaillés, c’est-à-dire ajustés discursivement afin qu’ils restent informatifs une fois sortis de leur contexte).
Cette comparaison des données des trois corpus à celles des trois dictionnaires
étudiés, menée sur un petit échantillon lexical, permet d’observer, par exemple,
– que, parmi les dix-sept lemmes (correspondant à vingt-six formes) extraits en corpus,
le verbe concéder attesté dans le corpus de L’Équipe (Rcorp2) et cinq items du corpus
de multiplex (Rcorp1), dont le verbe capter, d’usage fréquent dans les commentaires,
66
Web (dont en particulier les commentaires en temps réel, les “matchs en direct”), son contenu mérite,
mieux que celui du Dico du foot, d’être comparé à des descriptions élaborées à partir du corpus de multiplex,
ce qui sera esquissé infra au § 1.3.5. à propos des verbes utilisés pour exprimer la transmission du ballon.
La nomenclature est la liste des unités linguistiques traitées dans un dictionnaire. Le plus souvent les formes
canoniques de celles-ci sont mentionnées dans les composants d’adressage des articles (adresses principales ou subordonnées), mais il peut également s’agir d’adressage microstructurel (que celui-ci donne lieu
à matérialisation ou non) (cf. Hausmann & Wiegand (1989, § 8.)).
42
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
ne figurent pas à la nomenclature du Dico du foot 67, ce qui témoigne de la richesse
lexicale relative des corpus et en particulier de celui d’oral transcrit ;
– que le nom avantage a dans le corpus de multiplex des cooccurrents bien plus nombreux que ceux qui sont présentés dans les trois dictionnaires, qui ne répertorient que
( prendre + avoir) l’avantage et règle de l’avantage, ce qui montre le bon rendement combinatoire de cette ressource ;
– et que, pour ce qui concerne les contextualisations proposées par le dictionnaire
spécialisé, le bénéfice d’une documentation en corpus pourrait être plus réduit que
concernant les sélections lexicales et les emplois relevés, puisque ceux de certains
items sont déjà illustrés par des exemples tout à fait typiques.
De ces observations découle, au § 2., la spécification d’options pour la constitution
de corpus utiles aux lexicographes pour la description d’usages spécialisés de large
diffusion. Le § 2.1. prône, comme alternative pratique aux corpus de référence, l’élaboration de corpus plurithématiques réunissant, pour chaque domaine pris en compte,
des énoncés d’une technicité mesurée (sélectionnés sur la base de leur représentativité
des usages et de leur rendement documentaire) et composés de modules combinables
de manière progressive afin de permettre aux éditeurs d’échelonner le coût de constitution de cette ressource en élaborant (ou acquérant) progressivement les modules
thématiques jugés les plus utiles.
Concernant le rendement de cette ressource, le § 2.2. développe des spéculations
à propos de l’utilité d’intégrer des documents oraux transcrits dans des corpus à haut
rendement, sur la base notamment des observations faites dans les commentaires
radiodiffusés de matchs de football. L’hypothèse de spécificités lexicales de l’oral
paraît confortée par le fait que s’y rencontrent d’une part des constructions qui ne
semblent pas employées à l’écrit et d’autre part des descriptions des phases de jeu
dans leur déroulement au moyen de verbes processifs plus nombreuses et plus riches
que celles qu’on trouve dans les commentaires de matchs rédigés, qui ne mentionnent,
pour l’essentiel et de manière assez sommaire, que les actions qui se concluent par un
but ou une sanction.
Utilité de sources radiodiffusées transcrites pour le haut rendement
Pour la constitution de corpus d’oral, le § 2.3., qui clôt l’article, souligne les avantages de sources radiodiffusées : accessibilité, bonne qualité énonciative en général,
expression spontanée mais canalisée. Les transcriptions de multiplex en ont apporté
un témoignage, et il est raisonnable de penser que ces sources seraient aussi susceptibles de fournir des documents primaires de qualité pour constituer des corpus relatifs à d’autres thématiques. Un accent particulier est mis sur les émissions de services,
dans lesquelles des auditeurs profanes dialoguent avec des spécialistes sur des questions de droit, de psychologie, de santé, etc. Au sujet de ces dernières en particulier,
l’utilisation d’énoncés diffusés sur les ondes et produits par des personnes anonymes,
qui s’expriment de leur plein gré et en assumant leur acte, présente par ailleurs l’avantage d’éviter les problèmes de confidentialité que peuvent susciter d’autres approches
(cf. infra § 1.4.1.).
67
Les verbes concéder et capter ne figurent pas non plus à la nomenclature de Les mots du football (cf. n. 65).
Document de synthèse – 1.3. Préconiser le haut rendement
43
Les arguments développés en faveur des corpus à haut rendement (footballistique
dans la démonstration principale, mais également médical dans les développements
de la dernière partie) valorisent l’aide qu’ils peuvent apporter aux lexicographes sur
des terrains où ceux-ci sont susceptibles d’être moins à l’aise pour mobiliser des données, et ils soutiennent l’idée que ces ressources sont réalistement constituables puisque de portée limitée. Rédigée alors que des échanges étaient engagés avec Larousse
et Le Robert dans la perspective de monter un projet tripartite (qui n’a pas vu le jour
du fait de la reconfiguration des relations entre ces éditeurs (cf. n. 44)), c’est à la conception d’un autre projet de constitution de ressources, P2, inclus dans le projet OURAL
monté en partenariat avec le laboratoire de recherche et développement d’une entreprise d’informatique et des laboratoires universitaires, que cette étude s’est révélée
utile (cf. supra n. 14, et T8, commenté infra au § 1.4.1.).
1.3.2. Maturité du corpus de commentaires footballistiques radiodiffusés [T4
(2004a) ; Rcorp1 ; Rcorp2 ; Rcorp4]
Le travail sur le football a été abondamment exploité en recherche et dans la formation de lexicographes, et aussi auprès de linguistes et de jeunes doctorants en
sciences humaines que je devais sensibiliser aux linguistiques de corpus (dans le
cadre d’un enseignement semestriel ou de séminaires de l’école doctorale, cf. E5, E6
et E7), ce qui m’a incitée à présenter T4 comme une réflexion qui n’était pas seulement orientée vers les lexicographes, mais qui ciblait plus largement tous ceux qui
souhaitent étudier des faits linguistiques 68, conformément à l’orientation générale du
numéro de la revue RFLA qui l’accueille.
Le § 1. présente l’objet de la contribution en développant trois points :
– la définition de la “langue commune”, conçue comme précédemment dans T3 comme
intégrant des éléments relevant de différentes sphères spécialisées que j’ai appelées
“langues de spécialité de large diffusion”, avant de revenir dans T8 sur cette dénomination imparfaite puisque semblant reprendre à mauvais escient la notion de “langue
de spécialité” ;
– la présentation des deux verbes de transmission de balle employés dans les commentaires de football et utilisés pour illustrer mon propos dans cet exposé, les verbes
donner et passer, choisis parce que le premier est un verbe en usage et l’archilexème
de la classe des verbes de transmission et que le second est un bon candidat à la confusion pour les outils d’exploration de corpus, sa forme de 3e personne de l’indicatif
présent étant homographe du nom singulier morphosémantiquement lié au verbe et
le verbe comme le nom étant communément employés dans les commentaires ;
– et la description de l’objectif de l’étude linguistique qui motive l’exploration de corpus
avec deux outils (Cordial Analyseur et Unitex) opérant coopérativement et qui consiste en l’élaboration aussi automatisée que possible des patrons de construction de
chaque énoncé intégrant les verbes donner ou passer.
68
C’est ainsi que ce travail a été reçu, comme en témoigne par exemple Laporte (2009, n. 5), qui le cite comme
contre-exemple du manque d’esprit critique qu’il déplore observer chez les linguistes utilisateurs de concordanciers.
44
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Par exemple pour l’énoncé
Celestini qui peut donner à Dos Santos sur le côté gauche
l’objectif est d’obtenir le patron
NJOUEUR-SOURCE donner à NJOUEUR-DESTINATAIRE-EFFECTIF sur NLIEU-DESTINATION
Le § 2. donne lieu à une étude comparative de différents types de documents à
intégrer dans les corpus documentaires. L’objet est comparable à ce qui a été fait
dans T3, mais les données, présentées plus en détail, fournissent des explications
plus complètes et des éléments plus consistants pour étayer la démonstration. Il est
observé que sur les 3 586 articles liés au thème du football du CD-ROM d’archives de
1997-1998 du journal Le Monde, une très large majorité relate des transferts, des problèmes financiers ou de dopage, etc., ce qui m’a conduite à en sélectionner manuellement 737 (soit 20%) relatifs à des matchs 69. Par ailleurs, dans cette sélection a
priori aussi bien ciblée que possible pour l’étude des verbes de transmission de balle,
le rendement de consultation est faible, tant au niveau de la diversité des unités lexicales employées que de celle des constructions syntaxiques. Ces observations justifient
la constitution de corpus thématiques en cherchant celui qui aurait le plus haut
rendement :
– des transcriptions de commentaires formulés durant les multiplex pour Rcorp1,
dont le volume avait sensiblement augmenté depuis la rédaction de T3 pour atteindre
environ 200 000 mots-occurrences ;
– des documents issus de la presse spécialisée pour Rcorp2 : des articles sélectionnés dans le journal L’Équipe (comme indiqué déjà dans T3) pour un total de 60 000
mots-occurrences ;
– des pages de sites Web sélectionnées minutieusement plutôt qu’explorées sans ciblage
ou filtrage (ma position sur ce point est justifiée en n. 14) pour Rcorp4 : des sites
de clubs de football, de joueurs ou de commentaires de matchs pour un total de
60 000 mots-occurrences (ce qui constituait une ressource nouvelle, non exploitée lors
de la rédaction de T3).
Le § 2. se termine par une présentation rapide de la structuration XML des transcriptions (plus détaillée dans T5 § 2.2.) et par des remarques méthodologiques sur
de possibles réemplois de ce corpus pour d’autres études, ce qui ne correspondait pas
à des perspectives précises à l’époque, mais qui aurait pu se réaliser depuis : nous
avons en effet envisagé avec un collègue phonéticien membre de l’UMR STL, Cyril
Auran, d’étudier s’il y a des corrélations observables, dans les commentaires radiodiffusés, entre différents paramètres d’évaluation qualitative de la prononciation, l’intensité des actions décrites et les choix lexicaux opérés pour décrire celles-ci, mais le
temps nous a manqué jusqu’ici pour engager cette nouvelle analyse.
Modalités d’exploration : deux concordanciers employés isolément ou coopérant
Le § 3. présente les trois modes d’exploration de corpus envisagés : avec Cordial
Analyseur employé seul (en exploitant sa fonction de concordancier) puis Unitex explo69
Ce corpus n’ayant pas demandé un travail de même ampleur que les autres corpus footballistiques puisque
tous les articles et leurs métadonnées étaient enregistrées sur un CD-ROM d’où ils étaient exportables en
texte intégral, il n’est pas listé dans les ressources, à la différence de Rcorp1, 2 et 4.
Document de synthèse – 1.3. Préconiser le haut rendement
45
rant le texte brut des transcriptions, et avec ces deux outils en exploitant la fonction
d’étiqueteur morphosyntaxique du premier pour prétraiter les transcriptions explorées ensuite avec Unitex. Dans le retour sur ces développements, la place plus importante accordée à la description d’Unitex est induite par le fait d’une part que cet outil
est plus complexe d’emploi que le premier et d’autre part qu’il a été exploité à plusieurs
reprises dans mes recherches (cf. T10 (§ 1.4.2.), T12 (§ 2.5.1.) et des travaux qui n’ont
pas donné lieu à publication relatifs à des traitements de corpus (§ 1.5.2.) ou à des
analyses métalexicographiques (§ 2.2.1.2.)) et que le commentaire de ceux-ci implique
d’avoir minimalement présenté ce qu’il permet de faire.
– Cordial Analyseur
Le premier mode d’exploration de corpus consiste à utiliser la fonction d’extraction
de phrases de Cordial Analyseur, qui peut sélectionner celles où figurent un à deux
items spécifiques et éventuellement un troisième dont il est seulement possible d’indiquer la catégorie :
La recherche des mots-occurrences correspondant au verbe donner accompagnés de ceux correspondant au nom côté et d’une préposition permet d’extraire les transmissions de balles
réalisées latéralement comme
Celestini qui peut donner à Dos Santos sur le côté gauche
ou
Lilian Laslandes qui donnait là-bas sur le côté droit à hauteur des six mètres pour le
défenseur bastiais
ce qui est utile pour faire l’inventaire des prépositions possibles dans une construction verbale
comme donner (à + pour) NJOUEUR 70.
– Unitex
Le second mode d’exploration de corpus exploite Unitex comme concordancier. Cet
outil permet d’exprimer le motif de recherche au moyen soit d’une expression régulière :
Par exemple, l’expression
<donner> <MOT>* sur le côté (droit + gauche)
sera mise en correspondance avec une séquence constituée du verbe donner, de zéro un ou
plusieurs mots (l’étoile de Kleene code conjointement l’optionalité et la répétabilité) et de l’expression d’une localisation sur le côté 71 :
Celestini qui peut donner à Dos Santos sur le côté gauche
Lilian Laslandes qui donnait là-bas sur le côté droit à hauteur des six mètres pour le
défenseur bastiais
soit d’un graphe appelant au besoin des sous-graphes, si le motif à exprimer est complexe.
70
71
Le verbe donner a des emplois footballistiques caractérisés par l’utilisation fréquente de la préposition pour
comme introducteur de la mention du destinataire, en particulier quand il n’est pas certain, au moment de
l’énonciation, que celui-ci réceptionnera bien la balle qui lui est adressée.
Ces extractions sont intéressantes linguistiquement à l’intérieur et au-delà de ce qui est mis en correspondance avec le motif de recherche (ce qui est souligné ci-dessus) :
– dans les deux extraits, la mention de l’agent (le nom du joueur qui donne le ballon) se trouve à gauche de
ce segment ;
– dans le second extrait, la mention du destinataire (le défenseur nantais) est à sa droite ;
– dans le premier extrait, la mention du destinataire (à Dos Santos) correspond à la séquence de mots figurant entre le verbe et la localisation.
46
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
La lecture des graphes, comme celui présenté en figure 5, se fait de gauche à droite,
de la flèche vers le carré inclus dans un cercle, en passant par l’un des chemins constitués de nœuds et d’arcs les reliant. Les nœuds (comme celui contenant <MOT>) ou
séquences de nœuds dont le contenu est optionnellement présent peuvent être contourné(e)s par un arc liant directement le nœud précédent au nœud suivant, et les
nœuds (comme celui contenant <MOT> également) ou séquences de nœuds dont les
contenus peuvent être répétés portent un arc qui part de leur extrémité droite (ou de
celle du nœud le plus à droite dans la séquence) et qui revient vers son extrémité
gauche (ou celle du nœud le plus à gauche dans la séquence). Les sous-graphes sont
des graphes appelés par un autre graphe, ce qui se matérialise, dans le graphe appelant, par la mention du nom du graphe appelé dans un nœud grisé, comme EXPRLIEU ci-dessous, et dans cette représentation imprimée par le décalage à droite du
graphe appelé. Quand un graphe appelle un sous-graphe, c’est comme si les cheminements du second étaient inclus dans l’expression du premier là où figure son nom.
Figure 5. Graphe et sous-graphe utilisés dans Unitex pour extraire les énoncés
contenant le verbe donner et l’expression d’une localisation sur le côté (droit + gauche)
Les éléments constituants des expressions régulières et des graphes peuvent être :
– des chaînes de caractères qui ont leur valeur littérale ;
– des codes spéciaux ou grammaticaux (cf. figure 6) 72 ;
Figure 6. Codes spéciaux et grammaticaux utilisables dans les motifs de recherche soumis à Unitex
(d’après Paumier (2008 : 26 et 39))
CODES SPÉCIAUX
<E>
<MOT>
<MIN>
<MAJ>
<PRE>
<DIC>
<NB>
<PNC>
72
séquence vide
<A>
séquence de n’importe quelles lettres <ADV>
séquence de n’importe quelles lettres <CONJC>
minuscules
<CONJS>
séquence de n’importe quelles lettres <DET>
majuscules
<INTJ>
séquence de n’importe quelles lettres <N>
débutant par une majuscule
<PREP>
mot des dictionnaires
<PRO>
séquence de n’importe quels chiffres <V>
signe de ponctuation [;,!?:]
CODES GRAMMATICAUX
adjectif
adverbe
conjonction de coordination
conjonction de subordination
déterminant
interjection
nom
préposition
pronom
verbe
D’autres codes dit « sémantiques » sont exploitables dans Unitex (cf. Paumier (2008 : 39)).
Document de synthèse – 1.3. Préconiser le haut rendement
47
– des items enregistrés dans les dictionnaires livrés avec l’outil – les DELA, dictionnaires électroniques du LADL 73 :
Les entrées des DELA sont des formes associées au lemme correspondant si elles n’en sont
pas homographes et à une ou plusieurs indication(s) morphosyntaxique(s) et sémantique(s).
Le prétraitement du corpus à explorer par Unitex consiste pour lui à apparier chaque entrée
dictionnairique aux mots-occurrences qui en sont homographes afin de permettre ensuite
d’exprimer que l’on souhaite extraire tous les segments de textes où sont trouvées
– toutes les formes d’un mot, ce qui se fait par la mention du lemme écrit entre chevrons :
<donner> ;
– uniquement la ou les forme(s) qui correspond(ent) à une flexion particulière d’un mot, ce qui
motive la mention du lemme écrit entre chevrons et accompagné des indications flexionnelles
utiles : <donner:W>, où W code l’infinitif ;
– la ou les forme(s) qui correspond(ent) à tous les mots d’une catégorie grammaticale qui ont
une flexion particulière, ce qui se demande par la mention du code grammatical écrit entre
chevrons et accompagné des indications flexionnelles utiles : <V:W> pour un verbe infinitif.
– ou encore des items déclarés dans l’un des dictionnaires personnels ajoutés :
Par exemple celui des noms de joueurs enregistre Celestini et Dos Santos évoqués supra comme
étant des footballeurs (+JOUEUR) qui ont joué sous les couleurs de l’Olympique de Marseille
en 2002-2003 (+OM02) : Celestini,.N+JOUEUR+OM02. 74
Au sein des dictionnaires, chaque entrée est enregistrée associée à des codes morphosyntaxiques prédéfinis (cf. figure 7) et à des codes sémantiques, dont un sousensemble est mis en œuvre dans les DELA mais qui peuvent être créés en fonction
des besoins dans les dictionnaires personnels (comme cela est fait ci-dessus concernant les noms de joueurs).
Figure 7. Codes flexionnels utilisables dans les motifs de recherche soumis à Unitex
(d’après Paumier (2008 : 40))
CODES FLEXIONNELS
m
f
s
p
1
2
3
P
I
masculin
féminin
singulier
pluriel
première personne
deuxième personne
troisième personne
présent de l’indicatif
imparfait de l’indicatif
CODES FLEXIONNELS (SUITE)
J
F
S
T
Y
C
G
K
W
passé simple
futur
présent du subjonctif
imparfait du subjonctif
présent de l’impératif
présent du conditionnel
participe présent
participe passé
infinitif
Unitex est donc doté d’un concordancier capable de gérer des expressions de motifs
de recherche très complexes et qui peut retourner soit une simple “KWIC list” (Key
Word In Context list), soit les mêmes contextes extraits enrichis d’annotations (ou
73
74
Le Laboratoire d’Automatique Documentaire et Linguistique était un laboratoire du CNRS créé et dirigé par
Maurice Gross (cf. http://infolingu.univ-mlv.fr/LADL/Historique.html).
Les dictionnaires personnels sont également utilisés dans T4 pour les noms de lieux.
48
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
encore les annotations seules, mais ce n’est pas pertinent dans les explorations
évoquées). L’insertion d’annotations dans les contextes retournés implique que les
graphes précédents aient été transformés en transducteurs (cf. figure 8), c’est-à-dire
qu’ils contiennent, dans les chemins qui relient les nœuds initiaux et terminaux, des
nœuds porteurs de segments de texte souscrits qui seront insérés dans le contexte.
Figure 8. Transducteur utilisé dans Unitex pour baliser les énoncés
contenant le verbe donner et l’expression d’une localisation sur le côté (droit + gauche)
Le graphe principal présenté en figure 5 pourrait être transformé en transducteur pour coder le même
motif que précédemment et permettre, au sein des contextes listés dans la concordance, le balisage
du verbe de transmission et du syntagme prépositionnel exprimant la localisation (délimités par des
balises comparables à celles qu’auraient des éléments XML).
Dans le transducteur, les nœuds contenant le verbe donner et l’appel du sous-graphe EXPR-LIEU sont
précédés et suivis d’un nœud vide. Celui qui précède chacun porte une balise ouvrante comme texte
souscrit, celui qui suit chacun porte une balise fermante, les deux types de balises se différenciant par
la présence d’une barre oblique entre le chevron gauche et le nom de l’élément dans les fermantes.
Quand ce transducteur sert à extraire les contextes et à les annoter, le premier des contextes précédents
figure dans la concordance sous la forme : Celestini qui peut <V-transmission>donner</V-transmission> à
Dos Santos <SP-localisation>sur le côté gauche</SP-localisation> 75
Unitex présente cependant une lacune importante : il n’est pas fait pour gérer les
homographes, qu’il analyse avec toutes leurs valeurs possibles même dans les contextes
non ambigus, ce qui est très handicapant quand on cherche à étudier le verbe passer
mais pas le nom passe dans un corpus footballistique. Ce problème, qui peut en partie
être contourné par l’écriture de grammaires locales qui spécifient par exemple quels
items peuvent contenir les contextes du nom afin de tenter de les éliminer des concordances des verbes, a motivé que j’envisage de faire prétraiter les transcriptions explorées par un outil d’annotation morphoflexionnelle qui n’attribue qu’un code à chaque
mot-occurrence.
– Coopération de Cordial Analyseur et d’Unitex
Faire coopérer Cordial Analyseur et Unitex consiste à utiliser le premier comme outil
d’étiquetage préalable du corpus à explorer, et le second comme concordancier travaillant non plus sur les énoncés transcrits mais sur les transcriptions étiquetées morphoflexionnellement où chaque mot est remplacé par un triplet constitué de la forme
originale du mot-occurrence, du lemme et du code morphosyntaxique correspondants :
75
Dans T4, les graphes et transducteurs proposés sont plus complexes que ceux présentés ici, et conséquemment les motifs de recherche et les annotations introduites dans les concordances y sont plus riches. Au
§ 3.2.3., l’exemple de balisage des extractions est le suivant :
<N-JOUEUR-SOURCE>Celestini</N-JOUEUR-SOURCE> qui peut donner à <N-JOUEUR-DESTINATAIRE-EFFECTIF>Dos
Santos</N-JOUEUR-DESTINATAIRE-EFFECTIF> sur <N-LIEU-DESTINATION>le côté gauche</N-LIEU-DESTINATION>
Il ne comporte pas de balisage du verbe ou du syntagme prépositionnel locatif comme celui de la figure 8,
mais il permet de délimiter les mentions des protagonistes et de la localisation de la balle en fin de transmission.
Document de synthèse – 1.3. Préconiser le haut rendement
49
Par exemple :
Celestini Celestini NPMS qui qui PRI peut pouvoir VINDP3S donner donner VINF à à
PREP Dos Santos Dos Santos NPMS sur sur PREP le le DETDMS côté côté NCMS gauche
gauche ADJSIG
où ADJSIG code un adjectif singulier indéfini en genre, DETDMS un déterminant défini
masculin singulier, NCMS et NPMS respectivement un nom commun ou propre masculin
singulier, PREP une préposition, PRI un pronom relatif et VINDP3S et VINF respectivement
des verbes à l’indicatif présent troisième personne du singulier et à l’infinitif. 76
Cette procédure augmente sensiblement la complexité des graphes exprimant les
motifs de recherche (cf. figure 9) :
Figure 9. Transducteur et sous-graphe utilisés dans Unitex pour baliser
les énoncés (préétiquetés par Cordial Analyseur) contenant le verbe
donner et l’expression d’une localisation sur le côté (droit + gauche)
Le transducteur et le sous-graphe présentés respectivement en figures 8 et 5 doivent se voir ajouter
des nœuds pour chaque constituant des triplets produits par Cordial Analyseur.
Dans le transducteur, trois nœuds représentent le verbe donner et l’appel du sous-graphe EXPR-LIEU
a été actualisé (EXPR-LIEU-postcordialisation). Dans le sous-graphe, tous les items sont remplacés
par les triplets leur correspondant. 77
Quand ce transducteur sert à extraire et à annoter les contextes prétraités par Cordial Analyseur, le
premier des contextes précédents figure dans la concordance sous la forme : Celestini Celestini NPMS
qui qui PRI peut pouvoir VINDP3S <V-transmission>donner donner VINF</V-transmission> à à PREP
Dos Santos Dos Santos NPMS <SP-localisation>sur sur PREP le le DETDMS côté côté NCMS gauche
gauche ADJSIG</SP-localisation>
Mais ces derniers graphes permettent d’extraire des données de bonne qualité, pour
lesquelles je propose ensuite une conversion en XML afin de faire figurer les lemmes
et codes morphosyntaxiques de chaque mot comme attributs (@lemme et @cat) de l’élément <item> qui enchâsse chaque forme originale de mot :
76
77
Les textes étiquetés par Cordial Analyseur sont présentés à raison d’un triplet mot-occurrence, lemme, code
morphoflexionnel par ligne, les trois objets étant séparés par des tabulations. Pour les traiter dans Unitex,
les marques de fin de ligne comme les tabulations ajoutées par Cordial Analyseur doivent être remplacées
par des espaces.
Pour que les graphes ou transducteurs puissent bien manipuler ces catégorisations, il faut que <MOT>, qui
code une séquence de lettres, puisse être mis en correspondance avec les codes flexionnels. Pour le premier
nœud <MOT>, il s’agit du code du verbe donner, dont la valeur peut être par exemple VINF comme dans
l’exemple considéré ou VINDP3S pour Celestini qui donne […]. Pour que VINDP3S et <MOT> puissent
être mis en relation, il convient de convertir les constituants numériques du code flexionnel en lettres
(VINDPTROISS ), lors du même traitement intermédiaire que celui visant à remplacer les marques de fin
de ligne par des espaces évoqué dans la note précédente.
50
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
<item lemme="Celestini" cat="NPMS">Celestini</item>
<item lemme="qui" cat="PRI">qui</item>
<item lemme="pouvoir" cat="VINDP3S">peut</item>
<V-transmission>
<item lemme="donner" cat="VINF">donner</item>
</V-transmission>
<item lemme="à" cat="PREP">à</item>
<item lemme="Dos Santos" cat="NPMS">Dos Santos</item>
<SP-localisation>
<item lemme="sur" cat="PREP">sur</item>
<item lemme="le" cat="DETDMS">le</item>
<item lemme="côté" cat="NCMS">côté</item>
<item lemme="gauche" cat="ADJSIG">gauche</item>
</SP-localisation>
Ceci donne la possibilité de présenter un texte lisible plutôt que les séquences de triplets produites par Cordial Analyseur, pour peu qu’il soit lu dans un éditeur dédié à
ce type de texte et capable de prendre en compte les instructions de mise en forme spécifiées par ailleurs dans un fichier annexe appelé “feuille de styles”.
D’un point de vue méthodologique, la coopération des deux outils, telle qu’elle est
envisagée dans T4, bien qu’expérimentée avec un certain succès avec deux promotions
d’étudiants de M2 LTTAC, implique d’écrire des graphes complexes afin qu’Unitex
puisse explorer les énoncés enrichis par Cordial Analyseur avec les lemmes et les codes
morphoflexionnels de chaque mot. Les expérimentations faites depuis m’incitent à
modifier le protocole en faisant une place plus importante au XML et au XSLT. Les
étiquetages produits par Cordial Analyseur peuvent être convertis en XML : les triplets
forme attestée, lemme et code morphosyntaxique étant convertis en éléments <item>
ou plutôt <w> (l’initiale de word comme le préconise la TEI 78, dont l’usage s’est assez
largement diffusé) porteurs de deux attributs, un pour le lemme et un pour le code
(respectivement @lemme et @cat utilisé dans T4, ou plutôt @lemma et @ana toujours
par respect des recommandations de la TEI). Les énoncés xmlisés peuvent ensuite
être sélectionnés par une transformation XSLT qui ne retient que ceux au sein desquels un élément <w> contient la forme et le lemme cherchés (pour reprendre le verbe
homographe du nom pris en compte dans T4 : la forme passe et l’attribut @lemma de
valeur égale à passer). Cette sélection d’énoncés peut ensuite être convertie en texte
brut (dépourvu des lemmes et codes à présent inutiles) pour être soumise à Unitex,
dont les graphes peuvent se concentrer sur le repérage des patrons de construction,
complexes en eux-mêmes si les constructions syntaxiques décrites le sont, mais non
compliqués par la prise en compte des annotations de Cordial Analyseur. Ceci implique
cependant de procéder à des manipulations de texte intrusives afin de différencier
graphiquement les homographes, comme passe, qui peuvent figurer conjointement
dans les mêmes énoncés (par exemple en ajoutant un caractère identificateur aux
occurrences nominales comme N – Npasse – et en le supprimant après traitement des
78
La Text Encoding Initiative (http://www.tei-c.org/Guidelines/P5/) formule des recommandations pour la structuration en XML de textes de diverses natures, dont les corpus (et les textes de dictionnaires, cf. § 2.2.1.).
Document de synthèse – 1.3. Préconiser le haut rendement
51
contextes) 79, puisque si ceux-ci ont été retenus du fait de la présence du verbe, il sera
souhaitable que le nom coprésent ne soit pas de nouveau pris pour le verbe par Unitex.
Exploiter Unitex au-delà de ses limites
Le § 5. conclut cette contribution en précisant que les manipulations exposées
présentent des solutions envisageables afin de réaliser ce qui est perçu comme pertinent dans le cadre d’une étude alors que les outils à disposition ne semblent pas pouvoir aisément rendre les services attendus, ce qui s’appuie implicitement sur le fait
qu’Unitex a besoin de grammaires locales complexes à élaborer pour être en mesure
de différencier les homographes.
Il m’intéressait de trouver un moyen de pallier la surgénération de résultats induite
par le mode de prétraitement d’Unitex, qui associe à chaque forme graphique l’ensemble
des lemmes qui sont susceptibles de lui correspondre, afin d’être mieux en mesure de
profiter du fait que son concordancier sait exploiter des motifs de recherche complexes
exprimés sous forme de graphes et qu’il est possible de faire évoluer ces derniers en
transducteurs pour l’annotation des contextes extraits. Le mode de représentation graphique des motifs de recherche présente l’intérêt d’être assez directement réemployable
pour décrire ce qui est observé. En effet, si les graphes utilisés pour l’extraction des
contextes sont précis (que l’on ne cherche pas toutes les occurrences de <donner> mais
seulement celles qui sont accompagnées de noms de joueurs voire de la mention de
l’entité transmise (le ballon) et éventuellement de localisations sur l’espace du terrain), bien que susceptibles de générer plus de combinaisons lexicales que ce qui est
attesté en corpus (puisqu’on ne cherche pas ce qui correspond à une expression exacte
mais aux différentes manières d’exprimer quelque chose qui ici correspond à une transmission de balle entre deux joueurs), ils finissent par fournir une description déjà assez
poussée des données à analyser.
Lors du travail préparatoire à T4, tous les verbes de transmission de balle identifiés
ont ainsi donné lieu à des explorations ciblées et montré la régularité relative des constructions qu’ils régissent, ce dont témoigne le graphe présenté en figure 10.
Figure 10. Graphe des constructions d’énoncés exprimant des transmissions de balle dans Rcorp1
Dans ce graphe :
– les nœuds grisés N-JOUEUR-trans et N-JOUEUR-dest (où trans abrège transmetteur et dest destinataire), LOCALISATION, N-PARTIE-CORPS et BALLON sont des appels à des sous-graphes décrivant les expressions susceptible d’être employées pour référer aux joueurs, aux lieux du terrain,
aux parties du corps des joueurs et au ballon ;
– les nœuds grisés V-TRANS-… appellent les sous-graphes décrivant les verbes et expressions verbales
exprimant une transmission de balle, comme chercher pour ceux traités par V-TRANS-1, servir pour
V-TRANS-1-passif, ouvrir pour V-TRANS-2, centrer pour V-TRANS-3 ou adresser pour V-TRANS-3passif.
79
Si, alternativement, les énoncés du corpus ne sont pas étiquetés par Cordial Analyseur, mais que cet outil
est utilisé pour extraire ceux contenant le verbe passer, il convient de repérer en leur sein les occurrences
conjointes du nom passe, de les discriminer graphiquement des occurrences verbales et de ne traiter que
ces dernières.
52
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Document de synthèse – 1.3. Préconiser le haut rendement
53
Au sein des cheminements représentés, la présence des sous-graphes LOCALISATION et N-JOUEUR et le jeu des optionnalisations de nœuds font qu’ils ne représentent pas strictement ce qui est observé et qu’une analyse linguistique de chaque
verbe doit affiner la description des localisations privilégiées pour certains types de
transmissions de balle, préciser s’il existe des régularités d’usage des alternances
observables entre l’emploi de noms de joueurs et la mention de caractérisations de
leur fonction (le défenseur lillois), établir si tous les verbes sont bien employables dans
une relative (N-JOUEUR qui V […]), etc. Mais cette schématisation fournit déjà des
indications très précieuses concernant la régularité des patrons d’expression, l’omniprésence des indications de localisation 80 et l’économie verbale des descriptions.
Retour aux commentaires des textes relatifs au corpus de multiplex
La place occupée par Unitex dans les manipulations de corpus que je réalise est importante et T4 était le premier texte à en témoigner en évoquant (au § 3.) les explorations opérées dans une ressource qui a également beaucoup compté dans mes recherches.
Mais la fonction de T4 n’est pas seulement d’examiner des solutions techniques destinées à améliorer les potentialités des outils mobilisés. C’est le premier article qui présente précisément la notion de corpus à haut rendement et en défend la réalisation à
travers celui constitué de commentaires de matchs de football radiodiffusés et transcrits (cf. § 2.). Parmi les articles rédigés à cette époque, c’est celui qui s’attache le
mieux à objectiver la valeur du choix de ces documents primaires plutôt que des sources
écrites (de presse généraliste ou spécialisée ou de sites Web footballistiques) pour leur
rendement linguistique, T3 ayant plutôt valorisé l’intérêt lexicographique et T5, sur
lequel je reviens ci-après, se concentrant sur la structuration des transcriptions et sur
un mode d’exploration systématique conçu spécifiquement pour le corpus de multiplex.
1.3.3. Le haut rendement valorisé par des explorations méthodiques [T5 (2008b) ;
Rcorp1 ; Rcorp3 ; Rdic3]
Si T3 et T4 ont présenté le corpus de multiplex (Rcorp1) et montré ses qualités,
aucun ne l’a précisément décrit. T5 revient sur la constitution du corpus de multiplex
transcrits en reprenant succinctement (§ 1.) la présentation de la notion de corpus à
haut rendement et son intérêt lexicographique quand l’objectif est « la description d’un
large spectre d’emplois des items présents à la nomenclature », illustré par une sélection de ceux de l’adjectif dangereux, dont l’interprétation diffère sensiblement selon
les contextes :
Par exemple :
– une chute dangereuse présente un danger physique apprécié négativement pour celui qui
chute ;
80
Le corpus des quatre commentaires télévisuels et radiophoniques serbes et français (Rcorp16) relatifs au
même match permettra d’évaluer si les localisations sont exprimées de manière comparable quand les descriptions sont entendues en voyant les images ou s’il y a une spécificité des commentaires qui sont associés
à celles-ci.
54
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– un tacle dangereux présente un danger physique apprécié négativement pour le joueur
victime du tacle (il s’agit d’une irrégularité commise par un joueur faisant ainsi courir un
risque à l’intégrité physique d’un joueur de l’équipe adverse) ;
– une action dangereuse présente un danger tactique apprécié positivement pour une des
deux équipes (il s’agit d’une phase de jeu dans laquelle cette équipe se trouve en situation de
marquer un but contre l’équipe adverse).
Structuration informatique des transcriptions de multiplex
Le § 2. présente différents aspects informatiques des modalités de constitution de
Rcorp1. Ce sont d’abord les principes de transcription adoptés qui sont exposés, avec
l’indication des différences de codification existant entre Rcorp1 et ceux élaborés et
utilisés par l’équipe DELIC 81 (héritière du GARS, notoire pour ses corpus d’oral transcrit), qui sont motivées par la spécificité de leur tradition et par les objectifs propres à
notre projet (§ 2.1.). La DTD 82 présentée au § 2.2. en figure 1 expose les règles
de structuration des transcriptions et contient des commentaires associés aux éléments XML déclarés qui expliquent quelle est la nature de leur contenu.
Celles-ci sont
– pour partie inspirées des recommandations de la TEI et du CES 83 ;
– et pour partie aussi conçues en fonction
• de la nature particulière des données transcrites (ce qui a conduit par exemple à repérer des variations remarquables de prononciation qui n’ont usuellement pas leur place
dans une transcription orthographique),
• et des besoins spécifiques des explorations à venir, comme le repérage des noms de
joueurs avec indexation de leur équipe de rattachement au moment de chaque match
(afin de ne pas faussement interpréter plusieurs contextes du corpus où un même joueur
est mentionné mais où il doit être perçu comme n’étant pas le même puisqu’il n’appartient pas dans chacun à la même équipe) et celui des types d’orateurs (qui permet
d’étudier s’il y a des corrélations entre les manières de s’exprimer et le statut des locuteurs – reporters sur le terrain, animateurs en studio ou présidents de clubs interviewés
par exemple).
81
82
83
L’équipe DELIC (Description Linguistique Informatisée sur Corpus) était une équipe d’accueil (EA 3779)
de l’université de Provence. Elle a fusionné avec l’équipe CALN (Compréhension Automatique du Langage
Naturel) le 1er janvier 2008 afin de constituer l’équipe TALEP (Traitement Automatique du Langage Écrit
et Parlé), une composante du LIF (Laboratoire d’Informatique Fondamentale de Marseille, UMR 6166 du
CNRS).
Les notations adoptées pour les noms des constituants des balisages déclarés dans les DTD de mes premiers
articles – les noms d’attributs dans T5, mais aussi ceux d’éléments dans T6 coécrit avec Pierre Corbin et
T7 – ne sont pas conformes à l’usage devenu le plus commun, qui consiste à utiliser des chevrons pour encadrer les noms d’éléments (à la manière des balises ouvrantes sans attribut) et une arobase pour les noms
d’attributs (à la manière de leur notation dans le code des transformations XSLT) – comme je le fais dans
ce mémoire – alors que, dans mes premiers textes, les noms d’éléments sont encadrés par des « E » et les
noms d’attributs par des « A ». Le choix fait à l’époque me semblait offrir un meilleur confort de lecture à
des lecteurs non habitués aux codifications en XML, mais l’usage de ce métalangage s’est diffusé et je crois
que l’adoption de l’emploi conventionnel des chevrons et de l’arobase s’avère maintenant préférable afin de
ne pas multiplier les conventions d’écriture.
Corpus Encoding Standard (cf. Ide & Véronis (1996)).
Document de synthèse – 1.3. Préconiser le haut rendement
55
Les principes décrits et mis en œuvre pour Rcorp1 présentaient l’avantage de
fournir la possibilité d’annoter très précisément, dans les textes des commentaires
transcrits, des indications utiles pour les analyses linguistiques qui seraient effectuées ultérieurement (cf. figure 11, qui reproduit un extrait de la figure 2).
Figure 11. Balisage d’un extrait de transcription conforme à la DTD définie pour Rcorp1
<!-- [réduction] -->
du score ici au stade
<ENTITY TYPE-OF-ENTITY="stade">Jean Laville</ENTITY>
<ACCIDENTAL-PRONUNCIATION>
<TRANSCRIPTION-OF-ACCIDENTAL-PRONUNCIATION>por</TRANSCRIPTION-OF-ACCIDENTALPRONUNCIATION>
<SPELLING-OF-ACCIDENTAL-PRONUNCIATION>pour</SPELLING-OF-ACCIDENTAL-PRONUNCIATION>
</ACCIDENTAL-PRONUNCIATION>
<ENTITY TYPE-OF-ENTITY="equipe">Créteil</ENTITY>
c’est
<!-- […] -->
oui ballon bordelais avec
<REMARKABLE-UTTERANCE>
<TRANSCRIPTION-OF-REMARKABLE-UTTERANCE>affolo</TRANSCRIPTION-OF-REMARKABLE-UTTERANCE>
<SPELLING-OF-REMARKABLE-UTTERANCE>affolo</SPELLING-OF-REMARKABLE-UTTERANCE>
<ANALYSIS-OF-REMARKABLE-UTTERANCE>apocope supposée de "affolement"</ANALYSIS-OF-REMARKABLEUTTERANCE>
</REMARKABLE-UTTERANCE>
de la défense troyenne
<!-- […] -->
Mais l’emploi d’un éditeur XML non dédié à la transcription de corpus oraux ne
permettait pas de synchroniser les sources sonores transcrites aux textes des transcriptions, ce qui a motivé que je tente, pour ce faire, de recourir à un outil spécialisé.
Le § 2. évoque ainsi les premières transcriptions alignées avec la source sonore effectuées en utilisant le logiciel Transcriber, qui présente l’avantage de permettre de revenir aisément au commentaire enregistré à tout moment, mais qui utilise une DTD
prédéfinie peu paramétrable. La latitude qu’elle offre ne permettant pas d’intégrer
tout ce qui était ajouté aux transcriptions orthographiques de Rcorp1 via le balisage,
ces indications ont été enregistrées sous forme de “commentaires” (selon la terminologie de cet outil) – cf. figure 12 qui présence le même extrait que la figure 11 –, ce qui
a compliqué aussi bien la reprise des transcriptions antérieurement saisies pour leur
alignement avec leurs sources sonores sous Transcriber (puisqu’une partie des anciens
éléments ont dû être convertis en commentaires) que le reformatage des transcriptions
réalisées avec cet outil afin qu’elles se conforment à la DTD de Rcorp1 et soient ainsi
manipulables selon les mêmes procédures d’exploration que celles qui constituent ce
corpus.
Figure 12. Balisage d’un extrait de transcription conforme à la DTD de Transcriber
<!-- [réduction] -->
du score ici au stade
<Comment desc="STADE"/>
Jean Laville
<Comment desc="/STADE"/>
56
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
<Comment desc="ACCIDENTAL-PRONUNCIATION"/>
<Comment desc="TRANSCRIPTION"/>
por
<Comment desc="/TRANSCRIPTION"/>
<Comment desc="SPELLING"/>
pour
<Comment desc="/SPELLING"/>
<Comment desc="/ACCIDENTAL-PRONUNCIATION"/>
<Comment desc="EQUIPE"/>
Créteil
<Comment desc="/EQUIPE"/>
c’est
<!-- […] -->
oui ballon bordelais avec
<Comment desc="REMARKABLE-UTTERANCE"/>
<Comment desc="TRANSCRIPTION"/>
affolo
<Comment desc="/TRANSCRIPTION"/>
<Comment desc="SPELLING"/>
affolo
<Comment desc="/SPELLING"/>
<Comment desc="ANALYSIS"/>
apocope supposée de "affolement"
<Comment desc="/ANALYSIS"/>
<Comment desc="/REMARKABLE-UTTERANCE"/>
de la défense troyenne
<!-- […] -->
Au moment de la rédaction de T5 la situation était insatisfaisante et seule une
amélioration des transformations convertissant les transcriptions et/ou une simplification des indications ajoutées aurait pu permettre de continuer à employer Transcriber.
Si aucun développement complémentaire n’a été engagé depuis pour convertir dans le
format de cet outil les transcriptions de Rcorp1 qui ne l’étaient pas encore, il a récemment été mobilisé de nouveau pour celles des commentaires serbes et français de
Rcorp16, dont les annotations introduites sont moins riches que celles du premier
corpus (ce qui ne préjuge pas de leurs évolutions au fil des analyses).
Modes d’exploration des commentaires radiodiffusés
Une fois constitué, le corpus a naturellement vocation à être exploré. Au § 3., la
comparaison des types de données repérées en exploitant trois modes de relevés –
l’écoute, la lecture et l’exploration outillée avec Cordial Analyseur et Unitex travaillant
en coopération (ce qui fait l’objet d’un renvoi à T4 en n. 18) – me conduit à valoriser
l’utilité des explorations outillées, mais aussi à envisager que le rendement de ces dernières pourrait être assez largement conditionné par la capacité de l’analyste qui procède aux explorations à comprendre les énoncés extraits et à bien distinguer ce qu’il a
rendu visible et qui est utile pour une description lexicale de ce qui est marginal (en
tant que lié à un contexte particulier).
Dans l’exposé de l’exploration outillée qui fait l’objet du § 3.3. figure toutefois un
implicite qui mérite d’être relevé ici : le corpus de multiplex étant structuré en XML,
son texte intègre donc un certain nombre de balises (cf. figure 2), or, quand j’évoque
Document de synthèse – 1.3. Préconiser le haut rendement
57
l’étiquetage par Cordial Analyseur, je ne parle que du texte de la transcription orthographique 84, sans expliciter comment les transcriptions structurées sont converties en
texte brut 85 ni comment, lors de cette conversion, certaines informations intégrées au
balisage et jugées utiles pour les explorations à faire réaliser ensuite par Unitex sont
introduites dans le texte principal. En l’occurrence, le seul élément évoqué, celui qui
permet le repérage des noms de joueurs, n’est en outre pas celui qui s’avère le plus utile
à conserver, dans la mesure où le dictionnaire de noms de joueurs qui a été élaboré pour
Unitex (cf. § 1.3.2.) associe à chaque nom répertorié le ou les club(s) d’appartenance
de chaque joueur et la période pertinente (dans les limites temporelles couvertes par
le corpus). Cet implicite, dommageable pour la pleine compréhension des manipulations subies par les transcriptions en vue de leur exploitation documentaire, est perceptible dans ce retour sur mes textes où j’évoque T4, T5 et leurs articulations, mais
il n’a pas d’incidence pour le développement particulier à T5, dont le propos se concentre sur des questions non pas informatiques mais de protocole exploratoire.
Le § 4.1. débute par l’évocation de faiblesses de traitement observées à propos de
différents concordanciers et volontiers jugées peu problématiques dans la mesure où
les gros volumes de données dans les corpus explorés doivent rendre imperceptibles les
approximations ou erreurs commises par ces outils et ne faire émerger que les analyses valides. N’explorant pas de gros corpus (Rcorp1 ne compte que 200 000 motsoccurrences), je n’ai pas expérimenté cette capacité des outils à masquer des sélections
non pertinentes dans la masse des phénomènes pertinents observés, mais j’ai une
défiance de principe vis-à-vis des traitements statistiques qui occultent des données
de bonne qualité et utiles pour l’élaboration de descriptions lexicales précises au motif qu’elles sont peu fréquemment attestées en corpus. L’adéquation descriptive visée
par le linguiste n’est pas à mon sens directement indexée sur l’usualité des phénomènes décrits et si les lexicographes ne retiennent parfois que les comportements les
plus saillants des unités qu’ils décrivent, c’est en adéquation avec le projet du répertoire qu’ils élaborent. Or, justement, ce qui motive le développement des corpus footballistiques, tel qu’il est exposé dans T3, c’est de fournir le matériau utile pour la
rédaction de descriptions précises du type de celles qui sont réunies dans le dictionnaire du football (Rdic3) que j’ai mis en chantier avec Pierre Corbin et les étudiants
de la formation lilloise de lexicographes, dont le canevas d’article présenté en figure
13 donne une représentation provisoire 86 (je reviendrai infra sur la structure et le
mode d’élaboration de ce répertoire) :
84
85
86
En n. 20, où je mentionne toutefois le balisage des noms de joueurs et l’attribut enregistrant l’appartenance
de chacun à un club.
Ce point est en partie expliqué dans T8 (§ 4.3.) à propos d’un autre corpus, celui qui a été livré dans le cadre
du projet OURAL (P2).
La n. 21 évoque comme exemple d’aboutissement dictionnairique déjà remarquable réalisé dans ce contexte
la description du verbe décaler proposée par Gaël Gauvin (étudiant de la promotion 2002-2003 du DESS
LTTAC).
58
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Figure 13. Article du verbe (se) dégager élaboré pour
le dictionnaire des actions de jeu du football (Rdic3)
DÉGAGER ou SE DÉGAGER (verbe)
I. Pour les joueurs de champ d’une équipe, frapper le ballon de manière à se libérer de la pression
qu’exerce l’équipe adverse et éventuellement à inverser le cours du jeu. Les deux verbes utilisés pour
la description de cette action (“frapper” et “se libérer”) expriment la dualité de celle-ci : à proprement
parler, se dégager c’est, pour une équipe, se libérer de l’emprise adverse et dégager (le ballon) c’est, pour
un joueur, frapper le ballon pour parvenir à cette fin, mais il arrive que les commentateurs utilisent
aussi la forme non pronominale pour référer à une action collective et la forme pronominale pour référer à un geste individuel, ce qui motive de conjoindre ces deux emplois verbaux dans la même description.
1. Pour les défenseurs d’une équipe, il s’agit d’une action concertée consistant à faire sortir le ballon
de la zone proche du but qu’ils défendent. Une action de jeu individuelle (comme une interception de
balle) peut être à l’origine de cette construction collective.
([équipe X] ou [composante de équipe X]) (se)? dégager [ballon]?
• ballon toujours contrôlé finalement par la défense lilloise qui va pouvoir se dégager
• une tête qui permet aux Grenoblois de se dégager
• Bastia parvient à dégager
• la défense nantaise parvient à dégager la balle
2. Pour un joueur agissant individuellement, cette action peut consister à éloigner le ballon du but
de son équipe.
[ joueur de champ x] dégager [ballon]?
c’est Soumah le libéro de l’équipe bastiaise qui a pu intervenir au point de penalty et dégager
on a cru que Saveljic le défenseur sochalien allait pouvoir dégager ce ballon
3. Pour un joueur agissant individuellement, cette action peut consister à envoyer le ballon hors du
terrain (en touche ou derrière la ligne de but de son équipe) faute d’avoir trouvé un autre moyen de
réduire la pression exercée par l’équipe adverse. La sortie du ballon induit une interruption de jeu.
•
•
[ joueur de champ x] dégager [ballon]? (en [lieu externe])?
•
•
•
Ferreira pour euh Bastia parvient à dégager en touche
Mexès qui était revenu […] dégager ce ballon qui est allé bien entendu en sortie de corner
Ferreira sur la ligne qui dégage en catastrophe en corner
II. Pour un gardien de but, frapper le ballon de manière à l’éloigner du but de son équipe et à libérer
ainsi celle-ci de la pression qu’exerce l’équipe adverse, en inversant éventuellement le cours du jeu.
1. Cette action peut consister pour un gardien à se substituer à un défenseur pour envoyer la balle
loin de son but, ce qu’il peut faire comme les autres joueurs ou en usant de ses mains.
[gardien de but x] dégager [ballon]? (en [lieu externe])?
Malicki le gardien lillois a dû sortir et dégager au pied au-devant de Mansare
superbe détente du gardien marseillais pour dégager d’une claquette ce ballon en corner
2. Cette action peut consister pour un gardien à renvoyer vers le camp adverse le ballon qu’il vient
de bloquer de ses mains.
•
•
[gardien de but x] (se)? dégager (pour [équipe X bénéficiaire])? (pour [ joueur de champ x’ destinataire])?
il peut tirer mais dans les bras de Fabien Cool qui va pouvoir dégager pour Auxerre
ce ballon qui navigue dans la surface et qui finalement atterrit dans les bras de Penneteau qui va
pouvoir se dégager
3. Après un arrêt de jeu induit par la sortie du ballon au-delà de la ligne des six mètres, cette action
peut consister pour un gardien à relancer le ballon au pied d’un angle de la zone de but vers le camp
adverse. Dans ce contexte, le gardien peut éventuellement être nommé métonymiquement par le nom
de son équipe
([gardien de but x] ou [équipe X]) (se)? dégager aux six mètres
• Grégorini peut tranquillement dégager aux six mètres
• il frappe finalement son ballon est beaucoup trop enlevé passe à deux trois mètres de la lucarne de
Teddy Richert qui va pouvoir se dégager
• Nice peut se dégager aux six mètres
•
•
Document de synthèse – 1.3. Préconiser le haut rendement
59
Deux finalités lexicographiques de l’exploration de corpus sont par ailleurs abordées
au § 4.1. – le repérage des unités linguistiques qu’il est utile de décrire du fait de leur
usage effectif et l’extraction de contextes typiques utilisables directement ou reformulables en contextualisations informatives et autosuffisantes à intégrer aux descriptions des items figurant à la nomenclature –, avant que ne soit présenté au § 4.2. ce
qui constitue certainement l’apport le plus original des travaux relatifs au corpus de
multiplex : l’articulation des descriptions lexicales sur une “ontologie des actions de jeu”.
Rcorp3 : une “ontologie des actions de jeu du football”
Pour permettre d’explorer le corpus de multiplex sans passer à côté de données linguistiques intéressantes alors que mon expérience d’auditrice de retransmissions de
matchs de football se limitait à peu près à l’écoute des commentaires transcrits et que
celle des étudiants de DESS LTTAC était variable mais souvent pas supérieure à la
mienne, ce qui laissait présager une certaine faiblesse de notre capacité à capter les
emplois remarquables et suffisamment installés dans l’usage pour être à repérer, une
méthode de recherche guidée par l’analyse préalable de ce qui pouvait être trouvé a
été mise au point.
Prenant la forme d’un inventaire systématique des actions de jeu à exploiter pour
associer à chacune les diverses modalités de ses descriptions attestées dans les commentaires de matchs, ce protocole, élaboré avec Pierre et François Corbin 87 et le concours des étudiants du DESS LTTAC, a été nommé “ontologie des actions de jeu” parce
qu’il type chaque type d’action en fonction de quatre critères :
(i) son caractère offensif, défensif ou neutre ;
(ii) le fait que les gestes qu’elle implique soient accomplis avec ou sans le ballon ;
(iii) le fait qu’elle se déroule dans le cours du jeu, pendant un arrêt de jeu ou lors
d’une remise en jeu ;
et (iv) le fait qu’elle implique un joueur individuellement (joueur de champ ou gardien
de but) ou en interaction avec un ou plusieurs autres.
Un extrait en est fourni dans T5 en figure 3 (cf. ci-dessous figure 14) 88.
Les exemples lexicaux lemmatisés présentés en troisième colonne intègrent des
étiquettes comme N-JOUEUR-DE-CHAMP-ÉQUIPEi qui explicitent bien la nature du référent qui doit être désigné, alors que d’autres comme A-ETHNIQUEi ou ÉVÉNEMENT pourraient être renommées afin de présenter une meilleure adéquation descriptive. Par
ailleurs, le dernier exemple n’est pas analysé de manière tout à fait appropriée, puisque,
quand un gardien dégage pour une équipe, elle bénéficie de l’action en ayant l’occasion
d’attaquer, mais que, si un joueur de l’équipe adverse est à la réception, le gardien n’a
pas “donné la balle” à son équipe comme l’indique le type d’action de jeu en deuxième
colonne.
87
88
François Corbin, qui préparait alors une thèse sur les iconographies dans les dictionnaires et avec qui j’ai
travaillé sur la base iconographique (Rbd2) présentée au § 2.3.3., nous a fait profiter de son expertise footballistique.
Cf. aussi P. Corbin (2005, § 5.).
60
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Figure 14. Vue d’un fragment de l’ontologie des actions de jeu [cf. T5 figure 3]
COMBINAISONS PERTINENTES DES VALEURS
DES PARAMÈTRES D’ANALYSE DES TYPES D’ACTIONS
TYPES
D’ACTIONS DE
JEU
EXEMPLES LEXICAUX
LEMMATISÉS
ÉNONCÉS
N-JOUEUR-DE-CHAMP-ÉQUIPEi
tacler DET ballon
défensif individuel sans
ballon dans le déroulement du jeu
défensif individuel sans
ballon induisant une interruption de jeu
intercepter la
balle
faire une faute
(avec le pied)
N-JOUEUR-DE-CHAMP-ÉQUIPEi
tacler N-JOUEUR-DE-CHAMP-
défensif collectif avec ballon dans le déroulement
du jeu
faire sortir la
balle du terrain
se dégager de
l’emprise adverse
N-JOUEUR-DE-CHAMP-ÉQUIPEi
tacler dans les pieds de NJOUEUR-DE-CHAMP-ÉQUIPEj
(c)
tacle glissé
(d)
tacle dangereux
(e)
tacle (relativement + Ø) appuyé
(f )
tacle (absolument + Ø) assassin
(g)
tacle par derrière
(h), (i)
tacle sur N-JOUEUR-DE-CHAMP-
donner la
balle
(h), (i)
(très + Ø) vilain tacle
(i)
N-JOUEUR-ÉQUIPEi dégager en
corner
(j)
N-JOUEUR-ÉQUIPEi dégager en
touche
(k)
la défense A-ETHNIQUEi s’être
dégagée
(l)
ÉVÉNEMENT permettre à la
défense A-ETHNIQUEi de se
dégager
(m)
ÉVÉNEMENT permettre aux
GENTILÉi de se dégager
offensif individuel avec
ballon dans le déroulement du jeu
(b)
ÉQUIPEj
ÉQUIPEi
défensif individuel avec
ballon induisant une interruption de jeu
(a)
N-
(n)
N-GARDIEN-DE-BUT-ÉQUIPEi
dégager pour N-JOUEUR-DECHAMP-ÉQUIPEi
(o)
N-GARDIEN-DE-BUT-ÉQUIPEi
dégager pour N-ÉQUIPEi
(p)
Cette ontologie et les modalités d’exploration du corpus indexées sur elle sont présentées en veillant à montrer comment, à partir d’une sélection d’énoncés extraits, le
recours à cet inventaire typé des actions de jeu améliore la perception et donc l’adéquation descriptive par rapport aux actions commentées et conjointement aux propriétés
linguistiques des expressions relevées. Au moment de la constitution de cette ontologie des actions de jeu, notre ambition était de réaliser un dictionnaire de celles-ci
(Rdic3) avec les étudiants du DESS LTTAC, pour qui cela constituait un travail
pratique correspondant à une tâche possible de leur avenir professionnel.
Document de synthèse – 1.3. Préconiser le haut rendement
61
Rdic3 : un dictionnaire des actions de jeu du football
Ce dictionnaire a été conçu pour être consulté sur support électronique, sa structure
XML et son mode discursif ayant été définis de manière à ce qu’il soit possible de proposer la consultation de deux versions à partir du même texte rédigé 89 :
– un accès thématique reprenant les quatre caractérisations de l’ontologie des actions
de jeu (Rcorp3) pour donner accès aux descriptions des modes d’expression de chacune ;
– et un classement alphabétique, les têtes lexicales verbales ou nominales des syntagmes qui expriment chaque action constituant les adresses principales des articles
(comme « DÉGAGER ou SE DÉGAGER (verbe) » supra, en figure 13).
Le balisage XML intègre des éléments dont le contenu textuel est caractérisé par un
jeu d’attributs qui permet de redéployer les textes dans d’autres contextes : chaque description de sens figurant dans l’explication placée avant les exemples d’emploi dans un
article de la version alphabétique comme celui présenté supra se trouve ainsi réinsérable à la demande, accompagnée de son patron de construction syntaxico-sémantique
et de la ou des contextualisation(s) qui l’illustre(nt), dans le regroupement thématique
correspondant, une transformation XSLT assurant ces manipulations. La DTD présentée en figure 15 articule des enchâssements d’éléments (matérialisés par les retraits à
droite des sous-éléments) et des attributs portés par un élément, son élément parent
ou un élément collatéral de même rang, qui permettent de caractériser de manière
distincte la description du sens des principales acceptions de l’item décrit et des descriptions des emplois particuliers relevant de chacune.
Figure 15. DTD du dictionnaire des actions de jeu du football (Rdic3)
<dictionnaire-des-actions-de-jeu>
<description-lexicale>+
<adressage-principal>
<forme-graphique-item-decrit>+
@categorisation-grammaticale
<description-acception>+ <!-- subdivision introduite par un ordonnateur en chiffres romains dans l’article de la
figure 13 -->
<definition>
@id-definition
@def-OU-off-OU-neutre <!-- valeurs : “défensive” ou “offensive” ou “neutre” -->
@ind-OU-gardien-OU-coll <!-- valeurs : “individuelle” ou “individuelle propre au gardien” ou “collective” -->
@avec-OU-sans <!-- valeurs : “avec” ou “sans” ballon -->
@deroul-OU-arret-OU-remise <!-- valeurs : “déroulement” du jeu ou “arrêt” (quand l’action induit une
interruption de jeu) ou “remise” (quand l’action se situe au moment de la remise en jeu) -->
(
<texte-definitionnel-obligatoire>
OU
<texte-definitionnel-specifique>
89
Le principe de rédaction de descriptions qui peuvent donner lieu à des regroupements thématiques ou à un
ordonnancement alphabétique a été repris lors de la conception d’un dictionnaire scolaire innovant présenté
dans T17 § 3.2.2.1. (cf. § 2.7.2.), où les modalités de rédaction et de présentation d’un texte affichable
par segments en fonction des besoins des utilisateurs sont mieux explicitées qu’il n’est possible de le faire ici.
62
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
@type-article <!-- l’attribut @type-article sert à préciser si le texte optionnel doit être affiché dans les
articles “alphabétiques” ou “thématiques” -->
)+
<description-d-emploi>* <!-- subdivision introduite par un ordonnateur en chiffres arabes dans l’article de la
figure 13 -->
@id-description-emploi
@id-ref-definition 90
<definition-emploi>?
@id-definition-emploi
<!-- les attributs suivants sont optionnels et employés seulement si leur valeur doit différer de celle
déclarée pour le même attribut dans l’élément <definition> -->
@def-OU-off-OU-neutre <!-- valeurs : “défensive” ou “offensive” ou “neutre” -->
@ind-OU-coll <!-- valeurs : “individuelle” ou “individuelle propre au gardien” ou “collective” -->
@avec-OU-sans <!-- valeurs : “avec” ou “sans” ballon -->
@deroul-OU-arret-OU-remise <!-- valeurs : “déroulement” du jeu ou “arrêt” (quand l’action induit une
interruption de jeu) ou “remise” (quand l’action se situe au moment de la remise en jeu) -->
(
<texte-definitionnel-obligatoire>
OU
<texte-definitionnel-specifique>
@type-article <!-- l’attribut @type-article sert à préciser si le texte optionnel doit être affiché dans les
articles “alphabétiques” ou “thématiques” -->
)+
(
<patron>
@id-patron
@id-ref-definition-emploi
(
<V-tete-lexicale>
OU
<N-tete-lexicale>
OU
<actant>
@id-actant
@id-ref-actant <!-- en cas de disjonction entre les actants “gardien de but” ou “équipe”, chacun
réfère à l’autre -->
@typage-syntaxique
@typage-referentiel
OU
<ballon>
OU
<localisation-spatiale>
OU
<localisation-temporelle>
)+
90
Alors que les attributs @id-… sont des identificateurs qui ont une valeur distincte pour chaque élément qui les
porte puisqu’elle sert à les identifier, les attributs @id-ref-… permettent de référer aux éléments qui portent
les valeurs d’identificateur correspondantes, plusieurs éléments différents pouvant référer au même porteur
d’identificateur unique. Dans la DTD, chaque élément <definition> est identifié de manière unique et les éléments <description-d-emploi> qui lui correspondent enregistrent la valeur de son @id-definition comme valeur de
leur @id-ref-definition.
Document de synthèse – 1.3. Préconiser le haut rendement
63
<contexte-cite>+
@id-contexte
@id-ref-definition-emploi
)+
Dans l’article dégager ou se dégager en figure 13, la première acception du verbe
est codée dans le balisage comme désignant une action défensive réalisée avec le ballon :
<definition @id-definition="dégager_I" @def-OU-off-OU-neutre="def" @avec-OU-sans="avec">
<texte-definitionnel-obligatoire>
Pour les joueurs de champ d’une équipe, frapper le ballon de manière à se libérer de la
pression qu’exerce l’équipe adverse et éventuellement à inverser le cours du jeu.
</texte-definitionnel-obligatoire>.
<texte-definitionnel-specifique type-article="alphabetique">
Les deux verbes utilisés pour la description de cette action (“frapper” et “se libérer”)
expriment la dualité de celle-ci : à proprement parler, se dégager c’est, pour une équipe,
se libérer de l’emprise adverse, et dégager (le ballon) c’est, pour un joueur, frapper le
ballon pour parvenir à cette fin, mais il arrive que les commentateurs utilisent aussi
la forme non pronominale pour référer à une action collective et la forme pronominale
pour référer à un geste individuel, ce qui motive de conjoindre ces deux emplois verbaux
dans la même description.
</texte-definitionnel-specifique>
</definition>
Mais, selon les emplois de ce verbe, d’autres caractéristiques sont ajoutées, pour
indiquer, pour le premier emploi, que c’est l’équipe collectivement qui se dégage et
qu’elle le fait dans le cours du jeu ou, pour le troisième emploi, que c’est un joueur qui
le fait individuellement, provoquant ainsi un arrêt de jeu :
<definition-emploi @id-definition-emploi="dégager_I_1" @ind-OU-coll="coll" @deroul-OU-arret-OU-remise="deroul">
<texte-definitionnel-obligatoire>
Pour les défenseurs d’une équipe, il s’agit d’une action concertée consistant à faire sortir
le ballon de la zone proche du but qu’ils défendent. Une action de jeu individuelle
(comme une interception de balle) peut être à l’origine de cette construction collective.
</texte-definitionnel-obligatoire>
</definition-emploi>
<definition-emploi @id-definition-emploi="dégager_I_3" @ind-OU-coll="ind" @deroul-OU-arret-OU-remise="arret">
<texte-definitionnel-obligatoire>
Pour un joueur agissant individuellement, cette action peut consister à envoyer le ballon
hors du terrain (en touche ou derrière la ligne de but de son équipe) faute d’avoir trouvé
un autre moyen de réduire la pression exercée par l’équipe adverse.
</texte-definitionnel-obligatoire>
<texte-definitionnel-specifique type-article="alphabetique">
La sortie du ballon induit une interruption de jeu.
</texte-definitionnel-specifique>
</definition-emploi>
Les déclarations d’attributs de valeurs différentes pour les définitions d’emplois
permettent de les redistribuer dans des regroupements thématiques, comme c’est le
cas pour l’action individuelle provoquant une interruption de jeu en figure 16 (où il
est par ailleurs loisible d’observer que la dernière phrase de la définition présentée
64
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
dans l’article alphabétique (cf. figure 13) n’est pas affichée, puisqu’elle serait redondante avec le fait que la description figure dans ce regroupement thématique).
Figure 16. Article du verbe (se) dégager reformaté pour le regroupement thématique
« Actions défensives, individuelles, réalisées avec le ballon, et provoquant une interruption de jeu »
du dictionnaire des actions de jeu du football (Rdic3)
ACTIONS DÉFENSIVES, INDIVIDUELLES, RÉALISÉES AVEC LE BALLON, ET PROVOQUANT UNE INTERRUPTION
DE JEU
[…]
DÉGAGER ou SE DÉGAGER (verbe)
Pour un joueur agissant individuellement, cette action peut consister à envoyer le ballon hors du
terrain (en touche ou derrière la ligne de but de son équipe) faute d’avoir trouvé un autre moyen de
réduire la pression exercée par l’équipe adverse.
[ joueur de champ x] dégager [ballon]? (en [lieu externe])?
•
•
•
Ferreira pour euh Bastia parvient à dégager en touche
Mexès qui était revenu […] dégager ce ballon qui est allé bien entendu en sortie de corner
Ferreira sur la ligne qui dégage en catastrophe en corner
Plus généralement, dégager ou se dégager signifie : Pour les joueurs de champ d’une équipe, frapper le
ballon de manière à se libérer de la pression qu’exerce l’équipe adverse et éventuellement à
inverser le cours du jeu.
§ des ACTIONS DÉFENSIVES, COLLECTIVES, RÉALISÉES AVEC LE BALLON, DANS LE COURS DU JEU :
([équipe X] ou [composante de équipe X]) (se)? dégager [ballon]?
§ des ACTIONS DÉFENSIVES, INDIVIDUELLES, RÉALISÉES AVEC LE BALLON, DANS LE COURS DU JEU :
[ joueur de champ x] dégager [ballon]?
Par ailleurs, dégager ou se dégager signifie : Pour un gardien de but, frapper le ballon de manière à
l’éloigner du but de son équipe et à libérer ainsi celle-ci de la pression qu’exerce l’équipe adverse,
en inversant éventuellement le cours du jeu.
§ des ACTIONS DÉFENSIVES, PROPRES AUX GARDIENS, RÉALISÉES AVEC LE BALLON, DANS LE COURS DU JEU :
[gardien de but x] dégager [ballon]? (en [lieu externe])?
§ des ACTIONS DÉFENSIVES, PROPRES AUX GARDIENS, RÉALISÉES AVEC LE BALLON, DANS LE COURS DU JEU :
[gardien de but x] (se)? dégager (pour [équipe X bénéficiaire])? (pour [ joueur de champ x’ destinataire])?
§ des ACTIONS OFFENSIVES, PROPRES AUX GARDIENS, RÉALISÉES AVEC LE BALLON, LORS D’UNE REMISE EN JEU :
([gardien de but x] ou [équipe X]) (se)? dégager aux six mètres
La rédaction des articles a été engagée avec la promotion 2002-2003 de la formation
de lexicographes. Les productions étudiantes étaient souvent intéressantes, mais toutes
n’étaient pas assez abouties pour être intégrables à Rdic3, même en les retravaillant,
et je n’ai pas encore réussi à consacrer le temps nécessaire à l’élaboration de ce dictionnaire thématique et alphabétique électronique, qui n’est pour l’heure qu’un prototype
(comme mes autres productions dictionnairiques, cf. § 2.7.3.). Il est cependant patent
qu’il a joué un rôle important dans mes recherches – en stimulant les explorations de
corpus et en m’amenant à concevoir une double présentation du texte dictionnairique –
mais aussi en formation, comme en témoigne en particulier la structure XML, très
directement inspirée d’une première version de celle de Rdic3, conçue pour un dictionnaire de Grec Langue Étrangère que Georgia Nikolaou et Chaïdo Alexiadou, deux
étudiantes de la formation lilloise (respectivement des promotions 2002-2003 et 20062007 (2008 pour le mémoire Mdir72)), élaborent à l’université de Thessalonique sous
la direction d’Anna Anastassiadis.
Document de synthèse – 1.3. Préconiser le haut rendement
65
1.3.4. Expérience bilingue : le corpus serbe / français [P3 ; Rcorp16]
Du point de vue de la recherche, le dictionnaire des actions de jeu n’a pas connu de
diffusion et n’a donc pas suscité de collaborations, mais les travaux sur le corpus de
multiplex et les corpus d’écrits qui lui ont été comparés ont fait que j’ai été identifiée
comme travaillant sur des corpus footballistiques.
Le corpus de multiplex (Rcorp1), qui a été conçu pour nous donner les moyens de
mener des explorations ciblées et de bon rendement, a joué son rôle tant, pour moi,
dans le cadre de l’expérimentation de techniques de constitution et d’exploration de
corpus efficaces que dans celui de la formation lilloise de lexicographes (qu’il s’agisse
des travaux menés sur ce corpus et qui ont été présentés supra ou de ceux inspirés des
premiers et réalisés pour les mémoires sur Rcorp1 ou sur d’autres corpus compilant
des énoncés d’une technicité mesurée afférents à différents domaines : divers sports –
le cyclisme, l’escrime et la Formule 1 –, mais également des thématiques variées donnant lieu à des productions orales ou textuelles spécifiques 91 ). 92
Laissé quelque temps de côté au profit d’autres travaux, le corpus de multiplex attendait d’être repris afin que soit poussée plus loin l’étude linguistique des énoncés
transcrits, que ce soit
– pour faire avancer le dictionnaire alphabétique et thématique des actions de jeu qui
vient d’être évoqué ;
– pour cibler des modes d’expression plus particuliers, comme celui des localisations
dans l’espace du terrain (les joueurs peuvent être là-bas, sur le côté droit ou gauche,
etc., ce qui correspond à des localisations relatives et approximatives complémentaires
de celles qui, comme le rond central ou la surface de réparation, matérialisent sur le
terrain des repères objectifs fixes) ;
91
92
L’ensemble des mémoires est listé en n. 17 et présenté dans la rubrique « Inventaires ».
Concernant les divers sports, il s’agit de football (Mdir107 (Niobey (2010))), d’escrime (Mdir90 (Markezi
(2010))) et de Formule 1 (Mdir105 (Falcone (2010))).
Les autres mémoires ayant donné lieu à des élaborations de corpus pour lesquels le haut rendement était
visé étaient relatifs à :
– des activités professionnelles : l’élevage porcin (Mdir15 (Bloquet (2003))) et le dressage de chevaux (Mdir22
(Martinucci (2003))), la restauration et l’hôtellerie (Mdir17 (Campion (2003))), l’immobilier (Mdir26 (Bourdeau (2004))), l’automobile (Mdir78 (Guevara (2009))) ;
– des questions administratives ou juridiques : les administrations (Mdir27 (Bourgeois (2004))), l’importexport (Mdir43 (Mahieu (2005))) et l’Assurance Maladie (Mdir89 (Leveau (2010))) ;
– un courant d’opinion : l’altermondialisme (Mdir29 (Jouet (2004))) ;
– des activités de loisir : les jeux de rôles (Mdir14 (Yaigre (2002))) et de plateau (Mdir37 (Buschhaus (2005)))
et l’enregistrement en studio et l’autoproduction (Mdir38 (Deguernel (2005))) ;
– et des sciences et techniques : les mathématiques (Mdir16 (Brabant (2003))), la linguistique (Mdir23
(Mostrov (2003)) et Mdir24 (Nikolaou (2003))), l’informatique (Mdir25 (Boian (2004))) et le TAL (Mdir35
(Aroumougame (2006))).
Des indices annonciateurs de l’intérêt pour les lexiques thématiques qui s’est cristallisé à partir de Rcorp1
peuvent être trouvés dès 2002 dans des mémoires consacrés à des sports – comme le rugby (Mdir13 (Rouleux
(2002))) – ou à d’autres domaines – comme l’ingénierie nucléaire (Mdir8 (Andreu (2002))).
Après son DESS, Sophie Rouleux, devenue épouse Lavignasse, a élaboré son dictionnaire avec le soutien de
Jean Pruvost. Le rôle de la formation lilloise dans la genèse de cet ouvrage est indiqué dans sa préface (Lavignasse (2010 : 17)).
66
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– ou encore pour reprendre l’étude des variations de forme des entités nommées que
le balisage fonctionnel des noms de joueurs, d’équipes, de stades, etc. 93 rend possible.
Par exemple, pour dénommer les joueurs de l’équipe d’Auxerre, on trouve dans Rcorp1 des
occurrences de Auxerre, l’AJ Auxerre, l’équipe d’Auxerre, l’équipe de Guy Roux, les Auxerrois,
les Auxerrois de Guy Roux, les Bourguignons, les hommes de Guy Roux, les joueurs d’Auxerre,
les joueurs de Guy Roux. On pourrait encore, dans un corpus plus riche, rencontrer formation
ou sélection pour nommer génériquement le groupe des joueurs et icaunais comme identifiant
localisateur combiné avec les différents noms communs ou employé seul comme nom propre,
ou encore l’AJA comme dénomination synthétique.
La réactivation de la thématique footballistique s’est faite récemment dans le cadre
d’un projet – P3 (cf. n. 14 et §§ 1.3. (introduction), 1.3.4. et 1.5.2.) – porté depuis 2008
par Dejan Stosic, linguiste serbophone en poste à l’université d’Arras, qui a participé
au séminaire “Constitution et exploration de corpus” (S1) que j’avais proposé et animé
en 2006-2007 (cf. § 1.5.1.).
Parmi d’autres travaux (cf. rubrique « Inventaires »), le projet arrageois consiste à
élaborer un corpus footballistique serbe / français de commentaires radiodiffusés et
télévisuels de deux matchs de qualification pour la Coupe du Monde 2010 opposant les
équipes de France et de Serbie (Rcorp16), qui doit nous permettre de confronter les
expressions des descriptions des mêmes actions, des placements sur le terrain, etc. dans
les deux langues, ce qui pourra être l’occasion de revenir à l’étude des commentaires
de football via la collaboration avec Dejan Stosic, dont le bilinguisme enrichira notre
expérience par la comparaison de ce qui sera observé en français avec ce qui pourra
l’être en serbe.
Au moment de la rédaction de ce document de synthèse, les droits d’exploitation sont
acquis auprès des radios et télévisions et les transcriptions orthographiques des commentaires footballistiques (réalisées avec Transcriber afin d’aligner les sources sonores
avec elles (cf. § 1.3.3.)) sont en cours d’achèvement.
L’objectif étant de pouvoir confronter les expressions dans les deux langues et sur
les deux médias, il convient de pouvoir repérer dans les quatre transcriptions les
énoncés qui correspondent les uns aux autres quand ils existent. Dans la mesure où
les quatre narrations sont relatives aux mêmes événements, un premier alignement
doit être fait sur la base du temps de match écoulé. Il ne garantira pas un alignement
des énoncés (ceux-ci peuvent d’ailleurs ne pas être coprésents dans les deux langues
et sur les deux médias, leur codisponibilité dépendant de ce qui a focalisé l’attention
des différents commentateurs), mais il permettra de trouver, quand elles existent dans
les transcriptions, les descriptions en temps réel de ce qui se déroule sur le terrain.
Pour ce qui concerne les faits relatés avec un décalage dans le temps (lors de synthèses – en particulier après la mi-temps – ou de rappels d’événements précédents),
le repérage de leur récit pourra être fait durant les relectures et des pointeurs mis en
place dans le balisage du corpus.
93
Le balisage de ces noms permet de savoir à quoi réfère chacun sans avoir besoin de mémoriser les constitutions des équipes de la saison 2002-2003 ou de connaître les variantes de noms de stades ou les surnoms de
certains acteurs du football français par exemple.
Document de synthèse – 1.3. Préconiser le haut rendement
67
Outre ses spécificités déjà évoquées ici ou précédemment (en introduction du § 1.3.
en particulier), le fait que ce corpus bilingue ne soit constitué que de commentaires
intégraux des deux mêmes matchs doit permettre d’y trouver une représentation des
différentes sortes d’actions de jeu plus équilibrée que dans les multiplex et (plus encore)
dans les commentaires écrits synthétiques de matchs en direct sur Internet ou de la
presse spécialisée ou généraliste, dans lesquels la focalisation sur les événements les
plus marquants tend à induire une surreprésentation des actions qui se déroulent à
proximité des buts des équipes.
1.3.5. Conclusion : aborder le rendement exploratoire des corpus par le typage
discursif des documents qui les constituent
Conçu comme devant fournir un terrain d’expérimentation, le corpus footballistique
Rcorp1 a permis de préconiser de manière argumentée le recours à des corpus de
taille modeste dont les documents primaires sont sélectionnés minutieusement en
fonction de leur rendement pour la documentation d’usages linguistiques particuliers.
Les constitutions et explorations de ce corpus et de ceux créés afin d’évaluer contrastivement le premier (le corpus de presse écrite spécialisée, Rcorp2, et celui de documents issus du Web, Rcorp4) ont donné lieu à trois publications (qui traitent assez
largement des manipulations informatiques subies par les commentaires compilés) et
ont induit l’élaboration de deux ressources complémentaires (l’ontologie et le dictionnaire des actions de jeu, Rcorp3 et Rdic3).
L’axage plutôt technique des premiers travaux était nécessaire, puisqu’il donnait les
moyens de présenter ce qui motivait la conception de Rcorp1, et était en cohérence
avec mes premières préoccupations dans le cadre de ce projet puisque j’en ai assuré la
conception et la gestion informatique. Une fois les transcriptions de Rcorp1 et les
documents de Rcorp2 et 4 réunis en corpus et les modalités exploratoires définies,
les analyses linguistiques pouvaient prendre leur juste place. Les travaux rédactionnels effectués pour Rdic3, entrepris d’abord avec les étudiants, n’ont pas encore donné
lieu à publication, mais ils m’ont permis de mieux percevoir les particularités des modes
discursifs des différents types de commentaires.
En effet, partant de ceux explorés de manière systématique dans Rcorp1 et prêtant depuis une attention particulière à ceux rencontrables sur les autres médias comme
à ceux qui continuent à être formulés dans le cadre des multiplex, j’ai conforté ma
conviction que les différences de médium d’expression et de positionnement dans le
temps de la narration par rapport aux événements rapportés ont une influence forte
sur les choix d’expression.
Par exemple, les commentaires oraux en direct recourent beaucoup à des pronoms relatifs pour
articuler les procès et comportent plus de verbes processifs que résultatifs alors que les commentaires écrits appelés “matchs en direct” sur Internet, qui correspondent en fait à de très
légers différés, comptent moins de relatives et moins de verbes processifs : ainsi, lorsqu’un
reporter radio dit « Bugnet qui essaye de trouver Roudet sur la droite », un commentateur
Web pourra écrire simplement « Roudet est trouvé sur la droite », ce qui est un type de formulation absent de Rcorp1.
68
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Par ailleurs, si Rcorp1 semble avoir un bon rendement exploratoire selon les tests
que j’ai réalisés, il a également ses limites, induites pour partie par la modestie de sa
taille et pour partie par le fait que, dans le cadre des multiplex, les événements les
plus remarquables occupent une place de choix dans les prises de parole au détriment
d’actions moins spectaculaires qui, étant plus rarement racontées, peuvent induire
des vides lexicaux. P. Corbin (2008a) a cependant montré, concernant les verbes de
transmission de balle, que ce corpus procure un matériau beaucoup plus riche que la
plupart des répertoires spécialisés, ce qui confirme mes observations de T3, et que seul
le dictionnaire de Lesay (2006) soutient la comparaison.
Ce dictionnaire offre des descriptions de qualité, sérieuses et précisément documentées 94, notamment par un recours important à des sources Web, et en particulier les
matchs en direct, qui sont les textes écrits les plus proches des commentaires oraux
en temps réel :
« Pour attester de l’emploi – souvent volatil – d’un vocabulaire aussi imagé que celui du football,
notre ouvrage s’appuie en partie sur un phénomène nouveau : le commentaire de match en direct
sur Internet, créateur d’une véritable oralité écrite. Les web-reporters mettent en effet noir sur
blanc les mots et expressions des reporters radio ou télé, ce que la presse écrite traditionnelle,
parce qu’elle ne commente pas l’événement à chaud, n’avait jamais su faire. » (Lesay (2006 : 9))
L’appui de ce dictionnaire sur cette ressource documentaire récente offre des perspectives de comparaison intéressantes avec les commentaires radiodiffusés, qui permettent
de repérer
– ce qui est décrit en son sein mais qui ne s’entend pas usuellement et ne figure pas
dans Rcorp1 :
C’est le cas par exemple des noms cuir ou courge donnés au ballon à l’écrit mais moins ou pas
à l’oral (le premier est attesté une fois dans Rcorp1, le second pas du tout).
C’est également le cas d’expressions figurées référant à un mode de défense hermétique comme
fermer la boutique, à une défaite sévère comme dégelée, etc., qui peuvent ne pas être absentes
à l’oral mais y ont une place moindre.
– ce qui y est décrit et qui diffère au moins partiellement de ce qui a été relevé dans
Rcorp1, en particulier concernant la délimitation pertinente des unités linguistiques
à traiter :
Quand Lesay (2006) retient dégager en touche et dégagement aux six mètres s.v. dégager, il
opère deux choix consistant, le premier, à suggérer que les localisateurs en touche et aux six
mètres sont employables avec le verbe comme avec le nom, ce que Rcorp1 confirme, et le second,
à valoriser ces deux localisations, ce qui est motivé par la valeur particulière des six mètres
(la limite de la surface de but) et par le fait que le ballon sort souvent en touche quand il est
dégagé, mais qui semble clore la combinatoire lexicale alors que le ballon peut également être
dégagé en corner, comme en témoigne Rcorp1.
94
Concernant le rugby, une appréciation comparable pourrait être portée sur le dictionnaire de Lavignasse
(2010).
Document de synthèse – 1.3. Préconiser le haut rendement
69
ou les rections verbales :
Lesay (2006) décrit par exemple centrer comme signifiant « Frapper la balle vers le centre du
terrain » (ce qui n’est valide qu’en prenant comme repère l’axe longitudinal de celui-ci), mais
ne relève pas centrer ( pour + sur) la tête de Njoueur, attesté dans Rcorp1.
– et ce qui n’y est pas décrit bien qu’attesté dans le corpus :
Quelques verbes de transmission de balle sont attestés dans Rcorp1 mais absents de la nomenclature de Lesay (2006) : adresser, glisser, mettre (le ballon) ; chercher, lancer (un joueur) ; etc.
Ce dictionnaire cependant, s’il indique les sources des textes qu’il cite, ne fournit en
revanche pas d’indications de portée générale sur les types de textes où s’observent
les items décrits, ce qui, pour rester sur l’exemple des verbes de transmission de balle
décrits, ne permet pas de distinguer s’ils peuvent être employés dans les commentaires
en direct ou seulement dans ceux en différé :
S.v. distiller, Lesay (2006) glose le verbe par « faire des passes justes à ses partenaires » et
l’illustre par « [Pedretti] a distillé des ballons au millimètre faisant marquer par 3 fois ses
coéquipiers. Maxifoot.fr, 14/01/04. ».
ni même s’ils sont attestés dans les commentaires ou seulement dans d’autres productions discursives :
S.v. alerter, Lesay (2006) glose le verbe par « Passer le ballon à un partenaire en position
d’attaque » et l’illustre par « Je lui livrai un combat sans merci, le déroutant souvent par mes
feintes et mes dribbles pour alerter dans les meilleures conditions possibles Ujlaki qui jouait
à l’aile droite et Cisowski à qui était dévolu le rôle de puncheur. Raymond Kopa, Mes matchs
et ma vie, 1958. ».
Le travail d’analyse linguistique entrepris à partir de Rcorp1 et des autres commentaires compilés dans Rcorp2, 4 et 16 en typant mieux les discours et en affinant
les descriptions lexicales pourra venir compléter les descriptions de Lesay (2006) en
proposant, peut-être, une version aboutie de Rdic3, ou les travaux les plus lexicaux
de linguistes qui ont déjà étudié certaines productions discursives relatives au football (cf. n. 57).
1.4.
Créer d’autres corpus thématiques
pour étudier l’incidence de chaque variation domaniale
Depuis qu’a été engagée la réflexion sur la constitution de corpus à haut rendement
pour la description d’usages langagiers en français qui soient à la fois spécialisés et
de large diffusion, les thèmes abordés se sont diversifiés sur la base de l’expérience
acquise concernant les commentaires de football.
L’invitation à participer au projet OURAL (P2, cf. n. 14) semblait être une première
occasion de transposer dans d’autres domaines, comme l’évoquait T3, le travail réalisé
pour le football. Un corpus de transcriptions d’émissions juridiques radiodiffusées
(Rcorp5) a été débuté selon les principes qui avaient gouverné la création du corpus
de multiplex, mais le fait de ne pas disposer des droits d’exploitation des sources radiodiffusées interdisait de le livrer dans le cadre du projet qui avait permis de financer
les premières transcriptions. Un autre corpus a donc été mis en chantier (Rcorp6).
Composé d’entretiens relatifs à de la gestion locative de biens immobiliers mobilisant
des locuteurs volontaires, il permettait de maintenir le principe d’une source orale
mais pas celui de la large diffusion à la radio des énoncés transcrits. Le travail réalisé
dans le cadre de ce projet a été relaté dans T8 (§ 1.4.1.).
Les travaux engagés ensuite, sans financement mais avec la collaboration de certains des étudiants de la formation de lexicographes, se sont révélés plus intéressants
que les premiers. Parmi les thèmes abordés, il y a eu :
– divers sports et domaines variés (ingénierie nucléaire, altermondialisme, etc.),
• au sujet desquels les étudiants ont conçu des répertoires métalinguistiques dans le
cadre de mémoires dont j’ai assuré la direction (cf. nn. 91 et 92) ;
• et dont l’étude lexicale a appelé des constitutions de corpus spécifiques pour lesquels
j’ai contribué à définir la sélection des documents primaires à retenir parce que susceptibles de fournir un bon rendement d’exploration ;
– et le tourisme, qui a motivé la création du corpus Rcorp7 (§ 1.4.2.),
• conçu pour être le premier élément constitutif d’un projet plus ambitieux de corpus
modulaire plurithématique et multilingue auquel j’ai travaillé avec l’un des intervenants de M2 LTTAC, Hans Paulussen (cf. n. 26) ;
• qui a impliqué les étudiants de la promotion 2005-2006 du M2 LTTAC, chargés de
sélectionner, capturer et nettoyer une partie des documents bilingues en suivant les
préconisations que nous avions définies, puis de les explorer ;
• mais qui, selon les évaluations réalisées et présentées dans T10, n’a pas un rendement d’exploration comparable à ceux qui viennent d’être évoqués.
72
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Plus récemment, un nouveau corpus (Rcorp12) a été conçu avec Pierre Corbin
pour documenter l’étude des usages lexicaux des lexicographes qui présentent des dictionnaires ou parlent d’eux (§ 1.4.3.). Les relations très intimes de cette étude lexicale
et de mes travaux métalexicographiques font qu’elle est présentée ici au titre des corpus, via un retour sur la première publication qui lui a été consacrée (T18), mais que
les analyses lexicales entreprises avec Rcorp12 seront de nouveau évoquées dans la
seconde partie de ce mémoire, puisqu’il documente également l’état du marché dictionnairique enregistré dans la base de données Rbd1 (§ 2.1.2.). Ce corpus, engagé en
2007, a vocation à être à haut rendement, mais, dans la mesure où les lexicographes
s’expriment relativement peu sur les ondes, son mode d’élaboration ne privilégie pas,
comme Rcorp1, les sources orales mais les paratextes de présentation internes ou
externes des produits éditoriaux (préfaces, modes d’emploi, etc., mais aussi descriptifs
sur les sites Web des éditeurs).
1.4.1. Les corpus de transcriptions du projet OURAL [P2 ; T8 (2008c) ; Rcorp5 ;
Rcorp6]
Si le développement final de T3 envisage seulement dans son principe général la
constitution de corpus à haut rendement pour documenter d’autres descriptions lexicales relevant d’autres espaces discursifs que les commentaires de football, la conclusion de T5 se fait plus précise en posant des liens entre le corpus de multiplex et les
corpus qui devaient être élaborés dans le cadre du projet OURAL (P2, cf. n. 14) entre
novembre 2003 et juin 2005, et qui avaient vocation à être aussi des corpus thématiques à haut rendement. Le travail réalisé dans le cadre de ce projet a été relaté dans
un article (T8) rédigé après que j’en ai eu exposé la teneur à Lorient, aux Journées de
linguistique de corpus de 2005 (C11).
Publier un bilan de la contribution lilloise au projet OURAL
Dans la mesure où T8 constitue un bilan de ma première expérience de collaboration dans le cadre d’un projet financé réunissant de multiples partenaires aux intérêts
variés, le propos valorise, dans un esprit constructif, le travail fait et les objectifs initiaux qui ont pu être maintenus, sans s’étendre sur le détail des infléchissements de
projets ou des reconfigurations de collaborations qui sont survenus durant ces deux
années et ont influé sur ce qui a pu être réalisé.
Les §§ 1. et 2. situent le travail accompli à l’UMR SILEX (devenue STL en 2006)
sous ma direction dans le cadre du projet OURAL et en particulier ses relations avec ce
qui était fait par un autre partenaire, le laboratoire VALORIA, alors impliqué dans
des développements de corpus destinés à l’ingénierie des langues appliquée au monde
du handicap.
En fonction de ce contexte, notre projet a consisté à sélectionner des émissions
juridiques radiodiffusées 95 abordant des thèmes relatifs à des situations de handicap,
95
Toutes les émissions retenues sont organisées de manière comparable : un juriste et un animateur répondent
en direct à des questions d’auditeurs en leur expliquant les démarches qu’ils doivent accomplir pour résoudre
leurs problèmes.
Document de synthèse – 1.4. Créer d’autres corpus thématiques
73
ce qui m’a amenée à enregistrer 9 heures d’antenne représentant 3 heures environ
d’échanges exploitables (hors jingles, publicités, flashs d’informations, bavardages
hors sujets, etc.), soit 55 000 mots transcrits avec l’aide de deux stagiaires 96. L’élaboration de ce corpus ayant été interrompue, du fait de la non-obtention des droits d’exploitation de ces sources dans ce contexte contractuel 97, avant que les relectures orthographiques aient été faites, les transcriptions sont mal exploitables et restées non exploitées à ce jour, mais il pourrait être intéressant de les réviser et de les explorer afin
de voir dans quelle mesure ces données constitueraient bien un corpus à haut rendement.
Afin que le nouveau corpus soit livrable dans les conditions requises, j’ai engagé,
avec Vassil Mostrov 98 et quelques stagiaires, des entretiens dirigés 99 – quatorze de
30 à 60 minutes enregistrés et transcrits, ce qui correspond à 99 000 mots – relatifs à
la gestion locative de biens immobiliers, domaine dont les acteurs maîtrisent plus ou
moins le vocabulaire qu’ils doivent employer, ce qui présente l’intérêt de permettre à
la fois d’observer sur quoi butent les plus novices et de faire expliciter les termes par
les plus experts.
La réorientation du projet a été conçue à la fois en fonction des besoins des outils
linguistiques dédiés aux personnes handicapées auxquelles le VALORIA consacrait ses
travaux et d’un intérêt personnel pour les composantes de la gestion des biens immobiliers que la récente publication du Dictionnaire de la copropriété (Papadopoulos (2002))
avait ravivé et qui aurait pu me faire envisager de mettre en chantier un dictionnaire
de la gestion locative si le corpus constitué avait fourni une documentation assez consistante.
Le § 3. expose les principes de sélection des locuteurs (en fonction de leur expérience de bailleur ou de locataire, de leur profil socioprofessionnel et de leur situation
familiale) et revient sur les transcriptions faites avec Transcriber (dont l’emploi pour
le corpus de multiplex a déjà été évoqué dans T5), relues deux fois mais contenant
encore des fautes que des contraintes de calendrier du projet nous ont imposé de ne
pas rechercher mieux avant de débuter l’étiquetage morphosyntaxique, qui nous a
permis d’en identifier encore un bon nombre, mais qui aurait été de meilleure qualité
si le texte avait été lui-même mieux nettoyé.
96
97
98
99
Il s’agit de Bichara Assoumani et de Sibel Maras, étudiantes de maîtrise “Industries de la langue” de la promotion 2002-2003.
Dans le cadre du projet OURAL, nous nous étions engagés à livrer les transcriptions et les sources sonores
auxquelles elles étaient alignées afin qu’elles soient librement accessibles à tous les acteurs des industries
de la langue et aux chercheurs en linguistique et informatique, et je n’imaginais pas alors que cet engagement puisse être révisé. La manière dont ont été gérés les produits livrés dans le cadre de ce projet me
laisse aujourd’hui penser qu’il aurait été envisageable de poursuivre le travail engagé sur ce corpus et de
ne donner un accès libre qu’aux transcriptions, comme cela a finalement été décidé concernant les entretiens du second corpus élaboré.
Vassil Mostrov est un ancien étudiant du DESS LTTAC, recruté durant un an pour travailler sur le projet
OURAL, quand il était inscrit en DEA de linguistique à Lille 3, avant qu’il y engage, à l’UMR STL, une thèse
de sémantique sous la direction de Danièle Van de Velde. Le travail qu’il a effectué dans le cadre du projet
P2 a motivé qu’il rédige un article relatif aux annotations morphoflexionnelles réalisées dans le corpus
(Mostrov (2008)).
Les participants étaient des volontaires recrutés au moyen de petites annonces et qui ont eu l’obligeance de
consacrer de leur temps à ce projet.
74
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
L’enrichissement (consistant en la lemmatisation et l’étiquetage morphoflexionnel
des mots-occurrences), réalisé avec Cordial Analyseur, relu et converti en XML, est présenté d’un point de vue méthodologique dans T8, mais il a donné lieu, dans l’article
de (Mostrov (2008)) évoqué dans la n. 98, à une appréciation de la qualité linguistique
de l’étiquetage et à des propositions de corrections qui pourraient y être apportées afin
de rendre les catégorisations d’items plus conformes aux analyses faites lors des relectures de certains contextes.
Dans mon propre article, je développe ce qui nous a conduits à utiliser Cordial Analyseur (comme le faisait le VALORIA) et nos craintes à son égard, relatives au fait que
les énoncés de nos transcriptions étaient non ponctués et parfois longs, avec des recouvrements de paroles. Je reviens également sur deux problèmes prévisibles et effectivement rencontrés :
– d’une part, si le VALORIA et nous utilisions Cordial Analyseur, Sinequa et les autres
partenaires qui développaient des corpus écrits employaient d’autres étiqueteurs, ce
qui m’a conduite à élaborer, avec les deux premières stagiaires, une étude de conversion des jeux d’étiquettes utilisés par chacun vers un format commun ; mais les principes d’analyse des étiqueteurs employés divergeaient trop pour que des conversions
aient raisonnablement pu être mises en œuvre sans impliquer de nouvelles relectures
et sans que les étiquetages les plus fins ne soient dénaturés en ne conservant que les
codes les mieux attribuables automatiquement ;
– d’autre part, Cordial Analyseur ne sait pas bien enjamber les balises lors de l’étiquetage d’un texte structuré, ce qui a impliqué de convertir les transcriptions balisées
en texte brut puis de convertir de nouveau en XML les produits de l’étiquetage (cf.
figures 3 et 4).
Ce compte rendu se termine par trois évocations :
– celle des difficultés éprouvées lors des relectures d’étiquetages, dont celles qui ont
motivé l’étude de Vassil Mostrov ;
– celle de deux révisions méthodologiques mineures, l’une portant sur l’absence de balisage des noms de rues et de villes, l’autre sur la suppression des noms de personnes
et le changement des numéros dans les adresses à des fins d’anonymisation ;
– et surtout celle de la décision de ne pas rendre les sources sonores librement accessibles, en assumant que ce choix interdirait le réemploi du corpus pour des études sur
l’oral, et en le justifiant par le fait que nous n’avions pas transcrit des prises de paroles
publiques (comme celles qui sont radiodiffusées), mais des entretiens ayant mobilisé
des personnes qui pourraient, malgré l’anonymisation du corpus, être identifiables
grâce à leur voix ou à certaines de leurs expressions idiomatiques.
La conclusion de T8 revient sur le fait que mon investissement dans le projet OURAL
avait été motivé par le souhait de tester la reproductibilité de la notion de corpus à
haut rendement dans un domaine autre que les commentaires de football, ce qui ne
semblait pas se concrétiser concernant le corpus d’entretiens relatifs à la gestion locative de biens immobiliers qui a été livré.
Cette appréciation réservée prend appui sur l’observation du fait que certaines
prises de parole des locuteurs enregistrés sont très courtes et sur l’impression d’une
certaine modestie de la richesse lexicale comme de celle des constructions employées
Document de synthèse – 1.4. Créer d’autres corpus thématiques
75
qui s’est dégagée lors des relectures. Cependant, si T8 relate la genèse du corpus d’entretiens que nous venions d’élaborer et débouche sur l’expression de doutes quant à sa
rentabilité d’exploitation, je ne disposais pas encore, au moment de sa rédaction, d’étude
qui me permette de formuler un avis documenté.
Une étudiante de M1 TAL a par la suite exploré ce corpus avec le projet d’élaborer
un dictionnaire terminologique de la gestion locative (Mdir66 (Méresse (2007))). Le
travail qu’elle a réalisé a confirmé les intuitions exprimées dans T8, en montrant bien
les qualités mais aussi les limites du corpus considéré, qui ne peut pas être qualifié de
corpus à haut rendement, mais qui présente néanmoins un certain intérêt linguistique.
Quels enseignements tirer de cette première expérience de collaboration encadrée ?
Un autre bilan, plus personnel et donc non publiable dans les circonstances où l’a
été T8, porte un regard plus positif sur le travail accompli.
Le projet OURAL a bénéficié d’une campagne de financement exceptionnelle, qui a à
la fois dynamisé et un peu perturbé le déroulement des travaux financés. En effet, cette
campagne nationale ambitionnait de soutenir les entreprises du TAL, qui traversaient
une période de crise, et de stimuler des coopérations entre les laboratoires de recherche
et développement privés et publics, ce qui a suscité un grand nombre de demandes de
financement mais aussi beaucoup de réponses positives. La gestion des projets par les
instances impliquées dans leurs financements a imposé des regroupements dont certains ont été assez tardifs et éventuellement peu perceptibles par l’ensemble des partenaires des projets initiaux, mais qui ont induit quelques lenteurs dans les prises de
décisions collectives. Claude de Loupy, qui portait le projet OURAL devenu composante
du projet AGILE, a géré toutes les relations avec les autres porteurs de projets réunis
et a fait tout son possible pour harmoniser les travaux des partenaires d’OURAL : nous
lui devons la réussite de notre entreprise.
Le travail d’organisation des tâches réalisées à l’UMR SILEX m’a fortement mobilisée dans la mesure où il m’imposait de participer aux prises de décision collectives 100,
d’animer le travail fait à l’UMR par Vassil Mostrov et les stagiaires 101, et de superviser la gestion effectuée par la responsable administrative de l’UMR SILEX 102, le
service de valorisation de la recherche de Lille 3 et son service du personnel 103. 104
Mon manque d’expérience dans ces types de tâches est probablement en grande
partie responsable des difficultés que j’ai éprouvées à être à la fois relativement exté100 Nous avons eu pour cela quelques séances de concertation réunissant tous les partenaires et des interac101
102
103
104
tions plus ciblées, chacune avec le porteur de projet ou une sélection de partenaires, qui ont toutes constitué
des moments d’échanges stimulants.
Ceci consistait à définir les tâches à réaliser, leur ordre de traitement, la manière dont chacune devait être
conduite et par qui, puis à contrôler chaque production élaborée, le tout en veillant à effectuer moi-même
une part consistante du travail que j’allais ensuite déléguer, de manière à bien savoir quelles seraient les
difficultés que mes collaborateurs allaient rencontrer et à anticiper leurs demandes pour améliorer la qualité de la production collective et respecter nos engagements calendaires.
Je tiens à remercier Danièle Monseur pour le temps qu’elle a consacré à cette tâche.
Merci à Fabienne Giard, Ingrid Fournier et Ulrich Beuter pour la gestion de ce projet et à Ludovic Deniau
pour ses conseils relatifs aux contrats de travail de Vassil Mostrov et des stagiaires.
Il s’agissait en particulier de veiller au recrutement puis à la bonne gestion des contrats de stage ou d’embauche des étudiants.
76
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
rieure, puisque supervisant notre travail, et impliquée intellectuellement autant que
les étudiants qui, durant des périodes plus courtes il est vrai, consacraient leurs journées à ce projet.
Bien que j’aie l’impression qu’il aurait été souhaitable de faire plus, et en particulier
de mieux exploiter les corpus élaborés – ce que des changements survenus au sein de
l’équipe du VALORIA (en fonction de laquelle les corpus avaient étés définis) n’ont pas
rendu possible –, je retire différentes satisfactions de ma participation à ce projet :
– il m’a donné l’occasion de travailler en collaboration avec des personnes dont j’estime
le travail, et en premier lieu Claude de Loupy ;
– il a permis à un ancien étudiant du DESS LTTAC, Vassil Mostrov, de financer l’année de son DEA et de débuter une thèse qu’il soutiendra le 12 novembre 2010 ;
– il a fourni des sujets de stage motivants à des étudiants des formations que j’animais ;
– et il a induit deux publications (T8 et Mostrov (2008)) et suscité quelques mémoires
de maîtrise ou de DESS puis de master durant la période de financement et ensuite (cf.
n. 17).
Quels enseignements retirer des constitutions de Rcorp5 et Rcorp6 ?
Le retour sur ce projet mérite enfin un mot de conclusion concernant les corpus
proprement dits.
La qualité du corpus juridique d’oral radiodiffusé transcrit est peu aisément évaluable puisque que son élaboration est incomplète, mais les écoutes préliminaires d’émissions et les premières relectures des transcriptions laissent présager que, s’il devait
être parachevé, les énoncés qu’il recèlerait auraient une bonne valeur informative.
Néanmoins, la diversité des questions juridiques traitées à la radio, qui avait conduit
à n’en retenir qu’un sous-ensemble aussi cohérent que possible, mériterait d’être mieux
analysée afin de caractériser au sein des émissions chaque séquence de questions d’un
auditeur et de réponses du juriste et de l’animateur en fonction d’un typage des problèmes exposés, des démarches à engager, des instances juridiques auprès desquelles
demander réparation, voire d’une évaluation métalinguistique de la densité du vocabulaire spécialisé et des reformulations ou des éclairages (sémantiques et référentiels)
apportés par le juriste ou l’animateur concernant chaque terme susceptible de ne pas
être aisément interprétable par un auditeur (celui qui est en ligne ou un autre). Dans
l’hypothèse où des études linguistiques relatives à des questions de vocabulaire juridique devaient me mobiliser de nouveau, je n’exclurais pas de poursuivre le travail
engagé avec Rcorp5, en l’amendant comme je viens de l’exposer.
À la différence du précédent, si le thème de la gestion locative devait retrouver une
actualité dans mes travaux, les explorations accomplies par Charlotte Méresse dans
le cadre de son mémoire (Mdir66) m’inciteraient à revoir complètement le mode d’approche et à concevoir un nouveau corpus plutôt que de reprendre Rcorp6. La constitution de cette nouvelle ressource ne se ferait pas sur la base d’entretiens comme cela
a été conjoncturellement décidé dans le cadre du projet, mais peut-être plutôt en
enregistrant des émissions radiodiffusées sur ce thème, afin de conserver de l’oralité,
et surtout en prenant en compte des documents issus de sites Web spécialisés, dont
les contenus connaissent une large diffusion (puisque chacun peut être amené à les
Document de synthèse – 1.4. Créer d’autres corpus thématiques
77
consulter) et qui semblent refléter assez bien la teneur de l’ensemble des échanges
entretenus par les bailleurs ou leurs représentants et les locataires, puisque ce qu’ils
se disent peut également être échangé électroniquement maintenant que beaucoup de
démarches (y compris une partie des visites de logements) sont dématérialisées.
Mais pour l’heure les deux thèmes impliqués dans la participation au projet OURAL
n’ont pas été repris, et c’est de tourisme puis de lexicographie qu’il va être question
dans les prochains développements.
1.4.2. Le corpus bilingue du tourisme [T10 (2008d) ; Rcorp7]
Les recherches menées sur le lexique du football avaient intéressé Hans Paulussen,
chercheur de l’ALT Research Center on CALL qui intervient régulièrement dans le
master LTTAC (cf. n. 26) pour présenter ses travaux de constitution de corpus multilingues passés ou présents, et avec qui nous avons vainement cherché comment monter
un projet de corpus français / néerlandais / anglais de commentaires de matchs qui
puisse rejoindre les préoccupations de son laboratoire (qui travaille principalement sur
des questions d’enseignement de langues vivantes assisté par ordinateur). À défaut de
trouver l’occasion de ce projet, nous avons décidé de réfléchir à d’autres collaborations
et, pour ce faire, de reprendre la notion de corpus modulaire constitué de sous-corpus
thématiques que j’avais décrite dans T3 (cf. § 1.3.1.) et d’en développer une variante
multilingue.
Vers un corpus plurithématique multilingue ?
Alors que nous réfléchissions à la conception de ce corpus plurithématique multilingue en cherchant autant que possible à rendre compatibles les exigences de haut
rendement pour chaque module thématique dans chaque langue et de disponibilité de
textes traduits dans une sélection de langues et alignables, nous avons convenu d’expérimenter le recours aux traductions mises en ligne sur le Web afin d’évaluer (i) comment elles sont détectables parmi les autres documents disponibles en ligne, (ii) comment identifier celles qui sont effectivement alignables semi-automatiquement une fois
leurs textes captés depuis le Web 105, et (iii) quel est leur rendement.
La première expérimentation, qui a permis la création du premier module thématique (Rcorp7), a été faite en nous limitant
– à deux langues (le français et l’anglais) du fait de leur bonne diffusion et donc de
l’abondance relative des documents disponibles conjointement pour elles 106,
– et au thème du tourisme, pour lequel il existe un marché bien identifié de lexicographie bilingue spécialisée (productrice de guides de conversation pour le grand public
et de dictionnaires à visée plus professionnelle comme celui de Hourcade (1995)), et
105 Même si ces traductions ont été rédigées avec l’aide de mémoires de traduction et qu’elles ont été alignées,
une fois mises en ligne elles ne le sont pas.
106 C’est également la seule paire de langues que les étudiants de la promotion 2005-2006 du M2 LTTAC, qui
ont participé à ce projet, avaient en partage (cf. infra).
78
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
qui est pris en compte dans des productions moins ciblées (les dictionnaires généraux
de toutes les gammes).
T10, corédigé avec Hans Paulussen pour les actes d’un colloque organisé à l’université Lyon 2 par le Centre de Recherche en Terminologie et Traduction (CRTT) et
intitulé « Corpus et dictionnaires de langues de spécialité » (cf. C12), retrace les choix
et les étapes de la constitution et de l’évaluation de ce corpus bilingue aligné de
645 978 mots-occurrences (330 009 pour les documents en français et 315 969 pour
ceux en anglais) :
– après avoir situé au § 1. le contexte de cette réalisation, nous justifions au § 2. le
fait de puiser dans le Web les documents bilingues à aligner (en choisissant ceux au
format HTML qui sont à la fois adéquats thématiquement, de bonne tenue linguistique dans les deux langues, effectivement parallèles et constitués de textes plutôt que
de tableaux) ;
– le § 3. présente la partie technique de la méthodologie mise en œuvre : recherche des
indices de parallélisme dans les URL 107, rapatriement et stockage des contenus de
chaque page (cf. figure 2), élimination du balisage et harmonisation des codages de
caractères, alignement au niveau des paragraphes, et divers contrôles ;
– l’exposé de la méthode d’exploration est développé au § 4. avec celle d’une évaluation
du corpus impliquant la coopération de deux outils :
• ParaSearch, concordancier multilingue développé par Hans Paulussen pour les besoins
de sa thèse soutenue en 1999, servant ici à l’extraction des contextes alignés contenant
un motif exprimé dans une des deux langues ;
• et Unitex pour évaluer si ces contextes apportent des informations actuellement absentes des guides de conversation, dont les données ont été intégrées à des graphes
d’exploration qui, convertis en transducteurs 108, permettent de baliser les contextes
du corpus déjà pris en compte par ces guides (cf. figures f et 9, reproduites cidessous en figures 17 et 19).
Figure 17. Transducteur repérant musée(s) suivi de l’un des syntagmes prépositionnels listés
et insérant les balises <musee-de-art-ADJ> et </musee-de-art-ADJ> autour des segments correspondants
[figure f de T10]
Une recherche dans la lignée des précédentes
Comme T2, T3 et T5, T10 aborde la question de la documentation des lexicographes au moyen de corpus dans lesquels observer les unités linguistiques traitées,
107 Les “Uniform Resource Locators”, c’est-à-dire les adresses des documents en ligne (http://[…]).
108 Cf. § 1.3.2., figure 8.
Document de synthèse – 1.4. Créer d’autres corpus thématiques
79
mais en s’intéressant cette fois (cf. T2 § 4.3.) aux mises en équivalences traductionnelles susceptibles d’être proposées dans les dictionnaires bilingues, et, comme pour
T4, des étudiants (cf. n. 106) évaluent la faisabilité des manipulations envisagées par
des non-spécialistes des traitements de corpus.
T10 reprend aussi l’élaboration d’un corpus à partir de documents sélectionnés sur
le Web (comme pour Rcorp4, l’un des corpus footballistiques présentés dans T4), la
coopération d’outils (ParaSearch et Unitex, après Cordial Analyseur et Unitex dans
T4), et la comparaison de ce qui est dans le corpus avec ce qui se trouve dans des productions lexicographiques (comme dans T3, mais en outillant la comparaison cette fois).
Ce texte présente par ailleurs des principes et des méthodes de traitement comme
le rapatriement semi-automatique de gros volumes de données, auquel Hans Paulussen
initiait les étudiants de notre formation depuis quelques années, et la structuration des
données en texte brut (en jouant sur les marques de fin de ligne 109 et la répartition
des textes dans différents fichiers) plutôt qu’en insérant du balisage XML, ce qui constitue une manière de procéder imposée par l’emploi de ParaSearch (développé avant
l’essor du XML).
Un travail à quatre mains très formateur
D’un point de vue méthodologique, ce travail a présenté un grand intérêt pour
chacun de nous dans la mesure où il nous a permis de confronter nos expériences
techniques. Hans Paulussen, qui est très bon connaisseur de l’environnement Linux
et de la programmation dans le Shell, en AWK ou en Perl, prenait ses marques dans
les technologies XML, dont il avait par ailleurs besoin pour d’autres projets de constitution de corpus dans lesquels son laboratoire s’engageait. Le corpus du tourisme nous
a donné l’occasion de procéder à un développement tel qu’il l’aurait antérieurement
organisé, ce qui était formateur pour moi 110, tout en cherchant (ce dont ne témoigne
pas T10) comment il serait efficace de travailler avec une structuration XML, ce pour
quoi je commençais à avoir une certaine expérience, mais qui m’a demandé de pousser
plus loin mes connaissances en XSLT et concernant les recommandations de la TEI.
Depuis quatre ans que Hans Paulussen intervenait dans la formation de lexicographes, j’entretenais avec lui des échanges réguliers au début de ses sessions afin de
l’aider à cadrer ses prestations en articulation avec mes cours et celles des autres professionnels invités, et pendant le déroulement même de ses interventions afin de réfléchir avec lui aux solutions qu’il mettait en œuvre et aux alternatives envisageables.
Nous avions donc déjà des habitudes de réflexion communes. Le travail effectué pour
concevoir et constituer la ressource Rcorp7 puis préparer nos exposés (E8 et C12)
et notre article (T10) a induit une intensification de nos échanges de 2005 à 2007.
109 Une marque de fin de ligne informatique correspond à une marque de fin de paragraphe dans un éditeur de
texte, où les lignes ne sont pas des objets délimités mais des sous-chaînes de caractères incluses dans celle
du paragraphe et dont le nombre d’éléments constituants est déterminé en fonction de la taille de chaque caractère et de la largeur de la zone d’affichage.
110 Je tiens à remercier Hans Paulussen pour ce qu’il m’a transmis.
80
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Quid du corpus plurithématique multilingue ?
Si l’expérience du développement du corpus du tourisme, qui devait être le premier
module thématique d’un corpus beaucoup plus consistant, a été particulièrement stimulante sur le plan informatique, le rendement exploratoire des données collectées
s’est avéré plus décevant.
Nous avions décidé de nous concentrer non pas sur des documents multilingues
mais seulement bilingues (français / anglais) pour tenir compte du fait que les étudiants de M2 LTTAC qui ont travaillé à la constitution du corpus n’avaient que ces
langues en partage. Cette contrainte était a priori de peu de poids puisque la diffusion
du français, bien qu’inférieure à celle de l’anglais, garantissait de trouver assez de
documents pour qu’il soit possible de faire un choix parmi eux, mais il s’est avéré que
beaucoup des documents repérés étaient de qualité linguistique relativement médiocre
et que la compétence des étudiants dans les deux langues n’a pas suffi à ne retenir que
ceux dont l’expression est la plus idiomatique. Ce problème étant strictement dépendant des compétences linguistiques de ceux qui sélectionnent les documents, il révélait
une difficulté à laquelle il faudrait veiller si le projet devait prendre une autre ampleur.
Nous avions par ailleurs convenu de travailler en exploitant des documents primaires issus du Web, comme Hans Paulussen le faisait pour les projets de développement de corpus auxquels il contribuait par ailleurs, afin d’évaluer comment des
critères de sélection des sources pouvaient être mis en œuvre quand les moteurs de
recherche fournissent de très importantes quantités de documents potentiellement
utilisables et si ces critères, une fois définis, apporteraient une garantie réelle de
qualité.
Le principe d’extraire des documents du Web a stimulé une réflexion fructueuse
concernant les indices portés par les URL qui permettent de repérer que des versions
du même contenu textuel sont disponibles dans des langues différentes. Celle-ci s’est
appuyée sur les travaux de Resnik (1999) et Resnik & Smith (2003) et sur une description enregistrée dans une base de données pour chaque site trouvé (au moyen du
formulaire présenté ci-dessous en figure 18).
La recherche de critères de sélection des documents s’est avérée moins productive.
Une première difficulté consistait à ne pas toujours savoir caractériser ni les mobiles
de la mise en ligne des documents ni leurs énonciateurs et leurs destinataires (quand
leur objet ne paraissait pas être une information promotionnelle ou culturelle destinée
à tous mais semblait ne concerner qu’un public ciblé). Mais même dans le cas favorable
où les sites présentaient une manifestation et des informations touristiques destinées
à ceux qui y participent, la diversité des textes réunis en leur sein (notices historiques
ou biographiques, recettes de spécialités locales, etc.) impliquait une caractérisation
de chacun débordant des critères de typage que nous avions prédéfinis sans que nous
réussissions à en produire une version amendée suffisamment aboutie pour qu’elle soit
efficacement exploitable. Cette difficulté a largement contribué à ce que Rcorp7, qui
devait être le premier module d’un corpus plurithématique, reste un corpus autonome.
Document de synthèse – 1.4. Créer d’autres corpus thématiques
81
Figure 18. Formulaire de saisie des descriptions de chaque site retenu proposant des textes bilingues
Des graphes métalexicographiques pour explorer le corpus…
Malgré ces difficultés, du point de vue de la méthodologie exploratoire mise en
œuvre, le travail accompli pour Rcorp7 est novateur à double titre :
1) Le fait de manipuler un corpus aligné a impliqué une procédure d’extraction des
énoncés adaptée, qui a certes profité du développement antérieur du concordancier
multilingue ParaSearch par Hans Paulussen, mais qui a aussi impliqué la conception
de modalités de posttraitement des contextes alignés spécifiques et de nouvelles programmations de scripts (les algorithmes de deux d’entre eux sont schématisés en
figures 6 et 13).
2) L’ambition de confronter les données du corpus et ce qui est déjà attesté dans les
guides et dictionnaires a motivé que j’élabore des graphes et des transducteurs décrivant le contenu de ces derniers pour explorer les versions française et anglaise du
corpus. Une solution alternative aurait consisté à procéder comme je l’ai fait pour les
verbes de transmission de balle dans T4 par exemple, c’est-à-dire à élaborer progressivement des graphes intégrant les éléments contextuels jugés importants pour la
description des items étudiés et observés dans le corpus. Cette méthode, pertinente
pour découvrir le contenu du corpus considéré, n’est pas adaptée quand il s’agit de
simuler le travail que seraient susceptibles d’effectuer des lexicographes qui pourraient
aisément disposer des données déjà présentes dans les guides et les répertoires ré-
82
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
cents 111 et auraient donc prioritairement besoin de ce qui n’est pas présenté en leur
sein (cf. T2 § 1. et § 1.2.2.).
Concernant le dernier point, le transducteur qui décrit les contextes d’emplois du
nom musée présentés dans l’un des guides de conversation (cf. figure 9 reproduite
ci-dessous en figure 19) ne leur est pas strictement fidèle dans la mesure où il autorise
des variations de formulations. Conçu pour permettre de différencier, parmi les contextes extraits du corpus, ceux qui ne présentent pas de nouveauté remarquable par
rapport au guide de ceux dont les constructions n’y sont pas décrites, il doit baliser ceux
du premier ensemble en y intégrant tous les contextes trop proches de ce qui est déjà
connu pour être intéressant à observer pour les lexicographes.
Figure 19. Graphe de recherche et d’annotation basé sur les données
du Guide de conversation du routard (anglais) 2005, s.v. musée [Figure 9 de T10]
… aux graphes pour explorer les contenus dictionnairiques comme des corpus
Le retour sur ce travail exploratoire fournit une première occasion d’évoquer mes
analyses de textes dictionnairiques qui ont également mobilisé Unitex et, comme je l’ai
expliqué au § 1.3.2., les graphes au moyen desquels cet outil d’exploration de corpus
permet d’exprimer des motifs de recherche complexes.
De l’expression de ce qui est cherché dans un corpus exploré pour l’étude de données
discursives à la description de ce qui y est observé, il n’y a finalement qu’un pas, que j’ai
déjà franchi au § 1.3.3. en présentant une schématisation synthétique d’énoncés exprimant la transmission du ballon dans les matchs de football (cf. figure 10).
111 Des problèmes de gestion des archives font que les lexicographes ne peuvent pas toujours aisément accéder
aux anciens ouvrages imprimés, que ce soit ceux du fonds éditorial de la maison qui les emploie ou ceux des
concurrents acquis à titre documentaire. Mais les ouvrages récents sont potentiellement mieux mobilisables
puisqu’ils sont souvent disponibles dans les archives numériques ou éventuellement encore achetables.
Document de synthèse – 1.4. Créer d’autres corpus thématiques
83
Dans d’autres travaux, la nature du corpus a également connu des variations : les
données textuelles explorées et/ou décrites ont été limitées aux contenus des articles
ou des composants d’articles des dictionnaires étudiés. Que les visées aient été strictement analytiques ou qu’elles aient conjoint des balisages de ces textes au moyen de
transducteurs, elles ont mobilisé le même outil et les mêmes principes de représentation graphique de combinaisons de segments de textes.
Unitex et son éditeur de graphes seront donc de nouveau évoqués au § 2.2.1.2. concernant des analyses structurelles du Larousse pratique, au § 2.3.5. pour représenter
les constructions du verbe permettre décrites dans le Dictionnaire du français au collège,
et au § 2.5.1. à propos des informations étymologiques fournies pour des mots d’origine
étrangère dans les dictionnaires destinés aux enfants.
1.4.3. Le corpus de lexicographie [T18 (2009a) ; Rcorp12 ; Rdic2]
Renoncer à constituer le corpus plurithématique multilingue dont Rcorp7 devait
être le premier constituant n’a pas induit l’abandon des recherches relatives à ce que
peuvent être des corpus à haut rendement, mais a motivé un recentrage de celles-ci
sur des espaces discursifs avec lesquels j’entretiens une relation privilégiée, et en premier lieu certains de ceux où se produisent des énoncés relatifs aux dictionnaires.
L’écoute des intervenants professionnels invités dans le cadre de la formation de
lexicographes ou des éditeurs interrogés en diverses occasions (colloques, campagnes
de promotion d’ouvrages, interviews) et la lecture des paratextes de présentation des
répertoires et de textes métalexicographiques permettent d’observer des variations
d’expression en fonction des situations et des énonciateurs (lexicographes, éditeurs,
métalexicographes), mais aussi des déficits de rigueur et d’homogénéité terminologique. Ces derniers peuvent en partie au moins être liés à l’histoire et à la diffusion
massive des objets culturels particuliers que sont les dictionnaires et aux représentations de ceux-ci que les locuteurs spécialisés qui en parlent ont eux-mêmes et imaginent
être celles des destinataires de leurs propos.
Afin de mieux appréhender le lexique afférent à la lexicographie, nécessaire pour
développer une activité métalexicographique et choisir le plus adéquatement possible
les dénominations à utiliser 112, je n’ai pas tout de suite conçu le projet de me doter
d’un corpus thématique. Durant plusieurs années, j’ai collecté au vol les emplois lexicaux lus ou entendus, élaborant progressivement un répertoire (Rdic2) dont j’ai amplifié le contenu avec trois promotions d’étudiants invités à compléter mes relevés à
partir de ce qu’ils entendaient et lisaient dans le cadre de leur formation 113. Ce n’est
que plus récemment (en 2007) que j’ai entrepris de constituer un corpus de textes de
présentation de dictionnaires et d’études métalexicographiques (Rcorp12), qui a pour
vocation de permettre d’observer les usages attestés de certaines unités lexicales employées par les lexicographes ou les éditeurs pour leur communication à destination
du public et de les comparer aux emplois observables dans leurs échanges professionnels ou en métalexicographie.
112 Cette recherche d’adéquation de l’expression est de nouveau évoquée infra au § 2.2.1.
113 Il s’agit des promotions de DESS LTTAC de 2003-2004 et de M2 LTTAC de 2004-2005 et 2005-2006.
84
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
De Rdic2 à Rcorp12 : des données saisies au vol à celles attestées pérennement
L’élaboration de descriptions des mots et expressions captés en diverses occasions
a constitué un exercice utile pour apprécier la diversité des usages lexicaux et affiner
la caractérisation, d’une part, des domaines dont ils relèvent qui sont impliqués dans
l’élaboration des répertoires et, d’autre part, des espaces discursifs dans lesquels chacun est attesté.
La structure XML du répertoire Rdic2 rend compte de ces descripteurs en fournissant des jeux d’éléments et d’attributs utiles pour marquer chaque description de
sens et référencer et typer chaque contexte d’attestation. Leur présence dans le texte
des articles rédigés permet de présenter ces derniers dans deux affichages :
– soit en intégralité et dans l’ordre alphabétique des items qui constituent leurs adresses
(comme dans la compilation des documents de rédaction) ;
– soit par descriptions de sens, toujours précédées de l’adresse lexicale qui les introduit dans le texte des articles complets, mais séparées les unes des autres pour celles
des items polysémiques et regroupées
• par domaines de l’activité lexicographique (codés par l’attribut @domaine dans le document XML source) ;
• ou en fonction des propriétés étymologiques des emplois décrits (en affichant d’une
part les influences étrangères, en particulier anglaise et allemande – codées par l’attribut @emprunt –, et d’autre part l’ancienneté relative des usages – codée par @datation
(pour “première datation”)) ;
• ou encore par type d’énonciateur ou de médium d’expression (codés par les attributs
@enonciateur et @medium), ces critères étant éventuellement affinables encore par les
typages de source textuelle (en exploitant les descripteurs portés par les références
des citations qui peuvent illustrer les emplois lexicaux décrits).
Par exemple, le nom éditeur, dans les limites domaniales de la lexicographie, peut être employé
pour référer à une maison d’édition, à un responsable de projet éditorial ou à un logiciel au
moyen duquel les rédacteurs saisissent les textes des articles. Cet item est d’usage courant et
ancien avec le premier de ces sens : il est daté de la fin du XVIIIe siècle dans le Dictionnaire
historique de la langue française, qui indique que sa forme est empruntée au latin impérial
editor mais que son acception la plus usuelle pourrait être dérivée de celle d’édition. Les deux
autres acceptions sont le fruit de calques récents (XXe siècle) de l’anglais editor, celle référant
à un humain étant employée oralement dans le milieu éditorial alors que celle dans laquelle
il désigne une classe d’outils informatiques s’est diffusée partout où des ordinateurs sont employés pour traiter des textes.
Il résulte de ce qui précède que les trois éléments contenant les descriptions de sens rédigées
pour ce nom dans Rdic2 portent
– un attribut @domaine auquel sont respectivement affectées les valeurs commerce lexicographique, acteurs de l’édition et informatique éditoriale ;
– des attributs @enonciateur et @médium dont la valeur est respectivement lexicographes et oral
pour le nom de responsable éditorial et tous et tous pour les deux autres emplois ;
– un attribut @datation dont la valeur correspond à un siècle pour les noms d’entités commerciales et d’humains (respectivement XVIII e et XX e) et à une année pour celui de l’outil (1960 ),
le choix du type de valeur dépendant des informations trouvées pour chacun ;
– et, pour les deux anglicismes, @emprunt de valeur égale à anglais.
Document de synthèse – 1.4. Créer d’autres corpus thématiques
85
Comparablement à ce qui est fait pour le dictionnaire des actions de jeu du football
Rdic3 (cf. § 1.3.3.), des transformations XSLT assurent la manipulation du document
original afin de présenter son contenu remodelé selon toutes les configurations envisagées.
Ce répertoire du lexique afférent à la lexicographie a vocation à décrire le vocabulaire de ce domaine étendu à tous ceux qui sont impliqués dans l’édition dictionnairique au titre de l’élaboration des répertoires 114. Cependant, dans la mesure où les
données contenues par Rdic2 ont fait l’objet d’une sélection préalable et où les descriptions des unités linguistiques décrites n’y sont pas toutes aussi exhaustives, il ne
peut pas documenter toutes les analyses lexicales et méritait d’être complété par un
corpus de documents primaires.
Depuis que j’ai entrepris la création du corpus lexicographique Rcorp12, il a été
étendu puis exploré avec Pierre Corbin et deux promotions d’étudiants du M2 LTTAC,
notre attention se focalisant une année sur les dénominations de composants d’articles
employées dans les paratextes internes de présentation des dictionnaires monolingues
français de tous les segments du marché 115, et la suivante sur tous les noms d’entités
associés à des quantifications dans les descriptifs de dictionnaires mis en ligne sur les
sites des trois éditeurs majeurs.
Pédagogiquement, ce travail a vocation à permettre aux étudiants d’effectuer simultanément trois apprentissages :
– se former au traitement des corpus électroniques (constitution, structuration, exploration, classification informatisée des données collectées) ;
– être sensibilisés aux variations d’expression observables dans le milieu professionnel que beaucoup d’entre eux ambitionnent d’intégrer ; 116
– et découvrir le marché des dictionnaires de France 117 et la diversité des gammes de
produits qui le constituent.
Pour mes recherches, il est corrélé, comme pour la formation des étudiants, à l’enregistrement des répertoires en vente à chaque rentrée dans la base des références éditoriales et des descriptions de dictionnaires monolingues français (Rbd1, présentée au
§ 2.1.2.), dont des versions partielles sont constituées avec les mêmes étudiants dans
le cadre de mes enseignements de conception et de gestion de bases de données SQL.
Au moment de la définition des principes de sélection des documents primaires du
corpus de lexicographie Rcorp12, l’intégration des paratextes internes 118 s’est faite
114 Ceci s’entend donc hors fabrication matérielle (impression et reliure pour les éditions imprimées, et pres115
116
117
118
sage de disques pour les produits électroniques disponibles sur ce support) et commercialisation (diffusion
et vente des produits imprimés comme électroniques).
Pour une présentation de ceux définis à partir des produits en vente à la rentrée 2006, cf. n. 205.
Quelques-unes des désignations employées par les éditeurs sur leurs sites Web en 2009-2010 sont présentées en n. 202.
Les étudiants étrangers repèrent à cette occasion et nous indiquent les différences qu’ils perçoivent entre
le marché français et celui de leur pays, ce qui fournit l’occasion d’échanges culturels stimulants.
Certaines éditions électroniques proposent les mêmes textes de présentation que les éditions imprimées, ce
qui facilite la tâche de leur collecte. Les répertoires seulement imprimés voient leurs paratextes numérisés
ou saisis. Ce choix dépend des polices de caractères employées par l’éditeur et de la complexité de la mise
86
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
naturellement puisqu’ils étaient dépouillés manuellement pour documenter Rbd1
depuis la création de cette base en 2001 et que leur richesse lexicale m’était bien connue. L’évolution des politiques de communication des éditeurs majeurs dans le domaine
de la référence (dictionnaires et encyclopédies) faisant qu’actuellement tous les produits dans leurs différentes versions donnent lieu à des descriptions en ligne et qu’il
est particulièrement intéressant d’observer où et comment est fournie chaque indication et si ce qui est indiqué en un lieu est bien compatible avec ce qui est mentionné
dans un autre, la sélection de ces textes de présentation a également été décidée. Les
paratextes internes et externes les plus sérieux 119 sont ainsi réunis.
Pour ce corpus, d’autres sources, principalement écrites elles aussi puisque c’est le
médium privilégié pour les communications quels que soient les destinataires 120, ont
été retenues afin de diversifier les énonciateurs et les objets des développements. Il
s’agit de productions métalexicographiques, peu nombreuses encore au sein du corpus
mais auxquelles je prévois d’accorder une place croissante.
D’autres documents pourront utilement rejoindre le corpus lexicographique
Rcorp12 ou constituer une ressource comparable à celui-ci : il s’agit de textes de
présentation ou d’analyse rédigés en anglais, dont la mise à disposition permettrait
d’étudier les emplois qui sont faits dans cette langue de termes que le français a empruntés (comme entry) et au sujet desquels l’étude de la documentation en français
peut ne pas suffire pour expliquer ce qui motive les polysémies observées. Cette extension à des sources comparables en langues autres que le français semble devoir être
limitée à l’anglais et, dans une moindre mesure peut-être, à l’allemand, deux langues
dont le vocabulaire lexicographique est fourni et susceptible d’avoir offert au français
des unités lexicales empruntées ou traduites.
Quoique Rcorp12 soit une ressource récemment mise en chantier et ouverte,
puisqu’elle doit annuellement s’enrichir de paratextes, elle a déjà contribué à documenter une première étude publiée relative au lexique afférent à la lexicographie, sur
laquelle je vais maintenant revenir.
Premières analyses lexicales publiées
À l’occasion d’un colloque sur la métaphore organisé à l’université Lyon 2 par le
CRTT en 2008 (cf. C20 et T18), Pierre Corbin et moi avons examiné la part des
figures, et en particulier de la métaphore, dans le lexique de la lexicographie. Au-delà
d’une visée proprement analytique, l’accent est mis dans cette étude sur les bénéfices
conceptuels et terminologiques que pourrait présenter la prise à la lettre de certaines
des métaphores observées, qu’un figement stérile réduit aujourd’hui au rang de synoen page qu’il a choisie, qui influent sur la capacité du système de reconnaissance de caractères à transformer l’image de la page scannée en texte, et consiste à évaluer si le produit de la numérisation sera assez
peu fautif pour être corrigible ou s’il est moins coûteux de recopier intégralement le texte source.
119 Les paratextes de présentation proposés sur les sites Web sont plus fautifs que ceux qui introduisent les répertoires, mais ils partagent avec eux l’esprit de sérieux qui les distingue conjointement des textes à vocation
publicitaire, souvent moins informatifs et plus accrocheurs.
120 Les lexicographes comme les métalexicographes prennent rarement la parole sur les ondes ou à la télévision,
mis à part Alain Rey (notoire rédacteur en chef de dictionnaires Robert) et, dans une moindre mesure, Jean
Pruvost (métalexicographe et lexicographe, directeur du laboratoire MÉTADIF de Cergy-Pontoise jusqu’à la
récente intégration de celui-ci dans l’UMR 7187 du CNRS, le LDI (Lexiques, Dictionnaires, Informatique)).
Document de synthèse – 1.4. Créer d’autres corpus thématiques
87
nymes approximatifs dont la concurrence molle est sans bénéfice, voire nocive. T18,
qui prend en compte des données de Rcorp12 mais aussi de nombreuses sources dictionnairiques et métalexicographiques externes, ne fait pas explicitement cas du corpus, sauf en introduction du § 1., où il est question de lui pour documenter un dictionnaire où serait décrit l’ensemble des acceptions et des conditions d’emploi de chaque
unité lexicale (c’est-à-dire Rdic2, évoqué implicitement pour ne pas particulariser le
propos).
Afin de montrer ce qui pourrait être trouvé dans un corpus de bon rendement, nous
avons dressé, au § 1., un inventaire d’exemples caractéristiques et référencés qui inclut :
– des mots partagés mais d’acceptions variables (comme dictionnaire, définition ou
encore sens) ;
– des apocopes “familières” inégalement distribuées (comme dico vs dictionnaire ou
déf vs définition) ;
– des dénominations palliatives ancrées dans le milieu éditorial (comme nom commun
ou mot de la langue, qui doivent nommer tout ce qui n’est pas nom propre et qui fait
l’objet d’un article dans les dictionnaires) ;
– des spécialisations métalexicographiques de mots ordinaires (comme celles de niche
et de nid proposées par Hausmann & Wiegand (1989) ou celles d’adresse, entrée et
vedette, d’usage assez large) ;
– des influences étrangères (et en particulier de l’anglais, comme celles que l’on peut
observer ou spéculer pour adresse, entrée, lemme, compiler / compilateur / compilation
ou encore éditeur) ;
– des termes forgés par des métalexicographes (comme macrostructure et microstructure, définis par Rey-Debove (1971 : 21), ou le « diasystem » de Weinreich (1954), systématisé dans les onze items allemands porteurs du préfixe dia- de la grille de marques
d’usage de Hausmann (1989) 121) ;
– des termes de normes qui ne semblent pas être en usage ailleurs (comme élément
compositionnel et ses hyponymes bloc, conteneur et groupe, dans la norme NF ISO
1951 Avril 2007 122).
Ce recensement montre l’existence
– de concurrences dénominatives (entrée, selon l’acception choisie, peut être synonyme
d’adresse ou d’article),
– mais aussi de lacunes (les composants qui accueillent les informations catégorielles,
les prononciations ou encore les étymologies n’ont pas de nom),
– et d’intersections avec les lexiques d’autres domaines (dont la linguistique, la traduction, l’édition et l’informatique).
Il permet par ailleurs d’observer la polysémie de certains items et le rôle non négligeable des figures de style : métonymies (pour définition, sens et nom commun) et méta121 Cf. § 2.4. pour une présentation critique des onze ensembles de marques que nomment ces mots en dia-.
122 Cf. nn. 33 à 36 : un élément compositionnel est une « unité d’information composée d’éléments » (§ 3.2., p. 1)
et un bloc, par exemple, un « élément compositionnel […] utilisé pour factoriser les éléments […] partagés
comme affineurs par de nombreuses instances d’un élément particulier » (§ 3.2.1., p. 2).
88
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
phores, étudiées au § 2. en commençant par un exposé des problèmes que pose la
délimitation de l’ensemble lexical qui doit être pris en compte. Celui-ci est conditionné
en particulier par le choix d’une approche synchronique ou diachronique des polysémies observées et par l’importance accordée au caractère inhérent ou non des figures
au domaine de la lexicographie (plutôt que de la traduction, de la sémiotique, etc.).
Dans la dernière partie du développement précédent, les noms trésor et thésaurus
font l’objet d’un commentaire typique de ce qu’une étude documentée par un corpus
comme Rcorp12 doit rendre perceptible. Il s’agit du décalage observé entre les valeurs
linguistiques et les emplois de ces deux items : le premier, trésor, est bien métaphorique quand il est employé dans le nom d’un répertoire notoire – le Trésor de la langue
française – et serait un bon candidat pour désigner un sous-ensemble d’objets particuliers au sein des répertoires métalinguistiques, ce pour quoi il n’est pas utilisé ; le
second, thésaurus, est bien un nom catégorisant (avec des extensions différentes en
français et en anglais), mais il n’est pas le produit d’une métaphore en français (elle
s’observait déjà en latin).
Le § 2.2., consacré à l’exposé des caractéristiques de la vingtaine de métaphores
repérées et étudiées, montre que si le lexique de la lexicographie est peu imagé 123, il
présente néanmoins quelques métaphores fonctionnelles, en particulier :
– pour nommer des ensembles de répertoires (mais en tenant compte des décalages qui
viennent d’être exposés pour trésor et thésaurus) ;
– pour exprimer la mise en relation de deux idiomes (encoder, encodage / décoder, décodage, en assimilant les langues à des codes 124) ou pour les nommer (grâce aux couples
langue source / langue cible, et langue de départ / langue d’arrivée) ;
– pour référer aux unités linguistiques sur lesquelles portent les articles (entrée, si on
pose comme première l’acception en tant que nom de la sous-partie introduisant l’article et par laquelle un lecteur entre dans ce dernier et comme seconde l’acception en
tant que dénomination de l’article 125 ; adresse, s’il s’agit bien d’un calque de l’anglais
address) ;
– ou encore pour nommer certaines organisations de la structure d’adressage des dictionnaires (niche / nid).
Les métaphores qui sont relevées dans les discours lexicographiques sont généralement assez banales, puisqu’on les trouve aussi le plus souvent en langue commune
ou dans d’autres espaces d’expression spécialisés. Les seules qui présentent une originalité sont celles construites sur niche et nid et employées pour référer à des types de
structures d’adressage, même si la première est comparable à ce qui s’observe en économie où il est question de niches de marché ou d’économie de niches.
L’étude lexicologique présentée dans T18 ne relève pas strictement de l’exploration de corpus, puisqu’aucun des aspects techniques de celle-ci n’est évoqué, mais plutôt de ce qui est documenté par celui-ci. Alors que les corpus sont constitués afin de
123 L’emploi figuré de dictionnaire pour désigner une personne érudite est cependant signalé en n. 40.
124 La n. 45 localise certaines réserves concernant cette assimilation.
125 Cette approche synchronique et fondée sur la fréquence des emplois est la seule qui permet d’observer une
métaphore, puisque, selon l’approche étymologique, le nom entry emprunté à l’anglais réfère à l’article tout
entier.
Document de synthèse – 1.4. Créer d’autres corpus thématiques
89
servir comme ressources pour ce type d’analyses comme pour des travaux lexicographiques tels que Rdic2 (ou Rdic3 concernant le football), T18 est pour l’heure la
seule publication uniquement linguistique corrélée au développement d’un corpus.
Cette originalité est probablement pour partie induite par l’importance particulière
dans ma pratique professionnelle de l’observation des spécificités d’expression que
recèlent les divers discours lexicographiques en fonction de leurs modalités d’énonciation, mais ce n’en est pas l’unique motif (cf. infra).
1.4.4. Conclusion : la thématisation des corpus ne garantit pas leur rendement
Quand, dès T2 et T3, des corpus thématiques ont été envisagés comme pouvant être
féconds pour les lexicographes qui recourraient ponctuellement à eux pour décrire des
emplois qui leurs étaient peu familiers, j’envisageais implicitement que ces ressources
devaient avoir un bon rendement exploratoire. Les travaux entrepris concernant les
commentaires de matchs de football (cf. T4 en particulier) ont cependant concrétisé
exemplairement que des documents qui relèvent d’un même domaine n’ont pas tous
la même qualité informative et que la sélection de chacun doit dépendre de celle-ci.
Les procédures de choix des discours représentés dans les corpus thématiques élaborés ont suscité des questionnements relatifs à leur caractérisation dont témoigne l’évocation (en introduction du § 1.3.) des travaux de Douglas Biber et de paramètres de
typage complémentaires que l’étude des commentaires footballistiques invite à prendre
en compte.
T18 fait écho à ces questions :
– son introduction situe la pluralité des discours lexicographiques pris en compte par
rapport à ceux observables concernant le football dans le cadre global de recherches
sur « la variation des lexiques thématiques en fonction des modalités d’énonciation » ;
– et le § 1. va plus loin en exposant des regroupements d’observations qui reflètent
deux ordres de traits associables à chacun des discours considérés :
• le premier est relatif à la diffusion des emplois (« partagés » (§ 1.1.), « inégalement
distribués » (§ 1.2.), « ancrés dans le milieu éditorial » (§ 1.3.), relevant de « spécialisations métalexicographiques » (§ 1.4.)) et subsume des typages non linguistiques des
énonciateurs et des destinataires des énoncés comme de la teneur de ces derniers ;
• le second révèle les influences lexicales étrangères dont témoignent les emprunts et
calques (§ 1.5.) et ne peut être fait qu’à l’issue d’une analyse linguistique.
Si T18 s’appuie sur ces types de caractérisations sans détailler leur importance
dans le cadre du développement d’un corpus comme Rcorp12, le présent mémoire
fournit l’occasion d’expliciter ce point et d’augmenter leur inventaire en rappelant que
d’autres critères de différenciation des discours où sont observées les unités lexicales
afférentes à la lexicographie sont encore pris en compte, à savoir ceux dont témoignent
les descriptions de Rdic2 et qui sont exprimés en leur sein par les attributs domaniaux
ou typant les attestations (de sources orales ou écrites) évoqués au § 1.4.3.
90
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Décalage entre les objets de recherche et de publication
La rédaction de cette synthèse fait ressortir un apparent paradoxe qui appelle une
analyse de ses causes : les corpus thématiques que j’ai entrepris de développer ont
suscité des questionnements relatifs au typage des discours relevant des domaines
considérés et ont vocation à documenter des études linguistiques – que leur forme soit
celle de développements lexicologiques comme dans T18 ou de productions lexicographiques comme dans Rdic2 –, mais la majorité des publications qui leur sont consacrées à ce jour accorde une plus large place aux aspects informatiques des traitements
de corpus qu’à l’analyse de leurs contenus.
Il existe donc un décalage entre le travail de recherche effectué et la visibilité qui
en est donnée, puisque s’il inclut nécessairement des manipulations informatiques et
les réflexions qui leur sont corrélées, il fait une large place aux études linguistiques
préalables, dont en particulier celles relatives aux typologies de discours, et à celles
rendues possibles par la disponibilité des données collectées à des fins d’observation.
Quatre motifs au moins semblent avoir pu infléchir ainsi l’axage des publications :
– le souhait de valoriser la formation de lexicographes que j’anime en promouvant sa
composante technique, ce qui n’est peut-être pas étranger au fait qu’aujourd’hui nos
étudiants soient bien accueillis dans les industries de la langue et dans les services
d’informatique éditoriale de maisons d’édition ou les entreprises de prépresse, pour
lesquelles la compétence en structuration de textes de différentes natures est primordiale ; 126
– les thématiques des volumes qui accueillent chaque contribution (T18, s’insérant
dans un ensemble de travaux sur la métaphore, valorise plus naturellement son ancrage linguistique que T10, par exemple, qui trouve sa place parmi des exposés plus
techniques relatifs à des traitements de corpus en lexicographie spécialisée) ;
– les influences des collaborations :
T8 a été conçu dans le cadre d’une participation à un projet taliste (OURAL, P2) dont
les objectifs étaient plus applicatifs 127 que linguistiques et T10 a été rédigé avec Hans
Paulussen, spécialiste du développement de corpus plus impliqué actuellement dans
des traitements informatiques que dans les analyses linguistiques 128 ;
• en revanche, à la différence des deux articles précédents, T18 a été coécrit avec
Pierre Corbin – avec qui j’avais déjà conçu et exploré le corpus footballistique de
multiplex (Rcorp1) au sujet duquel nous avons élaboré séparément des premières
rédactions thématiquement complémentaires (cf. supra § 1.3.) – et il a naturellement
•
126 Il est difficile d’évaluer la diffusion des textes scientifiques chez nos partenaires professionnels, mais je sais
par contre qu’un petit nombre d’entre eux a assisté à certains de mes exposés. Par ailleurs les échanges
avec eux ne se limitent pas aux contributions scientifiques, mais suscitent aussi des présentations informelles des travaux en cours au moment où nous dialoguons ou des recherches qui ont motivé des contributions étudiantes dont ils ont entendu parler ou dont ils ont observé les effets formateurs (chez un stagiaire
par exemple).
127 Comme je l’ai indiqué au § 1.4.1., les corpus constitués devaient en premier lieu être exploités par le VALORIA
pour des développements d’outils linguistiques conçus pour pallier les handicaps physiques de ceux qui
devaient les utiliser.
128 Sa thèse (Paulussen (1999)) fondait une analyse relevant de la linguistique cognitive sur des données observées en corpus.
Document de synthèse – 1.4. Créer d’autres corpus thématiques
91
trouvé sa matière dans les questions lexicales qui font notre quotidien de formateurs
soucieux de l’adéquation de leurs propres usages aux besoins dénominatifs rencontrés
comme à la qualité des descriptions lexicales élaborées aussi bien à titre d’exercices
avec les étudiants que dans le cadre de nos productions de recherche ;
– et le fait que, par essence, le choix d’une méthodologie et d’un outillage précède les
analyses qui le présupposent, dont le développement s’inscrit dans une durée plus longue
qui tend à différer la publication de résultats maîtrisés et consistants.
1.5.
Fournir une expertise technique
pour des corpus variés
Les travaux du début des années 2000, en particulier ceux relatifs au corpus de
multiplex transcrits (Rcorp1) et ceux du projet OURAL (P2 : Rcorp5 et Rcorp6), ont
enrichi mon expérience, et les exposés faits à Lille au sujet du premier corpus ont
contribué à rendre mon travail plus visible pour mes collègues locaux. De nouveaux
échanges se sont noués et de nouvelles collaborations ont vu le jour, qu’elles aient
donné lieu à des projets financés ou non. Sans entrer dans le détail des plus ponctuelles, il est nécessaire d’évoquer (§ 1.5.1.) le séminaire de recherche “Constitution et
exploration de corpus” (S1, cf. n. 13) mis en place à mon initiative. Institutionnalisés
durant l’année universitaire 2006-2007, les travaux de ce séminaire de l’UMR STL
(proposé plus largement aux étudiants lillois de l’école doctorale en SHS) ont débuté
au printemps précédent afin de recenser les besoins des futurs participants auxquels
les interventions devaient chercher à répondre et de préparer la contribution de l’UMR
au comité d’orientation de Frantext, où je l’ai représentée lors de la réunion à l’ATILF
de novembre 2006, ce qui a motivé la rédaction de Tdr2 (destiné aux membres dudit
comité), puis l’exposé E9.
Un des objectifs du séminaire était de rendre accessible à chacun des participants
les manipulations informatiques utiles pour les exploitations de corpus qu’il ambitionnait de réaliser en proposant des séances de traitements de données en plus des exposés théoriques et en espaçant nos réunions de manière à ce que chacun ait la possibilité de réemployer ses nouveaux acquis entre celles-ci.
Il est difficile d’évaluer l’impact de formation réel de ce travail collectif, même si
son exploitation dans certaines thèses soutenues ensuite est avéré. Par contre, il est
patent que le séminaire a joué un rôle d’incubateur de projets, puisque, pour ce qui
me concerne seulement, il a induit, directement ou par relais, que j’apporte une expertise technique à trois recherches qui vont être présentées ci-après :
– la structuration et la création d’une interface de consultation pour le corpus de textes
littéraires serbes / français / anglais (Rcorp15) réalisé dans le cadre du projet arrageois P3 à l’initiative de Dejan Stosic (§ 1.5.2.) ;
– l’exploration de l’œuvre étudiée par un doctorant littéraire (Matthieu Marchal) et la
structuration en XML du lexique constitué dans le cadre de cette analyse (§ 1.5.3.) ;
– l’annotation et la valorisation électronique d’un corpus de textes de mathématiques
en grec ancien (Rcorp14) qu’étudie Fabio Acerbi dans le cadre du projet Algo P4
(§ 1.5.4.).
94
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
1.5.1. Élargir les perspectives de collaborations [S1 ; Tdr2 (2006)]
J’ai proposé le séminaire S1 après avoir participé à une école thématique du CNRS
organisée à Caen en 2004 et constaté son effet stimulant sur les doctorants lillois qui
y participaient également. Animer avec trois autres enseignants-chercheurs de l’UMR
STL (Cyril Auran, Antonio Balvet et Ilse Depraetere) ces séances de travail qui avaient
vocation à réunir des linguistes, mais aussi des philosophes, des philologues et tous
ceux, membres de l’UMR ou de l’école doctorale, qui souhaitaient mieux connaître ce
qu’il est possible de faire avec des corpus, constituait pour moi un enrichissement :
ayant jusqu’ici travaillé en fonction des besoins exprimés par quelques linguistes ou
perçus chez les lexicographes, j’étais confrontée à d’autres attentes et aux contraintes
particulières d’autres contextes de recherche.
Réfléchir ensemble à des corpus d’oral ou d’écrits, mono-, bi- ou multilingues…
J’ai donc profité de cette occasion pour élargir mes compétences techniques et confronter d’autres méthodes de travail à celles que j’avais déjà expérimentées concernant
les trois thèmes retenus :
– les corpus oraux, que nous avons manipulés (en nous appuyant sur l’expérience de
Cyril Auran) avec l’outil de transcription Praat, mieux adapté que Transcriber pour
des études de phonétique et dont l’utilisation serait préférable pour une analyse du
corpus de multiplex footballistiques Rcorp1 comme celle envisagée avec ce collègue
(cf. § 1.3.2.) et articulant appréciation de la qualité de la voix, choix lexicaux effectués
et intensité des actions de jeu décrites pour relater celles-ci ;
– les corpus de sources écrites bilingues, au sujet desquels Hans Paulussen nous a exposé
les développements de corpus entrepris à l’époque à l’ALT Research Center on CALL
et pour lesquels nous avons réfléchi avec Ilse Depraetere aux modalités de conversion
en corpus alignés de textes traduits en utilisant des mémoires de traduction 129 ; 130
– et les corpus de sources écrites monolingues,
• qui m’ont donné l’occasion de manipuler de nouveau des ressources que j’avais exploitées antérieurement pour mes enseignements et parfois pour mes publications : les CDROM de presse, dont en particulier les archives du journal Le Monde, utilisées pour
T1, T3 et T4, et la base Frantext, jamais mobilisée pour l’un de mes articles mais à
laquelle est consacré le rapport Tdr2 ;
129 Ces échanges ont par ailleurs confirmé l’utilité d’une ouverture aux traitements de corpus bilingues pour
une forme de lexicographie consistant à élaborer des lexiques utilisables par les mémoires de traduction (ce
qui a motivé une direction de mémoire : Mdir78 (Guevara (2009)) et plus largement par des applications
informatiques multilingues.
130 Près de la moitié des étudiants de la formation professionnelle de lexicographes viennent de l’étranger (cf.
n. 2) et une large part d’entre eux et des étudiants bilingues ou trilingues de langue maternelle française
souhaitent ensuite travailler en lexicographie bilingue. Pour les initier à la constitution et à l’exploitation
de corpus bilingues ou multilingues, il est donc utile que j’aie réfléchi à différentes méthodes de collecte et
d’alignement des textes et que je guide chacun d’entre eux vers les choix les mieux adaptés en fonction de
leurs projets et des langues qu’ils souhaitent traiter.
Document de synthèse – 1.5. Fournir une expertise technique
95
• au sujet desquels des expériences d’annotation morphosyntaxique réalisées avec l’étiqueteur TreeTagger 131, relatées par Antonio Balvet, ont amélioré ma connaissance
de cet outil et m’ont permis de mieux le situer par rapport à Cordial Analyseur que
j’utilise ordinairement ;
• et pour lesquels j’ai souhaité valoriser ce que des structurations de corpus en XML
peuvent apporter en permettant d’intégrer des annotations aux données balisées et
de garantir un accès conjoint à ces annotations et au texte source par des requêtes dont
l’expression est incluse dans des transformations XSLT qui manipulent le document
structuré.
Sans couvrir l’ensemble des questions traitées ou des outils mobilisés dans le cadre
du séminaire, les points qui viennent d’être évoqués représentent pour moi, selon les
cas,
– des prises de repères sans réemploi immédiat mais mobilisables pour un futur projet
ou une direction d’étudiant ;
– de nouvelles manipulations de ressources en fonction des problématiques de recherche
de participants au séminaire, ce qui a contribué par exemple à enrichir le propos de
Tdr2 concernant la base Frantext ;
– des invitations à concevoir et à exploiter des corpus enrichis d’annotations dédiées
aux explorations visées, qui ont motivé mon implication dans les travaux présentés
aux §§ 1.5.2. à 1.5.4.
… comme à une ressource existante – Frantext – susceptible d’évolutions
Le séminaire S1 m’a permis de constater que la base Frantext était toujours régulièrement mobilisée par les linguistes de l’UMR STL et qu’il était donc légitime que nous
répondions à l’invitation à participer au comité d’orientation pour Frantext de novembre
2006 que nous avait adressée Jean-Marie Pierrel, directeur du laboratoire ATILF.
Le texte Tdr2 que j’ai rédigé après consultation des participants du séminaire préfigure l’exposé E9 fait en réunion. Son plan en cinq points a vocation à couvrir tous les
aspects pratiques de l’utilisation de cette base textuelle et des questions plus fondamentales concernant son contenu. Y sont successivement passées en revue la limitation de son accès, l’ergonomie de son interface graphique et des pages d’aide, la sélection des textes rendus consultables, les modalités d’exploration proposées et la présentation des résultats des requêtes (en particulier lors de leur rapatriement).
Si les questions d’accessibilité et d’ergonomie (§§ 1. et 2.), en dépit de leur incidence sur l’image de la base Frantext, peuvent néanmoins être considérées comme
relativement secondaires, les observations formulées concernant les enrichissements
131 Cet outil présente le double intérêt d’être gratuit et d’offrir des versions pour différentes langues, ce qui est
appréciable pour ceux qui ont besoin d’exploiter des corpus multilingues, dont toutes les composantes
peuvent ainsi être traitées avec le même outil, mais il présente aussi la double caractéristique d’être
paramétrable – et donc le plus souvent à entraîner avant emploi effectif – et de ne pas lemmatiser les
items étiquetés – cette lacune pouvant être contournée en le faisant coopérer avec le lemmatiseur Flemm
développé en 2000 par Fiammetta Namer (http://www.univ-nancy2.fr/pers/namer/Telecharger_Flemm.html),
afin que le second traite les données annotées par le premier et produise des triplets mot-occurrence original,
code morphosyntaxique et lemme.
96
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
textuels souhaités sont, elles, centrales, puisqu’elles concernent ce qui motive l’existence même de cette base textuelle. Selon l’exposé qui en est fait (§ 3. points a) et
b)), elles sont révélatrices des indéterminations qui prévalent chez beaucoup de ceux
qui souhaitent exploiter des corpus mais qui n’ont pas une représentation précise de
leurs besoins et/ou qui ambitionnent de disposer d’une ressource polyvalente (ce qu’est
ou que doit être Frantext selon certains). Parmi les élargissements suggérés pour l’intégration de nouveaux documents, des sources écrites semblent devoir être privilégiées
(l’oral étant supposé trop coûteux à traiter), mais sans exclure l’oral préécrit provenant
de scénarios de films ou de commentaires de documentaires, dans la mesure où cette
ouverture à d’autres types de textes permet de faire une place à une expression plus
actuelle et diversifiée. La position adoptée témoigne ainsi de réalisme (en n’envisageant
rien de coûteux), de pragmatisme (en suggérant de consulter les utilisateurs), mais
aussi d’exigence (en réclamant que la typologie des textes ne se limite plus à dix genres
mais soit amplement remaniée en fonction de différents paramètres de caractérisation
applicables à ceux déjà présents comme à ceux qui seraient intégrés).
Les linguistes qui documentent leur réflexion en consultant Frantext utilisent éventuellement conjointement d’autres corpus. Dans ce cas et en l’état actuel des choses
(§ 3. points c) et d)), les textes de Frantext étant explorables via l’interface de consultation dédiée et ceux de Frantext catégorisé étant de surcroît enrichis de codes morphosyntaxiques qui lui sont propres, ces utilisateurs sont obligés de manipuler plusieurs outils d’exploration et de mémoriser plusieurs jeux de codes d’annotation (dont
les différences correspondent parfois à des divergences d’analyse importantes). L’adjonction d’une possibilité de traitement d’un corpus personnel par l’outil d’exploration
de la base faciliterait naturellement leur travail, mais, à défaut, un étiquetage des textes
de Frantext catégorisé compatible avec ceux produits par au moins un des outils mobilisables pour les autres corpus éviterait de devoir composer avec la diversité des prétraitements 132.
Concernant les modalités d’exploration (§ 4.), outre la formulation de suggestions
de simplifications de codages dans les expressions de motifs de recherche, qui peuvent
être faites sans créer de problème particulier, ce sont des questions d’interfaçage du
Trésor de la langue française informatisé et de la base textuelle qui sont posées, puisque,
– d’une part, certaines requêtes formulées depuis le dictionnaire fournissent les mêmes
extractions textuelles de la base que quand elles sont formulées dans l’interface de
consultation de celle-ci, mais que ce n’est pas le cas pour toutes ;
– et que, d’autre part, le dictionnaire permet de créer des listes de mots répondant à
des critères énonçables plus précisément que ne le fait l’interface de consultation de
la base, ce qui motive le souhait que les listes issues du répertoire soient importables
comme motif de recherche 133.
Le dernier développement (§ 5.) est consacré à des remarques sur la présentation
des extraits retournés en réponse aux motifs de recherche exprimés. Outre la limitation
132 Il serait toutefois nécessaire de bien expliciter quel est l’outil qui a été mobilisé et, le cas échéant, quels en
sont les paramétrages.
133 En préparant Tdr2, je n’avais pas réussi à faire cette manipulation, mais un membre du comité d’orientation
de Frantext m’a dit que c’était possible (sans toutefois savoir m’expliquer comment procéder).
Document de synthèse – 1.5. Fournir une expertise technique
97
de la taille des contextes, qui, bien que motivée par de légitimes questions de prévention des piratages de textes, entrave trop souvent les études qui ont motivé la consultation de la base, ce sont la pauvreté des types de tri des résultats, mais aussi les absences
de formatages des textes rapatriés et la perte des codes morphosyntaxiques pour les
extraits issus de Frantext catégorisé qui sont déplorés.
Un ultime point est abordé (§ 5. e)) : le calcul des cooccurrences lexicales, qui ne
différencie pas les cooccurrents gauches et droits. Il n’est évoqué que rapidement, ce
qui ne reflète pas l’importance du problème soulevé mais le fait que la fonction de consultation incriminée n’est pratiquement pas employée par les membres de l’UMR STL
qui m’ont fait part de leurs utilisations de Frantext.
Que retenir des réflexions collectives relatives aux corpus et à la base Frantext ?
Depuis la tenue du comité d’orientation pour Frantext, la base textuelle a fait peau
neuve, sans toutefois évoluer dans les proportions envisagées par les différents membres
du comité.
Depuis la fin du séminaire S1, des évolutions sont également observables dans les
pratiques de certains participants, mais le rapport des linguistes aux corpus est complexe et, bien que les animateurs de ce séminaire aient été attentifs aux besoins exprimés, ils n’ont ni répondu à toutes les questions – ce qui est certainement normal dans
le cadre de travaux collectifs –, ni peut-être su assez suggérer des démarches de réflexion préalables à la consultation d’une ressource permettant aux linguistes de choisir
celle-ci et de l’aborder en ayant conscience de ce qu’ils attendent d’elle – ce qui est induit par l’axage technique des thèmes choisis à la demande des participants et par le
fait que les séances s’adressaient à des chercheurs qui avaient des besoins différents 134.
D’autres échanges, plus informels et ponctuels, offrent l’occasion de compléter ceux du
séminaire et de prolonger certaines des réflexions engagées.
Depuis 2008, d’autres modes de collaboration m’impliquant se sont mis en place pour
des entreprises de natures variées mais qui ont en partage de m’inviter à apporter une
expertise technique pour le traitement de textes que d’autres chercheurs étudient.
1.5.2. D’un corpus littéraire à une base textuelle en ligne [P3 ; Rcorp15]
Durant le séminaire S1, j’ai mieux fait connaissance avec Dejan Stosic (cf. § 1.3.4.),
qui ambitionne de constituer un corpus trilingue serbe / français / anglais pour soutenir
ses études linguistiques comme celles d’autres chercheurs ayant les mêmes langues
en partage. Dejan Stosic étant un utilisateur régulier de la base Frantext, son projet
en est inspiré.
Ce corpus de textes littéraires alignés a vocation à être consultable en ligne. Il est
réalisé en partenariat avec des doctorants et chercheurs de l’université de Belgrade
réunis autour de Duško Vitas, un mathématicien qui constitue déjà des corpus multi134 Ceux qui, comme les chercheurs évoqués aux §§ 1.5.3 et 1.5.4., étudient un texte ou un ensemble de textes
particulier ne sont pas concernés par le choix des sources de la même manière que les linguistes qui analysent
des énoncés variés.
98
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
lingues alignés xmlisés et qui exploite à cette fin différentes fonctionnalités d’Unitex 135.
De ce fait, collaborer à ce projet implique pour moi la prise en compte d’une nouvelle
méthode de constitution de corpus multilingue et enrichit ma connaissance d’Unitex,
déjà exploité pour d’autres besoins 136.
Dejan Stosic ayant constitué la liste des textes disponibles en serbe, en français et
si possible en anglais à rendre consultables en ligne par extraits intégrant un motif
de recherche exprimé dans une ou plusieurs des ces langues 137 – ce qui a impliqué de
repérer ceux qui sont librement utilisables et d’acquérir les droits d’exploitation des
autres –, la tâche des participants au projet consiste à numériser si besoin, nettoyer
et aligner les différentes versions de chacun de ces textes.
Pour ma part, je collabore avec Dejan Stosic à la définition de l’interface de consultation qui doit à la fois offrir les fonctionnalités les plus abouties et la meilleure ergonomie pour des non-spécialistes. Les orientations que nous avons définies en mai 2010
devant encore être discutées avec les partenaires serbes du projet, l’exposé présenté
infra reste donc programmatique.
Nous nous orientons vers la mise en place d’une base de données SQL dont les tables
sont générées par transformation des données textuelles alignées structurées en XML
avec Unitex par l’équipe de Duško Vitas et dont le contenu doit être interrogé au moyen
de scripts PHP.
Les premiers documents XML reçus de Belgrade – les versions serbe et française
d’un des textes – ont une structure simple, respectueuse de la TEI et conforme à la
DTD présentée en figure 20, dans laquelle les attributs @xml:id portés par les éléments
<div> et <s> et @id porté par le dernier seulement permettent d’identifier de manière
unique chaque segment de texte et de gérer les appariements d’éléments <s> des fichiers
des deux langues qui contiennent les segments de texte à aligner.
Figure 20. DTD des textes littéraires alignés du corpus Rcorp15
<tei>
<teiHeader>
<text>
<body>
<div>+ @xml:id
<p>+
<s>+ @xml:id @id
Le contenu de ces fichiers est enregistré dans une base de données (cf. figure 21),
dans laquelle
135 Dont la fonction d’alignement de textes qui y est intégrée depuis sa version 2.0 (cf. Paumier (2008, § 9.)).
136 Cf. T4 et T10 pour ce qui concerne des traitements de corpus (§§ 1.3.2. et 1.4.2.).
137 Ce qui est envisagé est inspiré de l’interface de consultation de la base Frantext, mais, dans la mesure où il
s’agit d’une compilation de textes bilingues ou trilingues, on peut également le comparer, dans une certaine
mesure, à ce qui est proposé par exemple dans TransSearch pour l’exploration des bases du Hansard réunissant les débats de la Chambre des communes et du Sénat canadiens (http://www.tsrali.com/).
Document de synthèse – 1.5. Fournir une expertise technique
99
– la table T_References et les tables qui lui sont liées (T_References_fr, T_References_sr
et T_References_en), qui contiennent les références des textes (issues des éléments
<teiHeader> des documents XML) réparties entre
• la première table pour les noms du ou des auteur(s) de la version originale, la langue et
la date de publication de celle-ci, ainsi que son genre textuel (cf. les champs Auteurs_VO,
Langue_VO, Date_publication_VO et Genres),
• et les tables liées dédiées aux versions d’une langue particulière pour les mentions
de titres, du ou des éventuel(s) traducteur(s), de l’éditeur, de la date de parution et, si
besoin, d’autres indications de référenciation (cf. les champs Titres_V…, Traducteurs,
Editeurs, Dates_publication_V…, Autres_references_V…, où le code de chaque langue
figure à la place des “…”) ;
– la table T_Alignements, qui contient les identificateurs des segments de texte à aligner
(les attributs @id et @xml:id des éléments <s> et @xml:id des éléments <div> les enchâssant dans les fichiers XML) 138 et un lien vers la table des références T_References pour
identifier les textes auxquels appartiennent les segments ;
– les tables T_s_fr, T_s_sr et T_s_en, qui enregistrent les segments de texte (les contenus des éléments <s> des fichiers XML de chaque langue) et leurs identificateurs (les
attributs @id et @xml:id des éléments <s> et @xml:id des éléments <div> les enchâssant).
Figure 21. Schéma de relations de la base de données
des textes littéraires alignés du corpus Rcorp15
Dans le cadre des premiers développements, l’interface de consultation doit permettre
– de définir le sous-corpus de travail, à la manière de ce qui est proposé pour Frantext,
en sélectionnant des auteurs et/ou des titres et/ou des genres et/ou une période de
publication ;
138 Il n’est pas certain que les trois identificateurs soient réellement utiles, mais par sécurité ils sont tous con-
servés.
100
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– d’affiner la définition du sous-corpus en choisissant la ou les langue(s) à prendre en
compte ;
– puis d’exprimer dans les champs d’interrogation dédiés à chaque langue sélectionnée
une forme lexicale à chercher dans les segments de ladite langue.
En fonction de la requête, l’interface doit retourner les segments pertinents alignés,
selon la demande, à ceux de la ou des autre(s) langue(s) sélectionnée(s).
La limitation aux formes des mots-occurrences est induite par le fait que les textes
du corpus Rcorp15 alignés et structurés en XML avec Unitex par l’équipe de Duško
Vitas ne sont ni lemmatisés, ni étiquetés morphosyntaxiquement, le traitement réalisé
pour eux étant le même que celui fait pour d’autres textes que Duško Vitas aligne et
explore avec Unitex en exploitant la capacité de cet outil à projeter les lemmes et indications morphosyntaxiques de ses dictionnaires sur les mots-occurrences (cf. § 1.3.2.).
Nous n’envisageons pas pour le moment d’étiqueter morphosyntaxiquement les
textes du corpus, mais la conception de la chaîne de traitements précédemment exposée est conçue de manière à pouvoir également gérer les versions des textes alignés
enrichies d’annotations (en ajoutant, dans les tables T_s_fr, T_s_sr et T_s_en, un champ
stockant la version étiquetée de chaque segment à côté de celui-ci, et en enrichissant
conjointement le formulaire d’interrogation du corpus).
À la différence de ce que j’ai indiqué concernant la majorité des corpus précédents,
et en particulier ceux relatifs au football et à la lexicographie, l’accent mis dans cet
exposé sur les aspects techniques de l’élaboration du corpus littéraire trilingue reflète
ce qui motive ma contribution à ce projet. Mobilisée pour mon savoir-faire informatique,
je vais trouver dans cette collaboration l’occasion d’enrichir celui-ci, puisque les procédures de prétraitement des textes incluent la création et la mise en ligne de bases SQL,
que je n’ai pas encore expérimentées pour de si gros volumes de données dans d’autres
contextes.
1.5.3. D’un corpus des versions et traductions d’un texte à l’édition critique parallèle de celui-ci [P5]
Depuis quelques années, des collègues lillois médiévistes et seiziémistes, membres
de l’équipe de recherche ALITHILA 139, qui élaborent des éditions critiques de textes
d’ancien ou de moyen français et de la Renaissance, témoignent d’un certain intérêt
pour la structuration en XML, à laquelle par ailleurs un étudiant de M1 TAL a réfléchi
il y a quelques années dans un mémoire que j’ai dirigé (Mdir34 (Bogaert (2005)).
De l’encadrement technique d’une édition critique élaborée par un doctorant…
Au moment où le séminaire S1 a pris son essor, ma collaboration avec ces collègues,
qui s’était jusque là limitée à des échanges de vues et des soutiens techniques ponctuels,
s’est intensifiée. Il s’est agi dans un premier temps d’une demande de la médiéviste
Marie-Madeleine Castellani concernant Matthieu Marchal, un doctorant qu’Aimé
139 Analyses LITtéraires et HIstoire de la LAngue, EA 1061, http://alithila.recherche.univ-lille3.fr/.
Document de synthèse – 1.5. Fournir une expertise technique
101
Petit avait, antérieurement à son départ en retraite, initié à l’édition de textes médiévaux, qu’elle encadrait seule depuis la cessation d’activité de ce collègue et qui a soutenu
sa thèse le 5 décembre 2009.
Matthieu Marchal, qui travaillait dans le cadre de celle-ci sur une édition critique
d’un roman de chevalerie anonyme du XVe siècle actuellement connu sous le nom de
Gérard de Nevers et résultant de la mise en prose du Roman de la violette écrit en
octosyllabes deux siècles plus tôt par Gerbert de Montreuil, a participé aux séances
du séminaire S1 pertinentes pour son étude et s’est inscrit en M2 LTTAC en 20062007 afin d’acquérir les compétences utiles à son projet de structuration en XML et
d’exploration de sa transcription du roman étudié.
Telle qu’elle avait été initialement envisagée, la structuration du texte, transcrit
dans un éditeur classique (Microsoft Word), devait en particulier permettre de repérer
toutes les occurrences de chaque unité lexicale, y compris en cas de graphie instable
(ce qui impliquait d’associer une forme conventionnelle aux différentes formes attestées), afin de pouvoir les étudier plus efficacement. Nos séances de travail et les cours
suivis en master LTTAC ont fait évoluer ce projet. D’une part, nous avons décidé de
l’utilisation d’Unitex pour repérer les variantes graphiques à baliser en créant un dictionnaire personnel associant à chaque forme attestée une forme lemmatisée conventionnelle, ce qui a permis que cet outil suffise aux besoins d’exploration du texte et
que le projet de son balisage soit reporté. D’autre part, le choix de structurer en XML
un glossaire beaucoup plus riche que ne le sont ceux habituellement livrés dans ce
type d’éditions, afin de pouvoir le manipuler pour procéder à des études lexicales développées comme pour en produire différentes versions présentant des sélections d’informations et des mises en forme variées, a suscité un important investissement et
l’acquisition de compétences en XML, XSLT et XSL-FO 140 (cf. Marchal (2009, vol. III :
9-25)) qui n’ont plus laissé à cet étudiant la possibilité de revenir à la structuration
du texte dans le temps dévolu à la préparation de son doctorat.
Nous projetons de poursuivre ensemble le travail engagé en reprenant la structuration en XML de son corpus textuel à partir, d’une part, du repérage des variantes
graphiques fait avec Unitex, à baliser en exploitant un transducteur (cf. § 1.3.2.), et,
d’autre part, du balisage des constituants structurels du texte à partir des styles de
paragraphes ou de caractères mis en place dans le document Word de la transcription
(comme cela a été réalisé pour le second texte du corpus des écrits de Danielle Corbin,
Rcorp8, cf. § 1.6.2.).
… à des projets d’éditions incluant des variantes textuelles
Cette première interaction avec des spécialistes de l’ancienne langue s’étant révélée
très stimulante, nous avons réfléchi à d’autres collaborations de recherche 141 qui, outre
Marie-Madeleine Castellani et Matthieu Marchal, impliquent également les seiziémistes Elsa Kammerer et Anne-Pascale Pouey-Mounou et qui portent en particulier
140 eXtensible Stylesheet Language - Formatting Objects (cf. n. 8).
141 Nous avons également entrepris une collaboration pédagogique qui nous conduit à proposer des enseigne-
ments de structuration de corpus de textes anciens en master de Lettres à partir de la rentrée 2010.
102
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
sur des structurations et des éditions critiques de textes 142 pour lesquelles sont disponibles plusieurs manuscrits ou éditions présentant des variantes et/ou plusieurs
traductions n’offrant ponctuellement pas les mêmes mises en équivalence. Pour ces
textes, ces collègues souhaitent que nous réfléchissions aux modalités de structuration
d’une version électronique compilant toutes les variantes (dans la langue originale et
la ou les traduction(s)) et de laquelle pourront être dérivées des éditions intégrales imprimées ou électroniques matérialisant les divergences (en présentant par exemple les
différents segments de texte en parallèle), afin que les lecteurs et analystes puissent
aisément repérer ce qui relève spécifiquement de telle source ou de telle traduction.
La première manifestation de cette collaboration est l’invitation que j’ai reçue à intervenir en mars 2011 dans le séminaire doctoral transfrontalier “Vie des mots, dynamique des langues : l’Europe, du Moyen Âge à l’époque moderne (langues, glossaires
et bases de données informatiques)” organisé par Elsa Kammerer dans le cadre du
projet ANR-DFG Eurolab “Dynamique des langues vernaculaires dans l’Europe de la
Renaissance. Acteurs et lieux” 143 (P5).
Les échanges avec ces quatre chercheurs au titre du projet Eurolab sont trop récents
pour que nous ayons véritablement engagé des travaux communs, mais ils doivent me
fournir l’occasion de réfléchir aux contraintes éditoriales de ces textes qui sont disponibles dans plusieurs versions à prendre conjointement en compte et qui peuvent donner lieu à une ou plusieurs traduction(s). À la jonction entre traitement de corpus et
informatique éditoriale, les éditions entreprises dans ce contexte me mettront en
situation d’expérimenter des solutions techniques dont un sous-ensemble est intersectif avec celles retenues pour l’édition critique des écrits de la morphologue Danielle
Corbin (cf. § 1.6.2.), mais qui présenteront la particularité d’impliquer la gestion de
segments de texte parallèles. Par ailleurs, travailler avec les collègues qui étudient
ces textes pourra me donner l’occasion de m’initier à leur contact à d’autres manières
d’observer les usages linguistiques et constituer un écho aux analyses de descriptions
relatives à l’origine et à l’histoire des unités linguistiques fournies dans les dictionnaires auxquelles j’ai consacré les articles T12, T13, T15 et T16 (cf. § 2.5.).
1.5.4. De l’étude de la “densité déductive” de théorèmes mathématiques à leur
publication électronique [P4 ; Rcorp14]
Le troisième projet de création de corpus qui m’amène à faire profiter d’autres chercheurs de mes connaissances techniques concerne des textes de mathématiques écrits
en grec ancien.
En 2008, Fabio Acerbi, chercheur à l’UMR STL, m’a proposé de l’aider à produire
ce qu’il a appelé un « logiciel d’analyse de la “densité déductive” d’un texte » dans le
cadre du projet ANR “blanc” intitulé “Structures déductives algorithmiques dans les
mathématiques pré-algébriques” (ou Algo, dans sa forme brève) qu’il porte avec Bernard
Vitrac (directeur de recherche au CNRS) et qui a débuté en 2009.
142 Selon les besoins de ces chercheurs, les textes étudiés datent du Moyen Âge ou de la Renaissance.
143 Ce projet est porté par Elsa Kammerer (université Lille 3) et Jan-Dirk Müller (Ludwig-Maximilians-
Universität Munich), cf. n. 15. Matthieu Marchal y participe en bénéficiant d’un contrat de postdoctorant.
Document de synthèse – 1.5. Fournir une expertise technique
103
Le texte grec étudié est celui des Données d’Euclide. Il contient quatre-vingt quatorze
théorèmes. La version prise en compte est celle que l’on trouve dans le Thesaurus
Linguae Graecae® version E (cf. http://www.tlg.uci.edu/about/history.php), qui correspond au texte de l’édition critique de référence proposée par Henricus Menge en 1896.
Ce texte comptant 124 225 signes, Fabio Acerbi considère qu’il constitue un échantillon
de taille raisonnable d’un point de vue statistique pour le type d’étude envisagé.
Pour ce texte dont les caractères ont été convertis en Unicode (Rcorp14), nous
avons conçu une structuration XML (respectueuse des recommandations de la TEI,
cf. figure 22) telle que soient balisés
– les théorèmes et les subdivisions internes de chaque théorème (énoncé, ecthèse, construction, démonstration, etc.) ;
– les ponctuations (virgules, points bas et points hauts) ajoutées postérieurement à la
rédaction ;
– et les items lexicaux simples et complexes qui marquent la progression déductive
d’une preuve mathématique, auxquels nous affectons en attribut une forme canonique
(permettant d’identifier les mots-occurrences quelle que soit leur forme graphique) et
un indicateur de valeur sémantique.
Figure 22. DTD du corpus des Données d’Euclide Rcorp14
<tei>
<teiHeader> <!-- Le détail de cet en-tête n’éclairant pas la présentation du corpus, il n’est pas exposé. -->
<text>
<body>
<div>+ @id <!-- Chaque élément <div> contient le texte d’un théorème (une proposition). -->
<p>+ @type @id <!-- Chaque élément <p> contient le texte d’une subdivision de théorème et est typé
de manière à ce que les énoncés, ecthèses, etc. soient sélectivement analysables. -->
(
#PCDATA <!-- Les subdivisions des théorèmes contiennent des items autres que ceux sur
lesquels porte l’analyse, ceux-ci ne sont pas balisés et constituent des “données” (DATA) de type
caractères (C) analysables par un parseur (P) (le dièse indiquant que PCDATA est un mot-clé
et non un nom de sous-élément). -->
OU
<w> @lemma @ana @id <!-- Chaque élément <w> contient un des items simples (constitués de
PCDATA) ou complexes (constitués de sous-éléments <w>) qui jouent un rôle dans la progression du raisonnement. L’attribut @lemma enregistre sa forme canonique et @ana sa valeur. -->
(
#PCDATA
OU
<w>+ @lemma @ana @id
)
OU
<c> @type @id <!-- Chaque élément <c> contient une ponctuation. L’attribut @type enregistre
s’il s’agit d’une virgule, d’un point haut ou d’un point bas. -->
)* <!-- Un élément dont le modèle de contenu est constitué de PCDATA et de sous-éléments réunis
dans une disjonction optionnelle et répétable contient en fait le plus souvent du texte et zéro,
une ou plusieurs occurrence(s) de chaque sous-élément placée(s) n’importe où dans celui-ci. -->
104
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Le premier de nos objectifs consiste en l’étude quantitative et qualitative des items
jouant un rôle dans l’expression du raisonnement en prenant en compte leur répartition dans les différentes parties des théorèmes et leur placement par rapport à celui
des ponctuations qui y figurent également. À cette fin, nous élaborons des procédures
d’extraction sélective des données structurées qui doivent éclairer les analyses. Les
transformations XSLT mises en œuvre doivent donc
– permettre d’évaluer la “densité déductive” de ces théorèmes, qui ne comportent pas
de notation symbolique mais seulement des expressions en langage naturel et qui sont
caractérisés par leur richesse en items structurant le propos ;
– et plus indirectement, faciliter l’étude de la ponctuation (qui a été insérée a posteriori)
et ses liens avec l’expression de la progression des raisonnements exposés.
Le second objectif est éditorial, le texte des Données d’Euclide devant à terme être
publié électroniquement sur le site Web du projet Algo et y être présenté avec une
sélection des extractions effectuées pour l’étude de sa “densité déductive” et des commentaires qu’elles appellent.
1.5.5. Conclusion : quand l’informatique éditoriale fait partie intégrante des
traitements de corpus
Les collaborations qui viennent d’être présentées ont trouvé naturellement leur
place dans mes travaux du fait de la fécondation mutuelle de mes investissements dans
deux domaines : les traitements de corpus, et en particulier ceux qui sont bilingues ou
multilingues alignés, et l’informatique éditoriale (que motive mon implication dans la
formation de lexicographes).
Traiter des corpus alignés bilingues ou multilingues mais aussi monolingues
Le travail concernant des corpus bilingues ou multilingues, réalisé depuis 2005 avec
Hans Paulussen et les étudiants de la formation LTTAC (cf. Rcorp7 et T10 (§ 1.4.2.))
puis dans le cadre du séminaire “Constitution et exploration de corpus” (S1) et avec
Dejan Stosic (cf. Rcorp15 (supra) et Rcorp16 (§ 1.3.4.)), m’a conduite
– à envisager l’exploitation de documents oraux transcrits, ou écrits issus soit du Web,
soit de mémoires de traduction, soit de procédures de numérisation des textes imprimés ;
– à aligner leurs différentes versions au moyen de scripts ad hoc, de fonctionnalités
disponibles dans Unitex ou en exploitant les mises en correspondance déjà créées dans
les mémoires de traduction ;
– à enregistrer leurs contenus
• dans des fichiers en texte brut (en calculant de manière précise que les segments à
aligner se trouvent dans des paragraphes de même rang dans les fichiers de chaque
langue 144),
144 Cf. T10 § 3.4. concernant le corpus de tourisme (Rcorp7).
Document de synthèse – 1.5. Fournir une expertise technique
105
• ou dans des bases de données SQL (les segments de texte alignés étant enregistrés à
raison d’une langue par table et des clés primaires et de jointure assurant leurs mises
en correspondance (cf. figure 21)),
• ou encore dans des structures XML (respectueuses de recommandations comme la
TEI 145 ou conformes à la DTD de Transcriber, l’outil d’alignement aux sources orales
utilisé pour Rcorp16 146, les tours de parole étant dans ce dernier cas alignés non
pas sur des bases linguistiques mais en fonction du temps écoulé depuis le début des
enregistrements transcrits) ;
– et à prévoir l’exploration des données en utilisant un concordancier (comme ParaSearch ou Unitex, cf. T10), des requêtes SQL ou des transformations XSLT.
Ces expériences variées m’ont confortée dans l’idée de faire coopérer les balisages
XML et les bases de données SQL dans les traitements de corpus que j’effectue, en privilégiant le XML pour les textes rédigés et le stockage dans des bases SQL pour les
données à interroger sélectivement à partir d’une interface Web. 147
En diversifiant les langues traitées, elles m’ont également permis d’envisager plus
en confiance d’apporter un soutien technique pour des travaux impliquant des langues
ou états de langue que je n’étudie pas, comme le français du Moyen Âge ou de la Renaissance, concernant lesquels les éditions critiques de textes impliquent également des
techniques d’alignement entre les différentes transcriptions ou éditions ou le cas
échéant avec la ou les traduction(s).
Mettre de l’informatique éditoriale au service de la valorisation des corpus
Si la formation de lexicographes a motivé de réfléchir à des traitements de corpus
pertinents pour la documentation des usages tels qu’ils s’observent dans les énoncés
spontanés, elle a également impliqué de prendre en compte, voire, dans la mesure du
possible, d’anticiper les évolutions relatives aux traitements dictionnairiques qui relèvent
non plus des lexicographes mais des informaticiens éditoriaux. A priori indépendantes
des problématiques d’informatique éditoriale, les collaborations qui viennent d’être évoquées ont fourni l’occasion d’apprécier la transférabilité des savoirs acquis dans le domaine éditorial au contact de nos partenaires professionnels.
Depuis le début des années 2000, les éditeurs ont progressivement compris les bénéfices éditoriaux de la structuration en XML des contenus dictionnairiques et fait une
part grandissante aux textes structurés et aux techniques de manipulation de ceuxci, dont en particulier l’élaboration de transformations XSLT 148. L’importance de ces
manipulations devait encore prendre de l’ampleur avec l’essor de l’édition numérique
145 Avant leur conversion en base de données, les textes bilingues du corpus d’Arras (Rcorp15) sont structurés
en XML respectueux des recommandations de la TEI (cf. figure 20).
146 Cf. § 1.3.4. (ou encore T5 § 2.3. et § 1.3.3., qui présentent l’utilisation de cet outil non pas pour Rcorp16
mais pour Rcorp1).
147 Ces expériences ont également alimenté mes cours, permettant à leur tour aux étudiants de diversifier les
leurs et leur ouvrant de nouvelles perspectives de recherches (cf. en particulier Mdir29 (Jouet (2004)),
Mdir36 (Béril (2005)), Mdir38 (Deguernel (2005)), Mdir67 (Ouhbad (2007)) et Mdir96 (Volkova (2009)),
qui se sont centralement intéressés à des problèmes d’alignement et/ou d’exploration de corpus alignés).
148 Alternativement une minorité utilise le langage de programmation Perl, qui dispose de modules spécialisés
pour le traitement de documents XML (cf. n. 8).
106
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
et il nous incombait de former de jeunes professionnels capables de s’insérer chez les
éditeurs comme dans les entreprises de prépresse qui posttraitent les textes pour les
mettre en forme (quand ce n’est pas fait en interne chez les premiers) avant leur publication imprimée ou électronique. En invitant en particulier Luc Audrain, responsable
de développements informatiques pour les différents éditeurs du groupe Hachette, à
intervenir régulièrement dans la formation, j’ai créé une dynamique de réflexion relative à l’emploi du XSLT et du XSL-FO puis du logiciel de PAO leader pour le traitement des textes xmlisés, InDesign, qui a trouvé un réemploi indirect en traitement de
corpus 149 pour des extractions de données, l’édition de leurs produits et bien entendu
la publication de leurs contenus dans le cadre d’éditions en ligne (le code HTML des
pages étant généré et inséré par des transformations XSLT dans les contenus textuels
à présenter) ou imprimées (les contenus structurés en XML étant prétraités en XSLT
avant d’être importés et mis en page dans InDesign). 150
Par ailleurs, les traitements de corpus précédents ont tiré profit d’échanges avec
Hans Paulussen et Serge Verlinde, enseignant chercheur à la K.U.Leuven, qui intervient dans le cadre des enseignements de lexicographie bilingue de la formation de
lexicographes depuis 2000 151, et qui, maintenant qu’il a pris en charge la gestion de
la base de données du DAFLES et son intégration dans une nouvelle interface de consultation en ligne, la BLF (Base lexicale du français), traite également des questions
de gestion de bases de données lexicales et de leurs interrogations par le biais d’interfaces Web. La collaboration de ces deux collègues dans le cadre du projet DPC (Dutch
Parallel Corpus) 152 et les évocations, par chacun, de leurs travaux communs pour la
mise en ligne du corpus développé dans ce cadre ont influencé mon choix de travailler
avec des bases de données dans celui du projet arrageois (Rcorp15, cf. § 1.5.2.), mais
aussi, et antérieurement à cela, pour certains paratextes de l’édition critique électronique des écrits de Danielle Corbin (Rcorp8) dont il sera question au § 1.6.2.
149 Depuis 2003-2004, outre une présentation annuelle des tâches qu’il réalise chez Hachette (cf. § 2.2.1.3. et en
particulier n. 264), Luc Audrain propose aux étudiants de la formation de lexicographes des manipulations
de textes dictionnairiques. Nous avons travaillé avec lui sur les articles rédigés du dictionnaire de la lexicographie (Rdic2, cf. §§ 1.4.3. et 2.7.3.), puis sur ceux du Larousse des débutants scanné et structuré (Rdic4,
cf. § 2.2.1.3.). J’introduis et prolonge ses enseignements par des manipulations de corpus structurés en XML :
le corpus des écrits de Danielle Corbin (Rcorp8) et celui de textes de lecture (Rcorp13), présentés respectivement infra aux §§ 1.6.2. et 1.6.1.
150 Luc Audrain n’a jamais participé à proprement parler aux travaux de recherche en traitement de corpus ou
en métalexicographie dans lesquels je me suis investie (les manipulations effectuées avec lui sur les contenus
de Rdic2 et Rdic4 étant à visée pédagogique), mais il a régulièrement témoigné de l’intérêt pour eux et a
formulé, les concernant, de précieuses observations ou suggestions qui ont très sensiblement amélioré mes
compétences, ce pour quoi je tiens à lui témoigner ma reconnaissance.
151 Il intervenait alors en binôme avec Jean Binon, avec qui il a rédigé le DAFA (Dictionnaire d’apprentissage
du français des affaires) puis le DAFLES (Dictionnaire d’apprentissage du français langue étrangère ou
seconde), et plus occasionnellement avec Thierry Selva, qui a mis en œuvre la structure de la base de données
qui contient le texte du DAFLES. Je souhaite remercier ces trois intervenants pour les échanges stimulants
que nous avons entretenus, et en particulier Serge Verlinde pour les compétences techniques qu’il m’a transmises.
152 DPC est un projet de constitution de corpus trilingue néerlandais / français / anglais, coordonné par la
K.U.Leuven Campus de Courtrai et la Hogeschool de Gand (cf. http://www.kuleuven-kortrijk.be/dpc) et
financé par l’Union Linguistique Néerlandaise dans le cadre du projet STEVIN (http://taalunieversum.
org/taal/technologie/stevin/).
Document de synthèse – 1.5. Fournir une expertise technique
107
Le travail en collaboration pour les traitements de corpus qui viennent d’être évoqués a impliqué de répondre aux besoins exprimés par mes partenaires en leur proposant ou en définissant avec eux des solutions techniques. Les réflexions qu’elles ont
suscitées ont contribué à me faire imaginer les recherches dont il va être question dans
la section suivante, qui restent toujours en liaison avec l’interprétation humaine de
données 153, mais qui ne reposent plus seulement sur l’observation des usages attestés
dans les énoncés réunis en corpus, puisqu’elles ont aussi vocation à apporter à ceux-ci
des enrichissements utiles pour des analyses textuelles dans le cadre d’études métalexicographiques d’une part, et linguistiques, terminologiques et épistémologiques d’autre
part.
153 Les analyses statistiques, bien qu’ayant un réel intérêt pour certains types de travaux, n’ont pas trouvé
leur place dans les recherches que j’ai accomplies jusqu’ici, ce qui ne préjuge de rien pour le futur.
1.6.
Définir des principes de structuration déterminés
par la nature des explorations prévues
Les corpus constitués à mon initiative depuis mon recrutement à Lille 3 ont été
principalement structurés en XML, ce qui a découlé du fait que je me suis initiée aux
principes de balisage en SGML 154 et en XML des textes dictionnairiques dès ma prise
de fonctions dans la formation de lexicographes et que, bien que néophyte en traitement de corpus xmlisés, je pressentais que baliser les données réunies en corpus les
rendrait aisément enrichissables et mieux explorables, soit au moyen de “dispositifs
expérimentaux” (selon la dénomination proposée par Habert (2005a : 2-3)) de mon cru
ou élaborés par d’autres (des transformations XSLT 155 ou des scripts Perl), soit avec
les outils qui ne manqueraient pas d’être développés.
Ce choix était documenté – les recommandations de la TEI et du CES connaissaient une certaine diffusion –, mais il m’imposait une double adaptation technique :
– d’une part faire évoluer mes méthodologies de manipulation de corpus, dans la mesure
où les outils que j’utilisais régulièrement (en particulier Unitex et Cordial Analyseur)
ne traitaient pas les textes balisés en tant que tels (ils agissaient sur les balises de la
même manière que sur le texte qu’elles structuraient) ;
– et d’autre part progresser dans ma capacité à concevoir des enrichissements adaptés
à des besoins exploratoires particuliers.
Les premiers enrichissements de données ont été intégrés à deux des corpus déjà
évoqués :
1) le corpus de multiplex Rcorp1, le premier dont certains des éléments ont été conçus en fonction des besoins des explorations à venir puisqu’ils permettent de repérer
les différents tours de parole et leurs éventuels recouvrements et d’étudier les entités
nommées balisées dans les transcriptions et auxquelles sont associées des indications
utiles à l’identification de leurs référents (cf. T5 § 2. et supra § 1.3.3.) ;
2) le corpus d’entretiens Rcorp6 développé dans le cadre du projet OURAL P2 (cf.
§ 1.4.1.), dont les étiquetages de chaque item avec lemme et code morphosyntaxique
sont de facture plus classique afin de permettre d’envisager de les exploiter avec un
154 Standard Generalized Markup Language (cf. n. 8).
155 Je tiens à remercier Sylvain Loiseau, avec qui j’ai eu des échanges féconds lorsqu’il élaborait le corpus étudié
dans sa thèse (2006) puis lors des cours et interventions qu’il a assurés dans notre formation de lexicographes
en 2003-2004 puis en 2006-2007, et qui m’a donné une des premières versions d’un concordancier qu’il a
développé en XSLT pour l’exploration de corpus respectueux des recommandations de la TEI.
110
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
nouvel outil – Xaira 156 – conçu pour l’exploration de corpus annotés conformes aux
recommandations de la TEI 157.
Dans un cas comme dans l’autre, les enrichissements pouvaient être manipulés avec
des transformations XSLT assez basiques, mais ils sont néanmoins restés relativement
sous-exploités dans le cadre des explorations qui ont déjà été réalisées, celles-ci se concentrant sur l’observation d’usages linguistiques que ces annotations ne documentent
qu’indirectement (cf. T4 ou P. Corbin (2005 et 2008a) pour Rcorp1 et Mdir66
(Méresse (2007)) pour Rcorp6).
Deux corpus dont la constitution a été entreprise plus récemment sont enrichis
d’annotations nécessaires aux explorations envisagées. Il s’agit
– d’une part d’un corpus de textes de lecture scolaires issus d’un manuel de français
(Rcorp13), dont chacun des presque 20 000 mots-occurrences est balisé et porte en
attribut des indications relatives aux traitements lexicographiques observés dans des
dictionnaires scolaires pour l’unité linguistique à laquelle il correspond ;
– et d’autre part d’un corpus compilant les écrits de la morphologue Danielle Corbin
(Rcorp8), au sein duquel les unités linguistiques en mention et leurs éventuelles descriptions, les termes employés, et les références faites à d’autres travaux sont balisés
et caractérisés de diverses manières au moyen de différents attributs.
La présentation succincte de chacun de ces travaux va fournir l’occasion d’évoquer
l’importance des balisages introduits pour les analyses que ces corpus doivent documenter, sans permettre cependant de pleinement expliciter les principes de leur mise
en œuvre et les modalités de leurs exploitations comme le font les textes rédigés à
leur sujet (respectivement T20 et Tdr4).
1.6.1. Le corpus de textes de lecture [T20 (à paraître d) ; Rcorp13]
La rédaction de T17 (cf. § 2.7.) a réactualisé un projet plusieurs fois différé : documenter s’il existe une disparité (et, dans l’affirmative, quelle peut être son importance)
entre les nomenclatures des dictionnaires destinés au public d’âge scolaire et la richesse lexicale des textes qu’il est susceptible de lire, en classe ou hors de l’école, afin
d’évaluer dans quelle mesure ces répertoires constituent effectivement un outil efficace
d’aide à la compréhension 158. Mon hypothèse est que les nomenclatures (autour de
156 Le nom de cet outil a varié : Sara, Xara puis Xaira, qui semble finalement avoir été préféré aux premiers (cf.
http://www.oucs.ox.ac.uk/rts/xara/ ou http://www.oucs.ox.ac.uk/rts/xaira/). Il a été présenté par Lou Burnard
aux Journées de linguistique de corpus de Lorient en 2003 (cf. Williams & Burnard (2005)).
157 Ceci impliquait cependant de convertir le balisage défini par les partenaires du projet et qui était en place
dans Rcorp6, qui a des mots-occurrences balisés avec des éléments <item> porteurs d’attributs @lemme et
@typegram (cf. T8 figure 4), alors que la TEI préconise des éléments <w> et des attributs @lemma et @ana.
Ces conversions de balisage n’ont finalement pas été faites.
158 Parmi les dictionnaires destinés aux élèves du cycle 2, le plus explicite quant à la prise en charge de cette
fonction est le Robert benjamin, dans son édition première de 1997 et jusqu’au tirage de 2005 de celle-ci, dont
l’« Avant-propos » indique qu’il « permet […] à l’enfant de mieux comprendre, à l’oral comme à l’écrit, en
apprenant dès le début de sa scolarité à chercher dans son dictionnaire les mots qu’il entend ou qu’il lit tant
qu’il ne sait pas avec aisance en expliquer le sens. » (p. 6). Plus succinctement, la révision de 2008 puis la
refonte de 2009 ne font que stipuler qu’il « permet […] une meilleure compréhension d’un lexique usuel ».
Document de synthèse – 1.6. Définir des principes de structuration
111
6 000 à 6 500 mots pour le cycle 2 et de 20 000 pour le cycle 3) privilégient le vocabulaire
fondamental que les élèves doivent acquérir mais qu’il faudrait une nomenclature plus
importante pour couvrir le lexique auquel les élèves peuvent être confrontés dans leurs
lectures scolaires ou périscolaires 159, et que, même pour les items figurant à la nomenclature, les explications souvent simples qui sont données sont parfois trop pauvres
pour soutenir la compréhension des mots dans les contextes dans lesquels ils sont rencontrés. 160
La constitution d’un corpus de textes de lecture proposés dans des manuels de français (Rcorp13) a ainsi été engagé en 2009, à l’occasion d’un stage effectué sous ma
direction par Stavroula Markezi, étudiante alors inscrite en M2 LTTAC. La rédaction
de T20 pour les actes des Journées de linguistique de corpus de 2009 (où j’ai présenté
C21 en nos deux noms) a fourni l’occasion de rendre compte de la teneur de cette collaboration et d’expliquer les objectifs et les contraintes d’élaboration du corpus, qui
doit permettre, outre la validation ou l’infirmation de l’hypothèse précédente, de réfléchir à ce qu’il faudrait développer afin de mettre en place un hyperappel du dictionnaire à partir de textes lus en version électronique (dans un manuel d’un environnement numérique de travail scolaire par exemple) 161. 162
Ce double objectif nous a conduites à effectuer successivement quatre opérations
articulées :
– numériser les textes retenus (ceux des lectures – textes narratifs ou documentaires
et poèmes – qui introduisent les séquences pédagogiques des éditions 2003 et 2009 du
manuel À portée de mots pour le CE1) ;
– en faire étiqueter les mots par Cordial Analyseur (et ainsi associer un lemme et un code
morphoflexionnel à chaque mot-occurrence, cf. § 1.3.2.), puis corriger ces annotations ;
– mettre en correspondance semi-automatiquement les mots-occurrences étiquetés et
les adresses catégorisées des articles d’un dictionnaire scolaire de même niveau publié
par le même éditeur (le Dictionnaire Hachette benjamin 163) ;
– et enfin étudier (sans outillage), pour les mots-occurrences des textes présents à la
nomenclature du dictionnaire, si les sens décrits dans ce dernier correspondent à ceux
qui sont attestés dans chaque contexte.
159 Les éditeurs indiquent ceci clairement. Concernant les dictionnaires pour le cycle 2 :
160
161
162
163
– « […] les mots que l’enfant connaît (et qui lui permettent de lire le texte), tout comme ceux qu’il doit apprendre pour progresser. » (Dictionnaire Hachette benjamin de 2007, « Préface », p. 4) ;
– « Le choix des mots définis (vocabulaire courant, mots-outils, mais aussi mots plus rares issus de contes)
[…] » (Larousse des débutants de 2005, « Avant-propos », p. 4) ;
– « Il permet également une meilleure compréhension d’un lexique usuel, il enrichit le vocabulaire disponible » (Robert benjamin de 2009, « Avant-propos », p. 4).
Cf. T17, et en particulier les notes 126 et 129 (concernant la coprésence de rédactions d’articles de complexité variable pouvant être choisies en fonction des compétences et des besoins du lecteur) et 136 et 137
(concernant les principes de sélection de nomenclature d’un dictionnaire électronique scolaire qui proposerait un hyperappel lors de lectures de textes sur support électronique).
Cf. T17 § 3.2.1.1.
L’introduction (§ 1.) évoque également le fait que le corpus pourra documenter des études métalexicographiques variées.
Le Dictionnaire Hachette benjamin (édition de 1996 ou de 2002) est exploité dans le manuel À portée de mots pour
le CE1 pour les exercices d’initiation à la manipulation des dictionnaires (pp. 114-119 en 2003 et 130-135 en 2009).
112
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Au moment de la rédaction de T20, le travail de numérisation et d’étiquetage des
textes des deux premiers manuels retenus avait été terminé (cf. §§ 1. à 3.), mais pas
tous les appariements des mots-occurrences du corpus et des adresses du dictionnaire
(cf. § 4.), ni, surtout, ceux des mots des textes et des subdivisions de description des
articles du répertoire qui en comportent plusieurs (cf. § 5.). À terme, l’objectif est d’annoter tout le corpus comme le sont le titre et les deux premières phrases du texte de
la figure 2 présentés balisés en figure 11 (et ci-après en figure 23), où, pour chaque
mot-occurrence contenu par un élément <w>,
– les valeurs des attributs @lemma et @ana ont été produites par Cordial Analyseur
(et revues manuellement) ;
– et celle de l’attribut @lemmaRef, mentionnée pour les mots décrits dans le dictionnaire
seulement, correspond à la concaténation
• d’un code identifiant le dictionnaire (DHB96 ), d’un slash et de la forme graphique
de l’item en adresse (comme, en 4e et 13e lignes, pour le nom sœur contenu par les
éléments <w> porteurs des attributs @n de valeurs "2003p008ph1-2" et "2003p008ph2-2") ;
• puis, pour les items dont des homographes non homocatégoriels sont décrits dans
d’autres articles, un tiret bas et un code catégoriel abrégeant celui du dictionnaire
(comme, en 5e et 14e lignes, pour le verbe être (est) contenu par les éléments <w>
porteurs des attributs @n de valeurs "2003p008ph1-3" et "2003p008ph2-3") ;
• et (i) pour les items décrits dans le dictionnaire comme étant polysémiques, un dièse
et le numéro de la subdivision de description pertinente pour éclairer le mot en contexte (idem), ou (ii) pour les items dont les descriptions du dictionnaire n’aident pas
la compréhension, un dièse suivi de ABS (comme, en 26e ligne, pour le verbe être (est)
employé en tant qu’auxiliaire contenu par l’élément <w> porteur de l’attribut @n de
valeur "2003p008ph3-7"). 164
Figure 23. Extrait de la page 8 du manuel À portée de mots CE1 de 2003 et 2009,
numérisé et xmlisé [cf. T20 figure 11]
Le balisage XML enregistre les appariements des lemmes des éléments <w> et des items en adresse
dans le Dictionnaire Hachette benjamin de 1996, et l’indication des ordonnateurs des descriptions de
ces derniers pertinentes pour éclairer la compréhension de chaque mot-occurrence du texte. Le <s>
(<s n="2003p008ph01">), qui reprend la phrase introductive du texte (<s n="2003p008ph02">), est luimême contenu par un élément <head> pour marquer qu’il s’agit du titre.
<head>
<s n="2003p008ph01">
<w n="2003p008ph1-1" lemma="mon" ana="DETPOSS">Ma</w>
<w n="2003p008ph1-2" lemma="sœur" ana="NCFS" lemmaRef="DHB96/sœur">sœur</w>
<w n="2003p008ph1-3" lemma="être" ana="VINDP3S" lemmaRef="DHB96/être_V#1">est</w>
<w n="2003p008ph1-4" lemma="un" ana="DETIFS">une</w>
<w n="2003p008ph1-5" lemma="sorcier" ana="NCFS" lemmaRef="DHB96/sorcier">sorcière</w>
<c n="2003p008ph1-6" type="punctuation" ana="PCTFORTE">!</c>
</s>
</head>
164 Il a été décidé, depuis la rédaction de T20, de mentionner également le nombre de descriptions de sens
proposées dans le dictionnaire pour l’item en adresse mis en correspondance avec chaque mot-occurrence
balisé (cf. Tdr5 et § 2.3.6.).
Document de synthèse – 1.6. Définir des principes de structuration
113
<s n="2003p008ph02">
<w n="2003p008ph2-1" lemma="mon" ana="DETPOSS">Ma</w>
<w n="2003p008ph2-2" lemma="sœur" ana="NCFS" lemmaRef="DHB96/sœur">sœur</w>
<w n="2003p008ph2-3" lemma="être" ana="VINDP3S" lemmaRef="DHB96/être_V#1">est</w>
<w n="2003p008ph2-4" lemma="un" ana="DETIFS">une</w>
<w n="2003p008ph2-5" lemma="sorcier" ana="NCFS" lemmaRef="DHB96/sorcier">sorcière</w>
<c n="2003p008ph2-6" type="punctuation" ana="PCTFORTE">.</c>
</s>
<s n="2003p008ph03">
<w n="2003p008ph3-1" lemma="on" ana="PPER3S" lemmaRef="DHB96/on_MINV">On</w>
<w n="2003p008ph3-2" lemma="ne" ana="ADV">ne</w>
<w n="2003p008ph3-3" lemma="savoir" ana="VINDP3S" lemmaRef="DHB96/savoir#2">sait</w>
<w n="2003p008ph3-4" lemma="pas" ana="ADV" lemmaRef="DHB96/pas_MINV">pas</w>
<w n="2003p008ph3-5" lemma="comment" ana="SUB" lemmaRef="DHB96/comment#1">comment</w>
<w n="2003p008ph3-6" lemma="ce" ana="PDS">c’</w>
<w n="2003p008ph3-7" lemma="être" ana="VINDP3S" lemmaRef="DHB96/être_V#ABS">est</w>
<w n="2003p008ph3-8" lemma="arriver" ana="VPARPMS" lemmaRef="DHB96/arriver#2">arrivé</w>
<c n="2003p008ph3-9" type="punctuation" ana="PCTFORTE">.</c>
</s>
Au-delà de ce que les appariements effectués montrent de la capacité du dictionnaire
à éclairer les lectures, ce corpus documente deux études prospectives (cf. Tdr5 (§ 2.3.6.)) :
– la première est orientée vers le développement d’une fonction de consultation d’une
éventuelle version électronique du dictionnaire par hyperappel pour la conception de
laquelle la comparaison systématique des formes des lemmes et codes morphoflexionnels
attribués par Cordial Analyseur et des adresses et catégorisations du répertoire doit
permettre d’évaluer si un outil comme celui employé serait susceptible de prétraiter
les contextes sources ;
– la seconde explore comment améliorer l’adéquation descriptive des articles du dictionnaire par l’évaluation de la capacité de leurs descriptions à aider les lecteurs à
surmonter leurs éventuelles incompréhensions lexicales et, quand les textes sources
proposent des gloses pour certains mots, par la comparaison de leur qualité informationnelle respective 165.
165 Les mots et expressions expliqués dans l’édition de 2003 du manuel sont tous absents du Dictionnaire
Hachette benjamin. Quatre parmi ceux décrits dans l’édition de 2009 le sont aussi dans le dictionnaire :
ITEMS
CONTEXTES DU MANUEL
avare
« Les habitants ne manquaient
pas d’argent mais comme ils
étaient avares, ils n’avaient
ni chiens ni chats. » (p. 88)
ébréché « Ses dents sont pour la plupart ébréchées, […] » (p. 34)
GLOSES DU MANUEL
DESCRIPTIONS DU DICTIONNAIRE
« avare : qui préfère
garder son argent et
ne pas le dépenser. »
(ibid.)
« ébréchées : abîmées ;
il manque un petit
morceau. » (ibid.)
« Qui veut garder son argent et ne pas le dépenser ni le donner. Cette vielle dame est très
riche, mais elle est quand même avare. (Le
contraire d’avare est généreux.) » (s.v. avare)
« Qui est cassé sur le bord. Ce vieux vase est
tout ébréché. » (s.v. ébréché)
hameau « Il n’avait rien à manger, ne « hameau : petit groupe « Groupe de maisons à l’écart d’un village.
croisant ni villages, ni had’habitations isolées. » Plusieurs agriculteurs habitent dans ce hameaux. » (p. 22)
(ibid.)
meau. » (s.v. un hameau)
pépite
« Toutes sortes de choses !
Des pépites d’or, des plumes
d’autruche, […] » (p. 40)
« pépites : petits mor- « Petit morceau d’or. Dans le sable de la riceaux de métal. » (ibid.) vière, on a découvert quelques pépites. » (s.v.
une pépite)
114
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Telles que les annotations du corpus sont conçues, elles documentent mes analyses
avec précision et permettent de montrer le bénéfice qu’il y aurait, pour que ces ouvrages
puissent jouer leur rôle d’aide à la compréhension des textes lus, à ce que la nomenclature des répertoires pour le cycle 2 comme le Dictionnaire Hachette benjamin soit
augmentée :
Plus de 800 unités lexicales sont présentes dans le corpus mais ne donnent pas lieu à description dans le Dictionnaire Hachette benjamin (cf. Tdr5, § 2.3.6.). Il s’agit de classes de mots
exclues de la nomenclature comme les déterminants (cf. figure 23), d’items assez typiques des
énoncés enfantins comme les adjectifs chouette ou marrant ou le nom abrégé récré, ou de mots
de la langue courante comme les verbes parvenir ou se raviser, les noms assemblée ou tournée,
etc.
et/ou à ce que les explications qu’ils fournissent soient enrichies :
Des unités lexicales comme par exemple les verbes être et prendre sont présentes à la nomenclature du Dictionnaire Hachette benjamin, mais les indications fournies pour elles n’éclairent
pas ou éclairent mal la compréhension de leur sens dans le contexte de lecture :
CONTEXTES DU MANUEL
DESCRIPTIONS DU DICTIONNAIRE
être (verbe)
« On ne sait pas comment c’est
arrivé » (éditions 2003 et 2009,
p. 8, cf. figure 23, dernière
phrase)
prendre (verbe)
« À la récré, elle va se maquiller dans les toilettes et après,
elle se prend pour une star ! »
(éditions 2003 et 2009, p. 30)
« 1. Verbe qui sert à dire l’état de quelqu’un ou de quelque chose. Elle est
grande. Quentin est mon frère. Ces livres
sont à moi.
2. Se trouver à un endroit. La chatte est
sur le divan.
Regarde la conjugaison page 5. » (s.v.
être)
« 1. Saisir avec ses mains. Maman prend
des verres sur l’étagère.
2. Faire un choix. Zoé a pris des tomates
en entrée.
3. Attraper. Le pêcheur a pris un poisson énorme.
4. Se servir d’un moyen de transport. Maman prend l’autobus pour aller travailler.
5. Commencer à brûler. Si le feu ne prend
pas, ajoute du petit bois.
Regarde la conjugaison page 8. » (s.v.
prendre)
ITEMS
Par rapport aux autres corpus constitués et évoqués précédemment, les types d’annotations ajoutés dans Rcorp13 ne sont pas très complexes, puisqu’il s’agit d’insérer
un attribut (@lemmaRef ) dans le balisage des mots-occurrences (les contenus des éléments <w>) à côté de ceux qui enregistrent leurs lemmes et codes morphoflexionnels
(@lemma et @ana) quand le Dictionnaire Hachette benjamin fournit une description
pour l’unité lexicale correspondante. Si, du point de vue du balisage, le traitement
Aucune des gloses du manuel n’est plus éclairante que la description proposée pour le même item dans le
dictionnaire. Les gloses d’ébréché et de pépite sont moins précises que les définitions de ces items.
Document de synthèse – 1.6. Définir des principes de structuration
115
mis en œuvre n’est pas compliqué, le calcul de la valeur de cet attribut présente en
revanche deux difficultés qui ne peuvent pas être surmontées de manière comparable :
– du fait des différences de choix de traitement de Cordial Analyseur et du répertoire,
l’automatisation des appariements des lemmes et catégorisations produits par l’analyseur et de ceux qui sont enregistrés dans les composants d’adressage des articles implique de prévoir les désaccords possibles (cf. § 4.) ;
– du fait de la diversité des sélections d’informations données dans les descriptions dictionnairiques et des manières dont elles sont exploitées par les lecteurs en situation
de recherche d’indices utiles à la compréhension des textes, l’évaluation de la capacité
des descriptions à éclairer le sens des mots en contexte ne semble pas pouvoir être
automatisable au-delà de quelques détections de cooccurrents lexicaux ou éventuellement de constituants syntaxiques typables sémantiquement comme certains sujets
ou compléments verbaux (cf. §§ 5. et 6., et également Tdr5 et § 2.3.6.).
La majorité des annotations introduites dans le corpus dont il va être question ciaprès ne l’ont, elles non plus, pas été automatiquement, mais les documents qu’il rassemble, contrairement aux textes de lecture de Rcorp13, sont enrichis dans des proportions très importantes.
1.6.2. Le corpus des écrits de Danielle Corbin [Tdr4 (en préparation a) ; Rcorp8 ;
Rcorp9 ; Rcorp10 ; Rcorp11]
Depuis 2007, Pierre Corbin assure un séminaire de master 166 mettant en perspective les premiers écrits de morphologie de Danielle Corbin (décédée en 2000) et différentes études lexicologiques développées autour des années 1970. Dans ce cadre, il
m’a proposé de réfléchir ensemble aux enrichissements qu’il pourrait être intéressant
d’apporter aux textes de la morphologue afin de les rendre mieux exploitables à des
fins linguistiques, terminologiques et épistémologiques, ce qui nous a amenés progressivement à concevoir le projet d’élaborer une édition critique électronique de ces travaux qui soit consultable sur le Web (et dont une version dérivée réduite pourrait
éventuellement être publiée sous forme imprimée).
Outre notre intérêt personnel pour cette lecture critique, la réédition des écrits d’une
chercheuse qui a renouvelé la recherche morphologique dans les années 1980-1990 et
qui a eu une forte influence sur les travaux élaborés dans ce domaine en France, serait
de nature, dans une période et un contexte de recherche international qui voient les
morphologues français réviser de nouveau leurs manières d’aborder les questions traitées et leurs perspectives d’études, à permettre aux chercheurs des nouvelles générations, qui n’ont jamais travaillé dans le cadre que Danielle Corbin a défini, de connaître
la genèse de son œuvre et de situer leur propre démarche par rapport à la sienne.
166 Ce séminaire est destiné aux étudiants de master Sciences du langage spécialités Linguistique (M1 et M2)
et LTTAC (M1).
116
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Définition du projet
Une première liste d’objets intéressants à repérer et à annoter dans les textes réunis
dans le corpus Rcorp8 a été établie :
– les références à d’autres textes (auxquels sont attribués des identificateurs normalisés), qu’elles soient accompagnées ou non de citations et de positionnements de la morphologue par rapport aux points de vue qui y sont exprimées ;
– les mots construits décrits par Danielle Corbin (incluant ou non des constituants
repérés et/ou décrits) ainsi que les gloses (valides ou conformes à ce que devrait être
le sens du mot s’il était construit d’une certaine manière) et les indications morphologiques qui sont fournies pour les unités lexicales ou infralexicales ;
– les termes avec leurs variantes et la spécification de leurs ancrages (domaine et,
quand c’est pertinent, auteur ou cadre théorique).
Après avoir cherché quelles sont les recommandations de la TEI concernant chaque
balisage souhaité et défini des compléments en fonction des besoins spécifiques de ce
corpus, j’ai expérimenté leur mise en œuvre sur les deux premiers textes (D. Corbin
(1973 et 1975)).
Le produit de ces xmlisations constitue une nouvelle ressource (Rcorp8) 167, dont
le balisage, enrichi et révisé à plusieurs reprises, se stabilise progressivement. Il est
manipulé au moyen de transformations XSLT qui permettent d’en extraire notamment
(i) tous les noms d’auteurs mentionnés ou tous les textes dont des extraits sont cités
avec la localisation de ces références dans les textes de la morphologue, (ii) tous les mots
construits à propos desquels Danielle Corbin fournit une décomposition en constituants,
une indication constructionnelle et/ou une ou plusieurs glose(s), en les triant par ordre
alphabétique, par ordre de mention dans le texte source ou par constituant inclus, ou
(iii) tous les termes qu’elle emploie, associés le cas échéant à l’indication du fait qu’ils
figurent aussi dans une source documentaire à laquelle elle se réfère.
Définition d’une méthodologie de balisage des documents efficace
La méthodologie de balisage adoptée pour les deux premiers textes traités a différé
dans le but de pouvoir déterminer celle qui sera la plus efficace à mettre en œuvre pour
les autres textes.
– Première méthode envisagée, appliquée à DC1
Pour D. Corbin (1973), le balisage a intégralement été réalisé dans l’éditeur XML
<oXygen/>, ce qui a permis de contrôler sa régularité et sa complétude au fur et à
mesure de son élaboration, mais qui a présenté l’inconvénient de “noyer” le texte source
au milieu des enrichissements et donc de rendre plus difficile la perception des segments textuels qui devaient encore être balisés (cf. figure 24).
167 Elle est régulièrement utilisée depuis 2007 pour des exercices relatifs aux corpus xmlisés proposés en M1
TAL et M2 LTTAC.
Document de synthèse – 1.6. Définir des principes de structuration
117
Figure 24. D. Corbin (1973, § 1.2.1.) balisé selon la DTD de Rcorp8
L’extrait ci-dessous reproduit un commentaire postposé à des analyses de préfixes reprises de Grevisse
(1964 : 95-102).
Il est formulé dans un paragraphe (<p>) d’une subdivision de niveau 3 (<div3> associé à un identifiant
dont la valeur combine celui du texte – DC1 – et celui de la subdivision – 1.2.1.) dont le titre (<head>)
se limite à la numérotation.
Il contient :
– trois termes enchâssés dans des éléments (<term>) qui portent trois attributs 168 : (i) @type, qui type
le référent du terme ( propriété d’unité linguistique pour sens ("Prop-U-Ling"), unité linguistique pour préfixe ("U-Ling"), et caractérisation constructionnelle pour préfixé ("Caract-Cons"), (ii) @subtype, qui code la
valeur d’un hyperonyme lexical du terme (dénomination du sens d’items lexicaux pour sens ("Denomsens-It-Lex"), item infralexical pour préfixe ("It-Infralex"), et qualification d’item lexical construit pour
préfixé ("Qualif-It-Lex-Cons"), et (iii) @resp, qui délimite l’ensemble des énonciateurs partageant la responsabilité d’un emploi terminologique donné (Danielle Corbin en sa qualité d’auteur de ce texte pour
sens et préfixé ("DC1"), et Grevisse (1964 : 95) et Danielle Corbin conjointement pour préfixe ("Grevisse64:95+DC1") ;
– des unités linguistiques en mention (<mentioned>), qui peuvent être des affixes (<m>), auxquels sont
associés une forme canonique (@baseForm) et un typage (@type), ou des unités lexicales (<w>), caractérisées, elles, par leur forme de mention (@form), leur lemme (@lemma) et un typage (@type) ;
– une référence à Grevisse (1964) par la seule mention du nom de l’auteur de ce texte (balisée au
moyen d’un élément <rs> (referencing string) porteur du code de la référence du texte comme valeur
de l’attribut @key et comme nom de personne (<name> avec @type de valeur "person") associé à la forme
standardisée du nom (@reg) ;
– des citations (<q>) dont les références sont codées (@key) et pour lesquelles il est spécifié que, dans
ce contexte, ce ne sont pas véritablement des citations mais des reprises d’exemples de Grevisse (@type
de valeur "thought").
Certains éléments (<mentioned>, <m> et <q>) peuvent enfin porter un attribut @rend si leur mise en
forme originale présente une particularité, comme des capitales non italiques ("caps_non-italic") ou des
soulignements ("underlined") là où on utiliserait plutôt actuellement des variations d’inclinaison ou de
degré de graisse.
<div3 id="DC1-1.2.1">
<p>
<head>1.2.1. </head>
Mise à part l’irrégularité dans l’attribution d’un
<term type="Prop-U-Ling" subtype="Denom-sens-It-Lex" resp="DC1">sens</term>
aux
<term type="U-Ling" subtype="It-Infralex" resp="Grevisse-64:95+DC1">préfixes</term>
(il n’en est pas donné pour
<mentioned rend="caps_non-italic">
<m baseForm="mal-" type="prefix">mal-</m>
</mentioned>,
<mentioned rend="caps_non-italic">
<m baseForm="mé-" type="prefix">mé-</m>
</mentioned>,
168 Les noms des deux premiers attributs (@type et @subtype) sont ceux que la TEI recommande d’utiliser pour
les éléments <term>, mais les types de valeurs qui leur sont associés dans Rcorp8 créent un biais puisqu’il
ne s’agit pas d’un typage et d’un sous-typage mais de deux typages, le premier étant relatif aux référents
dénotés alors que le second est sémantique.
118
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
<mentioned rend="caps_non-italic">
<m baseForm="non-" type="prefix">non-</m>
</mentioned>
), les exemples donnés par
<rs key="Grevisse-64:95-102">
<name reg="GREVISSE_Maurice" type="person">Grevisse</name>
</rs>
mêlent les mots actuellement sentis comme
<term type="Caract-Cons" subtype="Qualif-It-Lex-Cons" resp="DC1">préfixés</term>
(ex. :
<q key="Grevisse-64:96" rend="normal" type="thought">
<mentioned rend="underlined">
<w form="maladroit" lemma="maladroit" type="adjective">
<m baseForm="mal-" rend="caps_non-italic" type="prefix">mal</m>
adroit
</w>
</mentioned>
</q>
) et ceux qui ne le sont plus (ex. :
<q key="Grevisse-64:96" rend="normal" type="thought">
<mentioned rend="underlined">
<w form="maussade" lemma="maussade" type="adjective">
<m baseForm="mal-" rend="caps_non-italic" type="prefix">mau</m>
ssade
</w>
</mentioned>
</q>
).
</p>
</div3>
La difficulté qu’il y a à repérer les segments de texte qui doivent encore être traités
parmi ceux qui le sont déjà m’a incitée à baliser préférentiellement les objets textuels
selon leur ordre d’apparition plutôt que par sous-groupes (les termes, les mots construits, les références à des textes externes, etc.), au moins pour ce qui concerne leur
inclusion dans des éléments 169.
– Deuxième méthode envisagée, appliquée à DC2
Tenant compte du fait qu’il semble efficace d’enchâsser les objets à annoter dans
des éléments puis d’enrichir les informations associées à chacun d’eux par l’adjonction d’attributs, j’ai suivi une procédure différente pour baliser D. Corbin (1975). Le
texte source (dépourvu de toute mise en forme) a été stylé dans un traitement de
texte (comme c’est fait en figure 25 pour l’extrait de D. Corbin (1973) déjà balisé cidessus), puis converti en XML (cf. figure 26), les noms de styles devenant des noms
d’éléments.
169 Les ajouts d’attributs peuvent plus souplement se faire dans un second temps en sélectionnant les élé-
ments qui doivent les porter au moyen d’expressions XPath.
Document de synthèse – 1.6. Définir des principes de structuration
119
Figure 25. D. Corbin (1973, § 1.2.1.) stylé dans un traitement de texte
L’extrait est découpé en cinq paragraphes auxquels sont attribués les styles div3-p (pour les premier,
troisième et cinquième) et citation-dans-div3 (pour les deuxième et quatrième, présentés avec un retrait
à gauche).
Chaque paragraphe contient des segments de texte auxquels sont affectés des styles caractères : head
(en police arial gras) pour la numérotation de subdivision, term (en gras souligné) pour les unités
terminologiques, en-mention-M (en italique gras) et en-mention-W (en italique) pour les unités infralexicales et lexicales mentionnées, ref-publication-par-Npersonne (en petites capitales) pour la référence à Grevisse (1964) limitée au nom de l’auteur.
1.2.1. Mise à part l’irrégularité dans l’attribution d’un sens aux préfixes (il n’en est
pas donné pour mal-, me-, non-), les exemples donnés par GREVISSE mêlent les
mots actuellement sentis comme préfixés (ex. :
MALadroit
) et ceux qui ne le sont plus (ex. :
MAUssade
).
Figure 26. D. Corbin (1973, § 1.2.1.) balisé par conversion des styles présentés en figure 25
La conversion des styles de paragraphes en éléments de premier niveau et des styles de caractères en
éléments enchâssés dans les premiers fournit un texte structuré au sein duquel les anciens noms de
styles constituent désormais des noms d’éléments.
<div3-p>
<head>1.2.1.</head>
Mise à part l’irrégularité dans l’attribution d’un
<term>sens</term>
aux
<term>préfixes</term>
(il n’en est pas donné pour
<en-mention-M>mal-</en-mention-M>,
<en-mention-M>me-</en-mention-M>,
<en-mention-M>non-</en-mention-M>
), les exemples donnés par
<ref-publication-par-Npersonne>Grevisse</ref-publication-par-Npersonne>
mêlent les mots actuellement sentis comme
<term>préfixés</term>
(ex. :
</div3-p>
<citation-dans-div3>
<en-mention-W>MALadroit</en-mention-W>
</citation-dans-div3>
<div3-p>
) et ceux qui ne le sont plus (ex. :
</div3-p>
<citation-dans-div3>
<en-mention-W>MAUssade</en-mention-W>
</citation-dans-div3>
<div3-p>
).
</div3-p>
120
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Le balisage obtenu ne se conforme pas aux recommandations de la TEI et doit donc
subir une transformation qui lui permet de se rapprocher d’elles (cf. figure 27).
Figure 27. D. Corbin (1973, § 1.2.1.) balisé par transformation du balisage présenté en figure 26
Pour obtenir un balisage conforme aux recommandations de la TEI à partir du texte structuré précédent (au sein duquel les anciens noms de styles constituent des noms d’éléments), il convient ensuite
de procéder à quelques manipulations :
– les éléments <div3-p> et <citation-dans-div3> doivent être transformés en deux éléments imbriqués <div3>
et <p>, le dernier ayant un contenu mixte (constitué de données textuelles et de sous-éléments) réunissant les contenus textuels des anciens éléments <div3-p> et, dans des sous-éléments <q>, ceux des deux
<citation-dans-div3> ;
– les contenus des éléments <en-mention-M> et <en-mention-W> doivent être placés dans des éléments
<m> ou <w> enchâssés dans des éléments <mentioned> ;
– et celui de l’élément <ref-publication-par-Npersonne> doit être transféré dans un élément <name>, porteur de l’attribut @type de valeur "person", lui-même enchâssé dans un élément <rs>.
<div3>
<p>
<head>1.2.1. </head>
Mise à part l’irrégularité dans l’attribution d’un
<term>sens</term>
aux
<term>préfixes</term>
(il n’en est pas donné pour
<mentioned>
<m>mal-</m>
</mentioned>,
<mentioned>
<m>mé-</m>
</mentioned>,
<mentioned>
<m>non-</m>
</mentioned>
), les exemples donnés par
<rs>
<name type="person">Grevisse</name>
</rs>
mêlent les mots actuellement sentis comme
<term>préfixés</term>
(ex. :
<q>
<mentioned>
<w>maladroit</w>
</mentioned>
</q>
) et ceux qui ne le sont plus (ex. :
<q>
<mentioned>
<w>maussade</w>
</mentioned>
</q>
).
</p>
</div3>
Document de synthèse – 1.6. Définir des principes de structuration
121
Ce mode de traitement ne permet pas de baliser convenablement tous les objets :
Une citation peut contenir des mots construits en mention au sein desquels il est opportun de
repérer un affixe et une base (comme maladroit et maussade dans l’extrait précédent).
Mais la structuration obtenue peut être une première ébauche du balisage à venir, qu’il
convient de réviser, d’une part pour augmenter la profondeur des enchâssements d’éléments dans des cas comparables à celui qui vient d’être évoqué, et d’autre part pour
introduire les attributs pertinents dans les balises ouvrantes de ces éléments :
Dans le cas précédent, il s’agit en particulier des attributs qui permettent d’identifier la source
de chaque citation et, pour chaque mot construit ou affixe, sa “forme dénominative” (son lemme
ou sa forme de base).
Lors du traitement de DC2 à partir d’un balisage comparable à celui qui est présenté
en figure 27 pour produire une version commensurable à ce que montre la figure 24
pour le même extrait textuel, le travail d’enrichissement a posteriori a lui aussi exigé
beaucoup de minutie, mais le repérage des éléments majeurs principaux dans un document stylé non balisé est plus aisé que dans l’éditeur XML 170 et il est ensuite possible
de cibler les structurations internes de ces éléments et les ajouts d’attributs en traitant
tous les objets par sous-ensembles cohérents (toutes les citations, tous les termes, tous
les mots construits en mention, etc.), comme j’avais commencé à le faire pour DC1
(avant d’opter pour un balisage au fil du texte, cf. supra).
– Vers un moyen terme méthodologique ou un changement d’outillage
Les deux méthodologies ne semblent finalement pas devoir être conçues comme concurrentes, puisque le balisage simple obtenu avec la seconde méthode préfigure celui
qui ne peut être élaboré que dans un éditeur XML pour qu’il ait le degré de précision
requis.
Une solution alternative à la combinaison des deux méthodes précédentes pourrait
cependant passer par un changement d’éditeur XML. Pour obtenir une lisibilité du texte
source comparable à celle d’un traitement de texte dans un éditeur XML, il faudrait
que celui-ci soit capable de ne pas présenter le balisage mais de fournir une visualisation
du texte avec des mises en forme typographiques pour matérialiser l’appartenance de
chaque segment à un élément. Dans ce cas, si les contenus des éléments <w> et <m> par
exemple sont respectivement mis en italique et en gras, on verra « maladroit » comme
dans un éditeur de bureautique plutôt que « <w form="maladroit" lemma="maladroit" type=
"adjective"><m baseForm="mal-" rend="caps_non-italic" type="prefix">mal</m>adroit</w> », tout
en ayant pu délimiter tous les éléments et associer des valeurs à leurs attributs. Différents éditeurs XML permettraient de travailler avec ce type de visualisations 171,
170 Ceci est lié au fait que, dans le document stylé, même si les futurs balisages de différents objets sont matéria-
lisés par des mises en forme, le texte reste lisible de manière continue, alors qu’il faut enjamber les balises
dans le document xmlisé.
171 Il en existe au moins trois, un que j’ai manipulé et deux dont j’ai une connaissance indirecte par le biais des
partenaires professionnels de la formation de lexicographes :
– XMetal, dont j’ai utilisé la version 1.0 – compatible Windows 95, 98 et 2000 –, puisqu’en 1999 l’université
Lille 3 s’était dotée de licences pour la salle de cours que nous utilisions ;
122
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
mais ils ont un coût d’acquisition important, qui m’a conduite à privilégier d’abord la
recherche de solutions moins onéreuses.
Première présentation des travaux réalisés en vue de l’édition critique en projet
Le corpus des écrits de Danielle Corbin étant celui qui présente le plus haut degré
d’enrichissement des données sources et également celui qui bénéficie des procédures
d’extraction d’informations les plus avancées, il y aurait plus à dire à son sujet qu’il
n’est possible de le faire dans ce document de synthèse, où je m’en tiendrai à étoffer la
trame de présentation du projet ébauchée dans Tdr4.
Tdr4, en préparation 172, présente
– d’abord la méthodologie d’établissement des textes (§ 1.) ;
– puis les principes de balisage de quelques éléments et leur exploitation réalisée dans
le but d’obtenir des modalités de présentation enrichie au sein de l’édition critique électronique qui doit être mise en ligne concernant
• les analyses morphologiques de Danielle Corbin et leur confrontation d’un texte à
l’autre ou vis-à-vis d’autres auteurs (§ 2.),
• la manière dont la morphologue prend position par rapport aux travaux auxquels
elle réfère (§ 3.),
• et ses usages terminologiques (§ 4.).
Mais il est également prévu que l’édition électronique complète les propos de Danielle
Corbin en leur adjoignant (i) des paratextes qui explicitent ou synthétisent les points de
doctrine développés pour eux-mêmes ou à l’occasion d’une critique formulée à l’encontre
de travaux évoqués, (ii) des commentaires relatifs aux positions théoriques adoptées et
à leurs évolutions, et (iii) des informations externes, principalement de nature encyclopédique – des notes biographiques ou bibliographiques associées aux auteurs mentionnés, et des informations historiques relatives à des institutions. Ces enrichissements
textuels sont présentés au § 5. de Tdr4.
Outre la présentation des choix de balisage effectués dans ce corpus pour l’exploitation de son contenu dans le cadre d’une édition critique électronique, Tdr4 fournit une
première occasion d’évoquer l’usage qui est fait de certaines informations (extraites
du corpus et enrichies manuellement) stockées dans des bases de données qui doivent
constituer des paratextes des écrits de la morphologue. Cette articulation entre corpus
structuré en XML et bases SQL enregistrant des extractions ciblées du corpus afin de
les rendre disponibles selon des modalités de requête et de consultation aisées à fournir sur le Web résulte de la confrontation des expériences rapportées par différents
partenaires, en particulier ceux de la formation professionnelle de lexicographes 173.
– Arbortext Epic editor, utilisé en particulier chez Larousse ;
– et Altova XMLSpy, utilisé en particulier chez Hachette.
172 Soumis mais non retenu, au Colloque international de morphologie “Décembrettes 7” de Toulouse (décembre
2010), à la thématique duquel il ne se rattache que marginalement, il présente une rédaction condensée qui
appelle une amplification de ses développements dans la perspective d’une publication.
173 Je pense en premier lieu à trois intervenants, Luc Audrain, Hans Paulussen et Serge Verlinde, déjà évoqués à différentes occasions et que le § 1.5.5. mentionne conjointement.
Document de synthèse – 1.6. Définir des principes de structuration
123
Le plan de rédaction de Tdr4 traduit cette articulation en subdivisant chacune des
parties relatives aux analyses morphologiques, aux références bibliographiques et aux
usages terminologiques (§§ 2. à 4.) en trois sous-parties : (i) balisage XML, (ii) extraction des données balisées pour les stocker dans une base SQL, (iii) présentation des
paratextes que constituent ces bases dans le cadre de l’édition critique électronique
en valorisant les visualisations différentes que chaque sélection d’informations permet
d’offrir aux lecteurs.
Trois bases de données extraites du corpus : Rcorp9, Rcorp10 et Rcorp11
Les bases Rcorp9, Rcorp10 et Rcorp11 contiennent respectivement les références bibliographiques des textes que Danielle Corbin mobilise, les unités lexicales
et infralexicales qui y sont mentionnées (et, le plus souvent, analysées), et les termes
qu’elle emploie. Elles ont été constituées par extraction des contenus des éléments utilisés pour baliser ces différents objets (et certaines des informations qui leur sont associées, comme les éventuelles gloses des unités linguistiques traitées) dans les deux
textes structurés (DCI et DC2 ).
– Rcorp9 : la base bibliographique
La base SQL qui enregistre les références bibliographiques (Rcorp9) stocke, outre
le détail des références structurées, des indications relatives aux lieux et aux manières
dont Danielle Corbin évoque les textes référencés (mention, citation ou commentaire),
et, pour une sélection de ceux qui semblent avoir joué un rôle important dans les études
sur le lexique qui ont été développées à la même époque que les documents du corpus,
la recopie de leur plan.
Pour cette base les requêtes qui doivent être proposées en ligne permettent de repérer la concentration dans le temps des travaux auxquels se réfère la morphologue (cf.
a) ci-après), mais également l’omniprésence de certains auteurs (comme Jean Dubois),
la relative fréquence des citations et des commentaires, leur distribution dans chacune
des sous-parties des textes (cf. b)), etc.
a)
Toutes les références de D. Corbin (1973) sauf une sont concentrées dans la décennie qui
précède sa rédaction, dont une moitié publiée en 1970 et après.
b)
La nouvelle grammaire du français (Dubois & Lagane (1973)) par exemple est mobilisée dixsept fois dans D. Corbin (1973), principalement au § 3. Ce texte est (1) mentionné en n. 7,
(2) cité au § 3.2., (3) cité au § 3.2. et en n. 10, (4) commenté au § 3.3., (5) cité en introduction
du § 3.3., (6) cité au § 3.3.1., (7) mentionné au § 3.3.1.1., (8) mentionné au § 3.3.1.3., (9) cité
au § 3.3.2., (10) cité au § 3.3.3., (11) cité au § 3.3.4., (12) commenté au § 3.4., (13) cité en introduction du § 3.4., (14) cité au § 3.4.1., (15) cité au § 3.4.2., (16) cité au § 3.4.3., et (17) commenté
au § 3.5.
Le bon usage (Grevisse (1964)) n’est, lui, convoqué que cinq fois et seulement au § 1. Il est
(1) mentionné et cité au § 1.1., (2) commenté au § 1.2., (3) mentionné au § 1.2.1., (4) mentionné
au § 1.2.2., et (5) mentionné au § 1.2.4.
Les lecteurs désireux d’une part de mieux situer les travaux de Danielle Corbin dans
son environnement intellectuel et d’autre part de suivre l’évolution de celui-ci au fil de
ses publications devraient ainsi pouvoir trouver dans la base bibliographique Rcorp9
des éléments de réponse substantiels.
124
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– Rcorp10 : la base des unités lexicales et infralexicales
La base de données qui enregistre les unités lexicales et infralexicales mentionnées
par Danielle Corbin ou incluses dans des citations (Rcorp10) associe à chaque unité
construite sa ou ses décomposition(s) morphologique(s), telle(s) qu’elle(s) figure(nt)
dans le corpus, et à toutes les unités linguistiques en mention les indications constructionnelles et les gloses éventuellement proposées pour elles. La source de chaque
élément informationnel est enregistrée. Cette dernière consiste en une localisation
dans l’un des textes de Danielle Corbin et, le cas échéant, dans un texte cité par celleci, ce qui permet de repérer les convergences ou divergences existant entre les propositions d’analyses avancées par la morphologue et celles d’autres auteurs, voire les
critiques formulées à l’égard des secondes, mais aussi les variations qui peuvent advenir entre différentes analyses de Danielle Corbin développées dans des contextes et
à des moments différents.
Par exemple, les items maladroit et maussade sont mentionnés une première fois par D.
Corbin (1973 : 18, § 1.1.) dans une citation de Grevisse (1964 : 96) :
puis repris dans le commentaire des analyses présentées dans celle-ci (p. 18, § 1.2.1., cf. supra
figure 24).
Ces deux extraits balisés dans le corpus et exploités par une transformation XSLT fournissent
les indications suivantes (segmentées et enregistrées par champs informationnels distincts
dans Rcorp10 et textualisées ci-après comme les réponses aux requêtes effectuées dans la
base qui doivent être proposées aux internautes) :
maladroit
– Dans une citation de Grevisse (1964 : 96), cet item est mentionné sous la forme « MALadroit »
et analysé comme [mal- [adroit]Adj.]Adj. (cf. D. Corbin (1973 : 18, § 1.1.) ; repris à Grevisse
(1964 : 96) ; les unités linguistiques ne sont pas catégorisées dans le texte).
– Dans le commentaire de la citation de Grevisse (1964 : 96) introduite au § 1.1., cet item est
mentionné sous la forme « MALadroit » et analysé comme [mal- [adroit]Adj.]Adj. (cf. D. Corbin
(1973 : 18, § 1.2.1.) ; les unités linguistiques ne sont pas catégorisées dans le texte).
maussade
– Dans une citation de Grevisse (1964 : 96), cet item est mentionné sous la forme « MAUssade »
et analysé comme [mal- [ssade]Adj.]Adj. (cf. D. Corbin (1973 : 18, § 1.1.) ; repris à Grevisse
(1964 : 96) ; les unités linguistiques ne sont pas catégorisées dans le texte).
– Dans le commentaire de la citation de Grevisse (1964 : 96) introduite au § 1.1., cet item est
mentionné sous la forme « MAUssade » et analysé comme [maussade]Adj. (cf. D. Corbin (1973 :
18, § 1.2.1.) ; l’unité linguistique n’est pas catégorisée dans le texte).
Les données extraites du corpus et enregistrées dans la base Rcorp10 sont associées à des notes textuelles qui synthétisent les analyses développées dans le texte
source. Ces notes peuvent être présentées liées à la ou les occurrence(s) de l’item décrit ou, comme ci-dessous, répertoriées sous les items qui en sont les objets.
Document de synthèse – 1.6. Définir des principes de structuration
125
maladroit adj.
1. 1973, § 1.2.1. Maladroit est un mot qui est senti actuellement comme préfixé, contrairement
à maussade (ce que ne spécifie pas Grevisse (1964 : 96)).
maussade adj.
1. 1973, § 1.2.1. Maussade est un mot qui n’est plus senti actuellement comme préfixé, contrairement à maladroit (ce que ne spécifie pas Grevisse (1964 : 96)).
Les données extraites et les textes qui leur sont adjoints doivent permettre de
repérer les mots construits d’une manière particulière ou contenant un affixe donné
dans le cadre de l’édition en ligne des écrits de Danielle Corbin, mais ils ont également vocation à documenter un travail lexicographique réalisé dans le prolongement
du projet de “dictionnaire dérivationnel” entrepris par la morphologue (cf. D. Corbin
(1990), D. & P. Corbin (1991), pour le projet original, et Rdic5 et infra § 2.7.3. pour
celui qui a vocation à en être une nouvelle version élaborée à partir des données du
corpus Rcorp8 et de la base Rcorp10).
– Rcorp11 : la base terminologique
La base des termes employés par Danielle Corbin (Rcorp11) constitue un inventaire lexical constitué par extraction des termes balisés et annotés dans le corpus des
textes au moyen de trois attributs :
– le premier fournit une information référentielle en codant si le terme balisé nomme
une unité linguistique, une opération de construction ou autre chose ;
– le second apporte une indication sémantique, sa valeur étant celle de l’hyperonyme
du terme qui semble le mieux adapté au contexte d’emploi ;
– le troisième, celui dont la valeur est la plus difficile à déterminer , spécifie si le terme
est emprunté par la morphologue 174 ou s’il relève de son usage.
La transformation XSLT qui extrait chaque terme balisé et sa localisation (dans le
texte du corpus et, en cas de citation, dans le texte source) fournit les premiers éléments nécessaires à la description des termes employés :
Le terme préfixe, par exemple, est employé trois fois par D. Corbin (1973 : 17-18) : § 1.1. en bas
de la p. 17 :
et p. 18 dans les deux contextes cités supra.
Ces trois occurrences balisées dans le corpus et extraites par une transformation XSLT fournissent les indications suivantes (enregistrées par segments dans des champs distincts de
Rcorp11 et textualisées ci-après comme les réponses aux requêtes que les internautes pourront formuler) :
préfixe
– Dans le texte, ce terme est employé comme hyponyme d’affixe, il réfère à une unité linguistique et il relève des usages de la morphologue (cf. D. Corbin (1973 : 17, § 1.1.)) ;
– Dans le titre dominant une liste de citations extraites de Grevisse (1964 : 95-102), ce terme
est employé comme hyponyme d’affixe, il réfère à une unité linguistique et il relève des usages
de l’auteur cité ou de celui de la morphologue (cf. D. Corbin (1973 : 18, § 1.1.)) ;
174 S’il est facile de repérer les emplois terminologiques inclus dans les citations, ceux qui peuvent résulter
d’influences textuelles non explicitées sont malaisément détectables.
126
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– Dans le commentaire de la liste de citations extraites de Grevisse (1964 : 95-102) introduite
au § 1.1., ce terme est employé comme hyponyme d’affixe, il réfère à une unité linguistique et
il relève des usages de la morphologue (cf. D. Corbin (1973 : 18, § 1.2.1.)).
Mais les balisages actuellement présents dans le corpus ne permettent pas de documenter aussi bien toutes les analyses terminologiques qui pourraient s’avérer pertinentes et pour lesquelles il est opportun de prendre également en compte les notes
textuelles ajoutées dans la base Rcorp11. Pour préfixe dans les contextes précédents,
les notes ci-dessous indiquent d’une part, concernant la première occurrence de ce
terme, qu’il est présenté dans le texte comme étant un hyponyme d’affixe et d’autre
part, concernant les deux occurrences suivantes, que l’association d’une description
sémantique aux préfixes mentionnés est irrégulière chez Grevisse (1964) :
préfixe
1. 1973, § 1.1., p. 17 Les préfixes sont un sous-ensemble des affixes.
2. 1973, § 1.1. et § 1.2.1., p. 18 Les préfixes se voient irrégulièrement attribuer un sens dans
Grevisse (1964 : 95-102).
Ces informations sont présentes dans le texte balisé, mais ce n’est pas la manipulation du seul balisage qui permet de les extraire :
– l’indication du fait que les préfixes sont définis par Danielle Corbin comme constituant
un sous-ensemble des affixes n’est pas corrélée à l’attribut présent dans le balisage du
terme, mais à la cooccurrence des trois termes affixe, préfixe et suffixe, les deux derniers figurant entre parenthèses après le premier ;
– le commentaire portant sur la non-systématicité des indications sémantiques fournies
par Grevisse (1964) est explicitement formulé par la morphologue au § 1.2.1., mais il
n’est pas spécifiquement balisé et il est appuyé sur l’observation du fait que, dans la
liste des préfixes figurant dans les citations de cet auteur présentes au § 1.1., certains
sont associés à une glose (c’est le cas pour dé- : « indiquant séparation, division, négation » (cf. supra)), alors que d’autres (comme mal-) ne le sont pas.
L’inclusion des préfixes dans l’ensemble des affixes telle qu’elle est exprimée p. 17
peut être repérée par une transformation qui chercherait spécifiquement à détecter
ce type de définitions en extension et qui s’appuierait sur le fait que des termes sont
listés entre parenthèses à la suite d’un premier terme.
La présence irrégulière de gloses de préfixes dans les citations introduites par un
titre contenant une occurrence de préfixe qualifié par l’adjectif négatif ne serait repérée, elle, qu’en cherchant à déterminer si en employant ce qualifiant la morphologue
a synthétisé les informations sémantiques citées ensuite ou si elle les a complétées.
Cette fois encore la recherche est techniquement possible – il suffirait de vérifier la
coprésence des préfixes et de gloses portant sur chacun d’eux dans les citations –,
mais il est probable que sans une certaine connaissance du texte elle n’aurait pas été
envisagée, puisque ce qui la motive est l’observation d’une part de l’adjectif négatif
qui qualifie la première occurrence de préfixe mais qui n’est pas balisé, et d’autre part
du fait qu’une autre occurrence de ce terme est incluse, quelques paragraphes plus
loin, dans le commentaire relatif à l’irrégularité observée.
Le dernier point éclaire l’interdépendance des analyses outillées et manuelles. S’il
est probable que le balisage des textes trouvera encore à s’enrichir pour mieux servir
Document de synthèse – 1.6. Définir des principes de structuration
127
les besoins exploratoires, il semble également patent que la finesse des analyses formulées dans les paratextes de l’édition critique sera fortement dépendante de la qualité
des lectures que les analystes feront conjointement des textes originaux et des extractions ciblées.
Les enrichissements et les manipulations opérées jusqu’ici montrent le potentiel du
corpus Rcorp8 (associé aux bases SQL Rcorp9, Rcorp10 et Rcorp11). La diffusion
de Tdr4 doit permettre de présenter ce projet. S’il trouve un accueil positif auprès de
morphologues, d’épistémologues ou d’historiens des sciences et qu’il fédère des collaborations, ce travail pourra faire l’objet d’un projet de recherche financé. Mais qu’il
profite d’une dynamique collective 175 ou que son élaboration n’implique durablement
que Pierre Corbin et moi, la valorisation de l’intégralité des travaux de Danielle Corbin
au moyen de cette lecture originale de ses recherches rendue consultable en ligne constitue un projet auquel nous souhaitons nous consacrer.
1.6.3. Conclusion : Annoter un corpus en prévision des explorations à venir
Les recherches qui ont motivé la création des corpus présentés dans le paragraphe
qui se termine nécessitent d’exploiter intensivement les enrichissements intégrés dans
le balisage des textes réunis et accroissent la part des manipulations informatiques de
ces documents structurés dans les analyses de leurs contenus.
Ces enrichissements des documents primaires ont un certain coût de mise en œuvre.
Ils impliquent donc de définir avec une précision particulière les besoins qui les motivent et les méthodologies d’exploration qui permettront d’en tirer le meilleur profit,
puis, une fois les objectifs clairement identifiés, de décider des modalités d’intégration
dans les textes des annotations puis des procédures de leur contrôle.
Concentrés sur un seul type d’objets, les enrichissements apportés aux textes de
lecture (dans Rcorp13) ont mobilisé un petit nombre d’éléments différents et ont
introduit peu de profondeur structurelle dans le document XML. La complexité de
leur introduction dans les textes est progressive, puisqu’une partie du balisage est
produit par conversion des analyses générées par un analyseur morphosyntaxique
qui prétraite les textes, et que ce n’est qu’ensuite qu’il faut gérer les appariements
des éléments <w> du corpus et des indications des composants d’adressage du dictionnaire, puis, surtout, des valeurs des mots-occurrences balisés avec les descriptions
syntaxico-sémantiques proposées dans les articles.
Les annotations des écrits de Danielle Corbin (dans Rcorp8) sont plus fournies que
les précédentes. Ce sont également les plus complexes parmi celles que j’ai déjà mises
en œuvre, du fait des trois dimensions (linguistique, terminologique et épistémologique)
prises en compte pour l’étude des textes, de la diversité des objets qui sont balisés en
175 Les chercheurs volontaires pourraient être mobilisés pour des analyses terminologiques, linguistiques voire
épistémologiques, mais ne pas devoir manipuler directement le corpus xmlisé s’ils ne sont pas familiers de
ce type d’objet. Dans l’hypothèse d’un projet financé, si des contributeurs pouvaient être rétribués pour leur
travail (par le biais de contrats postdoctoraux ou de vacations), l’intensification du rythme de travail conduirait à souhaiter les faire intervenir sur l’élaboration des balisages comme sur les analyses, en les encadrant très minutieusement afin de garantir la cohérence de l’ensemble des enrichissement du corpus.
128
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
leur sein, de la qualité de lecture qu’exige leur annotation et de la solidité des connaissances linguistiques qui doivent être mobilisées afin d’interpréter correctement les
développements traités. Ce sont enfin celles pour lesquelles il a été le plus utile d’articuler leur élaboration et les développements des transformations qui procèdent aux
extractions pertinentes pour les analyses, de manière à ajuster les modes d’expression
des premières en fonction des contraintes manipulatoires des dernières.
Les corpus présentés dans ce paragraphe sont par ailleurs ceux qui sont les plus
éloignés des ressources qui ont motivé mon implication dans les traitements de corpus,
puisque les lexicographes, à qui sont principalement dédiées mes recherches (cf. § 1.1.),
n’ont ni les moyens ni en fait de raison d’entreprendre des travaux comparables à ceux
qui viennent d’être évoqués. Même celui qui est le plus proche de leurs centres d’intérêt, le corpus dédié à des analyses métalexicographiques (Rcorp13), a peu de chances
de trouver de corrélat dans les maisons d’édition, sauf éventuellement pour ce qui concerne la réflexion relative à une fonction d’hyperappel de dictionnaire. Il est cependant
probable que pour développer celle-ci la méthodologie choisie ne passerait pas par l’annotation contrôlée d’un corpus mais plus simplement par des procédures de test effectuées sur des compilations de données textuelles éventuellement non structurées.
Sans être directement liés aux pratiques des lexicographes, les corpus développés
ont cependant des implications lexicographiques directes qui se matérialisent, pour
Rcorp13, par le projet de rédaction de descriptions de sens mieux capables de soutenir les efforts de compréhension des textes lus par les écoliers (cf. § 2.3.6.) et, pour
Rcorp8, par la mise en chantier d’une nouvelle version du “dictionnaire dérivationnel” (Rdic5, cf. supra et § 2.7.3.).
1.7.
Conclusion : place des traitements de corpus
La documentation des usages linguistiques en corpus constitue une pratique à laquelle je suis durablement sensible, non du fait de réserves à l’égard des approches
introspectives, mais par intérêt pour des usages extérieurs à ma compétence de locutrice, ce qui était le cas pour les emplois d’une partie non négligeable des noms d’instruments pris en compte dans ma thèse, et qui l’est aujourd’hui des modes d’expression
des commentaires de matchs de football ou d’autres espaces thématiques étudiés.
Mon rapport aux corpus est pratique plus que théorique. Je ne cherche pas à affirmer des positions de principe, ambitionnant seulement de défendre la pertinence des
choix faits en fonction des besoins documentaires à visée linguistique, lexicographique
ou métalexicographique auxquels répondent les ressources constituées et explorées.
En conséquence, s’il peut m’arriver de formuler des réserves vis-à-vis d’autres travaux,
elles se fondent sur la non-pertinence d’une transposition de leur méthodologie dans
le cadre de mes recherches, sans préjudice de ce qui les rend intéressants en eux-mêmes.
Témoigner de cette attitude dans ce mémoire impliquait de revisiter une sélection
des lectures documentaires que j’ai effectuées et des textes auxquels je me suis référée
pour définir mes propres choix, afin d’évaluer comment se positionnent leurs auteurs.
C’est la rédaction de ce retour sur mes travaux qui m’a permis de prendre conscience
que, lorsqu’il est question de traitements de corpus, mon propos n’est pas de proposer
un cadre plus adéquat qu’un autre pour résoudre une question théorique, mais bien
de répondre à des besoins pratiques en expérimentant des procédures, en transmettant des compétences techniques ou en présentant des outillages que j’ai contribué à
développer ou simplement utilisés.
Parmi les sources documentaires référencées dans mes publications, trois sousensembles thématiques sont repérables et présentés ci-après.
Une partie des publications exploitées sont de portée générale, tant pour ce qui concerne les types d’explorations que les corpus doivent documenter que pour les aspects
plus techniques qu’elles abordent (cf. Habert, Nazarenko & Salem (1997), Habert, Fabre
& Issac (1998), et Habert (2005a et 2005b), et, spécifiquement centrés sur la TEI, la
courte contribution de Ide & Véronis (1996) ou, dans le même volume, le texte plus
didactique de Burnard & Sperberg-McQueen (1996) et plus récemment les recommandations de la TEI P5). Ce sont des références utilisées pour la recherche aussi bien
que pour l’enseignement, comme peuvent également l’être une sélection de celles qui
abordent certains modes d’étiquetage de corpus (cf. Paroubek & Rajman (2000), Valli
& Véronis (1999) pour les corpus oraux, Véronis & Khouri (1995) pour les corpus
multilingues, ou Véronis (2000), qui inclut les enrichissements morphologiques et
syntaxiques traités par les précédents dans un panorama plus large).
130
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Le second sous-ensemble réunit des publications qui traitent de questions qui intéressent directement mes recherches à deux titres différents :
– soit parce qu’elles relatent des explorations de corpus réalisées dans le cadre de travaux de lexicographie, comme Grundy (1996), qui avait alimenté de fructueux échanges
avec son auteur et auquel je me suis souvent référée, Braasch (2004) ou Citron &
Widmann (2006), que j’ai évoqués plus ponctuellement, ou encore les publications élaborées autour du projet FrameNet et de la sémantique des cadres (“Frame semantics”),
particulièrement intéressants pour la lexicographie (cf. Atkins (1995), Fillmore & Atkins
(1998), Atkins, Fillmore & Johnson (2003), ou Atkins, Rundell & Sato (2003)) ;
– soit parce qu’elles éclairent l’intérêt qu’il peut y avoir à employer des corpus pour
documenter les descriptions de dictionnaires (cf. Hanon (1990), Atkins (1990), Laufer
(1992), ou Béjoint (2007), voire, avec un axage plus linguistique, Hanks (2004) ou P.
Corbin (2005 et 2006)).
Ce second sous-ensemble serait toutefois incomplet sans la mention des écrits, plus
techniques, qui présentent les travaux articulés aux développements informatiques
entrepris par Adam Kilgarriff et/ou ses divers partenaires (cf. Kilgarriff & Rundell
(2002), Kilgarriff & Tugwell (2002), Grefenstette (2002), Kilgarriff & Grefenstette (2003),
Baroni & Bernardini (2004), Kilgarriff & al. (2004)) à destination des lexicographes (cf.
Rundell (2002)).
Les références du troisième sous-ensemble, enfin, sont celles qui ont éclairé des
points particuliers de certaines de mes recherches :
– L’emploi d’Unitex pour explorer le corpus footballistique Rcorp1 m’a amenée à me
référer à des recherches effectuées avec cet outil (ou avec Intex 176) sur des énoncés
ressortissant à d’autres domaines (Faure (2000), Balvet (2002), Poibeau (2003) notamment) ou à des présentations didactiques plus générales (Courtois & Silberztein éds
(1990), Silberztein (1993), Silberztein, Poibeau & Balvet (2001)).
– La conception du projet de corpus plurithématique et multilingue dont T10 présente
ce qui devait en être le premier élément constitutif (cf. § 1.4.2.) m’a par ailleurs conduite
à revisiter ou à découvrir, sous forme écrite ou à l’occasion de présentations publiques,
des contributions relatives aux questions de constitution et d’alignement de corpus
bilingues (cf. Blank (1995), Kraif (2003 et 2008), Resnik (1999) et Resnik & Smith
(2003), Delbecque & Zweigenbaum (2006) ou encore Véronis éd. (2000)), et d’exploration de ceux-ci dans le cadre d’études terminologiques (cf. Cmejrek & Curin (2001),
Déléger & Zweigenbaum (2006) et, plus marginalement, Léon (2006) 177). Les tâches
de transcription réalisées pour le corpus footballistique Rcorp1 (cf. T5 et § 1.3.3.) et
les corpus du projet OURAL P2 – Rcorp5 et Rcorp6 (cf. T8 et § 1.4.1.) – m’ont, elles,
amenée à étudier des publications qui présentent les recherches développées dans le
176 Intex est un outil d’exploration de corpus qui a été développé par Max Silberztein, ancien doctorant de Maurice
Gross, et qui offre des fonctions de consultation très comparables à celles proposées ensuite dans Unitex
(cf. § 1.3. en particulier). Quand j’ai invité Maurice Gross à intervenir dans la formation de lexicographes
en 1999-2000, il a eu la générosité d’offrir des licences d’Intex à l’université Lille 3, ce qui a permis à nos
étudiants de l’époque d’utiliser cet outil.
177 Stéphanie Léon, alors doctorante aixoise et antérieurement candidate à l’entrée dans la formation professionnelle lilloise, m’avait donné à relire cette contribution au colloque RÉCITAL à un moment où sa lecture
présentait quelque intérêt pour notre travail.
Document de synthèse – 1.7. Conclusion : place des traitements de corpus
131
cadre de l’élaboration de l’outil de transcription de corpus oraux Transcriber (cf. Barras,
Geoffrois, Wu & Liberman (2000 et 2001), Geoffrois, Barras, Bird & Wu (2000)) et à situer nos travaux par rapport à d’autres entrepris sur des corpus oraux (cf. Équipe DELIC
(2004), Salmon-Alt, Romary & Pierrel (2004) ou encore le Guide des bonnes pratiques
2006 (Baude coord. (2006))).
Les lectures faites ne se limitent pas à celles qui sont référencées, même si ce sont
les seules dont on garde une trace durable, et les lectures effectuées n’épuisent pas les
possibles, pour partie faute de temps et aussi parce que, étant des sources d’inspiration
et de mise à niveau technique, elles ont été complétées par d’autres plus informatiques
(en particulier relatives au XML et au XSLT) et que, en leur qualité de “déclencheurs”,
elles devaient plus soutenir des entreprises en cours de réalisation que servir à contraster mes choix à d’autres (chacun étant conditionné par les objectifs des corpus
élaborés, les contextes de développement, l’outillage disponible, etc.).
Progressivement, la documentation des descriptions d’usages linguistiques n’a plus
été la seule motivation pour la création de corpus : les potentialités d’enrichissement
des corpus structurés en XML et la rencontre de besoins documentaires dont la finalité relève de l’analyse textuelle plus que linguistique, sans nécessairement cependant
exclure la seconde, m’ont conduite à m’impliquer dans des projets ambitieux (présentés supra aux §§ 1.5. et 1.6.), qui n’annihilent pas mon engagement dans les premiers,
mais diversifient mes activités en matière de traitements de corpus.
2. Métalexicographie
2.1.
Définir une manière d’étudier des dictionnaires
La part la plus importante de mon activité de recherche se situe dans le domaine
de la métalexicographie, ce dont témoigne la différence de volume des deux parties de
ce document de synthèse, et elle porte plus précisément sur l’étude des dictionnaires
récents (ceux publiés depuis le début des années 1970).
Cette orientation de mes recherches s’est construite en articulation avec les enseignements que j’ai assurés, et au fil des années il m’a été loisible de dynamiser continûment
le travail réalisé sur les deux terrains en focalisant mes investigations sur des objets
dont une meilleure connaissance aurait une portée pédagogique.
Comme le montrent les commentaires qui suivent, les méthodes d’étude mises en
œuvre dans mes travaux métalexicographiques mobilisent le plus souvent des outillages informatiques (bases de données SQL et balisages XML en particulier) et les
perspectives de travail adoptées constituent des variations autour de thèmes repères,
comme l’appréciation de la qualité intrinsèque des informations linguistiques fournies
dans les descriptions lexicales et celle de leur lisibilité et de leur utilisabilité par les
publics auxquels elles sont destinées.
2.1.1. Objets, méthodes et moyens
J’anime avec Pierre Corbin la formation lilloise de lexicographes depuis 1999. Les
premiers de mes articles métalexicographiques (T6 (2004b), rédigé avec Pierre Corbin)
et T7 (2005a)) ont été engagés en 2003 et abordaient l’analyse des dictionnaires par
celle de la structure des articles. Les études suivantes ont progressivement pris en
compte les programmes d’information et les modes d’élaboration des textes dictionnairiques et se sont faites plus propositionnelles. Les contributions analytiques aussi
bien que celles relevant de la conception de nouveaux produits ont privilégié le public
cible qui a le plus besoin que les éditeurs lui proposent des descriptions explicites et
fonctionnelles : les élèves, qui ont tout à la fois à consolider leur compétence linguistique et à apprendre à utiliser les dictionnaires qui doivent les aider dans leurs acquisitions. Ces approches analytiques et propositionnelles convergent dans T17, rédigé
en 2008-2009, qui constitue à ce jour l’article le plus consistant de ma production scientifique. Prenant appui sur différentes études antérieures et sur une connaissance du
marché éditorial documentée par les données enregistrées depuis 2001 dans une base
qui référence les dictionnaires monolingues généraux (Rbd1, cf. § 2.1.2.), j’y ai décrit
comment l’informatique a modifié les usages éditoriaux sans encore véritablement
permettre l’avènement de dictionnaires électroniques innovants, ce que traduit son
plan, qui permet d’aborder les questions de sélection, de rédaction et de présentation
136
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
des informations à fournir et de constituer, sur ce dernier terrain, un état des dictionnaires électroniques issus ou dérivés de textes imprimés, et qui débouche sur des propositions d’orientations éditoriales susceptibles de présenter des plus-values pédagogiques.
Cette approche syncrétique a été rendue possible par une bonne familiarité avec le
milieu éditorial. 178 Les conférenciers reçus et les tuteurs de stages rencontrés chaque
année ainsi que les professionnels côtoyés en diverses occasions (colloques, réunions
de travail à leur initiative ou à celle d’une instance indépendante comme l’AFNOR)
m’ont permis progressivement de me construire une représentation assez précise de
leurs activités, de leurs contraintes économiques et des difficultés qu’ils surmontent
pour accomplir leurs tâches quotidiennes. En observant les permanences et les ruptures dont je les entends témoigner depuis plus de dix ans, j’ai appréhendé leurs conditions de travail, et en écoutant l’un d’eux me confier son espoir de trouver de l’inspiration auprès d’analystes de dictionnaires, j’ai pris conscience à mon tour 179 que le fait
de concevoir les recherches que nous effectuons à l’université comme des contributions
(souvent indirectes 180 ) à celles que les entreprises aspirent à réaliser, mais auxquelles
elles ne peuvent pas pleinement se consacrer, n’est pas une illusion induite par mon
ancrage universitaire.
C’est sur ces bases que, progressivement, mes publications, qui étaient initialement
plutôt techniques et orientées vers l’accompagnement à l’intégration d’un usage informatique déroutant pour une part des rédacteurs (les structurations en XML des textes
dictionnairiques), sont devenues plus analytiques et propositionnelles, critiquant au
besoin le texte des articles étudiés. Dans le même temps, sans négliger le point de vue
des rédacteurs, les études faisaient une part grandissante aux destinataires des dictionnaires en interrogeant la lisibilité des textes produits et leur adéquation aux besoins
178 Les formations professionnelles universitaires présentent à mon sens un paradoxe qui consiste dans le fait
que, tout en faisant intervenir des professionnels, elles sont portées par des universitaires, qui peuvent n’avoir
aucune expérience professionnelle effective des métiers auxquels elles forment. Cette extériorité, qui implique
qu’ils œuvrent pour en acquérir une bonne connaissance indirecte, offre en contrepartie une position intéressante pour l’étude des produits et des méthodes de travail des secteurs d’activité concernés.
179 Cf. déjà P. Corbin (1984, § 1.2. ; 1995 : 82 et §§ 2.1.1. et 2.1.2.) et Cabré-Castellví (1994 : 340-342).
180 Les maisons d’édition françaises du secteur de la référence (dictionnaires, encyclopédies) participent peu à
des projets de recherche et développement, même s’ils donnent lieu à des financements. Ces dernières années
quelques-unes se sont néanmoins engagées dans cette voie, comme en témoignent certaines initiatives dont
j’ai eu connaissance :
– En 2001, Le Robert a répondu avec succès à un appel à projet pour l’élaboration d’un outil de décodage du
langage employé dans les administrations françaises, dont l’aboutissement a été la publication trois ans plus
tard du Petit décodeur de l’administration (Le Fur dir. (2004)).
– En 2002, les réflexions que j’avais engagées avec les éditions Larousse et Le Robert en vue du montage d’un
projet financé de constitution de corpus thématiques (cf. n. 44) ont été interrompues du fait du démantèlement du groupe Vivendi Universal Publishing dont faisaient partie ces deux entreprises, qui a eu pour conséquence leur séparation et consécutivement leur retour à une position de concurrence qui bloquait les perspectives de collaboration dans le cadre d’un projet de recherche.
– En 2005, la société Initiales, sous-traitant des éditions Atlas (spécialisées dans les encyclopédies), a recruté
en contrat CIFRE une doctorante qui devait chercher à automatiser le repérage des segments de textes susceptibles d’être devenus obsolètes dans les articles en cours d’actualisation (cf. Laignelet (2009)).
Des engagements de cette nature incitent à penser qu’il serait possible de mettre en place des collaborations
entre universités et entreprises, à condition de choisir les contextes les plus favorables, afin que les maisons
d’édition puissent avoir de bonnes garanties de rentabilisation du temps consacré à la mise en place de ces
collaborations, qui, n’étant pas réservé à leurs tâches éditoriales usuelles, constitue en soi un investissement.
Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires
137
effectifs ou spéculés tels que les définissent les projets lexicographiques présentés dans
les paratextes des répertoires. Intégrant par ailleurs l’importance des dérivations de
dictionnaires à partir d’une ou plusieurs sources textuelles (dérivation stricte ou métissage) et de la place grandissante des éditions électroniques 181, j’ai tenté de contribuer
aux réflexions sur la valorisation des textes imprimés déjà publiés et sur les créations
de produits pour ce nouveau support. Il résulte de ce qui précède que les travaux de
métalexicographie que j’ai élaborés doivent être distribués dans deux sous-ensembles
distincts :
– Le premier (cf. §§ 2.2. à 2.5.) réunit les analyses de textes dictionnairiques, qui doivent
couvrir progressivement tous les types d’informations que ceux-ci ont vocation à transmettre et tous les composants d’articles qui sont utilisés pour ce faire, la relation observable entre informations et composants n’étant pas bijective, ni même toujours régulière.
– Le second ensemble (cf. §§ 2.6. et 2.7.) regroupe
d’une part les présentations des contributions d’analystes de dictionnaires suscitées
pour deux numéros de la revue Lexique, l’un dirigé avec Pierre Corbin (D1), l’autre dont
j’assure seule la coordination (D2) ;
• et d’autre part T17, dont l’importance au sein de mes travaux a déjà été évoquée
supra, et T21, qui prolonge la réflexion engagée dans T17 à propos d’un dictionnaire
scolaire novateur sans revenir sur les soubassements exposés dans le premier de ces
articles, ainsi que quelques prototypes de dictionnaires élaborés dans différents contextes, ces travaux ancrant des options dictionnairiques nouvelles dans des analyses
de l’existant, ce qui peut être tout à fait explicite (comme dans T17) ou plus discret
(comme dans T21).
•
Au moment de la rédaction de ce document de synthèse, ma production métalexicographique (sans distinction des sous-ensembles “analytique” et “de conception”) comporte dix-sept articles parus ou à paraître 182, deux textes de diffusion restreinte 183 et
quatorze communications 184. Pour tous ces travaux, comme pour les quatre-vingt-seize
mémoires à composante métalexicographique ou lexicographique (générale ou spéciali-
181 En dépit des difficultés que les éditeurs semblent avoir rencontrées dans la définition de principes de commercialisation qui leur permettent de rentabiliser leurs productions électroniques, qu’elles soient proposées
sur disque, en ligne sur abonnement ou en accès libre (cf. F. & P. Corbin (2008 : 61)), le nombre de ces produits a indéniablement augmenté, même s’ils correspondent rarement à des créations dictionnairiques (cf.
T17 § 2.3.1.).
182 T6 ((2004b), rédigé avec Pierre Corbin), T7 (2005a), T9 ((2009c), rédigé avec Pierre Corbin), T11 ((à paraître
b), rédigé avec Pierre Corbin), T12 (2008a), T13 (2008g), T14 (à paraître e), T15 (2008e), T16 (2008f ), T17
(2009d), T18 ((2009a), rédigé avec Pierre Corbin et relevant également des traitements de corpus – cf. n. 10),
T19 ((2009b), rédigé avec Pierre Corbin), T20 ((à paraître d), rédigé avec Stavroula Markezi et relevant
également des traitements de corpus – cf. n. 10), T21 (2010a), T22 (à paraître c), T23 (2010b) et T24 ((à
paraître a), rédigé avec Pierre Corbin).
183 Tdr3 (2010) et Tdr5 (en préparation b)
184 C9 (2004) [cf. T7], C10 ((2005a), avec Pierre Corbin) [cf. T9], C13 ( (2006b), avec Pierre Corbin) [cf. T11],
C14 (2007a) [cf. T12], C15 (2007b) [cf. T13], C16 (2007c) [cf. T13], C17 (2007d) [cf. T14], C18 (2008a)
[cf. T15], C19 (2008b) [cf. T16], C20 ((2008c), avec Pierre Corbin) [cf. T18], C21 ((2009a), avec Stavroula
Markezi) [cf. T20], C22 (2009b) [cf. T21], C23 (2009c) [cf. T22], C24 (2010) [cf. T23].
138
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
sée, monolingue, bilingue ou multilingue) que j’ai dirigés seule (soixante-dix-neuf) 185 ou
avec Pierre Corbin (seize) 186 ou Danièle Van de Velde (un) 187, j’ai veillé à fonder (ou à
faire fonder) les spéculations avancées sur une connaissance aussi solide que possible
des données disponibles, ce qui m’a conduite à créer pour mes recherches la base du marché éditorial déjà évoquée et cinq bases de données métalexicographiques compilant
des sélections de segments de textes dictionnairiques 188. La complémentarité des analyses métalexicographiques et des exposés d’alternatives possibles se marque aussi dans
les publications par le fait que j’y dresse un état des usages observés avant, le cas échéant, de formuler des propositions, les deux points de vue pouvant être réunis au sein
d’une seule publication (comme dans T15 à propos des identifications diachroniques,
cf. § 2.5.3.) ou développés dans des productions liées (T17 et T21 ont par exemple bénéficié des analyses de traitements syntaxico-sémantiques réalisées pour T9).
Les différentes publications relatives aux analyses de textes dictionnairiques, qui
vont être revisitées ci-après, s’intègrent à un programme de recherche orienté dans deux
directions :
– l’étude des modes de présentation de différentes informations, axée d’une part sur
l’identification des composants d’articles qui les accueillent et d’autre part sur l’appréciation de la lisibilité de celles-ci pour les usagers ;
– l’étude de la structure des textes dictionnairiques et des possibilités de valorisation
informatique de ceux qui sont imprimés, ce qui implique des structurations a posteriori
de textes existants.
Très souvent, explicitement ou non, j’ai intégré les partenaires professionnels de la
formation 189 dans les destinataires de ces textes. Ce ciblage virtuel canalise mon propos
en l’indexant sur les compétences supposées de mes possibles lecteurs, ce dont témoigne
la technicité croissante de mes écrits au fur et à mesure des évolutions perceptibles
dans les maisons d’édition. Mais, en dépit de certains retours sur mes travaux, il serait
utopique de penser que ces lecteurs potentiels sont tous des lecteurs effectifs. En effet,
même si, il n’y a pas si longtemps encore, des lexicographes majeurs de grandes maisons d’édition étaient également des chercheurs actifs interagissant directement avec
la recherche universitaire, les changements économiques survenus depuis vingt-cinq
185 Cinquante-sept ne relèvent que de la métalexicographie ou de la lexicographie : Mdir4, 6, 9, 14, 25, 30,
31, 32, 37, 39, 41, 42, 44, 45, 46, 47, 48, 50, 51, 53, 54, 55, 56, 57, 58, 59, 60, 62, 65, 68, 70,
71, 72, 73, 75, 77, 79, 80, 81, 83, 84, 85, 87, 88, 91, 92, 93, 97, 98, 99, 100, 101, 102, 104, 106,
108, 110. À l’une des deux composantes précédentes, deux conjoignent de la synthèse de la parole (Mdir52)
ou de l’informatique éditoriale (Mdir82). Vingt intègrent également des traitements de corpus : Mdir8,
15, 16, 18, 20, 22, 26, 27, 29, 35, 38, 43, 49, 66, 78, 89, 90, 103, 107, 111.
186 Dix ne relèvent que de la lexicographie ou de la métalexicographie : Mdir1, 2, 3, 5, 11, 12, 13, 33, 63, 64.
Six intègrent également des traitements de corpus : Mdir7, 17, 21, 23, 24, 105.
187 Il traite de linguistique et de lexicographie : Mdir109.
188 Base généalogique des dictionnaires débutée en 2001 (Rbd1), base des iconographies du Robert junior (éditions imprimée de 1997 et électronique de 1999) en 2002-2003 (Rbd2), base des items marqués dans les
dictionnaires scolaires en 2006-2007 (Rbd3), base étymologique des dictionnaires pour enfants depuis 2007
(Rbd4), base des nomenclatures depuis 2008 (Rbd5) et base des items décrits comme relevant du parler
enfantin en 2009 (Rbd6).
189 Auxquels s’ajoutent nos anciens étudiants qui entrent dans le monde professionnel où ils souhaitaient s’insérer
en venant se former avec nous, même si ceux-ci ne sont encore ni intervenants ni tuteurs de stages.
Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires
139
ans environ, probablement corrélés aussi à des évolutions des centres d’intérêts d’une
partie des acteurs de ces entreprises, ont fait qu’il existe aujourd’hui, en France, une
séparation assez nette entre la pratique professionnelle et la recherche 190. Quelques
lexicographes du privé participent à des colloques – certains y assistent régulièrement,
un petit nombre y communiquent même –, mais il est vraisemblable que dans leurs
tâches courantes leur disponibilité pour des lectures théoriques soit limitée (cf. P. Corbin
(2002 : 32) et Landau (2001 : 348-349 et 398-401), repris par Béjoint (2009 : 127-128)) 191.
Par ailleurs, d’un point de vue méthodologique, pour chaque étude réalisée, je veille
à situer les dictionnaires pris en compte,
– soit en comparant entre eux ceux qui peuvent être considérés comme des éléments
constitutifs d’une gamme ou comme des concurrents, et en confrontant, pour ceux pour
lesquels c’est pertinent, leur contenu avec celui de ceux avec lesquels ils partagent
une parenté textuelle,
– soit en appréciant leur adéquation avec ce que les responsables des ouvrages ont pu
en dire dans des publications scientifiques, lors d’interventions publiques ou dans les
textes de présentation des ouvrages destinés à leurs lecteurs 192.
Ce travail d’analyse demande une bonne connaissance du fonds de chaque éditeur et
des généalogies des dictionnaires de chacun, et de minutieuses comparaisons des textes,
ce qui requiert d’une part de disposer des ouvrages 193 et d’autre part de s’imprégner de
leur richesse (étude des informations contenues et de leurs formulations, de leurs placements dans les volumes et dans les articles, analyse des structures d’articles appuyée
sur la présence de symboles alphanumériques et diacritiques et sur les contenus discursifs de chaque subdivision de description délimitable, repérage des relations discernables entre les composants d’articles et les types d’informations fournies au sein de
chacun, etc.) afin de connaître chaque répertoire et de pouvoir détecter des filiations
encore non identifiées. La tâche est consistante, mais cette culture est nécessaire pour
dialoguer avec les responsables de projets des maisons d’édition 194.
190 À la différence de ce qui s’observe en Grande-Bretagne, cf. Béjoint (2009, § 2.2. et 2010, § 8.1.2.).
191 Bien que je n’aie jamais été confrontée à des propos en ce sens, je ne crois pas qu’il faille exclure a priori que
certains lexicographes puissent avoir le sentiment que leur compétence professionnelle est suffisante pour
qu’ils ne ressentent pas le besoin d’investir dans des lectures de théoriciens. Les acteurs du privé que j’ai
rencontrés jusqu’ici ont toujours témoigné d’un intérêt certain pour les travaux métalexicographiques développés dans notre UMR. Je les remercie pour cela comme pour la confiance qu’ils nous témoignent en nous
parlant de leurs activités.
192 Les paratextes (internes ou externes, comme ceux présentés sur les sites Web des éditeurs) qui sont rédigés
par les lexicographes et qui présentent les projets éditoriaux ont un intérêt plus marqué (ou tout du moins
d’une autre nature) que les publicités qui émanent des services marketing et qui visent à déclencher un
désir d’acquisition chez les destinataires du message commercial.
193 Les considérant plus comme des ouvrages de référence que comme des objets d’étude, les bibliothèques n’acquièrent usuellement pas chaque millésime ou tirage de chaque titre, or, sans en disposer, il est impossible
de les comparer. La bibliothèque de linguistique de l’UMR SILEX puis STL a consenti certains efforts depuis
sa création, ce qui en fait un espace documentaire d’une relative richesse que nos étudiants exploitent très
utilement, mais la culture que je devais me forger avait besoin d’une plus grande complétude. Sans la documentation personnelle que Pierre Corbin a mise à ma disposition dès mon recrutement en 1999, mon expertise comme la portée de mes recherches en métalexicographie auraient nécessairement été plus limitées.
194 Les plus expérimentés d’entre eux connaissent bien les produits de l’entreprise dans laquelle ils ont fait
carrière, mais, à l’occasion, certains apprécient de pouvoir interroger des métalexicographes sur la genèse
d’un texte qu’ils doivent faire évoluer.
140
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
2.1.2. Références et descriptions des répertoires monolingues généraux : la base
du marché éditorial [Rbd1]
Ce sont la quantité et la précision des informations à mémoriser sur chaque dictionnaire du marché français qui m’ont résolue, dès 2001, à élaborer une base de données
des répertoires monolingues généraux – Rbd1 – afin de compiler pour chaque produit
des données identificatrices (titre, ISBN, etc.), des informations généalogiques (pour
les textes dérivés ou produits par métissage), des descriptions de leur contenu dictionnairique et de leurs différents paratextes 195 (ces derniers étant susceptibles de varier
d’une édition à une autre même quand le texte dictionnairique proprement dit est
stable), et, plus récemment, des indications fournies dans des textes externes de présentation des ouvrages (en particulier les descriptifs proposés sur les sites Web des éditeurs, cf. n. 192). La structure de cette base a longtemps été retravaillée, en particulier
avec différentes promotions du M2 LTTAC, avec lesquelles nous analysons les produits commercialisés à chaque rentrée en réalisant des versions partielles de Rbd1,
en fonction de ce que je les invite à étudier plus centralement chaque année.
Les données qui sont réunies au sein de cette base proviennent de dépouillements
systématiques réalisés selon trois modes :
– la description de l’ensemble des propriétés d’un répertoire ;
– celle d’une sélection de caractéristiques qui montrent que des dictionnaires sont en
concurrence dans le même segment de marché (cf. n. 205) ou entrent dans une gamme
de produits proposés par un éditeur ;
– ou encore celle d’indices textuels qui prouvent que certains ouvrages entretiennent
une filiation.
Les données enregistrées autres que celles qui permettent d’identifier chaque produit ne sont donc pas exhaustives, mais dépendantes des circonstances qui me permettent de saisir les éléments descriptifs relevés et de la disponibilité de ceux-ci, qui
peut dépendre
1) de facteurs matériels : il faut capturer les informations proposées sur les sites des
éditeurs avant que celles-ci ne soient remplacées par d’autres ;
2) de l’avancement des connaissances : une filiation textuelle doit être vérifiée par la
comparaison des textes d’un échantillon consistant d’articles avant de pouvoir être enregistrée ;
3) de l’actualité de l’exploitation des données : des informations qui n’ont pas encore été
mobilisées dans le cadre d’une recherche ou d’une préparation de cours peuvent ne pas
avoir été enregistrées dans la base.
Constituée de manière progressive et requérant une régularité des relevés (afin de
disposer au moins des références de chaque produit publié), Rbd1 joue un rôle fondamental dans mes recherches. Cette ressource documentaire, bien qu’incomplète, constitue en effet une mémoire des caractéristiques des répertoires étudiés et de certains
éléments d’analyse de leur généalogie. Elle est également un moteur pour la réalisa195 Ceux-ci peuvent comprendre des planches thématiques, un atlas, un cahier synthétisant les contenus des
programmes scolaires, des chronologies diverses, etc.
Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires
141
tion d’investigations qui consolident la connaissance des produits et parfois conduisent
à observer en leur sein des composants, des modes de description, des évolutions, etc.
qui auraient pu ne pas apparaître sans l’actualisation périodique des données descriptives enregistrées. Sa structure actuelle (cf. figure 28) compte vingt tables.
Figure 28. Schéma de relations de la base du marché Rbd1
L’ISBN de chaque produit éditorial (ou un identifiant ad hoc) 196 est enregistré dans
la table T_N_U_Prod qui référence les produits traités. Il sert à lier cette table aux
autres via une première (T_Id_Prod) qui explicite à quel répertoire correspond chaque
ISBN ou identifiant interne. La répartition des informations relatives à chaque produit est définie selon les principes suivants :
– Les informations identificatrices (date de parution, titre, image de la couverture, nom
de l’éditeur, nombre d’exemplaires publiés (si cette information est disponible), nombre
de volumes 197 et prix) sont stockées dans la table T_Id_Prod.
– Les variantes de titres, si le produit est nommé de différentes manières, et tous les
énoncés paratextuels qui contiennent des informations à propos de chacune des données
enregistrées dans la base sont stockés, typés, localisés et éventuellement commentés
dans la table T_Attestations 198.
196 Les produits qui n’ont pas d’ISBN, comme les éditions électroniques librement consultables en ligne ou les
dictionnaires dont la publication est antérieure à l’instauration de cet identifiant en 1970, se voient affecter
un identificateur interne à cette base. Ceux qui ont le même ISBN pour plusieurs tirages au sein desquels
des variations ont été constatées voient leur ISBN complété par un identifiant de tirage.
197 Pour les plurivolumes dont chaque tome porte lui-même un ISBN, la table T_Partie-tout enregistre chaque
ISBN de volume associé à l’ISBN du produit global (ou à son identificateur interne à la base, cf. n. 196).
198 Cette table est très importante puisqu’elle constitue la mémoire des sources textuelles qui permettent de
valider les données de la base.
142
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– Les responsabilités éditoriales connues concernant chaque produit sont stockées dans
la table T_Resp_Ed sous forme de paires constituées d’un nom de fonction et d’un nom
de personnel (ces derniers étant préenregistrés dans la table T_Noms_Resp_Ed, ce que
symbolise le lien qui lie ces deux tables et qui n’a pas de cardinalité (1 ou ∞, qui représente la valeur “plusieurs”) mentionnée à ses extrémités).
– Les caractérisations des destinataires et des destinations des ouvrages tels qu’ils sont
décrits dans les paratextes des produits éditoriaux font l’objet des tables T_Destinataires 199 et T_Destination. 200
– Les typages de chaque produit tels qu’ils sont proposés par les éditeurs (ce qui recouvre les éditions remarquables ou l’appartenance à une classe d’ouvrages ou de dictionnaires particuliers) sont compilés dans la table T_Types_Prod 201.
– Les informations éditoriales qui permettent de situer les répertoires dans le temps
(par les dates de leurs copyrights, de leurs tirages, de leurs achevés d’imprimer, etc.)
et le cas échéant dans des filiations textuelles (par l’identification du ou des texte(s)
qui ont servi de base pour leur production) font respectivement l’objet des tables
T_Datations et T_Dic_Ascendants. Mais si d’autres ISBN sont mentionnés sur un
produit, en particulier ceux d’éditions antérieures du même texte, ils sont, eux, relevés
dans la table T_ISBN_supl.
– Des informations matérielles, qui varient selon les supports des dictionnaires et, pour
les éditions électroniques, en fonction de la disponibilité d’une version identifiable ou
de textes consultables en ligne et susceptibles d’évoluer sans spécification de changement de version, sont enregistrées dans les tables T_Livres, T_Disques ou T_Ed_Web.
– Des informations quantitatives sur des types de composants d’articles et de paratextes, et le segment de marché auquel ces données permettent de définir que le répertoire appartient (dont les noms sont listés dans la table T-Seg-marche) sont enregistrées dans la table des données dites “normalisées”, c’est-à-dire nommées indépendamment des usages des éditeurs (T_Don_Norm). 202
199 Ces informations ont été particulièrement utiles pour la figure 1 de T12, qui liste les répertoires étudiés
en mentionnant leur filiation et les publics de chaque produit.
200 La présentation faite à la Journée des dictionnaires de Cergy-Pontoise en mars 2005 (C10) débutait par un
exposé de la généalogie du répertoire étudié, le Dictionnaire du français au collège (Larousse, 2000). Cette
partie de la contribution orale, qui n’a pas été reprise dans T9, analysait les proximités textuelles des présentations des destinataires des répertoires impliqués et des services (les “destinations”) que ceux-ci déclaraient
être en mesure de rendre à ceux-là.
201 Ces indications sont utiles pour l’identification des gammes de produits et le repérage de leurs évolutions.
202 Les noms des champs de la table T_Don_Norm sont des abréviations de dénominations complexes qui sont
décodées dans la colonne de droite du tableau ci-dessous. Celles-ci mériteraient d’être présentées de manière
plus détaillée que cela n’est faisable dans les limites de ce document. Toutefois, afin de donner une idée de
ce à quoi réfère chacune, des exemples de désignations correspondantes observées sur des sites d’éditeurs
en 2009-2010 sont fournies en italiques entre parenthèses.
ABRÉVIATIONS
FORMES DÉVELOPPÉES (EXEMPLES DE DÉSIGNATIONS D’ÉDITEURS CORRESPONDANTES)
It_No_L_et_NP_Prin items de nomenclature de langue et de noms propres principale (mots)
It_No_L_Prin
items de nomenclature de langue principale (entrées ; mots ; mots de la langue ; mots
de langue ; mots de langue définis (différents sens, exemples, locutions) ; mots du vocabulaire courant, littéraire, spécialisé ; mots et leurs sens ; noms communs)
It_No_L_Prin_Nv
items de nomenclature de langue principale nouveaux (nouveaux noms communs)
Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires
143
– Les paramètres d’analyse des paratextes documentaires composés d’une ou de plusieurs iconographies sont réunis dans la table T_Paratextes 203 (les sujets de ces derniers
étant préenregistrés dans la table T-Sujets-paratextes).
Articu_Art_L
C_Expli_Art_L
C_Mons_Art_L
articulations d’articles de langue (définitions ; définitions assorties d’exemples simples ;
sens et locutions)
composants explicatifs d'articles de langue (sens ; sens illustrés par des exemples)
composants monstratifs d’articles de langue (exemples ; citations ; citations littéraires ;
citations du monde entier ; citations du monde entier traduites en français)
Disp_Consult_Art_L dispositif d’aide à la consultation d’articles de langue ( plans détaillés pour les articles
longs)
El_Cons_Comp_
Cultu
éléments constitutifs de composante culturelle (articles de synthèse ; textes)
It_No_NP_Prin
items de nomenclature de noms propres principale (noms propres)
It_No_NP_Prin_Nv
items de nomenclature de noms propres principale nouveaux (nouveaux noms propres)
Art_Syn
articles de synthèse (articles de synthèse)
C_Métaling_Art_NP composants métalinguistiques d’articles de noms propres (étymologies)
C_Ency_Art_L
composants encyclopédiques d’articles de langue (dossiers encyclopédiques)
C_Ency_Art_Ind
composants encyclopédiques d’articles non déterminés (développements encyclopédiques)
C_Ico_Art_L_et_NP composants iconographiques d’articles de langue et d’articles de noms propres (illustrations ; images)
C_Ico_Art_L
composants iconographiques d’articles de langue (mots illustrés par des dessinateurs
de renom)
C_Ico_Art_Np
composants iconographiques d’articles de noms propres ( photographies et reproductions)
C_Carto_Art_NP
composants cartographiques d’articles de noms propres (cartes ; cartes en couleurs ;
cartes géographiques et historiques)
C_Synopti_Art_NP
composants synoptiques d’articles de noms propres (tableaux)
Ptxt_Int_Aut_L_
Neol
paratexte interne autonome de langue néologique (cahier spécial […] sur les mots nouveaux)
Ptxt_Int_Aut_L_
Termi_et_Ico
paratexte interne autonome de langue terminologique et iconographique ( planches
d’illustrations thématiques)
Ptxt_Int_Aut_L_
Orth_Gr_Conj
paratexte interne en partie autonome de langue orthographique, grammatical et conjugationnel (cahier spécial pour déjouer les pièges de l’orthographe, de la grammaire
et de la conjugaison)
Ptxt_Int_nonAut_
L_Conj
paratexte interne non autonome de langue conjugationnel (guide de conjugaison ; précis
de conjugaison)
Ptxt_Int_Aut_L_Gr
paratexte interne autonome de langue grammatical (mémento de grammaire ; précis
de grammaire ; dictionnaire grammatical complet ; guide pratique de français)
Ptxt_Int_Aut_L_
Orth
paratexte interne autonome de langue orthographique (liste des mots concernés par
les rectifications de l’orthographe ; règles de l’orthographe)
Ptxt_Int_Aut_Ency_ paratexte interne autonome encyclopédique historique (chronologie ; chronologie uniHisto
verselle illustrée ; chronologie thématique illustrée)
Ptxt_Ext_Aut_Ency paratexte externe autonome encyclopédique (Livret de Savoirs)
Disp_Consult_
Partie_L
dispositif d’aide à la consultation de la partie langue (ascenseur alphabétique dans les
noms communs)
203 Il sera intéressant de rapprocher ces indications de celles de la base iconographique Rbd2 (cf. § 2.3.3.), mais
pour l’heure seuls les paratextes des dictionnaires pour le cycle 2 ont été enregistrés dans Rbd1 et leurs
iconographies ne sont pas encore prises en compte dans Rbd2.
144
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– Enfin, pour les dictionnaires qui entretiennent une relation de dérivation avec un
ascendant identifié, les modalités de traitement de l’adressage sont décrites dans la
table T_Modes_Adressages 204.
Jusqu’en 2007, année où a été engagée la constitution du corpus de paratextes dictionnairiques limités aux présentations introductives des répertoires, Rcorp12 (cf.
§ 1.4.3.), le travail d’analyse du marché des dictionnaires monolingues généraux avait
conduit à des représentations évolutives de l’offre en une dizaine de segments conçus
sur la base d’une sélection des propriétés des répertoires (dont en particulier le nombre
d’unités traitées, le(s) public(s) destinataire(s), le positionnement comme ouvrages “de
poche” ou non) 205. Les analyses des textes de présentation, internes d’abord puis également externes, qui ont été effectuées depuis ont validé les principes de segmentation
du marché précédemment posés, en observant d’autres points communs des ouvrages
de chaque niveau (en particulier en termes de modalités de présentation des services
qu’ils peuvent rendre ou des informations qu’ils contiennent 206).
204 Il sera intéressant également de compléter les indications de la table T_Modes_Adressages qui sont formulées
à partir d’observations de sélections d’articles avec les configurations d’adressage non observées en leur sein
mais que le traitement des nomenclatures lors de leur saisie dans la base Rbd5 (cf. § 2.3.2.) aura permis
de repérer.
205 À la rentrée 2006, dix segments de marché avaient été identifiés :
1) les plurivolumes de référence, qui comptaient entre 75 000 et 100 000 unités (comme le Grand Robert) ;
2) les dictionnaires “encyclopédiques” de référence, qui comptaient entre 85 000 et 120 000 unités (comme le
Grand usuel Larousse) ;
3) les monovolumes et bivolumes pour le grand public – incluant les étudiants –, qui comptaient entre 60 000
et 75 000 unités (comme le Nouveau Petit Robert) ;
4) les monovolumes pour les collégiens et le grand public, qui comptaient autour de 40 000 unités (comme le
Nouveau dictionnaire de français) ;
5) les monovolumes utilitaires portatifs développés, qui comptaient autour de 40 000 unités (comme le Robert
de poche) ;
6) les monovolumes utilitaires portatifs réduits, qui ne comptaient pas plus de 35 000 unités (comme le Dictionnaire Hachette de la langue française mini) ;
7) les monovolumes pour la frontière entre l’école primaire et le collège ou les allophones, qui comptaient
entre 15 000 et 25 000 unités (comme le Dictionnaire super major) ;
8) les monovolumes pour le cycle 3 de l’école primaire, qui comptaient 20 000 unités (comme le Dictionnaire
Hachette junior) ;
9) les monovolumes pour le cycle 2 de l’école primaire, qui comptaient entre 5 000 et 6 500 unités (comme le
Dictionnaire Hachette benjamin) ;
10) les monovolumes pour les cycles 1 et 2 de l’école primaire ou le parascolaire, qui comptaient entre 1 000
et 4 000 unités (comme Mon premier Bescherelle illustré).
En 2009, le deuxième segment avait disparu et le troisième ne comptait plus que des monovolumes. Il faut
prendre en compte cette évolution du marché et adapter l’intitulé de ces segments, tout en veillant à la stabilité de la base, qui doit également permettre de continuer à bien identifier les objets publiés les années
antérieures, ce qui est rendu possible par l’exploitation d’une table qui enregistre les caractéristiques des
segments (T-Seg-marche en figure 28).
206 Il est par exemple remarquable, à cet égard, que la préface rédigée par Alain Rey pour le Dixel, dictionnaire
encyclopédique lancé en 2009 (avec le millésime 2010) par Le Robert sur le segment de marché dont le Petit
Larousse est de longue date le leader, présente davantage de parentés rédactionnelles, par sa brièveté et sa
faible technicité, avec celle de ce dernier ouvrage qu’avec les préfaces très détaillées que le lexicographe a
pu rédiger antérieurement pour divers autres répertoires de la maison d’édition dont il fut un maître d’œuvre
majeur.
Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires
145
Place de Rbd1 dans mes travaux
Bien que non explicitement mentionnée dans mes articles alors qu’elle joue un rôle
capital pour la rigueur des informations fournies (cf. par exemple la figure 1 de T12),
Rbd1 constitue l’outil de stockage de mon chantier d’investigation le plus ancien et le
plus régulièrement retravaillé. Outre la documentation de la recherche, cette ressource
pourrait connaître une valorisation orientée vers la vulgarisation des savoirs : la mise
en ligne d’une sélection des données qu’elle contient pour l’information de ceux qui
veulent s’acheter un dictionnaire et qui cherchent sur Internet des éléments susceptibles d’orienter leur choix a été envisagée. Ce projet, qui s’inspire dans une certaine
mesure des études comparatives proposées par des associations de défense des consommateurs, nécessite que les données réunies soient complétées, mais surtout qu’elles
soient accompagnées d’explicitations sans lesquelles le grand public ne pourrait pas
véritablement tirer profit des informations fournies. En mars 2008, l’AFNOR a sollicité ma collaboration à un projet de normalisation des informations fournies par les
éditeurs à propos de leurs produits de manière à rendre ceux-ci mieux comparables
par les usagers. 207 Le travail réalisé dans ce contexte me semblait pouvoir directement
s’articuler aux réflexions sur la présentation “didactisée” des données de Rbd1, mais
pour l’heure les travaux de l’ISO ont peu progressé et je n’ai pas été en mesure de consacrer le temps utile à la sélection de données enregistrées pertinentes dans ce contexte
puis à leur explicitation, ce qui a différé la mise en ligne d’informations extraites de
Rbd1. Cette base joue cependant déjà depuis longtemps le rôle qui lui est dévolu dans
le cadre des recherches que je développe, et ses données documentent la grande majorité des publications et travaux qui vont être passés en revue ci-après.
2.1.3. Plan du commentaire des travaux métalexicographiques
Les regroupements effectués dans cette deuxième partie tiennent compte de la chronologie des recherches métalexicographiques mais déstructurent en partie celle-ci pour
rapprocher les travaux qui relèvent des mêmes thématiques :
– Les analyses structurelles (§ 2.2.) correspondent à mes premières recherches dans
ce domaine (celles publiées dans T6 et T7 et d’autres menées simultanément). Elles
abordent chaque dictionnaire étudié par l’identification de ses composants d’articles,
de leur organisation et des informations qu’ils fournissent, favorisant une prise de connaissance transversale des contenus.
– Les recherches portant sur l’identification de ce qui est traité dans les articles (§ 2.3.)
ont débuté dès 2002 pour la base des items iconographiés Rbd2, et en 2005 pour l’étude
d’emplois verbaux spécifiés par leurs patrons syntaxico-sémantiques conduite dans T9
(2009c), et elles se sont depuis déployées sur différents terrains, sans toujours donner
lieu à des publications. Une étude récente (T24 (à paraître a)) concerne la sélection
des unités lexicales et des emplois qui font l’objet de traitements dans les articles, considérées sous l’angle de ce que les lexicographes choisissent de décrire et non de ce
que les destinataires des répertoires peuvent identifier comme étant décrit. Enfin la
207 Pour des raisons de confidentialité des travaux réalisés à l’AFNOR, je ne présenterai pas davantage ce projet.
146
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
dernière rédaction (Tdr5 (en préparation b)) aborde conjointement la question de
l’identifiabilité des unités traitées dans les dictionnaires scolaires à partir de formes
graphiques rencontrées dans des textes de lecture des manuels de français et celle de
la sélection des nomenclatures de ces répertoires (qui n’incluent pas tout ce qui est rencontré dans les textes), et complète, concernant le dernier point, les inventaires de la
base des nomenclatures des dictionnaires scolaires Rbd5, qui fournit un état comparatif des sélections d’unités linguistiques et des modes d’adressage de chacune dans
ces répertoires destinés à de jeunes usagers.
– Les deux sections suivantes regroupent d’une part (§ 2.4.) les études des marquages
ou des prescriptions d’emploi exprimés à propos de certains items dans des dictionnaires généraux destinés à des lecteurs experts ou à des élèves, et d’autre part (§ 2.5.)
celles des informations étymologiques et historiques fournies dans certains articles de
dictionnaires généraux ou spécialisés destinés aux jeunes lecteurs. Elles sont proposées en fonction de l’ordre relatif de leurs premières contributions respectives (pour la
première, T11 (à paraître b), débuté en 2006, et pour la seconde, T12 (2008a), rédigé
en 2007). Chacune réunit des travaux qui multiplient les angles d’approche des mêmes
questions. Cette stratégie qui allie des traitements systématiques par sous-ensembles
d’items cohérents, puisque constitués en fonction de leurs propriétés linguistiques, et
transversaux en fonction de ce qui motive la présence de chaque indication, doit permettre à terme de couvrir les aspects les plus saillants de ces champs d’étude.
Après ces retours sur des travaux d’analyse de données dictionnairiques débute un
sous-ensemble de deux sections plus composites que les précédentes mais néanmoins
caractérisées l’une et l’autre par le fait qu’elles rassemblent des études qui ont trait à
divers changements observables ou concevables dans l’univers de la lexicographie, qu’il
s’agisse des modes d’analyse métalexicographique, des processus d’élaboration des dictionnaires ou des produits eux-mêmes :
– La première (§ 2.6.) réunit deux textes de présentation de volumes de la revue Lexique :
(i) Tdr3, destiné au comité de rédaction dans le cadre de la soumission du projet (de
D2) et aux contributeurs en vue de la préparation du numéro, expose ce qui motive que
les six lectures innovantes réunies impliquent des inventaires aussi exhaustifs que
possible des objets étudiés 208 et comment, pour les trois thèmes abordés, elles offrent
une perspective analytique et une autre plus propositionnelle (voire effectivement
mise en œuvre dans le cadre d’une activité lexicographique) ;
(ii) T19, qui introduit le numéro 19 (D1), présente les travaux réalisés par les neuf
contributeurs qui ont réfléchi à l’opportunité de « Changer les dictionnaires » et aux
méthodes envisageables à cette fin, en ancrant leurs réflexions sur ce qui est proposé
dans une sélection de répertoires français, belges, britanniques et américains.
– La seconde de ces sections finales (§ 2.7.) est principalement consacrée au commentaire de T17, article déjà évoqué au début de cette introduction et qui le sera de nou208 Ce mode d’approche des données, central dans mes travaux, ne me semble pas jouir d’une faveur unanime,
ce qui doit être lié au coût de sa mise en œuvre. Même si je reconnais un intérêt certain aux analyses qui
évaluent les différentes techniques d’échantillonnage qui peuvent être adoptées pour analyser les textes dictionnairiques (cf. entre autres Coleman & Ogilvie (2009) ou Bukowska (2010)), j’ai souhaité valoriser des
analyses aussi exhaustives que le motive le propos, en suscitant de la part d’autres chercheurs des contributions qui partagent ce principe.
Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires
147
veau souvent dans les retours sur mes autres travaux, dans la mesure où les réflexions
engagées pour eux ont alimenté celles de ce texte, qui les reprend dans une perspective
éditoriale à laquelle T21 offre un développement complémentaire. Elle évoque également les principaux prototypes de dictionnaires conçus, dont les aspects les plus innovants sont exposés après qu’ils aient été situés dans leurs contextes d’élaboration.
2.2.
Analyses structurelles :
du repérage des composants d’articles
à l’étude de leurs contenus
Parmi les centres d’intérêt que j’ai développés en métalexicographie analytique, le
premier est l’analyse structurelle des articles de dictionnaires. Dès 1999 je travaillais
sur ces questions pour les cours de SGML et de XML que je proposais aux étudiants
du DESS, en faisant mes premières armes sur des textes de structures relativement
simples, et, afin de bien en assimiler les objets, j’assistais parallèlement à tous les autres
cours de la formation 209, dont ceux de Pierre Corbin, auprès de qui je me familiarisais
avec les lectures structurelles d’articles qu’il proposait alors sans recourir à un outillage
informatique.
Depuis cette époque, ma recherche est continue sur ces questions structurelles, qui
constituent pour moi un mode d’accès privilégié aux contenus dictionnairiques, en phase
avec le développement récent de la structuration informatique des dictionnaires, et
conséquemment un préalable aux travaux focalisés sur certains composants ou types
d’informations. Les études réalisées sont nombreuses. Elles ne seront pas toutes évoquées ci-après, mais dans ce domaine je ne peux pas non plus ne revenir que sur celles
qui ont donné lieu à publication, cette forme d’aboutissement textuel étant plutôt liée
à des circonstances qui ont fait que telle analyse structurelle constituait mon actualité
à un moment où il était possible de publier un article à son sujet.
Motivation du plan retenu
Si toutes les études structurelles ne donnent pas lieu à publication, elles fondent
l’ensemble des analyses métalexicographiques auxquelles je procède. En conséquence,
ce § 2.2., le premier de ceux qui réunissent des retours sur travaux développés dans le
domaine métalexicographique, présente la particularité de conjoindre l’exposé d’un principe d’approche des textes dictionnairiques, qui peut avoir trois modalités de réalisation,
et des commentaires de publications.
Faire précéder les retours sur les contributions consacrées à des questions de structuration d’articles par un développement relatif aux trois outils exploités pour les études
structurelles (balisage XML, bases de données SQL et graphes) que j’exploite présente
l’intérêt de situer les deux textes publiés (T6 et T7) dans une pratique plus globale et
209 Le DESS “Lexicographie et Terminographie”, continuateur du “Diplôme Européen de Lexicographie” créé en
1991, a été habilité en septembre 1999 (cf. n. 1), au moment de mon recrutement à Lille 3. Danielle et Pierre
Corbin en assuraient la responsabilité pédagogique, mais je me suis très rapidement impliquée dans son
animation et dans les relations avec les intervenants professionnels que nous invitions.
150
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
de montrer les choix qui peuvent être opérés en matière de structuration des textes dictionnairiques.
Le XML est d’un usage très répandu 210 tant chez les éditeurs que chez les métalexicographes, probablement parce qu’il permet de préserver la linéarité des textes structurés (puisque le balisage est intégré aux textes) et d’enchâsser différents éléments
de structuration et donc d’isoler des constituants au sein de constituants de niveau
supérieur.
Des bases SQL peuvent également être mobilisées, en particulier quand les structurations opérées sont peu profondes et que l’ordre des constituants est régulier.
Les graphes, que j’utilise alternativement à ces deux modes de structuration, ne
servent pas réellement à structurer, mais ils constituent des représentations graphiques de structures et, dans certains cas très particuliers, ils peuvent être des outils
de balisages partiels. Les graphes présentés dans mes différents travaux sont élaborés
avec l’éditeur de l’outil d’exploration de corpus Unitex. Pour lui, les graphes constituent
des modes d’expression de motifs de recherche (éventuellement très complexes) à partir
desquels il repère les segments de textes qui leur correspondent. Ils servent donc à coder des expressions linguistiques. Si je me sers d’Unitex pour des manipulations d’énoncés réunis en corpus 211, je l’emploie aussi pour étudier les textes dictionnairiques :
– les graphes me servent à formaliser graphiquement des éléments d’analyses métalexicographiques (comme dans le cadre des études structurelles du Larousse pratique,
cf. § 2.2.1.2.) ou des composants étymologiques des dictionnaires destinés aux jeunes
lecteurs, dans T12 (cf. § 2.5.1.) ;
– certains graphes de description structurelle permettent également de procéder à des
extractions dans les textes dictionnairiques ponctuellement traités en tant que corpus,
ce qui me donne le moyen de tester leur complétude en vérifiant qu’ils sont bien capables
d’extraire tout ce qu’ils représentent et qu’il n’y a pas dans le texte dictionnairique
d’autres segments à prendre en compte ;
– enfin, des graphes particuliers, appelés transducteurs (cf. § 1.3.2., figure 8), peuvent
compléter les traitements précédents en ne se limitant plus au repérage des segments
de texte correspondant au motif exprimé, mais en insérant en leur sein des balises, ce
qui permet de structurer le texte dictionnairique 212.
210 Son prédécesseur, le SGML, semble avoir eu une diffusion plus réduite, ce qui est peut-être en partie lié au
fait qu’il constituait une innovation (puisque c’était le premier langage de balisage standardisé), alors que
le XML a profité des savoir-faire développés pour lui.
211 Cf. T4, où je fais coopérer Unitex avec Cordial Analyseur (cf. § 1.3.2.), et T10, où les graphes d’Unitex me
servent à rechercher en corpus ce qui est ou n’est pas présent dans les guides de conversation et dictionnaires
auxquels la richesse documentaire du corpus est comparée (cf. § 1.4.2.).
212 Bien que l’utilisation de transducteurs fournisse une visualisation graphique des données à manipuler, la
mise en œuvre de ces graphes est lourde et implique l’utilisation d’un outil qui, comme Unitex, sait les exploiter pour insérer des balises. Quand je n’ai pas besoin de montrer les manipulations opérées, j’utilise préférentiellement des scripts (écrits par exemple en Perl) pour ce type de tâche.
Il est vraisemblable que les éditeurs n’utilisent pas non plus d’interfaces graphiques quand ils réalisent des
postbalisages de textes dictionnairiques et que l’emploi de graphes soit limité aux entreprises talistes qui
font de la recherche d’information (ce qui constitue une forme d’exploration de corpus, même si ceux-ci peuvent
être ouverts).
Document de synthèse – 2.2. Analyses structurelles
151
Dans les développements qui suivent comme dans les articles commentés, le fait de
rédiger des textes qui ont un certain niveau de technicité mais qui doivent être lisibles
par chacun sans connaissance prérequise m’incite le plus souvent à privilégier les représentations les plus schématiques, ce qui explique la proportion relativement faible
d’exemples de balisages XML et celle sensiblement plus forte d’illustrations sous forme
de graphes, alors que les proportions des deux sont inverses dans mes travaux. Pour
leur part, les bases SQL voient rarement leurs tables et les schémas de relations exposés dans les publications. Ceci est induit par le fait que, bien qu’elles jouent un rôle très
important dans l’ensemble de mes travaux métalexicographiques 213, elles se prêtent
moins bien que le XML à l’étude structurelle de textes dictionnairiques existants.
2.2.1. Analyse structurelle d’articles de dictionnaires monolingues
Les premières analyses structurelles dont il va être question, qui ont en commun de
porter sur des dictionnaires monolingues, relèvent de deux ensembles distincts : les
premières, chronologiquement comme dans l’exposé ci-après, fondent des principes
d’analyse et de formalisation des observations que j’ai repris dans différentes autres
études et publications (dont en particulier T6 et T7, qui font l’objet des §§ 2.2.2. et
2.2.3.) ; la dernière, plus récemment engagée et toujours en cours de développement,
consiste non seulement en une analyse mais aussi en une mise à disposition pour
d’autres travaux du texte du dictionnaire imprimé étudié (Rdic4).
2.2.1.1. L’article tuer du Nouveau Petit Robert
C’est en 2001-2002 que j’ai commencé à travailler de manière véritablement interactive avec Pierre Corbin 214. Nous avons alors entrepris une lecture structurelle de
différents articles des deux dictionnaires Robert qui dominaient la hiérarchie de produits de cet éditeur (le Grand Robert et le Nouveau Petit Robert) 215, en nous attachant
particulièrement à l’étude de l’article que ce dernier consacrait (dans son édition électronique de 2001) au verbe tuer (cf. figure 29), exemplaire en ce qu’il présentait les cinq
niveaux hiérarchiques mobilisables dans ce répertoire, beaucoup d’expressions et un
réseau analogique fourni.
Durant son analyse, afin d’y repérer les combinaisons de composants identifiables 216,
nous avons appris à unifier notre vocabulaire et à faire coexister des contraintes induites
213 Cf. nn. 188 et 229 et §§ 2.1., 2.3.2., 2.3.3., 2.4.1., 2.4.3., 2.5.1.
214 Cf. n. 45.
215 Depuis lors, le Dictionnaire culturel en langue française en quatre volumes de 2005 est venu s’intercaler entre
ces deux répertoires.
216 Des ensembles de composants constituent des modules élémentaires au sein desquels chacun prend une valeur
particulière. Ces modules obéissent à une syntaxe qui gouverne d’une part leur principe d’assemblage dans
les articles en architectures plus ou moins élaborées, et d’autre part, au sein de chaque module, l’optionnalité
ou la répétabilité éventuelle ainsi que la distribution des composants. Les grammaires qui régissent les principes d’organisation des modules élémentaires peuvent être de complexité et de régularité variables, comme le
montrent les analyses des différents répertoires évoqués infra.
152
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
par les principes de l’analyse métalexicographique mise en œuvre 217 et par le souhait
d’élaborer une DTD. La finalité de cette dernière ne devait pas être de servir à baliser
d’autres articles, ce pour quoi ces patrons informatiques sont généralement conçus 218,
mais de permettre de noter avec précision les identifications de composants élémentaires ou complexes auxquelles nous parvenions et de réfléchir à la manière la plus
adéquate possible de nommer chacun d’eux 219.
Figure 29. Début de l’article tuer du Nouveau Petit Robert électronique (de 2001)
217 Celle-ci fut assez fortement influencée par les propositions de Hausmann & Wiegand (1989 : 328-360).
218 Quand un document se conforme à une DTD ou à un schéma, c’est en général qu’il doit faire partie d’un ensemble
de documents se conformant au même modèle et qu’il est nécessaire que chacun respecte les mêmes règles
de structuration parce qu’ils vont ensuite être fusionnés ou traités dans le cadre des mêmes posttraitements.
219 L’intérêt pour le métalangage de la lexicographie, dont T18 présente une première analyse éclairant les figures qui s’y observent, est constant dans ma pratique d’analyste de textes dictionnairiques : alors que les
propos relatifs aux dictionnaires, qu’ils soient tenus par des lexicographes ou par des métalexicographes, s’accommodent souvent d’un certain flou dénominatif, je tente pour ma part
(i) de rester vigilante concernant mes propres usages (ce qui est plus aisé dans les publications que durant
les cours où la dynamique collective peut conduire à employer des noms dont l’adéquation manque d’évidence,
comme indicateur1 en figure 33) ;
et (ii) de motiver (au moins à mon intention) les noms que je retiens pour chaque composant d’article, et qui
sont de ce fait sujets à évoluer en fonction de la progression de mes analyses.
Les noms d’éléments employés dans la figure 30, par exemple, ne sont plus ceux que je choisirais aujourd’hui :
si je ne modifierais pas sensiblement les noms de constituants, j’éliminerais par contre des noms des éléments
qui les contiennent les mentions de rang ou les autres informations qui correspondent à des variables, pour
enregistrer leurs valeurs dans des attributs (<subdivision-de-niveau-plus2> et <sélection-d-un-premier-argument-de-verbe>
deviendraient respectivement <subdivision niveau="plus2"> et <sélection-argumentale rang-d-argument="1">).
Document de synthèse – 2.2. Analyses structurelles
153
Premier balisage métalexicographique
L’extrait de balisage présenté en figure 30 montre les options d’analyse retenues
pour le début de la subdivision I. A. 1. de la partie définitionnelle de l’article tuer
(appelée conventionnellement “zone 2”).
Figure 30. Extrait du balisage de la zone 2 de l’article tuer
du Nouveau Petit Robert électronique (de 2001)
<zone2-fonctionnelle>
<subdivision-de-niveau-plus2>
<repère-de-subdivision-de-niveau-plus2>
<ordonnateur-numérique-romain-de-microstructure>I</ordonnateur-numérique-romain-de-microstructure>
<signalisateur-de-subdivision-majeure></signalisateur-de-subdivision-majeure>
</repère-de-subdivision-de-niveau-plus2>
</subdivision-de-niveau-plus2>
<subdivision-de-niveau-plus1>
<repère-de-subdivision-de-niveau-plus1>
<ordonnateur-alphabétique-de-microstructure>A</ordonnateur-alphabétique-de-microstructure>
<signalisateur-de-subdivision-majeure></signalisateur-de-subdivision-majeure>
</repère-de-subdivision-de-niveau-plus1>
<spécificateur-métalinguistique-non-contextualisé-délimité>
<délimitateur-initial-de-spécificateur-métalinguistique-non-contextualisé>(</délimitateur-initial-despécificateur-métalinguistique-non-contextualisé>
<sélection-d-un-premier-argument-de-verbe>Sujet personne</sélection-d-un-premier-argument-de-verbe>
<délimitateur-final-de-spécificateur-métalinguistique-non-contextualisé>)</délimitateur-final-despécificateur-métalinguistique-non-contextualisé>
</spécificateur-métalinguistique-non-contextualisé-délimité>
</subdivision-de-niveau-plus1>
<subdivision-de-niveau0>
<repère-de-subdivision-de-niveau0>
<ordonnateur-numérique-arabe-de-microstructure>1</ordonnateur-numérique-arabe-de-microstructure>
<signalisateur-de-subdivision-majeure></signalisateur-de-subdivision-majeure>
</repère-de-subdivision-de-niveau0>
<énoncé-définitionnel>
<segment-d-énoncé-définitionnel>Faire mourir</segment-d-énoncé-définitionnel>
<spécificateur-métalinguistique-contextualisé-délimité>
<délimitateur-initial-de-spécificateur-métalinguistique-contextualisé>(</délimitateur-initial-despécificateur-métalinguistique-contextualisé>
<sélection-d-un-deuxième-argument-de-verbe>qqn</sélection-d-un-deuxième-argument-de-verbe>
<délimitateur-final-de-spécificateur-métalinguistique-contextualisé>)</délimitateur-final-despécificateur-métalinguistique-contextualisé>
</spécificateur-métalinguistique-contextualisé-délimité>
<segment-d-énoncé-définitionnel>de mort violente</segment-d-énoncé-définitionnel>
</énoncé-définitionnel>
<séparateur-de-séquences>.</séparateur-de-séquences>
<composant-d-analogie-avec-items-macrostructurels-non-délimité>
<embrayeur-d-analogie-avec-items-macrostructurels>⇒</embrayeur-d-analogie-avec-items-macrostructurels>
<item-macrostructurel-cible>assassiner</item-macrostructurel-cible>
<séparateur-d-éléments-textuels>,</séparateur-d-éléments-textuels>
<!-- […] -->
</composant-d-analogie-avec-items-macrostructurels-non-délimité>
<!-- […] -->
</subdivision-de-niveau0>
<!-- […] -->
</zone2-fonctionnelle>
154
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Toutes les variations typographiques et tous les constituants du texte sont pris en
compte afin de définir les bornes des composants repérés, y compris les ordonnateurs
hiérarchiques et les délimitateurs (comme les parenthèses) qui ont pu ne pas être saisis
lors de la rédaction des articles mais ajoutés ou modifiés par posttraitement (cf. T6
§ 2.2.2.3.). Les noms des éléments reflètent la fonction de chaque segment de texte
délimité dans l’économie générale de l’article, telle qu’elle est interprétée, et traduisent
donc des options d’analyse : par exemple, alors que les articles les plus complexes du
Nouveau Petit Robert peuvent compter jusqu’à 5 niveaux hiérarchiques (numériques
romains, lettres majuscules, numériques arabes, losanges éclairés, tirets cadratins),
ceux-ci ne sont pas numérotés de 1 à 5 mais de +2 à −2, le niveau 0 – celui des numériques arabes – correspondant à celui qui est le plus régulièrement utilisé comme niveau de subdivision majeur dans les articles aux hiérarchies moins profondes.
Balisage conforme à la norme NF ISO 1951:2007
Le travail d’analyse structurelle d’articles du Nouveau Petit Robert s’est échelonné
sur deux années, de janvier 2002 à janvier 2004, date à laquelle André Le Meur, qui
coordonnait les travaux réalisés à l’AFNOR pour la contribution française à l’élaboration de la norme NF ISO 1951:2007 relative au balisage des textes dictionnairiques 220,
m’a demandé de confronter l’état d’analyse obtenu avec ce que pouvait être le balisage
du même article conforme à la DTD de la future norme (cf. figure 31) afin de pouvoir
discuter de son adéquation dans le groupe d’experts de l’AFNOR que j’avais été invitée
à rejoindre.
Figure 31. Extrait du balisage de la zone 2 de l’article tuer
du Nouveau Petit Robert électronique (de 2001)
conforme à la DTD de la norme NF ISO 1951:2007
<HomographGroup> <!-- I -->
<SenseGroup> <!-- A -->
<RangeOfApplication>Sujet personne</RangeOfApplication>
<SenseGroup> <!-- 1 -->
<Definition>Faire mourir (qqn) de mort violente</Definition>
<SynonymBlock>
<Synonym>assassiner</Synonym>
<!-- […] -->
</SynonymBlock>
<!-- […] -->
</SenseGroup>
<!-- […] -->
</SenseGroup>
<!-- […] -->
</HomographGroup>
La DTD de la norme étant destinée à la rédaction de textes dictionnairiques, tous
les ordonnateurs hiérarchiques et les délimitateurs des contenus textuels d’un élément
sont considérés comme étant postinsérés et donc non pris en compte dans le balisage
de l’article. Par ailleurs, outre la langue retenue pour les noms d’éléments, ce sont les
220 Cf. Derouin & Le Meur (2002 et 2008) pour des vues de cette norme à deux stades d’élaboration différents.
Document de synthèse – 2.2. Analyses structurelles
155
différences de choix dénominatifs qui ont été faits et de systématicité du balisage mis
en œuvre qui me paraissent intéressants :
– alors que ceux présentés en figure 30 sont aussi particularisants que possible, ceux
de la norme sont généraux : des éléments <SenseGroup> balisent les subdivisions de
niveau +1 et 0 sans en distinguer la nature 221, et un élément <RangeOfApplication> (correspondant au « champ de validité d’un sens », cf. NF ISO 1951:2007, p. 7) balise l’indication sémantique relative au premier argument du verbe 222 ;
– alors que ceux présentés en figure 30 sont strictement déterminés en fonction d’indices structurels, ceux de la norme regroupent différentes subdivisions de description
de sens dans un élément <HomographGroup>, ce qui introduit une part d’interprétation,
par ailleurs discutable, voire intenable, sans justification indépendante de l’analyse
linguistique 223 ;
– alors que la figure 30 expose des éléments nommés de manière identificatrice pour
chaque objet d’un même paradigme informationnel, le balisage normalisé ne les prend
pas tous en compte : si un élément <RangeOfApplication> balise l’indication relative au
premier argument du verbe, celle relative au second est restée non balisée dans le contenu de l’élément <Definition>.
Ni l’analyse formalisée initiale, ni la confrontation des structurations qu’elle a rendues possible n’ont donné lieu à publication : la première parce que l’occasion ne s’est
pas trouvée et peut-être aussi parce que je souhaitais mettre de nouveau à l’épreuve
ma méthodologie d’approche avant de publier à son sujet, la seconde du fait de la confidentialité de la DTD normalisée jusqu’à sa publication par l’ISO. Si je les évoque dans
ce document, c’est qu’elles ont été déterminantes pour mon implication en métalexicographie et pour la suite de mes collaborations avec Pierre Corbin, en permettant à la
fois d’apprécier la compatibilité des analyses structurelles élaborées à la manière qu’il
m’a transmise avec les principes de structuration propres au XML et, par notre implication conjointe sur ces deux terrains, d’harmoniser nos points de vue et de nous confronter à des problèmes qui fortifièrent notre réflexion 224 et nous préparèrent à effectuer des analyses plus extensives sur d’autres objets, en recherche comme dans le cadre
de la formation.
Balisage dérivé de la structure HTML de la version électronique de l’article
Depuis cette phase initiale de formalisation de la structure d’articles du Nouveau
Petit Robert, j’ai observé que les versions électroniques de ses millésimes 2007 et sui-
221 Les indications « <!-- A --> » et « <!-- 1 --> » sont des commentaires inclus dans le document XML. Ils sont destinés aux lecteurs humains mais n’appartiennent pas à proprement parler au balisage du texte.
222 Dans les exemples de balisages proposés dans le texte de la norme, les éléments <RangeOfApplication> délimitent uniquement des sélecteurs de sens (feeling et words), qui figurent antéposés à des équivalents traductionnels fournis dans un article bilingue anglais-français (s.v. dam up, cf. Tableau 8, p. 10 et Annexe C,
exemple 1, pp. 45-46 : « […] figurative [feelings] refouler, ravaler ; [words] endiguer »).
223 Cette éventuelle justification ne semble pas être explicitée dans le texte de présentation de la norme.
224 Le travail de comparaison de balisages n’est pas étranger à cette harmonisation de points de vue, dans la
mesure où il m’a conduite à expliciter, pour moi-même d’abord puis à l’intention de Pierre Corbin et ensuite
d’André Le Meur, les qualités comparées des deux principes de balisage.
156
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
vants 225 permettent d’accéder au balisage HTML des articles copiés dans un éditeur
de documents balisés, ce qui donne la possibilité de le manipuler ensuite afin de convertir les éléments <div> et <span> porteurs d’attributs @class en éléments dont le nom
correspond à la valeur de ces attributs (cf. figure 32). 226
Figure 32. Extrait du balisage XML de la zone 2 de l’article tuer
du Nouveau Petit Robert 2009 électronique
généré à partir du balisage HTML
<s_dvr>
<span id="E001">
<s_ndvr>
<label> I. </label>
</s_ndvr>
<s_str>
<label>
<s_cat>Verbe transitif</s_cat>
</label>
</s_str>
</span>
<s_dvc>
<span id="E002">
<s_ndvc>
<label> A. </label>
</s_ndvc>
<s_mta2>(Sujet personne)</s_mta2>
</span>
<s_dvn>
<span id="E003">
<s_ndvn>
<label> 1. </label>
</s_ndvn>
<s_dfn>Faire mourir (qqn) de mort violente.</s_dfn>
</span>
<s_rvd>
<f_rv> </f_rv>
<clickable>assassiner,</clickable>
<!-- […] -->
</s_rvd>
<!-- […] -->
</s_dvn>
<!-- […] -->
225 Le texte de l’article tuer a évolué depuis l’édition de 2001 : sur les extraits présentés en figures 29, 30 et 32,
l’ordonnateur numérique romain de subdivision microstructurelle était directement suivi de l’ordonnateur
alphabétique en 2001 (« I¡ A¡ »), alors qu’une catégorisation les sépare en 2009 (« I. Verbe transitif A. »)
et la flèche qui introduit le renvoi analogique à assassiner est double en 2001 (« ⇒ ») mais simple dans les
éditions récentes (« »).
226 Usuellement les transformations qui sont opérées sur les données dictionnairiques (mais également sur un
large sous-ensemble des productions éditoriales) prennent en entrée un document XML et produisent un document HTML au sein duquel les éléments XML initiaux sont remplacés par des éléments <div> (pour créer
des blocs de texte) et <span> (pour créer des segments internes à une ligne de texte) porteurs d’un attribut
@class dont la valeur est le nom de l’élément XML original et qui est généralement associé à une mise en
forme déclarée dans la CSS (Cascading Style Sheets, la feuille de styles qui liste les mises en forme à appliquer) à laquelle se réfère le document HTML.
Document de synthèse – 2.2. Analyses structurelles
157
</s_dvc>
<!-- […] -->
</s_dvr>
Les noms d’éléments obtenus (des codes constitués de s_ ou f_ suivis d’une séquence
de lettres ou, pour le dernier présenté ci-dessus, du mot clickable, qui ne réfère pas à
la valeur du segment balisé au sein du texte de l’article mais au fait qu’il porte un lien
hypertexte) ne sont pas tous interprétables aisément, mais la disponibilité de ce codage
des articles fournit tout de même un mode d’accès à leur structure sous-jacente.
Sans tenir compte des variations de texte décrites en n. 225, la confrontation de ce
balisage restitué et de celui que nous avions proposé permet, pour le même extrait
d’article, d’observer, concernant les principes mis en œuvre :
– que tous les constituants du texte balisés par l’éditeur l’avaient été par nous : dans
le XML généré à partir du HTML, les subdivisions sont balisées de manière distinctive
(<s_dvr>, <s_dvc> et <s_dvn>) ainsi que tous les ordonnateurs hiérarchiques qui les introduisent (contenus par des éléments <label> enchâssés dans des éléments <s_ndvr>,
<s_ndvc> et <s_ndvn>), l’item appartenant au réseau analogique est repéré comme étant
un renvoi (par l’élément <clickable>) et la flèche qui le précède comme un opérateur de
renvoi,
– mais aussi que les parenthèses qui encadrent l’indication de sélection du premier
argument ne sont pas balisées en tant que telles dans le texte de l’éditeur 227 et que
l’indication relative au second argument verbal n’y est pas balisée non plus, contrairement à celle qui porte sur le premier 228.
Une perspective d’étude renouvelée du Nouveau Petit Robert pourrait consister à
convertir en XML le balisage HTML d’une sélection d’articles de complexité structurelle variée afin d’identifier les types de contenu de chaque élément, d’en apprécier
la régularité relative et de confronter le balisage restitué à celui qui peut être réalisé
sur la base de ce qu’un utilisateur du dictionnaire particulièrement attentif peut comprendre du découpage de chacun des articles pris en compte.
2.2.1.2. Le Larousse pratique
La seconde étude structurelle de dictionnaire monolingue que j’ai effectuée a donné
lieu à des dépouillements avec Pierre Corbin et les étudiants du M2 LTTAC 229. Elle
227 Cette absence de balisage peut être liée au fait qu’enchâsser ces parenthèses dans un sous-élément n’a pas
d’utilité éditoriale, mais elle peut alternativement être induite par le fait qu’elles pourraient ne pas appartenir au texte balisé des articles mais être postinsérées.
228 L’indication de sélection du premier argument est enchâssée dans un élément dont le nom est malaisément
décodable : <s_mta2>.
229 Cette méthode collective de dépouillement des articles a été utilisée pour
– trois répertoires monolingues : le Larousse pratique (en 2003-2004), le Grand Robert (en 2007-2008) et le
Petit Larousse (en 2007-2008 et 2008-2009) ;
– et un répertoire bilingue : le Robert & Collins junior bilingue français / anglais (en 2002-2003), cf. T6 et T7
(§§ 2.2.2. et 2.2.3.).
Dans chaque cas, nous avons présenté un état de l’analyse structurelle que nous avions réalisée à partir d’un
échantillon d’articles et nous invitions les étudiants à prospecter à la recherche de configurations textuelles
158
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
concernait le Larousse pratique, un dictionnaire de langue de milieu de gamme publié
en 2003 à la rédaction duquel Vanessa Vandevoorde, une des premières étudiantes que
nous avons conjointement formées (promotion 2000-2001), a contribué dès le début de
celle-ci. Ce répertoire, que nous avons étudié dès sa parution, a retenu notre attention
en raison de sa nouveauté structurelle et en partie textuelle et du fait que sa rédaction
s’est effectuée dans un environnement structuré (ce qui constituait une première pour
le département monolingue de l’éditeur et qui a motivé l’intervention en master LTTAC,
en 2004-2005, des responsables éditoriaux et informatiques du projet (la lexicographe
Hélène Houssemaine-Florent et les informaticiens Gabino Alonso et Marion Pépin (cf.
n. 252)).
Les analyses des articles de ce répertoire ont pris différentes formes :
– des balisages XML, dans lesquels nous nous sommes attachés à repérer tous les composants d’articles et leur réunion en combinaisons de complexité croissante, à l’instar de
ce que nous avions entrepris pour l’article tuer du Nouveau Petit Robert évoqué supra ;
– des descriptions de tous les composants et de leurs enchâssements par le biais de
graphes 230, ce qui faisait écho à des travaux réalisés en exploration de corpus (le concordancier Unitex permettant d’utiliser ce type de représentation pour décrire des grammaires locales (cf. T4 et T10, et §§ 1.3.2. et 1.4.2.)) et qui préfigure les analyses des composants transmettant des informations étymologiques présentées dans T12 (§ 2.5.1.) ;
– enfin, des enregistrements des textes de chaque composant dans une base de données
SQL, qui présente l’intérêt de permettre de restituer ou non les indications qui ont subi
un effacement dans les articles (celles qui ne sont mentionnées qu’une fois mais dont
la portée dépasse les limites d’une subdivision de description, comme par exemple les
catégorisations qui précèdent plusieurs descriptions de sens).
Je n’exposerai pas les analyses structurelles xmlisées, qui sont comparables à ce qui
a été développé au § 2.2.1.1., mais je vais présenter les deux autres types d’approche.
Si les descriptions sous forme de graphes me semblent intéressantes pour donner à
voir les structurations repérées, elles ne trouveraient pas de réemploi sous cette forme
chez les éditeurs (sauf dans le cas particulier de postbalisages de textes réalisables au
moyen des graphes particuliers que sont les transducteurs (cf. n. 212 et infra)). Les bases
de données SQL sont par contre des modes de structuration qui peuvent tout à fait
trouver leur place dans les traitements éditoriaux, même si elles ne paraissent pas
être très souvent utilisées dans l’édition dictionnairique.
Analyses structurelles présentées sous formes de graphes
Une manière de montrer les organisations structurelles des articles a consisté à
exploiter des représentations graphiques réalisées avec Unitex, un outil d’exploration
que nous n’avions pas déjà prises en compte. Leurs observations étaient enregistrées dans une base de données durant les séances de dépouillement puis intégrées aux analyses, la complétude de celles-ci s’améliorant
rapidement grâce aux recherches simultanées et aux confrontations d’interprétations diverses que peuvent
motiver certains segments de textes.
Un travail comparable a été réalisé pour un monolingue scolaire, le Robert junior, dans ses éditions imprimée
de 1997 et électronique de 1999, au sein desquelles nous avons étudié les composants iconographiques (et
leurs relations avec les composants textuels des articles) afin de constituer la base Rbd2 (cf. § 2.3.3.).
230 Cf. § 1.3.2. et infra.
Document de synthèse – 2.2. Analyses structurelles
159
de corpus textuels que j’ai, en la circonstance, détourné de sa fonction première. Au
sein des graphes qu’il permet de dessiner, des cheminements constitués de nœuds reliés
par des arcs qui se lisent de gauche à droite (du nœud initial figuré par un triangle –
comme un nœud vide – au nœud terminal représenté par un carré inclus dans un cercle)
représentent les séquences de composants observées. Si un nœud ou une séquence de
nœuds est répétable, un arc part de la droite de celui-ci ou du dernier nœud de la séquence pour rejoindre sa gauche ou la gauche du premier.
Dans l’extrait ci-dessous des graphes présentés ci-après en figure 33, qui reprend le graphe
intitulé renvoi-tab.grf, le chemin qui relie le nœud initial au nœud terminal est constitué de
deux nœuds : le premier contient une chaîne de caractères correspondant strictement à ce qui
introduit le composant d’article décrit, le second, qui est répétable du fait de la présence d’un
arc qui relie son extrémité droite à celle de gauche, contient un code représentant un mot quelconque (ce qui, combiné avec la répétabilité, représente une séquence d’un ou plusieurs mots
quelconques).
Si, entre deux nœuds NA et NB, les contenus de plusieurs nœuds ou combinaisons
de nœuds sont alternatifs, plusieurs chemins partent du nœud NA et rejoignent le
nœud NB via des nœuds intermédiaires distincts.
Dans l’extrait ci-dessous des graphes présentés en figure 33, qui reprend le graphe intitulé
=.grf, deux cheminements permettent de rejoindre le nœud terminal à partir du nœud initial :
après le nœud contenant une parenthèse et le signe égal et celui qui est répétable et qui contient le code <MOT>, il est possible de choisir, entre deux nœuds, celui qui contient une parenthèse fermante ou celui qui contient un point-virgule (ce caractère marquant lui aussi la fin
du composant décrit mais en séparant la présentation de la glose de contextualisation introduite par le signe égal et la mention, dans les composants d’articles suivants, de synonymes
ou de contraires, ce qui explique l’optionnalisation des nœuds contenant la parenthèse ouvrante
dans les graphes SYN.grf et CONTR.grf, cf. infra).
Les barres contre-obliques antéposées au signe égal et aux parenthèses déspécialisent ces métacaractères, ce qui leur permet ‘avoir leur valeur littérale.
Parmi les graphes présentés en figure 33, certains appellent des sous-graphes via
les nœuds grisés qui contiennent leur nom. La largeur des retraits gauches de chacun
marque sa dépendance vis-à-vis de celui qui est mentionné précédemment avec retrait
de largeur plus réduite.
En figure 33, le graphe intitulé contextualisation.grf, par exemple, appelle quatre sous-graphes :
séquence-contextualisante.grf, =.grf, SYN.grf et CONTR.grf. Dans l’extrait ci-dessous, les deux
premiers de ces sous-graphes ont un retrait gauche plus large que celui du graphe contextualisation.grf.
160
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Seules les subdivisions de descriptions postposées à la zone d’identification de l’item
traité sont prises en compte dans le graphe zone2.grf de la figure 33 231. La structure de
chacune est régulière 232 : elle débute par une séquence optionnelle d’indicateurs entre
crochets (sous-graphe indicateur1.grf ) 233 puis un indicateur optionnel entre parenthèses 234, suivis d’une définition obligatoire, de zéro, une ou plusieurs contextualisations et de zéro ou un renvoi vers un tableau (renvoi-tab.grf ) 235. La définition (définition.grf ) est elle-même constituée d’un spécificateur optionnel 236 (suivi le cas échéant
d’une virgule), d’une séquence définissante (ces deux composants étant répétables, et
chaque séquence étant séparée de la suivante par un point-virgule) 237 et d’une opposition définitionnelle facultative (elle-même décrite comme figurant entre parenthèses,
débutant par par opp. à suivi d’un déterminant ou par par opp. au et se poursuivant
par l’expression d’un ou plusieurs concept(s), ou encore débutant par par opp. à suivi
d’un mot voire de plusieurs séparés par des virgules 238 dans le sous-graphe opposition-def.grf ). Chaque contextualisation (contextualisation.grf ) est constituée d’une sé-
231 Ce graphe, comme les suivants, représente tous les cas de figure observés, mais il surgénère, c’est-à-dire qu’il
représente également des combinaisons de segments textuels décrits par ses nœuds et ceux de ses sous-graphes
qui n’ont pas été rencontrés. L’écriture de graphes qui décrivent strictement ce qui est attesté augmente
très rapidement leur complexité. Dans le cadre de ce document, j’ai préféré privilégier la lisibilité des descriptions présentées.
232 Les noms des constituants repérés sont moins précis que ceux des éléments XML qui balisent l’article tuer, ce
qui est simplement motivé par le fait de les écrire dans des graphes qui doivent contenir peu de texte pour
rester lisibles. C’est également ce qui justifie l’emploi d’abréviations.
233 Par exemple une marque diachronique seule (s.v. muid 1 : « [ANC.] ») ou combinée avec une marque diaphasique
(s.v. zazou : « [FAM., ANC.] » ou s.v. 2. pays, e : « [FAM., VIEILLI] »), ou une combinaison de marques sémantique et
diaphasique (s.v. dompter 3 : « [FIG., LITT.] »).
234 Par exemple s.v. miracle 3 : « (Employé en appos.) ». Dans le graphe zone2.grf, cet indicateur est représenté
par le nœud grisé correspondant à l’appel du sous-graphe indicateur2.grf, mais ce sous-graphe n’est pas décrit.
235 Par exemple s.v. mugir : « (Voir tableau des cris d’animaux.) ».
236 Ils sont utilisés pour des marquages diatopiques (s.v. zwanze : « En Belgique »), diachroniques (s.v. 2. livre 3 :
« Sous l’Ancien Régime »), diatechniques (s.v. zygomatique : « En anatomie ») ou diaphasiques (s.v. zizi :
« Dans le langage enfantin »).
237 La concaténation des deux éléments (dont le premier est optionnel) est répétable pour décrire les cas où la
définition est exprimée par une juxtaposition d’indications définitionnelles (s.v. moyennant : « Au moyen
de ; à la condition de » ; s.v. welter : « En boxe, catégorie de poids immédiatement inférieure à celle des poids
moyens ; boxeur appartenant à cette catégorie »).
238 Par exemple s.v. multilinguisme : « (par opp. à monolinguisme) ».
Document de synthèse – 2.2. Analyses structurelles
161
quence contextualisante optionnellement suivie d’une glose (=.grf ) et/ou d’un composant de synonymie (SYN.grf ) et/ou d’un composant d’antonymie (CONTR.grf ) 239.
Figure 33. Sélection de graphes décrivant des composants d’articles du Larousse pratique
239 Par exemple s.v. moyennant : « Moyennant finance, nous pourrons trouver un accord (= en payant ; SYN. grâce
à) ». Les synonymes et les contraires peuvent eux-mêmes être associés à un marquage, décrit par une partie
des chemins du sous-graphe indicateur1.grf, comme s.v. acariâtre : « (SYN. grincheux, hargneux, revêche ;
CONTR. affable, amène [litt.]) ».
162
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Dans le prolongement de l’utilisation détournée de son éditeur de graphes, Unitex
peut être mobilisé pour manipuler les textes des articles analysés. En effet, il est envisageable de traiter un texte dictionnairique à la manière d’un corpus au sein duquel
Unitex peut mettre en correspondance des segments textuels et un motif de recherche
exprimé au moyen de graphes, ce qui rend possible, au moins en partie, l’automatisation du balisage des textes de certains composants d’articles. Ceci implique de convertir les graphes en transducteurs dont les nœuds vides porteurs de balises souscrites permettent que, au sein du texte mis en correspondance avec le motif de recherche exprimé
par le chemin où ceux-ci figurent, soient insérées lesdites balises à la position qu’ils
occupent. En figure 34, dans le transducteur présenté, qui est conçu pour le balisage
d’une sélection des composants étymologiques et historiques (les “identifications diachroniques” selon la terminologie de Hausmann & Wiegand (1989 : 314 et 343) que je
reprends dans les travaux présentés au § 2.5.), le premier nœud postposé au nœud
initial et le dernier nœud précédant le nœud terminal – ceux contenant les parenthèses
qui encadrent le composant – sont communs à tous les cheminements réalisables au
sein du graphe.
Figure 34. Transducteur élaboré pour le balisage des informations relatives
à l’identification diachronique des items décrits dans le Larousse pratique
Document de synthèse – 2.2. Analyses structurelles
163
Entre ces nœuds mutualisés :
– Le premier chemin permet de baliser comme <évolution> une séquence constituée de
la mention optionnelle d’une langue puis de celle d’un item et facultativement d’une
glose de celui-ci, ce qui correspond à la description d’un mot hérité 240.
– Le deuxième chemin indique que la même séquence que précédemment précédée cette
fois de de l’ ou de du comme la concaténation de de et de l’item doivent être enchâssées
dans un élément <construction-endogène> pour expliciter que le mot a été construit en
français 241.
– Le troisième chemin permet que, si le nom de la langue est précédé de mot et suivi de
la signification introduite par signif. et présentée entre guillemets, la séquence soit
balisée comme la description étymologique d’un emprunt de forme graphique identique
(<emprunt-graphie-id>) 242.
– Les trois derniers chemins permettent respectivement de traiter les indications du fait
que les unités décrites sont des noms déposés 243, des sigles 244 ou des abréviations 245.
240 Le texte « (lat. hospitale, auberge) » (s.v. hôtel), par exemple, sera balisé comme
(<evolution><langue>lat.</langue> <item>hospitale</item>, <glose-d-item>auberge</glose-d-item></évolution>)
les balises des éléments <langue>, <item> et <glose-d-item> étant introduites par les sous-transducteurs
langue.grf, item.grf et glose-d-item.grf appelés par les nœuds grisés du transducteur principal.
241 Le texte « (du gr. polemos, guerre) » (s.v. polémologie), par exemple, sera balisé comme
(<construction-endogène>du <langue>gr.</langue> <item>polemos</item>, <glose-d-item>guerre</glose-d-item>
</construction-endogène>)
les sous-transducteurs balisant cette fois encore les éléments <langue>, <item> et <glose-d-item>.
Le texte « (de pointe) » (s.v. pointeau), quant à lui, sera balisé comme
(<construction-endogène>de <item>pointe</item></construction-endogène>)
le sous-transducteur item.grf balisant cette fois encore l’élément <item>.
242 Le texte « (mot angl. signif. « montant des enjeux ») » (s.v. pool), par exemple, sera balisé comme
(<emprunt-graphie-id>mot <langue>angl.</langue> signif. <signification> « montant des enjeux »</signification>
</emprunt-graphie-id>)
les balises des éléments <langue> et <signification> étant introduites par les sous-transducteurs langue.grf et
signification.grf.
243 Le texte « (nom déposé) » (s.v. Abribus, Caméscope, Digicode ou Nescafé), par exemple, sera balisé comme
(<nom-déposé>nom déposé</nom-déposé>)
244 Les textes de la colonne de gauche ci-dessous, par exemple, seront balisés comme indiqué en colonne de
droite :
TEXTES SOURCES
TEXTES BALISÉS
« (sigle) » (s.v. O.S.)
(<sigle>sigle</sigle>)
« (acronyme) » (s.v. cégep)
(<sigle>acronyme</sigle>)
« (sigle de habitation à loyer modéré) » (s.v.
H.L.M.)
(<sigle>sigle de <forme-longue>habitation à loyer
modéré</forme-longue></sigle>)
« (acronyme de syndrome d’immunodéficience (<sigle>acronyme de <forme-longue>syndrome
acquise) » (s.v. SIDA)
d’immunodéficience acquise</forme-longue></sigle>)
« (sigle de Communauté financière africaine
ou de Communauté financière en Afrique) »
(s.v. C.F.A.)
(<sigle>sigle de <forme-longue>Communauté financière
africaine</forme-longue> ou de <forme-longue>Communauté
financière en Afrique</forme-longue></sigle>)
« (sigle de l’angl. human immunodeficiency
virus) » (s.v. HIV)
(<sigle>sigle de l’<langue>angl.</langue> <forme-longueVO>human immunodeficiency virus</forme-longue-VO></sigle>)
164
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Lors de l’étude d’un type de composant dont le texte contient beaucoup de constituants à baliser qui peuvent apparaître dans des ordres variés et avec des introducteurs diversifiés, comme c’est le cas de ceux qui fournissent des identifications diachroniques (cf. T12 et § 2.5.1.), une stratégie exploratoire peut consister à construire
un transducteur très fortement surgénérateur qui balise tout ce qui peut être identifié
en leur sein. En traitant le contenu de ce composant, on obtient un texte structuré au
sein duquel il convient éventuellement de repérer les segments non balisés qui devraient
l’être pour les intégrer dans des éléments. Au terme de ce travail de délimitation des
constituants internes, il devient possible d’écrire la DTD du composant étudié. 246 Un
contexte non métalexicographique mais pratique de ce type de balisage partiel au
moyen d’un transducteur qui surgénère peut se concevoir dans le cadre de la détection méthodique des irrégularités de traitement observables dans un dictionnaire en
cours de révision et dont on souhaite régulariser la codification textuelle.
Analyses structurelles présentées dans une base SQL
Certaines analyses d’articles du Larousse pratique que j’ai réalisées ont également
été effectuées dans la perspective de créer une base de données SQL afin d’évaluer dans
quelle mesure les principes de structuration adoptés dans le cadre des balisages XML
(manuels ou réalisés par le biais de transducteurs) sont transposables dans une base
de données relationnelle. 247 Les travaux préliminaires à l’élaboration du schéma de
Les balises des éléments <forme-longue>, <langue> et <forme-longue-VO> seront introduites par les sous-transducteurs forme-longue.grf, langue.grf et forme-longue-VO.grf appelés par les nœuds grisés du transducteur
principal.
245 Les textes de la colonne de gauche ci-dessous, par exemple, seront balisés comme indiqué en colonne de
droite :
TEXTES SOURCES
TEXTES BALISÉS
« (abrév.) » (s.v. poly)
(<abréviation>abrév.</abréviation>)
« (abrév. de l’anglo-amér. electronic mail) »
(s.v. e-mail)
(<abréviation>abrév. de l’<langue>anglo-amér.</langue> <formelongue-VO>electronic mail</forme-longue-VO></abréviation>)
« (abrév. de l’angl. compact disk read only
(<abréviation>abrév. de l’<langue>angl.</langue> <forme-longuememory, disque compact à mémoire morte) » VO>compact disk read only memory</forme-longue-VO>,
<forme-longue-VF>disque compact à mémoire morte</forme(s.v. cédérom)
longue-VF></abréviation>)
« (abrév. de chemin de fer métropolitain) »
(s.v. 1. métro)
(<abréviation>abrév. de <forme-longue>chemin de fer métropolitain</forme-longue></abréviation>)
Les balises des éléments <langue>, <forme-longue-VO> et <forme-longue-VF> seront introduites par les soustransducteurs langue.grf, forme-longue-VO.grf et forme-longue-VF.grf appelés par les nœuds grisés du transducteur principal.
246 Ce travail peut alternativement être réalisé au moyen de scripts dans lesquels les segments textuels contenus par les nœuds du transducteur figurent cette fois au sein d’expressions régulières.
247 Il me semble que nous ne sommes pas très nombreux à pouvoir exploiter une connaissance effective des balisages XML et des bases SQL pour tenter d’objectiver leurs potentiels et leurs limites. La mise en contraste
des deux modes de structuration m’a intéressée dès mon implication dans la formation de lexicographes.
Depuis 2001, le programme de celle-ci intègre les deux types de structurations (cf. n. 279) et j’ai régulièrement
invité à les comparer les étudiants lillois, comme ceux du master de traduction de l’université d’Orléans
(dans lequel je suis intervenue de 2001 à 2006, cf. n. 266). La première expression de cette comparaison dans
le cadre d’une recherche a été motivée par les investigations préparatoires menées dans le cadre du projet
Matoutou (cf. § 1.2.1., « Un projet de recherche peut en appeler un autre (lexicographique celui-ci) »). Au-
Document de synthèse – 2.2. Analyses structurelles
165
relations de celle-ci ont permis que P. Corbin (2004, § 2.3.3.) modélise et illustre avec
l’article multiple (cf. figure 35) une lecture originale du rôle joué par la hiérarchisation
du texte marquée par les ordonnateurs alphanumériques : l’article y est décomposé
en descriptions élémentaires telles que chacune porte sur un item catégorisé dont la
mention en début de subdivision est facultative et dépendante de l’identité de l’unité
sur laquelle porte la précédente, ce que montre un état de la base de données présenté
sans regroupement (et donc sans effacement des répétitions) comme celui qui est
proposé en figure 36.
Figure 35. Article multiple du Larousse pratique
multiple adj. (du lat. multiplex, qui a beaucoup de plis). 1 Qui se produit de nombreuses fois : Ce
magnétoscope a été réparé à de multiples reprises (SYN. nombreux). 2 Qui est composé de plusieurs
parties : Une prise multiple (= sur laquelle on peut brancher plusieurs appareils). 3 Qui se présente
sous des aspects nombreux et variés : Nous vous proposons de multiples solutions. ‹ Grossesse
multiple, donnant naissance à deux enfants ou plus. ” n.m. Nombre entier qui contient un autre
nombre entier plusieurs fois exactement : 12 est un multiple de 4. ‹ Plus petit commun multiple ou
P.P.C.M., le plus petit des multiples communs à plusieurs nombres.
Ce type de formalisation, qui ne respecte pas la linéarité du texte source (ce qui peut
paraître déroutant) et qui demande une manipulation ultérieure pour la restituer si
nécessaire, présente l’avantage d’inciter à réfléchir sur la portée de chacune des indications fournies dans un article : dans l’article multiple, il convient, par exemple, de
repérer que l’indication étymologique est relative à l’adjectif, mais pas au nom qui en
dérive ni aux composés construits avec chacun des items simples et que nombreux est
un synonyme de multiple proposé pour le contexte où il est question d’une répétition
(à de multiples reprises).
L’état présenté en figure 36 est celui qui a été réalisé à partir de la première base
de données mise en œuvre, en 2004, pour enregistrer les informations contenues dans
l’article multiple et une sélection d’autres articles choisis pour leur diversité structurelle. Comme le montre le schéma de relations présenté en figure 37, cette base constituée de neuf tables stocke les formes graphiques des items traités optionnellement
mises en relation avec une information catégorielle et avec une indication étymologique, et liées (via une table pivot) à une ou plusieurs définition(s) 248, chacune pouvant
être illustrée par une ou plusieurs contextualisation(s), elle(s)-même(s) optionnellement
associée(s) à une glose et à la mention d’un ou de plusieurs synonyme(s) et contraire(s).
delà de ce que j’en ai très rapidement dit à propos de ce projet et en introduisant le § 2.2., j’ambitionne de
pouvoir rédiger un article qui comparerait les qualités relatives du XML et des bases SQL pour la structuration de textes dictionnairiques et leur manipulation dans le cadre de créations de versions électroniques ou de
métissages de textes de sources variées.
248 L’utilisation d’une table pivot permet de ne pas enregistrer deux fois la définition associée aux unités plus
petit commun multiple et P.P.C.M.
le plus petit des
multiples communs à plusieurs
nombres
le plus petit des
multiples communs à plusieurs
nombres
adresse
subordonnée
adresse
recatégorisée
adresse
subordonnée
variante
d'adresse
subordonnée
Grossesse
multiple
multiple
Plus petit
commun
multiple
P.P.C.M.
n.m.
(du lat. multiplex, Qui se produit de Ce magnétoqui a beaucoup de nombreuses fois scope a été réparé à de mulplis)
tiples reprises
adj.
adresse
principale
multiple
Nombre entier
qui contient un
autre nombre
entier plusieurs
fois exactement
donnant naissance à deux
enfants ou plus
(du lat. multiplex, Qui est composé
qui a beaucoup de de nombreuses
plis)
parties
adj.
adresse
principale
multiple
12 est un multiple de 4
Une prise multiple
Nous vous proposons de multiples solutions
(du lat. multiplex, Qui se présente
qui a beaucoup de sous des aspects
plis)
nombreux et variés
adj.
sur laquelle on
peut brancher
plusieurs appareils
nombreux
COMPOSANT-DE- COMPOSANT-DE- COMPOSANT-DECONTEXTUALISA GLOSE-DE-CONSYNONYMIE
TEXTUALISATION
TION
adresse
principale
COMPOSANTDEFINITIONNEL
multiple
COMPOSANTETYMOLOGIQUE
COMPOSANTDE-CATEGORISATION
COMPOSANTTYPED-ADRESSAGE D-ADRESSAGE
166
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Figure 36. État de la base de données relationnelle consacrée aux unités décrites
dans l’article multiple du Larousse pratique
Document de synthèse – 2.2. Analyses structurelles
167
Figure 37. Schéma de relations élaboré pour la base de données relationnelle
du Larousse pratique
Développée dans le cadre d’activités de recherche, cette base a connu ensuite plusieurs
versions au gré de sa mise à l’épreuve avec cinq promotions du M2 LTTAC. Depuis
2008-2009, ce travail trouve un nouvel essor du fait de l’instauration d’un dialogue
lexicographique et informatique avec Serge Verlinde, qui partage avec moi les enseignements de bases de données dans la formation professionnelle, ce qui nous permet
de confronter les principes de structuration conçus en fonction d’un strict respect de
l’organisation structurelle et du texte du dictionnaire source avec ceux que mettrait en
œuvre ce lexicographe rompu à l’utilisation de bases SQL pour la mise en ligne de contenus dictionnairiques s’il devait dériver du Larousse pratique des articles plus proches
de l’esprit de ceux du Dictionnaire d’apprentissage du français langue étrangère et seconde (DAFLES), dont il est un des maîtres d’œuvre. 249
2.2.1.3. Le Larousse des débutants [Rdic4]
Une dernière étude structurelle de dictionnaire me semble avoir eu une importance
particulière parmi mes travaux. Elle concerne un répertoire destiné aux élèves du cycle
des apprentissages fondamentaux (le cycle 2 de l’école primaire), le Larousse des débutants de 2005,
– dont l’un des prédécesseurs, le Mini débutants de 1985, 250 avait déjà servi antérieurement de support à Agnès Tutin dans la formation lilloise de lexicographes pour des
balisages en SGML 251 ;
249 Cf. n. 151. Thierry Selva, qui avait conçu le schéma de relations de la base du DAFLES, avait fait profiter
nos étudiants de la promotion 2002-2003 de l’expérience acquise dans le cadre de l’élaboration de ce dictionnaire concernant la structuration et la création d’interfaces de consultation en ligne. Serge Verlinde, qui à
l’époque (et même plus largement : de 2000 à 2007) intervenait dans notre formation avec Jean Binon sur
des questions de lexicographie bilingue, a assuré la gestion de la base du DAFLES depuis la fin du contrat
de Thierry Selva et lui a donné de nouveaux développements dans le cadre de la Base lexicale du français.
C’est cette expérience qui motive qu’il intervienne maintenant à ce sujet dans la formation professionnelle
lilloise.
250 La généalogie du Larousse des débutants (2000 et 2005) comporte deux jalons : le Dictionnaire mini débutants
(de 1999), précédé du Mini débutants. Mon premier vrai dictionnaire (1985, 1990, 1997). Le dictionnaire publié
en 2000 proposait le même texte que celui de 1999 sous un titre différent. Bien que leur titre soit proche,
celui de 2005, qui a connu un retirage en 2010, est le produit d’une refonte de celui de 2000.
168
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– dont la mise en page donne une impression de clarté du texte bien qu’il ait déjà une
structure assez élaborée ;
– et dont la structuration en XML effectivement mise en œuvre a été évoquée par des
acteurs de l’informatique éditoriale des éditions Larousse lors de l’une de leurs interventions 252.
M’inspirant du projet de Tutin & Véronis (1998), qui avaient cherché à respecter les
recommandations de la TEI pour le balisage du Petit Larousse 253, et désirant prendre
en compte par ailleurs les consignes de structuration de la norme ISO à laquelle j’avais
travaillé à l’invitation de l’AFNOR (cf. § 2.2.1.1.), j’ai entrepris en 2007 de comparer
les balisages du Larousse des débutants obtenus en appliquant les propositions de ces
deux textes à vocation standardisante avec celui découlant d’une analyse métalexicographique plus conforme à l’esprit de celles qui sont développées à Lille 254. Après avoir
mené une étude préliminaire sur une sélection d’articles, j’ai souhaité effectuer le balisage de l’ensemble du dictionnaire et évaluer d’une part si le texte numérisé pouvait
être balisé semi-automatiquement, comme je l’avais envisagé en 2004-2005 pour le
Robert & Collins junior bilingue (cf. T7 (§ 2.2.3.)), et d’autre part s’il serait possible
de convertir au moyen de transformations XSLT le premier balisage mis en œuvre
afin d’en générer d’autres conformes aux deux autres DTD, puis de tester toutes les
conversions (du balisage TEI vers un balisage ISO, du balisage ISO vers un balisage
TEI, du balisage métalexicographique vers un balisage TEI et vers un balisage ISO)
afin de comparer leur faisabilité 255.
Deux stagiaires ont collaboré à ce projet 256 en assurant la numérisation (en mode
texte) d’une large partie du volume et ses premières relectures, mais les données
251 Quand j’ai débuté à Lille 3, Agnès Tutin, à qui je succédais, a eu la gentillesse de me fournir de la documentation utile pour la préparation de mes cours et pour l’instauration d’un dialogue de qualité avec les
informaticiens qui gèrent les salles pédagogiques où elle avait travaillé avant moi. Je tiens à l’en remercier.
252 Gabino Alonso et Marion Pépin, respectivement responsable et membre du service d’informatique éditoriale,
sont intervenus une première fois en 2005-2006, en compagnie d’Hélène Houssemaine-Florent, pour présenter le travail réalisé avec cette lexicographe lors de la création du Larousse pratique (cf. § 2.2.1.2.), et
une seconde fois en 2006-2007 pour exposer plus transversalement leurs activités de structuration de dictionnaires et de développements de logiciels de rédaction et d’exploration de corpus.
253 Ce travail faisait suite aux récentes présentations des recommandations de la TEI (Sperberg-McQueen &
Burnard eds (1994), Burnard & Sperberg-McQueen (1996)) et, plus spécifiquement, à celles sur leur usage
pour les dictionnaires, qui avait constitué l’objet de l'exposé de Jean Véronis au colloque sur l’informatisation du Trésor de la langue française (Véronis & Ide (1996)).
254 Dans ce contexte comme dans le cas des balisages de l’article tuer du Nouveau Petit Robert (cf. § 2.2.1.1.),
l’analyse structurelle porte sur le texte publié, ce qui est pertinent pour une étude métalexicographique
mais ne correspond pas exactement au cadre pris en compte par l’ISO, qui formule des recommandations à
mettre en œuvre pour des productions de dictionnaires qui laissent plus de souplesse d’application : lors
d’une réédition ou d’une dérivation, les éditeurs ne sont pas tenus de restituer strictement un texte préexistant, ils peuvent décider de le faire évoluer afin de respecter les contraintes d’une nouvelle DTD, ce qu’un
métalexicographe ne peut pas faire sans dénaturer le texte qu’il étudie. La TEI, en revanche, envisage aussi
bien la structuration de textes dictionnairiques existants que de textes à créer.
255 Une conversion partant de l’un des balisages standardisés pour obtenir l’autre me paraissait mieux réalisable qu’une autre qui (partant du même balisage) devrait produire celui qui avait une vocation métalexicographique, mais je désirais valider cette hypothèse par l’expérience.
256 Il s’agit en 2007 de Carolina Lamouroux, M2 LTTAC promotions 2006-2009, et en 2008 de Mame Khady Sow,
M1 TAL promotions 2006-2008. Je les remercie pour le sérieux dont elles ont fait preuve dans la réalisation
des tâches que je leur ai confiées.
Document de synthèse – 2.2. Analyses structurelles
169
qu’elles ont produites n’ont pas été suffisamment relues et nettoyées pour permettre
de tester les alternatives de structuration que constituent les deux standards et la
DTD métalexicographique, et l’automatisation des conversions de balisage est restée
spéculative faute de pouvoir être appliquée 257. La ressource Rdic4, bien qu’elle ait
profité du travail de ces deux stagiaires, n’a donc pas encore connu les développements
escomptés ni les publications envisagées 258, probablement faute de temps, d’autres
projets prenant simultanément leur essor, dont en particulier la constitution du corpus
des écrits de Danielle Corbin, Rcorp8 (cf. § 1.6.2.) et les analyses d’informations étymologiques qui m’ont conduite à constituer une base de données réunissant une importante sélection de composants d’articles qui fournissent ces informations dans les dictionnaires pour enfants, Rbd4, et à rédiger sur ce sujet quatre contributions dans un
temps relativement court (T12, T13, T15 et T16 (cf. § 2.5.)).
Si le projet de balisage intégral du Larousse des débutants n’a encore pas pu à ce jour
avoir l’aboutissement escompté, ce n’est probablement pas seulement en raison de contingences pratiques, mais aussi du fait de ses ambitions, qui toutes ont un coût spécifique :
– numériser et poststructurer le texte de ce dictionnaire, pour disposer 259 des articles
de l’un des répertoires destinés aux élèves pour le cycle 2, qui présente par ailleurs la
caractéristique originale de proposer des patrons de construction syntaxico-sémantique
dans certaines de ses définitions phrastiques (cf. § 2.3.6.), ce qui en fait un bon support
pour réfléchir à la manière dont pourrait être constituée une compilation de dictionnaires scolaires existants intégrée à un cartable numérique (du type de celle que j’envisage dans T17 § 3.) et consultable par hyperappel à partir des textes des manuels
(cf. T17 § 3.2.1.1. et § 2.7.2.) ;
– traiter l’ensemble du texte, pour se placer dans la situation d’un éditeur qui souhaite
poststructurer aussi automatiquement que possible un texte déjà saisi ou imprimé et
numérisé et se confronter véritablement aux difficultés de ce type de tâche 260 ;
– baliser le texte de tous les articles en veillant à faire preuve d’un haut niveau de
précision métalexicographique, pour valider les principes d’analyse structurelle posés
et évaluer de manière systématique si les noms choisis pour les composants conviennent
bien pour l’ensemble des textes qu’ils contiennent ;
– baliser le texte en respectant les recommandations de la TEI et de l’ISO, pour se placer
dans la situation d’un éditeur qui voudrait pouvoir assurer une promotion de son pro-
257 Il peut sembler paradoxal que j’aie engagé l’élaboration des algorithmes de poststructuration et l’écriture des
transformations destinées à convertir les balisages d’un format dans l’autre (métalexicographique / TEI /
ISO) dès 2007, alors que le nettoyage des données textuelles déjà numérisées et relues n’était pas suffisamment abouti pour que les règles mises en place puissent donner des résultats exploitables. Cette chronologie a
été induite par le fait que je souhaitais expliquer concrètement la finalité du travail à la première stagiaire
chargée des numérisations et que j’ai profité de la dynamique générée par ce stage comme par le suivant
pour faire progresser mes réflexions. Il reste maintenant à terminer les numérisations et les relectures.
258 Il a néanmoins donné lieu à un mémoire de M1 (cf. Mdir87 (Contreras (2009)) et n. 263).
259 Le texte de ce dictionnaire est sous droits, ce qui implique que je ne le diffuse pas.
260 Le Larousse des débutants a une structure régulière et le fait qu’il soit déjà balisé par son éditeur (cf. supra)
donne de bonnes garanties de faisabilité à mon entreprise.
170
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
duit sur cette base 261 et se donner les moyens d’appréhender la ou les représentation(s)
que ces standards donnent des structures d’articles ;
– convertir les balisages d’un format dans un autre, pour simuler une tâche éditoriale
que je n’ai pas l’occasion d’effectuer sur des répertoires complets et dont il m’intéresse
de mieux connaître les contraintes 262.
La ressource Rdic4 est donc appelée à jouer un rôle important pour des études de
structure 263 comme de contenus informationnels. Les nn. 414 et 420 précisent ces
perspectives au § 2.3.6. en évoquant deux évolutions complémentaires de l’étude conjointe du corpus de textes de lecture Rcorp13 et du Dictionnaire Hachette benjamin
(cf. T20 (§ 1.6.1.) et Tdr5 (§ 2.3.6.)) : d’une part la réduplication du travail fait pour le
dictionnaire Hachette en prenant en compte cette fois le texte du Larousse numérisé,
et d’autre part l’élaboration de nouvelles descriptions lexicales dérivées de celles du
dernier répertoire. Rdic4 constitue un outil pédagogique que j’exploite depuis 2007
et qui sert depuis 2008 pour les manipulations de textes structurés en XML proposées par Luc Audrain 264 aux étudiants du master LTTAC.
261 Certains dictionnaires indiquent sur leurs couvertures qu’ils respectent la norme ISO, ce qui est le cas, par
exemple, de plusieurs ouvrages récents des éditions Langenscheidt Fachverlag porteurs de la mention
« Datenstruktur konform mit ISO ↵ ISO 1951(2007) », comme par exemple :
1) à gauche : Langenscheidt Fachwörterbuch Kompakt Elektrotechnik und
Elektronik Englisch, paru en 2008 (cf. http://www.langenscheidt.de/produkt/
4144_2/Langenscheidt_Fachwoerterbuch_Kompakt_Elektrotechnik_und_Elekt
ronik_Englisch-Buch/978-3-86117-303-8) ;
2) à droite : Langenscheidt Fachwörterbuch Kompakt Technik Englisch, paru
en 2009 (cf. http://www.langenscheidt.de/produkt/4146_2/Langenscheidt_
Fachwoerterbuch_Kompakt_Technik_Englisch-Buch/978-3-86117-299-4).
262 Lors des interventions des partenaires de l’informatique éditoriale de Larousse en master LTTAC (cf. n. 252),
les extraits d’articles balisés qu’ils nous avaient présentés nous avaient permis de constater que leurs options
de balisage et les noms qu’ils choisissent ont une certaine parenté avec ceux que j’ai mis en œuvre dans le
balisage métalexicographique, même si celui-ci tend à être plus détaillé que ce qui est fonctionnel pour l’éditeur. Les conversions réalisées à partir du balisage métalexicographique sont donc à mon sens celles qui se
rapprocheront le plus d’une tâche éditoriale possible.
263 Le mémoire de Contreras (2009) (Mdir87, cf. n. 258) a donné un prolongement très consistant au travail de
postbalisage du Larousse des débutants de 2005 (Rdic4) en comparant le texte de celui-ci avec celui de 2000
(celui qui a été refondu pour produire l’édition 2005, cf. n. 250), dont il a balisé une large sélection d’articles
après avoir élaboré pour ce texte une DTD cohérente avec la plus analytique de celles conçues pour Rdic4.
Ce travail de structuration lui a permis d’analyser les changements opérés lors de la refonte, en attachant
une attention particulière aux transformations d’exemples glosés en séquences constituées d’une définition
suivie d’un exemple.
264 Luc Audrain (cf. n. 149) ne pouvait pas utiliser de contenus éditoriaux créés chez son employeur, le groupe
Hachette, pour les manipulations de documents XML qu’il fait réaliser aux étudiants du M2 LTTAC : transformations XSLT pour le réemploi de contenus textuels en se conformant à une autre DTD ou en les convertissant en textes HTML, et mises en forme générées par des traitements codés en XSL-FO ou effectués dans
InDesign après y avoir importé les documents XML. En 2004-2008, il a travaillé à partir du texte du dictionnaire des mots de la formation (Rdic2, cf. §§ 1.4.3. et 2.7.3.), mais nous avons ensuite convenu de traiter un
extrait de notre version du Larousse des débutants (Rdic4), dont le balisage de certains articles est régulièrement repris en cours lors des premiers exercices de manipulation de l’éditeur XML <oXygen/> que je propose.
L’utilisation de ce texte ne contrevient pas à l’obligation qu’a Luc Audrain de ne pas utiliser de contenus éditoriaux produits par son groupe dans la mesure où, bien que rédigé par Larousse, le fragment que nous manipulons n’est qu’une petite portion du texte dictionnairique et où il n’a pas été fourni par cet éditeur mais
obtenu par un travail que nous avons réalisé sans participation d’un acteur du groupe Hachette.
Document de synthèse – 2.2. Analyses structurelles
171
2.2.1.4. Conclusion : des articles monolingues aux bilingues
Les trois travaux qui viennent d’être évoqués, remarquables par leur ampleur, et
conséquemment par le temps que je leur ai consacré (seule ou accompagnée de Pierre
Corbin, de nos étudiants et de nos partenaires externes, dont en particulier Luc Audrain
et Serge Verlinde), témoignent de la stabilité de mon intérêt pour l’étude de la structure des textes dictionnairiques monolingues depuis que j’anime la formation lilloise
de lexicographes, mais c’est à propos d’un dictionnaire bilingue que j’ai publié les deux
analyses structurelles coordonnées dont il va maintenant être question.
2.2.2. Analyse structurelle d’articles de dictionnaires bilingues [T6 (2004b)]
Rien ne laissait a priori prévoir que mes premières publications métalexicographiques concerneraient un dictionnaire bilingue, mais deux événements de l’automne
2002 ont infléchi mes travaux dans cette direction :
– d’une part la parution du Robert & Collins junior bilingue, dictionnaire monodirectionnel conçu pour les collégiens français par Martyn Back (qui en a également assuré
la direction éditoriale) ;
– et d’autre part la réorganisation des enseignements de lexicographie bilingue de notre
master. Ceux-ci étaient assurés depuis une petite dizaine d’années par Henri Béjoint,
animateur du Centre de recherche en terminologie et traduction (CRTT) de Lyon 2 et
auteur en 1994 d’une synthèse sur la lexicographie anglophone, et par Valerie Grundy,
coresponsable du Dictionnaire Hachette-Oxford français-anglais / anglais-français
(1994). Mais ces deux experts, à l’écoute desquels je m’étais initiée aux spécificités de
ce domaine 265, n’étant plus en mesure de poursuivre leur collaboration avec nous, nous
décidâmes, Pierre Corbin et moi, de les remplacer pour les cours de base 266 et de recourir à la compétence de porteurs de projets dictionnairiques 267 pour des approfondissements spécifiques. Ce remplacement de ceux qui ont qualité pour faire des dictionnaires bilingues par d’autres qui sont mieux placés pour en être des utilisateurs limita
la capacité d’appréciation des qualités traductionnelles des ouvrages examinés mais
265 Je tiens à les remercier chaleureusement pour la consistance de nos échanges. Valerie Grundy, ayant eu dès
2000 une activité éditoriale riche en expériences de rédaction de dictionnaires structurés en XML, en a
témoigné dans les limites permises par la confidentialité des projets et a discuté avec moi de leurs principes de balisage, nous permettant de confronter nos points de vue sur les valeurs relatives de différentes
stratégies. Elle avait également très tôt travaillé avec des corpus et contribué à la constitution de celui qui
a été exploité pour le Dictionnaire Hachette-Oxford. T2 et Tdr1 (cf. § 1.2.2.) et les exposés qui les ont précédés lui devaient beaucoup.
266 Nous pouvions, pour ce faire, nous appuyer sur une petite expérience pratique, puisque j’avais été sollicitée
trois ans plus tôt pour assurer à l’université d’Orléans, dans le DESS “ Traduction spécialisée, Culture et
Médias”, un cours de lexicographie et terminographie bilingue théorique et technique qui se prolongea
jusqu’en 2006 au titre de la spécialité de master “ Traduction d’Édition (sciences humaines et disciplines
artistiques)” et dans lequel je devais aborder des questions de documentation au moyen de corpus alignés
et de structuration d’articles en XML et dans des bases SQL.
267 Par ordre chronologique de leur première participation : Martyn Back et Dominique Le Fur (Le Robert), Ralf
Brockmeier (Larousse), Marie-Jeanne Derouin (Langenscheidt Fachverlag), Ilan Kernerman (K Dictionaries),
Estelle Campion (Edigeo), Valeria Zotti (Université de Bologne), Paul Bogaards (Van Dale), Alexandre Ecker
(Ministère de la Culture, de l’Enseignement Supérieur et de la Recherche du Grand-Duché de Luxembourg).
172
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
accorda une place privilégiée à celle de leur consultabilité (clarté de l’organisation
structurelle, lisibilité). C’est dans ces circonstances que j’ai entrepris l’étude du Robert
& Collins junior bilingue dès sa mise sur le marché, sous l’angle notamment de son
balisage structurel, dont traitent T6 ((2004b), rédigé avec Pierre Corbin) et T7 (2005a).
Les analyses débutées dans le cadre de notre veille éditoriale et pour la formation
professionnelle n’étaient a priori pas destinées à déboucher sur un texte synthétisant
notre travail. La rédaction de celui-ci a été engagée consécutivement à l’invitation du
lexicographe et métalexicographe québécois Jean-Claude Boulanger, qui souhaitait que
nous contribuions à un volume consacré aux dictionnaires Le Robert 268 dont il assurait
la codirection, mais le texte que nous avons soumis a semblé trop technique pour un
ouvrage destiné à un large public (ce que nous avons naturellement compris, mais que
nous n’avions pas anticipé dans notre perception initiale du projet éditorial). Plutôt
que de simplifier notre propos pour l’intégrer à toute force dans ce volume, ce qui
l’aurait dénaturé, nous avons préféré retirer notre contribution. Peu après, Chantal
Wionet, qui avait travaillé sur la rétroconversion de dictionnaires du XVIIIe siècle avec
Agnès Tutin 269, nous a fourni l’occasion de publier T6 dans un numéro des Cahiers
de lexicologie constitué en hommage à Michel Glatigny, dont toute la carrière universitaire s’était faite à Lille 3, où il avait accueilli Pierre Corbin et où j’avais eu moi-même
l’occasion de le côtoyer lors de séminaires de l’UMR SILEX.
Motivation de l’objet et de la méthode
Les §§ 0. et 2. de T6 présentent ce qui a motivé notre démarche : la tendance relativement récente à structurer les textes de dictionnaires en XML 270, pratique qui influait sur le regard des analystes au point qu’il était devenu commun de considérer
que les textes non structurés informatiquement étaient irréguliers. Même si certains
posent d’incontestables problèmes lors de leur rétroconversion, nous estimions que cet
avis constituait un seul des points de vue possibles et nous souhaitions en conséquence
adopter une approche plus positive, focalisée, elle, sur la remarquable régularité de
certains de ces textes 271. Nous avons choisi pour cela le Robert & Collins junior bilingue,
pour lequel nous avons proposé une DTD analytique, qui n’était pas la seule possible
mais celle qui reflétait l’état auquel était alors arrivée notre étude de la partie fran268 Cf. Cormier, Francoeur & Boulanger dir. (2003).
269 Le Dictionnaire universel de Basnage de Bauval (1702) et celui dit “de Trévoux” (1704), cf. Wionet & Tutin
(2001).
270 Les nouveaux dictionnaires n’étaient pas nécessairement tous structurés lors de leur rédaction au début des
années 2000. Actuellement, il semble que la plupart le soient, mais il y a peu de produits neufs (hors refontes),
les derniers monolingues originaux étant le couple Larousse des noms communs / Larousse des noms propres
en 2008 et le Dixel en 2009 (cf. n. 206). Les premières structurations de textes déjà existants ont débuté
chez Larousse à partir de 1996 (en SGML), mais d’autres éditeurs ont peut-être été plus précurseurs en la
matière.
271 Le balisage de l’article tuer du Nouveau Petit Robert (cf. § 2.2.1.1.) avait permis de mesurer la complexité
mais aussi la régularité de ce texte (qui contient par ailleurs de nombreux renvois analogiques hérités de
l’ouvrage dont il dérive – le Dictionnaire alphabétique et analogique de la langue française –, dont la mise
en place avait constitué un travail d’autant plus remarquable qu’il avait été accompli à l’origine sans outillage informatique). Cette poststructuration, qui avait fait déceler certaines régularités peu visibles du dictionnaire, constituait un très bon entraînement pour l’étude d’un texte aussi rigoureux et régulier que celui
du Robert & Collins junior bilingue.
Document de synthèse – 2.2. Analyses structurelles
173
çais-anglais de ce dictionnaire, et qui pourrait en inspirer d’autres, peut-être mieux
adaptées à des contraintes éditoriales, qu’il s’agisse de celles induites par la conception de fonctionnalités de consultation dans une édition électronique ou par la rédaction
d’un texte dérivé pour d’autres paires de langues 272.
L’exposé débute (§ 1.) par une rapide présentation des qualités qui ont fait que le
Robert & Collins junior bilingue a retenu notre attention, dont en particulier :
– un programme d’information monodirectionnel, ce qui était exceptionnel, puisque,
pour la période moderne, il n’était que le troisième bilingue de ce type en France concernant l’anglais, après le Dictionnaire d’anglais. Niveau 1 (Larousse, 1975) et le Dictionnaire de l’anglais contemporain (Larousse, 1980) 273 ;
– une présentation claire avec des couleurs de caractères différentes pour les items de
chaque langue (anglais en bleu, français en noir) 274 et des trames de fond distinctives
pour les trois types d’objets présentés (bleu moyen pour les équivalences traductionnelles, bleu pâle pour les informations relatives à celles-ci 275, blanc pour les paires de
contextualisations qui illustrent les traductions ou certaines des explications) ;
– des choix de mise en page différenciés entre les parties dédiées respectivement à
l’aide à l’expression et à la compréhension, afin d’accorder la place nécessaire pour
donner une bonne lisibilité et répéter certaines informations – comme les prononciations, les flexions ou des remarques ciblées – chaque fois qu’elles peuvent être utiles ;
– un métalangage en français, peu présent dans la partie français-anglais mais constituant l’élément majeur de la structuration des articles dans la partie anglais-français ;
– un programme linguistique qui accorde une large place aux cooccurrences privilégiées
sans qu’aucun corpus ait été exploité pour élaborer l’inventaire traité.
Le texte quitte ensuite les considérations lexicographiques pour aborder des questions plus techniques (§ 2.1.). L’observation du fait que la pratique du XML se diffusait mais que certains partenaires professionnels n’étaient pas encore engagés dans
le balisage de leurs textes, a motivé l’hypothèse que les lecteurs de T6 pourraient avoir
besoin d’être soutenus dans la découverte de notre travail et la décision de leur proposer un discours aussi pédagogique que possible. C’est pourquoi il a été décidé de présenter le principe du balisage, de situer le métalangage XML par rapport au SGML,
qui l’avait précédé, et de définir les DTD comme étant des grammaires des balisages
272 Après avoir renommé First in English le Robert & Collins junior bilingue et en avoir fait le premier élément
de la gamme « les premiers bilingues », les éditions Le Robert ont élargi la collection à deux autres dictionnaires en 2004 (un français / allemand et un français / espagnol) réalisés sur le même modèle : Nummer Eins
in Deutsch et Primero en español. Une étudiante du M2 LTTAC, Marion Martinez, a participé en 2003 à
l’élaboration du volume français / espagnol après avoir étudié avec nous le volume français / anglais. Deux
étudiantes de M1 TAL ont par ailleurs ultérieurement rédigés des mémoires sur cette gamme, Carole Alleman
étudiant minutieusement celui qui implique l’espagnol (cf. Mdir97 (Alleman (2010))), et Alice Chiandusso
spéculant sur ce que pourrait être un potentiel volume français / italien en s’appuyant sur l’examen des trois
répertoires existants et en s’inspirant de nos travaux (cf. Mdir58 (Chiandusso (2007))).
273 Ces deux répertoires d’apprentissage échelonnés, de conception par ailleurs différente de celle du Robert &
Collins junior bilingue, se limitaient à une composante anglais-français.
274 Ce principe subit toutefois quelques rares entorses.
275 Quand aucune équivalence traductionnelle n’est proposable, une explication est fournie. Elle est imprimée
sur une zone de trame comparable à celle des modules d’information qui précisent les conditions d’actualisation d’une équivalence traductionnelle présentée par ailleurs.
174
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
(en SGML comme en XML), en précisant au passage que les documents XML peuvent
alternativement se référer à des schémas écrits en XML (cf. n. 8), ce que la note 53
de T17 explicite mieux que ne le fait T6.
Le recours à un balisage XML pour analyser un texte dictionnairique (§ 2.2.) est
motivé par la distinction posée entre les contenus informationnels et les codifications
typographiques qu’ils reçoivent 276. Il l’est également par l’hypothèse que, puisque dans
le cadre d’éditions électroniques les mises en forme sont le plus souvent gérées par le
biais de feuilles de styles, les propositions de T6 pourraient être reprises pour envisager la création d’une version électronique par dérivation du texte imprimé : c’est
l’approfondissement de cette piste de réflexion qui m’a conduite à rédiger T7.
Que retenir de T6 ?
De l’analyse minutieuse d’une large sélection des informations transmises par les
articles du Robert & Collins junior bilingue, je retiens en particulier :
– la formalisation des constructions des emplois d’ennuyer à la manière du LADL,
reconduite pour ceux du verbe permettre dans T9 ;
– la précision des descriptions de sélecteurs d’emplois, qu’ils soient par équivalence
comme s.v. ennuyer 1 (cf. figure 38) :
Figure 38. L’article ennuyer du Robert & Collins junior bilingue
ennuyer
1
Ça m’ennuie de devoir lui demander ça.
It bothers me to have to ask him that.
1 (= contrarier) bother /'bKJBr/
2
Est-ce que ça t’ennuie si j’ouvre la fenêtre ?
Do you mind if I open the window?
2 Pour demander la permission à quelqu’un
de faire quelque chose, on emploie
l’expression anglaise do you mind…?
/ du: ju: 'maNnd/
'
3
Si vous vous ennuyez, jouez aux cartes.
If you’re bored, play cards.
3 ► s’ennuyer : be bored /bC:d/
ou par repérage d’emplois, comme s.v. chapeau :
(que l’on porte sur la tête)
(s.v. chapeau 1)
(pour féliciter quelqu’un)
(s.v. chapeau 2)
276 Avant que Pierre Corbin reprenne cette distinction et fonde sur elle le modèle de l’activité lexicographique
en trois strates (métalinguistique, discursive et de posttraitement, cf. T17 n. 5) présenté à EURALEX 2004,
je ne l’avais vu envisagée, sous des formes différentes, que chez Atkins (1996, § 1.1.) et dans un texte non
publié sur lequel Pierre Corbin travaillait en 2001-2002.
Document de synthèse – 2.2. Analyses structurelles
175
et dont l’utilisation dans le dictionnaire vise à permettre à ses utilisateurs de savoir
quelle acception d’une unité linguistique française est traduite quand celle-ci est polysémique ou homographe d’une autre ;
– la diversité des attributs associés aux éléments de la DTD afin de préciser la valeur
de leurs contenus (par exemple la nature de l’équivalence ou du repérage d’emplois
pour les sélecteurs précédents) :
expérientiel et pragmatique pourraient respectivement constituer les valeurs des attributs
Anature du repérageA associés aux éléments Esélecteur par repérageE observés s.v. chapeau 1
et 2 et présentés ci-dessus.
ou de fournir une analyse linguistique codifiée (par exemple la structure argumentale
des énoncés proposés en contextualisation) :
La structure idiomatique Ncouleur comes out Ntextile onto Ntextile pourrait constituer la valeur de
l’attribut Astructure argumentale anglaiseA de l’Eéquivalent traductionnel anglais d’énoncé
françaisE suivant :
The red has come out of the shirt onto all the other clothes!
(s.v. déteindre 2)
– la discussion sur l’orientation respective de la rédaction, qui semble avoir logiquement
été réalisée de la traduction vers les exemples, et de la consultation, que l’« Avantpropos » présente comme devant être effectuée des exemples vers la traduction et les
explications qui l’accompagnent conformément à l’ordre des deux colonnes au sein
desquelles est réparti le texte, alors même que certains textes d’explication invitent
explicitement le lecteur à observer le ou les exemple(s), comme s.v. le, la, les ci-dessous
(où rien ne permet de déterminer s’il s’agit d’une invitation à les découvrir ou à retourner les voir) : 277
Pour mieux comprendre cette différence,
comparez les exemples donnés à gauche.
– les gênes rencontrées concernant le choix d’un traitement adéquat pour les explications traductionnelles (comme s.v. ennuyer 2 ci-dessous), qui se manifestent par le
traitement en deux temps qui a été retenu :
• les présenter d’abord comme faisant partie de l’ensemble des modules d’informations
variées (au motif que, comme ceux de celles-ci, leurs textes sont présentés sur des
trames colorées claires) ;
• puis les extraire de cet ensemble pour les traiter de la même manière (sur trame bleu
moyen) que les deux modules de traduction (ceux des items en adresses principales et
en adresses subordonnées), deux composants dont ces explications sont fonctionnellement très proches.
277 Après que Martyn Back eut explicité, durant l’une de ses interventions en M2 LTTAC, le principe directeur
présenté ci-dessus et admis quelques entorses faites à celui-ci, l’analyse de l’orientation de la lecture préconisée a été réévoquée dans T7 n. 65 et avait vocation à donner lieu à des développements plus consistants
dans une troisième publication que j’ambitionnais alors de rédiger (cf. § 2.2.3.).
176
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
La DTD retenue concilie les deux positions en enchâssant les modules d’explication
traductionnelle dans l’ensemble des informations, mais en faisant que seules les informations de ce type puissent constituer des composants majeurs, les informations
des autres types étant subordonnées aux traductions. Quand j’ai repris l’analyse des
articles du Robert & Collins junior bilingue pour préparer la rédaction de T7, j’ai privilégié en la circonstance les distinctions fondées sur les fonctions des constituants au
détriment de celles reposant sur la couleur de leur trame de fond, mais ce choix, bien
que fonctionnel dans le cadre des traitements envisagés dans ce nouveau texte, néglige
la prise en compte d’une propriété – celle d’être des textes rédigés – qui distingue les
explications traductionnelles des traductions par mises en équivalence directes et qui
les rapproche des autres informations.
Cette DTD, avant d’être intégralement détaillée en annexe de T6, où elle est développée d’une manière relativement formalisée (des indentations marquant les enchâssements d’éléments), est présentée au § 2.2.2. en articulation avec les résultats des
analyses métalexicographiques précédentes, et un exemple de distribution de chacun
des segments de textes constitutifs de l’article ennuyer en vis-à-vis du nom de l’élément terminal qui doit le contenir est fourni sous forme de tableau (cf. figure 5) afin
de rendre les options descriptives plus concrètement perceptibles avant que ne soit
montré un exemple de balisage (portant, lui, sur le contenu de l’article en, cf. figure
6). Dans ces paragraphes, trois développements n’ont pas directement à voir avec le
balisage analytique des articles. Ils constituent des anticipations de traitements éditoriaux que le texte du Robert & Collins junior bilingue pourrait recevoir s’il était structuré en XML et proposé en version électronique :
(i) la gestion des mises en formes par une feuille de styles (dont quelques instructions
sont données à titre d’exemple),
(ii) l’insertion des délimitateurs et des ordonnateurs numériques qui introduisent certains modules traductionnels et de contextualisation (c’est à cette occasion que le balisage de l’article en est introduit en figure 6),
et (iii) le stockage dans une base de données externe des textes informationnels exploités plusieurs fois (parce que présentés à propos de tous les items qui partagent la propriété qu’ils décrivent) pour régir leurs insertions au moyen de règles et ainsi éviter
les rédactions multiples des mêmes indications, qui consomment inutilement de l’espace de stockage 278.
Options d’informatique éditoriale
À l’époque où ce texte a été rédigé (2003), je mettais à l’épreuve mes compétences
techniques en concevant et réalisant ce type de traitement. Si quelques variations de
précision et de didactisme observables dans les développements techniques portent la
trace de cet apprentissage, ce premier écrit concernant la structuration des articles de
dictionnaires posait clairement le principe de réemplois de contenus dictionnairiques
sur de multiples supports exploitant ceux-ci non pas comme des textes continus (ce que
278 Si ce dictionnaire avait été rédigé dans un environnement structuré, la mise à disposition des segments de
textes à répéter dans une base de données aurait permis de gagner en régularité du propos et, probablement,
en temps de rédaction.
Document de synthèse – 2.2. Analyses structurelles
177
font les éditions électroniques de dictionnaires par ailleurs imprimés), mais comme
des réunions de composants textuels ayant une relative autonomie. L’observation de
cette position me conduit à souhaiter en préciser la portée au-delà de ce qui est exposé
dans T6. J’étais déjà sensible à ce qui incite Verlinde, Selva & Binon (2009 : 227) à
considérer que les composants des articles puissent être conçus comme autonomes,
même si certains expriment des informations interdépendantes et doivent donc être
liés d’une manière ou d’une autre 279 : c’est ce principe qui fonde leur choix de structurer le DAFLES au moyen d’une base SQL, ce qui constitue une option originale dans
l’édition dictionnairique mais informatiquement pertinente, les bases SQL permettant
très souplement de gérer des combinaisons de composants afin de constituer un ou
plusieurs texte(s) informationnel(s). Néanmoins, j’ai aussi perçu très tôt que les bases
SQL, malgré leur adéquation, auraient un coût de création que les éditeurs pourraient
chercher à éviter et qu’elles ne seraient donc pas les seules modes de stockage retenus
pour les segments de textes dictionnairiques à réemployer, que certains au moins des
textes balisés (ou des extraits de ceux-ci conservant leur balisage) serviraient également de bases de données d’où extraire des segments de textes pour les introduire
(automatiquement ou manuellement) en certaines positions choisies dans un texte en
cours de rédaction, ce qu’évoque T6, ou pour les recomposer et éventuellement élaborer de nouvelles descriptions d’unités linguistiques sans création textuelle. Comme il
n’est pas toujours possible d’apprendre quelles procédures techniques sont mises en
œuvre par les équipes d’informatique éditoriale, peut-être que ce que j’évoque est réalisé depuis qu’elles exploitent des documents XML, mais il m’a fallu attendre 2008 pour
que cette intuition me soit explicitement confirmée par un responsable éditorial de l’un
des éditeurs majeurs, qui a créé un nouveau produit imprimé, le Larousse des noms
279 Ce développement fournit une occasion incidente de préciser que, afin de préparer au mieux les étudiants
en formation professionnelle à prendre leur part dans l’élaboration des dictionnaires (ou d’autres types de
répertoires), j’ai régulièrement proposé des inflexions de programme qui traduisent à leur manière la même
vision. D’abord, dès 2001, j’ai ajouté une initiation à la conception et au développement de bases SQL aux
cours de structuration des textes en SGML et XML figurant déjà dans la maquette du DESS à sa création
en 1999, afin d’élargir la polyvalence de nos étudiants. Par la suite, les évolutions techniques qui semblaient
poindre m’ont incitée à densifier et à diversifier de deux façons les compétences étudiantes en informatique
éditoriale,
– en faisant intervenir sur des volumes horaires plus importants des personnes qui avaient l’expérience de
développements innovants autant que consistants :
• Thierry Selva puis Serge Verlinde pour les bases SQL interrogées au moyen de scripts PHP (cf. nn. 173 et
249) en 2002-2003 puis à partir de 2008 ;
• et Luc Audrain pour le XML et le XSLT (cf. nn. 149 et 264) à partir de 2004 ;
– et en complétant ces interventions par d’autres, plus ponctuelles, d’informaticiens éditoriaux représentant :
• Larousse : Gabino Alonso et Marion Pépin (cf. n. 252) ;
• Le Robert : Laurent Catach, à l’occasion de la sortie du Grand Robert de la langue française électronique
sur disque en 2005, et Sébastien Pettoello, diplômé à Lille 3 en 1996 et revenu en 2007-2008 pour un exposé
global de ses tâches chez l’éditeur qui l’emploie actuellement, mais également pour un retour sur la structuration du Dictionnaire latin-français de Félix Gaffiot et la dérivation de sa version abrégée (Le Gaffiot de
poche) qu’il avait effectuées quand il travaillait chez Hachette à l’issue de sa formation lilloise ;
• ou encore Edigeo, entreprise milanaise fournisseuse de contenus pour divers éditeurs italiens : Estelle
Campion, ancienne étudiante du DESS (diplômée en 2003) invitée depuis à plusieurs reprises comme professionnelle, en particulier pour deux exposés centrés sur des questions de conversions en XML de balisages
dictionnairiques réalisés antérieurement au moyen de codes “propriétaires” et un consacré aux traitements
informatiques nécessités par l’élaboration du Grand dictionnaire italien-français français-italien à l’occasion
de sa publication en 2006 en Italie et en France.
178
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
communs (cf. n. 270), au moyen de métissages de textes xmlisés, de révisions textuelles
et de rédactions de portée aussi limitée que possible (cf. T17 n. 108) 280. 281
2.2.3. Balisage semi-automatique d’articles bilingues et repérage des relations
privilégiées liant certains composants [T7 (2005a)]
Comme je l’ai indiqué précédemment, sitôt achevée la DTD du Robert & Collins
junior bilingue présentée dans T6, j’ai commencé à réfléchir à une version dérivée de
celle-ci 282 qui serait mieux employable par l’éditeur dans le cadre de la rétroconversion de ce dictionnaire, tâche que celui-ci aurait légitimement pu considérer comme
étant préalable à la dérivation d’une version électronique du répertoire imprimé et à
la déclinaison de son texte structuré pour d’autres paires de langues (du français / anglais aux français / allemand, / espagnol, voire / italien, etc. 283). Dans le premier contexte, il aurait été nécessaire de structurer informatiquement le texte pour le rendre
consultable (à moins de ne présenter que des fac-similés du texte imprimé, ce qui ne se
fait usuellement que pour des dictionnaires anciens), mais l’éditeur aurait pu choisir
d’intégrer les segments de textes dans les tables d’une base SQL (cf. supra § 2.2.1.2.)
plutôt que de les baliser en XML. Dans le second contexte, la postxmlisation du texte
français / anglais aurait facilité le travail de dérivation : les éléments textuels en anglais et ceux en français correspondant à des explications portant sur le fonctionnement
de la langue anglaise auraient pu être éliminés par prétraitement automatisé, pour
ne conserver que la trame française a priori pertinente pour un nouvel appariement
de langues.
280 La même année (en mai, cf. P. Corbin (2008, n. 96)), cet éditeur a par ailleurs proposé, sur le site Larousse.fr,
L’encyclopédie en ligne (dont le noyau est dérivé – comme celui de l’encyclopédie électronique Kléio parue
en 1999 – du Grand Larousse en 5 volumes de 1987 et enrichie de descriptions récentes du Petit Larousse,
cf. T24 nn. 18 et 19), et il lui a récemment associé le Dictionnaire de français, qui reprend aussi les descriptions de sens du Grand Larousse en 5 volumes (cf. T24 n. 19) mais pas ses composants encyclopédiques
(le projet de ce répertoire ne motivant pas cette reprise), préférant leur adjoindre des synonymes, des homonymes, des difficultés et des citations dont une partie au moins était déjà proposée dans le Larousse expression de 2002 (rebaptisé Larousse multidico depuis 2004 (cf. T17 nn. 85 et 86)). Si ces deux produits actuellement proposés sur le site Larousse mériteraient une recherche plus fine de leurs autres sources textuelles, ils me semblent constituer de bons exemples des recompositions par modules que les structurations
en XML de leur fonds permettent aux éditeurs d’envisager.
281 Antérieurement, je savais que depuis 2005 le texte du Larousse pratique de 2003 (cf. § 2.2.1.2.) est intégré
à deux produits électroniques prêts à consulter – le Larousse illico multidictionnaire français et le Larousse
illico multidictionnaire français – français-anglais anglais-français – français-espagnol espagnol-français –, et
qu’il constitue avec quatre bilingues dérivés d’ouvrages du segment alors dénommé “dictionnaire compact”
les éléments du Larousse illico, un multidictionnaire modulaire à composer soi-même (cf. T17 nn. 72 et
74). Mais la création de ces produits n’a pas réellement nécessité de métissage des textes : le dictionnaire
de français illico affiche ses informations par sous-ensembles thématiques, mais son contenu est le même
que celui du Larousse pratique et, quand il est associé à un ou plusieurs bilingue(s), les données extraites de
chacun sont simplement juxtaposées. Dans ce cas, contrairement à celui du Larousse des noms communs,
si la disponibilité des textes xmlisés a bien permis la création des produits électroniques, elle n’a pas motivé
de création textuelle.
282 Les différences observables entre les deux DTD sont indiquée dans T7, en notes 20, 31, 40, 41, 43, 46,
52, 54, 59 et 71.
283 Les deux premières ont effectivement été réalisées (cf. n. 272), mais sans plus de structuration que dans le
volume original.
Document de synthèse – 2.2. Analyses structurelles
179
Si la nouvelle DTD que j’ai conçue l’a été en fonction de ce qu’auraient pu être les
projets de l’éditeur, elle n’avait pas vocation à être employée par lui dans la mesure
où ni le responsable du projet, ni le service d’informatique éditoriale n’a véritablement
envisagé de poststructurer le texte. Moins profonde, mais élaborée en cohérence avec
la première, cette DTD constitue donc un travail strictement métalexicographique sur
lequel sont basés les algorithmes de poststructuration des articles exposés à Klingenberg
en juillet 2004 (C9) puis dans T7 284.
Le plan de T7 est simple : après avoir situé ce travail par rapport à T6 et plus globalement aux travaux de recherche et de formation lillois (§ 1.), et, dans la même visée
pédagogique que précédemment, avoir présenté quelques rappels relatifs au XML
(§ 2.), je propose des algorithmes de postbalisage fondés sur les régularités textuelles
et de mise en forme observables au sein des articles (§ 3.), puis des enrichissements
qui pourraient être adjoints au texte dans la perspective d’une édition électronique, et
qui consisteraient en mises en relation explicites des équivalences traductionnelles et
des contextualisations qui les illustrent (§ 4.). Le projet développé est ambitieux et
spéculatif. Il est peut-être même partiellement irréalisable puisque quelques-uns des
segments de textes qui n’ont pas été pris en compte dans cet exposé ont été exclus
parce que je n’ai pas réussi à mettre en œuvre les traitements qui les concernent 285,
soit que la méthode employée ne fût pas adaptée et eût demandé à être révisée pour
eux, soit que, les concernant, le recours à un traitement manuel ponctuel semblât
être le moins coûteux.
Algorithmisation du balisage fondée sur les régularités textuelles
Le repérage des limites textuelles de chaque composant des articles (§ 3.) donne
lieu à des descriptions de ce qui y est observable et à des spécifications de ce qu’un programme de balisage devrait réaliser, ces dernières intégrant des tests exprimés de
manière codifiée – « SI condition ALORS {action(s)} SINON {action(s)} » – mais prenant
la forme d’instructions exprimées en langage naturel afin d’être compréhensibles par
tous ceux qui feraient l’effort de chercher à les décoder.
Le premier algorithme décrit le balisage des modules de contextualisation et de traduction d’items en adresses subordonnées et est illustré en particulier par son application à ceux de l’article ennuyer (cf. supra figure 38), qui a déjà servi à présenter le
balisage mis en œuvre dans T6 (figure 5, évoquée au § 2.2.2.), ce qui permet à ceux
qui lisent les deux articles de pouvoir prendre appui sur les analyses métalexicographiques de T6 pour comprendre les motivations du principe de balisage qui est repris
dans T7.
Le second algorithme décrit le balisage des modules de traduction d’items en adresse
principale. Prétendant prendre en compte la diversité des textes rencontrables dans ce
284 Du fait de contraintes de place, tout ce qui a été présenté à Klingenberg n’a pas pu être intégré dans la version
finale de l’article, ce que précise la n. 12 à l’intention de ceux qui ont assisté à l’exposé.
285 Ce point motive en partie mon souhait de poststructurer le texte numérisé du Larousse des débutants (Rdic4)
dans son intégralité (cf. § 2.2.1.3.), ce qui garantirait de bien voir ce qui n’est pas encore pris en compte ou
qui n’est pas bien traité par les règles de balisage déjà prévues, alors que le fait de ne pas disposer du texte
du Robert & Collins junior bilingue n’a pas permis d’évaluer précisément ce qui ne serait pas convenablement
traité par les algorithmes présentés dans T7.
180
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
composant, il intègre de nombreux commentaires (délimités par des dièses) qui proposent des exemples observés dans différents articles et est suivi du balisage de deux
de ces modules – ceux des articles ennuyer et penser – qui réalisent différemment
le programme de mise en équivalence traductionnelle d’items en adresse principale
(le premier recourant à un sélecteur de sens pour spécifier l’acception traduite, tandis
que le second propose les formes conjuguées irrégulières de l’équivalent anglais, cf.
respectivement les figures 38 supra et 39 ci-dessous).
Figure 39. L’article penser du Robert & Collins junior bilingue
penser
Je pense que c’est possible.
I think that is possible.
ou I think it’s possible.
Je pense que oui.
I think so.
Je pense que non.
I don’t think so.
Nous pensons partir demain.
We’re thinking of leaving tomorrow.
think /INEk/
(thought, thought /IC:t/)
i On peut dire en anglais soit think
that …, soit simplement think … (par
exemple, I think it’s possible, I don’t think
it’s true).
i Notez que l’on n’utilise pas yes et no pour
traduire penser que oui et penser que non.
► penser + infinitif (= envisager) :
think of + -ing
Ce travail de balisage des articles, effectué à partir d’indices portés dans leurs textes,
s’inscrit, dans son projet, dans la lignée d’autres travaux, comme ceux réalisés dans
le cadre de l’informatisation du Trésor de la langue française (cf. Dendien (1996 et
2004) ou Henry (1996)). Appliquée au petit dictionnaire bilingue étudié, la tâche est
moins ardue que dans le cas de cet ouvrage de référence, mais elle implique similairement une analyse structurelle fine doublée d’une analyse textuelle orientée vers le
repérage de séquences de caractères ou d’autres indices matériels de changement de
composant d’article. Les données de la première analyse, collectées pour préparer T6,
ont naturellement été précieuses, mais elles n’auraient pas permis à elles seules de
concevoir les procédures de postbalisage qui ont été proposées dans T7, et il a été
intéressant de pouvoir mesurer la distance observable entre les connaissances utiles
pour deux modélisations pourtant très proches par leurs objets et les techniques mobilisées.
En reprenant les DTD présentées dans T6 et T7, j’observe une différence que je n’ai
peut-être pas assez soulignée dans T7 : en fondant sur la DTD de T6 286 les règles
d’xmlisation décrites dans les algorithmes de T7, j’ai été conduite à la faire évoluer en
tendant à ne plus prendre en compte que les éléments de structuration restituables à
partir du texte, ce qui en modifiait fondamentalement la philosophie. La DTD de T7
est certainement plus proche de celle qu’un éditeur mettrait en œuvre pour postbaliser
286 Prendre la DTD de T6 comme base pour une nouvelle réflexion présentait l’avantage de me permettre de
m’appuyer sur des éléments dont les noms avaient été choisis avec soin, dont je connaissais les règles de
construction et que j’avais déjà exploités pour baliser une sélection d’articles. Cela permettait en outre d’envisager de comparer les DTD d’analyse métalexicographique de T6 et de poststructuration de T7, ce que
d’autres choix dénominatifs ou, plus radicalement, d’autres principes de structuration auraient rendu impossible.
Document de synthèse – 2.2. Analyses structurelles
181
un texte de son catalogue et elle permet bien d’en repérer les éléments de structuration
majeurs, mais elle n’a pas vocation comme celle de T6 à expliciter la structure des
articles ni à en valoriser la cohérence et l’intelligence. 287
Enrichissements du balisage pour une édition électronique
Le § 4. revient, lui, sur des points d’analyse plus directement liés à l’étude structurelle des articles : il s’agit de repérer les liens existant entre les mises en équivalence
traductionnelle et les paires de contextualisations (un énoncé français et l’équivalent
proposé pour lui en anglais) qui les illustrent. Dans le cas standard – décrit dans T6
(figures 2 à 4) –, il s’agit d’une relation de type “un à un”, mais il peut éventuellement
s’agir d’une relation de type “un à plusieurs” (comme s.v. savoir 2, où deux paires
d’énoncés sont mises en correspondance avec l’explication traductionnelle) ou “plusieurs à un” (comme s.v. école, où une paire d’énoncés illustre les équivalences traductionnelles de deux items en adresse subordonnée, école maternelle et école primaire 288) – cf. figures 40 et 41 et T7 figures 13 et 9 pour des versions enrichies
d’annotations) :
Figure 40. L’article savoir du Robert & Collins junior bilingue
savoir
1
Est-ce que tu sais comment il s’appelle ?
Do you know what his name is?
Quel âge elle a ? – Je n’en sais rien.
How old is she? – I don’t know.
1 know /nBL/
(knew /nju:/, known /nBLn/)
► je n’en sais rien : I don’t know
/ aNdBLnt'nBL/
')
; ))
2
Rachel ne sait pas parler espagnol.
Rachel can’t speak spanish.
Est-ce que tu sais utiliser un ordinateur ?
Can you use a computer?
Le k de know ne se prononce pas.
2 Pour dire qu’on sait faire quelque chose
en anglais, on emploie le modal can /kWn/
+ infinitif. Pour dire qu’on ne sait pas faire
quelque chose, on emploie can’t /kA:nt/
+ infinitif.
287 Dans l’esprit du travail engagé sur le Larousse des débutants (cf. § 2.2.1.3.), il pourrait être intéressant de
déterminer, sur la base de la DTD retenue dans T7, le principe de balisage qui aurait pu être envisagé au
moment de la rédaction du Robert & Collins junior bilingue (ce qui éliminerait du texte balisé les segments
qui auraient pu être introduits par posttraitement) et de comparer celui-ci avec ceux qui sont proposés par
la TEI et surtout par l’ISO (ce dernier étant mieux valorisable commercialement, il est plus que le précédent
susceptible d’être pris en compte par un éditeur, comme le montrent les mentions observées sur certains
dictionnaires spécialisés Langenscheidt (cf. n. 261)).
288 Dans cet exemple, l’emploi d’école primaire est impropre, l’enseignement primaire réunissant les classes de
l’école maternelle et celles de l’école élémentaire, mais cette inadéquation reflète une confusion faite par de
nombreux locuteurs et ne pose pas de problème pour l’étude métalexicographique en cours. L’exactitude des
données référentielles fournies dans les contextualisations du Robert & Collins junior bilingue ne paraît
pas mise en cause dans son principe par cette observation isolée d’une approximation bénigne.
182
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Figure 41. L’article école du Robert & Collins junior bilingue
école
L’école est tout près de l’église.
The school is very near the church.
L’école maternelle et l’école primaire sont dans
le même bâtiment.
The nursery school and the primary school are in
school /sku:l/
the same building.
► école primaire : primary
► école maternelle : nursery
school /'nM:srN sku:l/
(pluriel : nursery schools)
school /'prANmrN sku:l/
Quel jour est-ce que l’école finit ?
What day does school finish?
Marek ira à l’école en septembre.
Marek will go to school next September.
(pluriel : primary schools)
► l’école (= les cours) : school
/sku:l/
► aller à l’école : go to school
(went, gone/been)
Le traitement proposé repose sur la détection des items français et anglais présentés
comme étant des équivalents traductionnels dans les modules de traduction ou d’explication traductionnelle, puis sur celle de leur coprésence dans les énoncés de contextualisation de chaque langue (où il faut savoir composer avec les ajustements contextuels
qu’ils y ont subis : flexion en genre et nombre ou conjugaison), afin de mettre en place
des relations porteuses chacune d’un indice de confiance dont la valeur dépend de l’évaluation automatique de la qualité de l’appariement proposé. Ceux-ci se matérialisent
par l’adjonction de différents attributs qui enregistrent les valeurs des identificateurs
de chacun des composants où figurent les équivalents traductionnels et celles des indices
de confiance des mises en relation.
Après la description du traitement 289, qui prend, elle aussi, la forme d’un algorithme
suivi d’un exemple de balisage (celui d’un extrait de l’article ennuyer, cf. figure 7),
j’introduis une codification plus lisible que les attributs précédents pour figurer les
mises en relation : des doubles flèches de taille indexée sur les valeurs de leurs indices
de confiance et reliant les composants concernés (cf. figures 8 à 13 et, ci-dessous,
figure 42 pour l’article école).
L’introduction des différentes doubles flèches est accompagnée de l’annonce qu’« un
prochain développement […] prendra en compte les modules d’information » en plus
des trois composants majeurs dédiés à l’information traductionnelle et « que les valeurs
des indices de confiance de chaque lien feront écho au sens de lecture préconisé dans
le texte et auront des valeurs différentes », ce qui est illustré en note 65 par l’exemple
du composant d’information de nature non spécifiée (élément Info-Nat-Non-Spe) proposé s.v. étendre 5 (cf. ci-après figure 43), qui doit référer à la contextualisation 5 avec
289 Dans la perspective d’une tâche de poststructuration réalisée par un éditeur, les algorithmes présentés aux
§§ 3. et 4. de T7 rendraient bien les services escomptés pour la mise en place d’un premier balisage. Mais
alors que les règles de délimitation des éléments présentées au § 3. fourniraient des données fiables bien
que susceptibles d’être complétées par d’autres insertions de balises réalisées manuellement, celles dont il
est question ici, qui effectueraient les mises en correspondance et leur affecteraient des indices de confiance,
produiraient des liens qui mériteraient d’être contrôlés par un relecteur humain quand l’indice de confiance
aurait une valeur faible.
Document de synthèse – 2.2. Analyses structurelles
183
un indice de confiance supérieur à celui du lien symétrique afin de marquer l’orientation de la lecture.
Figure 42. L’article école du Robert & Collins junior bilingue avec matérialisation
des relations entretenues par certains composants d’articles [cf. figure 9 de T7]
école
L’école est tout près de l’église.
The school is very near the church.
L’école maternelle et l’école primaire sont dans
le même bâtiment.
The nursery school and the primary school are in
school /sku:l/
the same building.
► école primaire : primary
► école maternelle : nursery
school /'nM:srN sku:l/
(pluriel : nursery schools)
school /'prANmrN sku:l/
Quel jour est-ce que l’école finit ?
What day does school finish?
Marek ira à l’école en septembre.
Marek will go to school next September.
(pluriel : primary schools)
► l’école (= les cours) : school
/sku:l/
► aller à l’école : go to school
(went, gone/been)
Figure 43. L’article étendre du Robert & Collins junior bilingue
étendre
1
Céline a étendu une couverture par terre et s’est
couchée dessus.
1 (= étaler) spread /spred/ out
(spread out, spread out)
Céline spread a blanket out on the floor and lay
down on it.
;)))
Spread rime avec red.
2
Il n’y a pas de place pour étendre ses jambes
2 (en parlant des bras, des jambes)
dans ce cinéma.
stretch /stretG/
There isn’t any room to stretch your legs in this
cinema.
3
C’est ton tour d’étendre le linge.
It’s your turn to hang out the washing.
3 ► étendre le linge : hang
Étends-toi deux minutes, tu te sentiras mieux.
Lie down for a couple a minutes, you’ll feel
better.
4 ► s’étendre (= s’allonger) :
4
/hWE/ out the washing /'wKGNE/
(hung /hHE/ out, hung out)
lie /laN/ down
(lay /leN/ down, lain /leNn/ down)
i
5
La plage s’étend sur plusieurs kilomètres.
The beach stretches over several kilometres.
La forme en -ing est lying down.
5 ► s’étendre (en parlant d’une
ville, d’un espace) : stretch /stretG/
i
Notez la préposition employée en
anglais : s’étendre sur = stretch over.
Mais la troisième étude annoncée concernant le Robert & Collins junior bilingue,
qui devait suivre de près les deux premières et pousser plus loin les réflexions engagées
à propos de la dérivation d’une version électronique dotée de fonctions de recherche –
à partir de formes graphiques ou phoniques (comme celles évaluées dans T23), ou en
184
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
explorant certains constituants ou encore en ciblant certains types d’informations –,
n’a finalement pas vu le jour, pour des raisons purement contingentes 290 et en dépit
d’une recherche documentaire préparatoire et de la poursuite du travail sur ces données
avec deux promotions d’étudiants de M1 TAL (en algorithmique) et trois de M2 LTTAC
(en analyses structurelles d’articles pour leur balisage). Je doute aujourd’hui que ce
projet ait des chances d’être réactivé, son actualité s’estompant au gré du vieillissement
du dictionnaire impliqué dans le catalogue de son éditeur.
2.2.4. Conclusion : xmlisation de répertoires pour la valorisation des textes imprimés et l’analyse métalexicographique
Le fait d’élaborer des balisages structurels d’articles de dictionnaires dans le cadre
de mes recherches comme dans celui de la formation professionnelle de lexicographes
me conduit, dans ce document de synthèse, à valoriser les synergies qui se sont créées
entre ces deux activités. Mais les enrichissements mutuels que j’évoque comme la capacité à participer à des structurations à finalités soit éditoriales, soit analytiques dont
témoignent certains des étudiants que nous avons formés ne doivent pas faire oublier
que les représentations de la structure du texte des répertoires diffèrent selon qu’elles
sont réalisées pour un type de traitement ou pour l’autre.
Il me paraît par conséquent opportun de conclure le développement relatif aux analyses structurelles en situant chaque type de structuration de textes dictionnairiques 291
et en évaluant dans quelle mesure il est susceptible de renouveler sa matière et de
m’impliquer ou de mobiliser certains de nos anciens étudiants.
Structurations éditoriales
Dans le cadre de projets éditoriaux, les structurations informatiques de textes dictionnairiques existants peuvent être entreprises :
– pour donner une seconde vie à un produit qui a été imprimé mais dont la production
est trop onéreuse pour qu’une seconde commercialisation en version imprimée soit rentable ou auquel on veut adjoindre des modalités de consultation qui motivent l’élaboration d’une édition électronique ;
– ou dans le but, pour un éditeur, de réemployer des contenus qui appartiennent à son
fonds pour élaborer de nouveaux produits en réexploitant l’intégralité d’un texte, en
en dérivant un autre partiellement neuf ou en métissant ceux de plusieurs ouvrages
sources pour en produire un ou plusieurs autres.
290 Eu égard à mes responsabilités dans la formation professionnelle de lexicographes, il était nécessaire de diversifier les thèmes de mes recherches métalexicographiques et conséquemment de consacrer plus de temps à
d’autres répertoires et à d’autres modes d’investigation.
291 Dans la majorité des exemples évoqués ci-après, la numérisation a assurément été accompagnée d’une xmlisation, mais dans quelques cas il est difficile, à partir des informations disponibles, de savoir quel est le procédé
de structuration informatique employé, s’il y en a bien un. Ce peut alternativement être un balisage en SGML
ou dans un format propriétaire, ou un enregistrement du texte dans une base SQL.
Document de synthèse – 2.2. Analyses structurelles
185
Concernant les rééditions en versions électroniques :
– les dictionnaires structurés peuvent être relativement récents, qu’ils aient été produits
sur fonds publics (comme le Trésor de la langue française 292) ou par des éditeurs commerciaux (comme le Grand Robert 293), ou être plus anciens (comme les répertoires
proposés par les éditions Redon 294) ;
– et les informatisations peuvent être le fait d’entités professionnelles spécialisées –
instances de recherche ou entreprises commerciales – qui perçoivent des financements
pour les effectuer ou qui escomptent tirer des bénéfices des ventes à venir (pour les
répertoires précédents, respectivement l’INaLF (puis l’ATILF (UMR 7718)) et des éditeurs privés), mais elles peuvent exceptionnellement aussi être le fruit d’initiatives de
personnes extérieures au domaine et être librement consultables, comme c’est le cas
pour le XMLittré 295.
Concernant le réemploi de données textuelles pour dériver de nouveaux produits :
– À l’ATILF, le texte du Trésor de la langue française est posttraité pour en dériver
de nouveaux lexiques, comme dans le cadre des projets Morphalou 296 et Definiens 297.
292 Cf. Piotrowski éd. (1996) et Dendien (2004).
293 Le texte refondu pour l’édition imprimée de 1985 a été proposé en version électronique sur disque dès 1989 et
celui révisé en 2001 à partir de 2005 (cf. T17 n. 75). Une version en ligne sur abonnement est proposée
depuis avril 2009 (cf. T17 n. 78).
294 Les éditions Redon ont publié sur disques :
– en 1997, le Dictionnaire le Littré ;
– en 1998, L’atelier historique de la langue française, qui réunissait sept ouvrages en texte intégral : le Dictionnaire de la Curne de Sainte-Palaye (1876), les Curiositez françoises d’Antoine Oudin (1640), le Dictionnaire universel d’Antoine Furetière (1690), le Dictionnaire de l’Académie française (1762), le Dictionnaire
philosophique de Voltaire (qui n’est pas un dictionnaire) et ses compléments (1765), le Dictionnaire universel des synonymes de Guizot (1822) et le Dictionnaire de la langue française d’Émile Littré (1872, avec le
supplément de 1877) ;
– en 1999, L’encyclopédie de Diderot et d’Alembert ;
– en 2000, le Dictionnaire de l’Académie française (éditions de 1694, 1718, 1740, 1762, 1798, 1835, 1878, et
1932-1935) ;
– en 2001, Le grand atelier historique de la langue française, qui réunissait quatorze ouvrages : les sept de
L’atelier historique de la langue française et Le Thresor de la langve francoyse de Jean Nicot (1606), le Dictionnaire français contenant les mots et les choses de Pierre Richelet (1680), le Dictionnaire étymologique de
Gilles Ménage (1694), le Dictionnaire des arts et des sciences de Thomas Corneille (1694), le Dictionnaire
universel françois et latin de Trévoux (1743-1752), le Dictionnaire critique et le Dictionnaire grammatical
portatif de la langue française de l’Abbé Jean-François Féraud ;
– en 2002, le Grand dictionnaire universel du XIXe siècle par Pierre Larousse.
Dans la présentation des « secrets de fabrication » de ces disques (cf. http://www.dictionnaire-france.com/
soc.html), il n’est pas fait mention des choix techniques de structuration informatique des textes : à peine
est-il indiqué que « [l]es principales fonctionnalités (recherche en plein texte, par auteur, par domaine, navigation hypertexte) sont […] programmées et installées avec les données. », ce qui suggère indirectement
que certains types d’informations sont localisés dans le texte (au moyen d’un balisage peut-être) ou au moins
indexés.
295 Le XMLittré (http://francois.gannaz.free.fr/Littre/accueil.php) a été structuré et enrichi de formes fléchies
extraites du lexique Morphalou (cf. n. 296) par François Gannaz. Son contenu a été intégré aux ressources
de l’ARTFL (cf. n. 306).
296 Dans le cadre du projet Morphalou (dont les derniers développements ont eu lieu en 2004-2006), un lexique
de plus de 500 000 formes correspondant aux lemmes issus de la nomenclature du Trésor de la langue française et associées à des indications morphosyntaxiques a été constitué sous la responsabilité de Susanne
Salmon-Alt (cf. http://www.cnrtl.fr/lexiques/morphalou/).
186
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– Chez les éditeurs privés, qui avaient l’habitude de retravailler des textes antérieurs
pour en produire de nouveaux, la généralisation des structurations en XML du fonds
facilite ces reprises textuelles : les éditions Larousse font preuve d’une remarquable
compétence dans ce domaine (comme elles le montrent par exemple avec les dérivés
du Grand Larousse en 5 volumes de 1987, cf. n. 280), mais tous les éditeurs semblent
être concernés par ces gestions éditoriales, y compris ceux qui ne proposent que peu
de dictionnaires comme les Éditions Garnier 298.
Les travaux de structuration de textes réalisés chez différents éditeurs privés ont
impliqué un nombre relativement important d’étudiants de la formation lilloise 299.
Mais, dans la mesure où les productions récentes sont balisées lors de leur élaboration,
le nombre d’ouvrages publiés dont les textes sont jugés intéressants à postbaliser
pour la création de nouveaux produits diminue 300. Les jeunes lexicographes issus de
notre master ont donc maintenant une probabilité plus réduite que leurs prédécesseurs
de pouvoir être sollicités pour ce type de chantiers, mais ils pourront l’être pour les
manipulations de textes structurés qui permettent alternativement ou cumulativement
de décliner un même dictionnaire pour différents supports 301, d’en dériver un nouveau
répertoire 302 ou de métisser son texte avec ceux d’autres répertoires 303.
297 Dans le cadre du projet Definiens (cf. Barque & Polguère (2009) et Barque, Nasr & Polguère (2010)), l’affinement du balisage des définitions du Trésor de la langue française informatisé afin de matérialiser en leur
sein les bornes de leurs différents composants sémantiques doit à terme permettre de dériver un nouveau
lexique par extraction et enrichissement textuel de ces gloses dotées d’un nouveau balisage.
298 Les Éditions Garnier ont proposé différents répertoires dérivés du Dictionnaire de la langue française
d’Émile Littré (1872-1877) et de son abrégé par Amédée Beaujean en 1874. Ces nouvelles versions ont été
commercialisées sous différents intitulés :
– Le Nouveau Littré pour la version imprimée de la réédition enrichie de l’abrégé de Beaujean, vendue depuis
2004 et dont le texte a connu plusieurs états d’actualisation – le but de l’éditeur étant d’élaborer progressivement un dictionnaire historique du français actualisé et homogénéisé – et a été accompagné de différents
suppléments – eux-même réexploités de diverses façons ;
– Le Nouveau Littré électronique pour la version électronique du précédent, vendue depuis 2007 (cf. http://
www.nouveaulittre.fr/) ;
– Le Nouveau petit Littré pour une version imprimée simplifiée de l’abrégé publiée en 2005 (et rapidement
retirée de la vente sur plainte du MRAP) ;
– Le Littré. Le dictionnaire de référence de la langue française pour une version enrichie du grand dictionnaire de Littré en vingt volumes et six suppléments (pour partie repris aux rééditions de l’abrégé) vendue
par Le Figaro en 2007-2008 (cf. http://www.lefigaro.fr/littre/) ;
– Le Nouveau petit Littré pour l’édition imprimée de l’abrégé enrichi, en 2009, par le Livre de poche.
299 3 chez Larousse, 1 chez Hachette, 1 chez Redon et 8 chez Garnier. Ceux qui ont réalisé des tâches de structuration chez Garnier ont également assuré des relectures-corrections et éventuellement de la rédaction,
mais ceux qui n’y ont contribué qu’à la rédaction des actualisations textuelles des éditions du dictionnaire
de Littré et de son abrégé (cf. n. 298) ne sont pas pris en compte dans ce chiffre.
300 Un partenaire professionnel nous a indiqué qu’un service s’est consacré à la structuration chez Larousse
jusqu’à la fin de 2009, travaillant en étroite collaboration avec l’informatique éditoriale mais sans faire partie
de cette entité. Selon les indications fournies dans les ours des différentes éditions du Petit Larousse illustré,
la structuration avait été autonomisée par rapport à l’informatique éditoriale pour l’élaboration du millésime
1998.
301 Après avoir créé des versions électroniques vendues sur disques ou mises en ligne (où elles sont consultables
sur abonnement ou en accès libre), les éditeurs œuvrent à la production de dictionnaires pour smartphones
(dont l’iPhone) et liseuses (comme le Sony Reader), et récemment pour l’iPad. Les bases textuelles employées
à cette fin sont généralement structurées en XML, mais elles peuvent ne l’être qu’en SGML, ce qui implique
de les convertir en XML avant de les adapter pour les nouveaux dispositifs de consultation. Les développements étant souvent encore en cours, il ne m’est pas possible de les détailler, mais il est loisible d’obser-
Document de synthèse – 2.2. Analyses structurelles
187
Structurations analytiques
Quand l’étude de dictionnaires inclut la structuration de leur texte, elle peut concerner l’intégralité de celui-ci ou une sélection d’articles et avoir deux vocations :
– soit valoriser un répertoire qui à un titre ou à un autre présente un intérêt, mais qui
n’est plus édité, ou du moins plus avec le strict contenu de l’édition qui va être structurée ;
– soit enregistrer le produit d’analyses métalexicographiques fondées sur l’étude de la
structure des articles, comme celles mises en œuvre dans T6, T7 et d’autres de mes
travaux qui n’ont pas donné lieu à des publications (et dont l’évocation au-delà de ce
qui a été fait supra n’a pas sa place dans ce document).
Les structurations de textes intégraux effectuées dans le cadre de l’étude de ceuxci diffèrent de celles évoquées précédemment par le fait que les balisages mis en œuvre
ne sont pas conçus en réponse à des besoins éditoriaux (dont en particulier des choix
de modes de consultation à offrir) mais sont définis en fonction des analyses opérées
et que l’on souhaite valoriser, et de la décision qui est prise de se conformer ou non à
des recommandations 304. L’ampleur de la tâche fait que ces structurations sont souvent effectuées dans le cadre de programmes de recherche et sont plutôt le fait de chercheurs spécialistes de l’étude de dictionnaires anciens qui ont joué un rôle important
dans l’histoire éditoriale ou la société qui a connu leur diffusion, comme ceux de l’École
nationale des chartes 305, de l’ATILF 306 ou du LDI (UMR 7187) 307.
302
303
304
305
306
ver que sur iTunes, dans la rubrique “App Store > Références”, deux produits monolingues proposés par deux
éditeurs français majeurs du secteur de la référence – le Dictionnaire de français (Larousse, 2009) et le Dixel
mobile (Le Robert, 2010) – font partie des “Apps les plus populaires” (cf. http://itunes.apple.com/fr/genre/
mobile-software-applications/id6006?mt=8 [consulté le 16/07/2010]).
Par exemple, chez Larousse, le Larousse illico multidictionnaire français dérivé du Larousse pratique avec
changement de support mais sans rédaction nouvelle (cf. n. 281).
Ce qui peut se faire à l’occasion d’une adaptation pour un nouveau support, comme cela a été le cas pour la
version iPhone du Dixel du Robert, qui intègre le contenu de la version imprimée et des éléments textuels
du DicoMalin des Éditions Diagonal (qui procède lui-même du Dictionnaire général de la langue française
de Hatzfeld, Darmesteter & Thomas), dans une interface de consultation dérivée de celle du DicoMalin, qui
préexistait en version pour iPhone (cf. http://ipa-iphone.net/2010/04/ipa-le-robert-dixel-mobile-vers-2-0-fr/
[consulté le 24 février 2010]).
Rares sont les éditeurs qui structurent leurs dictionnaires en respectant les normes ou standards : ils préfèrent en général se conformer à des DTD qui leur sont propres et motivent ce choix par le fait qu’ainsi leurs
données sont moins aisément réemployables sans leur accord (ce qui n’est peut-être pas la seule raison
puisque, tous leurs traitements éditoriaux étant programmés en fonction de leurs DTD, en changer aurait
un coût important). La question de la protection des textes structurés ne se pose pas dans les mêmes termes
concernant les dictionnaires étudiés dont il est question ici, et ceux qui les structurent emploient souvent
des balisages standardisés (ceux proposés par la TEI – la dernière version étant la TEIP5 (cf. http://www.
tei-c.org/Guidelines/P5/) – sont, semble-t-il, préférés à ceux de l’ISO – norme NF ISO 1951:2007 –, bien que
ces derniers soient les seuls à avoir le statut de norme).
L’École nationale des chartes a participé en particulier à l’xmlisation, respectueuse des recommandations de
la TEI, du Glossarium mediæ et infimæ latinitatis de Charles Du Cange (cf. http://ducange.enc.sorbonne.fr/),
réalisée dans le cadre du projet ANR OMNIA – Outils et Méthodes Numériques pour l’Interrogation et
l’Analyse des textes médiolatins – (cf. Bon (2009)), et pour laquelle un de nos anciens étudiants, Frédéric
Glorieux (promotion 2006-2007), a été recruté en 2007 (cf. Glorieux (2009)).
L’ATILF contribue au projet ARTFL (American and French Research on the Treasury of the French Language),
porté depuis 1982 par la Division of the Humanities, la Division of the Social Sciences et les Electronic Text
188
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Des structurations sélectives seraient, elles, mobilisables pour une large gamme
de travaux d’analystes de dictionnaires, et ce d’autant mieux que l’on pourrait ne pas
limiter les balisages à des délimitations de composants d’articles, mais les exploiter
aussi pour annoter les contenus textuels de chacun.
Le peu de place accordé aux balisages analytiques dans les études métalexicographiques, alors même que des textes intégraux de dictionnaires sont xmlisés, m’incite
à m’interroger d’une part sur les causes de cette situation et d’autre part sur les actions
susceptibles de sensibiliser les métalexicographes à l’intérêt de ce type de procédure
pour leurs travaux. Peut-être des éléments de réponses sont-ils à trouver dans les modalités de développement et de valorisation de la recherche, qui peuvent inciter à privilégier les projets ambitieux et générateurs de nouvelles ressources au détriment
d’études plus locales 308.
Dans le futur, les structurations analytiques doivent pouvoir constituer des activités
dont la matière trouvera à se renouveler tant qu’il restera des répertoires à baliser ou
des principes de balisage alternatifs à mettre en œuvre. Elles pourront mobiliser des
(méta)lexicographes initiés aux techniques informatiques utiles pour ces types de xmlisations et désireux d’approcher les dictionnaires étudiés par leur structuration ou sensibles à l’étude et à la valorisation d’ouvrages anciens.
Services de l’université de Chicago (cf. http://artfl-project.uchicago.edu/content/about-artfl), qui rend consultables en ligne :
– d’une part, dans la rubrique « Dictionnaire d’autrefois » (cf. http://artfl.atilf.fr/dictionnaires/index.htm et
http://artfl-project.uchicago.edu/content/dictionnaires-dautrefois) : le Dictionarium latinogallicum de Robert
Estienne (1552), le Thresor de la langue françoyse de Jean Nicot (1606), le Diction[n]aire critique de la langue
française de Jean-François Féraud (1787-1788), le Dictionnaire de l’Académie française (première, quatrième,
cinquième, sixième et huitième éditions : 1694, 1762, 1798, 1835 et 1932-1935) et le Dictionnaire de la langue
française d’Émile Littré (1872-1877) dans la version xmlisée de François Gannaz (XMLittré, cf. n. 295) ;
– d’autre part, dans la rubrique « ARTFL encyclopédie » : l’Encyclopédie ou Dictionnaire raisonné des sciences,
des arts et des métiers de Diderot et d’Alembert (1751-1772), seul texte (indépendamment du XMLittré) pour
lequel il est explicitement question de balisage XML conforme aux recommandations de la TEI (« The ARTFL
Encyclopédie has been converted to a TEI-conformant encoding scheme and we have enacted another round of
text and metadata corrections based on user submissions from our “Report Error” interface. » (cf. http://artflproject.uchicago.edu/content/whats-new-artfl)).
307 Le Petit Larousse illustré de 1905 vient d’être xmlisé à l’initiative de Jean Pruvost et d’Hélène Manuélian (à
l’université de Cergy-Pontoise). Marine Lesprit, une de nos étudiantes de la promotion 2002-2003, a été
recrutée durant quelques mois pour participer à ce projet dans ses débuts. Le balisage mis en œuvre respecte
les recommandations de la TEI (cf. Manuélian (2010)). Cette édition a été mise en ligne à la rentrée 2010.
308 Les balisages sémantiques des définitions du Trésor de la langue française effectués dans le cadre du projet
Definiens (cf. n. 297) partagent avec ceux que j’évoque la motivation d’être conçus pour la dérivation d’un
nouveau lexique, mais ils sont polyvalents puisque le fait de mobiliser des éléments XML pour annoter le
texte source en y repérant les constituants sémantiques de ses définitions pourrait tout à fait permettre de
procéder à une analyse des sélections d’informations et des modes rédactionnels observables dans le dictionnaire, ce qui contribuerait à enrichir encore la connaissance métalexicographique de celui-ci, dont l’étude
reste active, à en juger par le nombre des contributions (un peu moins de la moitié des 30 communications)
qui lui ont été consacrées lors du colloque international « Lexicographie et informatique : bilan et perspectives » organisé en janvier 2008 à l’ATILF à l’occasion du cinquantième anniversaire du lancement du projet
qui lui a donné le jour (cf. http://www.atilf.fr/atilf/evenement/Colloques/Tlf2008/Programme_colloque_TLF2008.
pdf ).
Document de synthèse – 2.2. Analyses structurelles
189
Arguments en faveur de postbalisages analytiques non intégraux
Dans le cadre de mes travaux, le postbalisage des textes constitue un mode d’appropriation du contenu des répertoires examinés puis, dans certains cas, une manière de
présenter les analyses élaborées à leur sujet. Le passage par une décomposition structurelle pour introduire une nouvelle étude est un exercice qui m’est utile dans la mesure
où il implique une lecture intégrale des articles et où il m’amène à m’interroger sur le
ou les rôle(s) joués par chacun des composants identifiés dans la transmission des informations, ce qui me permet d’acquérir des connaissances préalables mobilisables ensuite
lors de l’examen particulier de certains d’entre eux ou de la manière dont individuellement ou collectivement ils sont exploités pour exprimer des propriétés déterminées
des unités linguistiques décrites. Ainsi, à partir de l’examen structurel des articles,
c’est leur fonctionnement global qui est approché par amendements successifs de leur
représentation formalisée. Par exemple, lors de la préparation de T6, le balisage d’une
sélection d’articles conformément à la DTD élaborée à cette fin a impliqué d’enrichir
cette dernière chaque fois que de nouvelles constructions textuelles étaient rencontrées,
ce qui a permis d’améliorer son adéquation descriptive et, consécutivement, la précision
de l’exposé métalexicographique. Mais les décompositions structurelles préliminaires
peuvent ne pas être évoquées afin de privilégier une présentation non formalisée des
données analysées, comme c’est le cas ponctuellement dans T6, par exemple à propos
des sélecteurs de sens (§ 2.2.2.2.2. (i)), alors même que le contexte rédactionnel
met la DTD et le balisage au cœur du propos, ou plus extensivement dans T12 (§ 2.5.1.),
où les balisages des composants d’identification diachronique étudiés sont évoqués en
introduction mais plus dans les développements analytiques.
Ainsi, si c’est assez logiquement à propos d’analyses structurelles que les xmlisations de textes dictionnairiques sont introduites dans mes publications comme dans
ce document, la portée de ce type de formalisation n’est pas limitée aux délimitations
de composants d’articles et à la description de leurs enchâssements, mais peut être
beaucoup plus vaste, comme le montrent
– des travaux dans lesquels je me suis impliquée : certains points de ce qui est présenté
dans T6 ou T12, qui viennent d’être évoqués, mais aussi différents mémoires que j’ai
encadrés 309, dont en particulier Mdir52 et 87, qui abordent par le balisage des composants d’articles des thèmes d’étude aussi variés que l’oralisation de leurs contenus
textuels et les réécritures d’exemples glosés en définitions illustrées d’exemples ;
– ou, indépendamment de mes activités, les balisages sémantiques du projet Definiens
(cf. nn. 297 et 308).
Pour ces types de travaux, l’xmlisation des articles d’un répertoire ou de certains
segments de textes en leur sein constitue un mode d’annotation des données à étudier
309 Dans le cadre des directions de mémoires, j’oriente aussi souvent que possible les étudiants vers des lectures
structurelles avant qu’ils abordent, le cas échéant, des points d’analyse thématisés. Ce mode d’accès aux
données textuelles étudiées est particulièrement visible dans les mémoires de Valeria Zotti (2005 (Mdir48)),
Hao Chen (2006 (Mdir50)), Camille Delobel (2006 (Mdir52)), Mame Khady Sow (2008 (Mdir54)), Sabine
Arnaud-Thuillier (2008 (Mdir56)), Alice Chiandusso (2008 (Mdir58)), Marjorie Jean (2008 (Mdir64)),
Camille Leveau (2009 (Mdir85)), Edwin Contreras (2009 (Mdir87)) [cf. n. 263], Héléna Falcone (2009
(Mdir88)), Carole Alleman (2010 (Mdir97)), Danièla Banica (2010 (Mdir99)) et Doan Vien Nguyen Ngoc
(2010 (Mdir102)).
190
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
qui permet d’une part d’enregistrer dans le balisage les acquis de l’analyse afin de pouvoir les exploiter pour fonder la suite des investigations, et d’autre part de se doter
d’un mode de formalisation des résultats par l’élaboration de DTD qui synthétisent
les choix descriptifs opérés.
Transposition du principe de postbalisage sélectif à une autre recherche
Parmi les travaux récents ou que des analystes de dictionnaires développent sans
recourir à des structurations en XML, il me semble que certaines pourraient trouver
quelques bénéfices à en utiliser. À titre d’exemple, je vais évoquer celles réalisées par
Camille Martinez, l’un des contributeurs pressentis pour le numéro de la revue Lexique
en préparation (D2, cf. Tdr3 (§ 2.6.1.))
Les analyses de Martinez (2009 et en préparation) relatives aux évolutions des textes
du Petit Larousse et du Nouveau Petit Robert depuis quatorze ans, pour lesquels leur
auteur revendique une filiation intellectuelle avec les études généalogiques de P. Corbin
(1989b), donnent lieu à un découpage des articles et à une datation des segments textuels isolés.
« [l]e texte du dictionnaire pourrait à terme être étiqueté par des datations fines et garder une
trace des éléments supprimés. Si tel article ajouté dans le millésime 2010 et rédigé à cette
occasion date effectivement de 2010, en revanche tel autre article du même millésime a très
bien pu être introduit en 1998 et retouché en 2005, sans que cela transparaisse en 2010. Nous
proposons donc de découper l’article de dictionnaire en segments textuels caractérisés par leur
date d’apparition, auxquels nous ajouterions les segments textuels supprimés. Cette datation
aurait pour but d’éviter de mauvaises interprétations du dictionnaire : considérer une définition du millésime 2010 comme une définition datant de 2010, c’est nous semble-t-il emprunter
un raccourci hasardeux. » (Martinez, résumé joint à Tdr3 pour la soumission de D2)
Aucune indication n’est fournie concernant les modalités techniques de ces annotations qui doivent enrichir les articles dont le texte a évolué. Or, celles-ci pourraient de
manière tout à fait pertinente donner lieu à des balisages d’articles où chaque changement observé serait strictement délimité et annoté. Ainsi, par exemple, la modification apportée à un article de la page 318 du Petit Larousse 2007 pour l’élaboration du
Petit Larousse 2008 que Martinez (2009, § 1.5.1.4.) décrit en ces termes :
« Sur le reste de la page 318, un dernier changement est apporté. Dans le long développement
encyclopédique de l’article cubisme, quelques mots sont supprimés. Le passage « Divers sculpteurs […] interprètent en trois dimensions les principes cubistes » devient « Divers sculpteurs
[…] interprètent les principes cubistes ». Cette suppression de trois mots se répercute de ligne
en ligne jusqu’à la fin du paragraphe, mais n’entraîne aucun gain de ligne. » (Martinez (2009,
§ 1.5.1.4.))
pourrait très bien être balisée au moyen d’un élément comme <correction>, auquel serait
associé un attribut @type qui permettrait d’indiquer qu’il s’agit d’une suppression et
d’un attribut @millesime qui indiquerait dans quel millésime du Petit Larousse il est
observé pour la première fois :
Divers sculpteurs […] interprètent <correction type="suppression" millesime="2008">en trois dimensions</correction> les principes cubistes
Document de synthèse – 2.2. Analyses structurelles
191
Annoter ainsi les articles qui ont évolué en plusieurs étapes permettrait en outre de
cumuler les évolutions repérées, ce qui faciliterait l’observation des changements textuels sur lesquels les lexicographes sont revenus, auxquels Camille Martinez attache
une importance particulière.
Retour aux commentaires de mes travaux
Les analyses qui sont présentées infra dans les §§ 2.3. à 2.5. n’abordent plus les
articles par leur lecture structurelle et, quand elles articulent l’étude des modes de
présentation de certaines propriétés et des composants d’articles où ceux-ci se réalisent, elles n’évoquent que très rarement d’éventuels balisages, préférant à l’occasion
matérialiser les analyses structurelles par des schématisations comme des graphes 310,
mais elles en ont souvent bénéficié.
310 Les analyses de composants étymologiques de T12, par exemple, sont illustrées par un balisage XML en
figure 2 et par dix graphes en annexe.
2.3.
Identification des unités linguistiques
et de leurs différents emplois décrits
dans les articles de dictionnaires
Un premier ensemble de travaux est consacré à différents aspects de l’identification
des unités linguistiques, essentiellement lexicales, donnant lieu à des traitements dans
différents répertoires métalinguistiques, qu’il s’agisse de dictionnaires “de langue”, en
principe entièrement dédiés à la description d’aspects du fonctionnement d’items du
lexique, ou de dictionnaires “encyclopédiques”, qui y associent des fragments de savoirs
non métalinguistiques.
Ce qui est identifié comme unités linguistiques d’un idiome ne constitue pas une
donnée pour les linguistes et les lexicographes, mais la résultante de leurs analyses,
sujette à varier en fonction de celles-ci. Cette variation inhérente à l’activité métalinguistique est une des composantes de la différenciation des nomenclatures des dictionnaires, mais ce n’est pas la seule : s’y surajoutent en effet des considérations liées aux
finalités différentes de ces répertoires, qui déterminent pour chacun d’eux des principes
particuliers de sélection et de hiérarchisation des unités à prendre en compte, ainsi
qu’à l’hybridation éventuelle du propos métalinguistique avec un discours encyclopédique et à l’importance relative accordée à ces deux composantes. Le cumul de ces différents filtres débouche sur des organisations textuelles de complexité variable, impliquant notamment des niveaux d’adressage hiérarchisés identifiables par des codifications plus ou moins discriminantes. Ces dispositifs sémiotiques supposent, de la part
des utilisateurs des dictionnaires, la maîtrise de clés qui permettent de se repérer en
leur sein pour accéder aux informations cherchées, ce qui ne constitue pas un savoirfaire trivial, puisqu’il nécessite d’identifier les adresses quel que soit leur niveau hiérarchique, d’interpréter celui-ci, de déterminer si leurs référents sont des unités linguistiques, et lesquelles, ou si ce sont des entités du monde, de circonscrire les différents
emplois d’un item déterminé et d’apprécier la portée de chaque information fournie
au sein d’un article donné.
Motivation du plan retenu
J’ai abordé plusieurs aspects de ces questions à travers différents travaux, associant
constitution de ressources et rédactions diverses, qui portent
– sur les principes de sélection des nomenclatures, qui, selon les projets éditoriaux,
prennent en compte une large variété de critères, dont la diffusion de l’usage des items
et la valorisation dont ils font l’objet, eux-mêmes en partie dépendants des référents
dénotés (T24, cf. § 2.3.1.) ;
194
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– sur l’importance des modes de traitement des unités linguistiques, qui valorisent ou
non leur appartenance aux nomenclatures (en tant qu’adresses principales, subordonnées ou microstructurelles), dans le cadre de la confrontation de celles de différents
répertoires (Rbd5, cf. § 2.3.2.) ;
– sur les principes de sélection des items auxquels des iconographies sont associées,
qui dépendent assurément du support du répertoire (le nombre des illustrations pouvant varier entre un dictionnaire imprimé et sa version électronique), des modes de
gestion des stocks iconographiques (une extension du nombre des iconographies dans
une version électronique de dictionnaire imprimé pouvant se faire au moins en partie
par la démultiplication des emplois de celles de l’édition source) et des mobiles des
exploitations dictionnairiques de représentations iconographiques des référents dénotés
par les unités linguistiques présentes à la nomenclature, dont en particulier leur usage
pour illustrer la diversité des référents nommables par le même item, la polysémie d’une
unité linguistique ou l’homographie de plusieurs d’entre elles (Rbd2, cf. § 2.3.3.) ;
– sur les formes phoniques et graphiques des unités linguistiques : celles qui sont décrites (les formes canoniques et une sélection d’autres), mais aussi celles qui peuvent
s’observer dans les usages (T23 et Tdr5, cf. §§ 2.3.4. et 2.3.6.) ;
– sur les manières de présenter différents emplois d’une même unité linguistique, ceux-ci
étant distingués par des propriétés syntaxiques et sémantiques (T9 et plus marginalement T17 § 3., cf. §§ 2.3.5. et 2.7.2.) ;
– et sur les relations qu’un utilisateur de dictionnaire devrait pouvoir identifier entre
ce qu’il rencontre dans le contexte d’emploi d’un item qu’il ne comprend pas et les indications fournies par le répertoire qu’il consulte pour résoudre son problème (Tdr5 et
Rbd5, cf. §§ 2.3.6. et 2.3.2.).
Les publications et les bases de données documentaires qui font l’objet des commentaires de ce § 2.3. abordent ainsi différentes questions afférentes à l’identification des
unités linguistiques sélectionnées et traitées par les dictionnaires, sans qu’aucune les
envisage conjointement. Leur réunion pourrait faire l’objet d’un livre que j’ambitionne
de rédiger et dont de premiers éléments ont été écrits, mais qui n’a pas trouvé encore
le temps nécessaire à son aboutissement.
2.3.1. Étude des principes de sélection de nomenclatures [T24 (à paraître a)]
Lors de l’élaboration des dictionnaires, leurs concepteurs doivent constituer la liste
des unités linguistiques à traiter, ce qui les conduit à opérer une sélection qui est
indexée sur le projet du répertoire en chantier. T24 (à paraître a (rédigé avec Pierre
Corbin)) cherche à déterminer quelles sont les positions assumées en la matière par
ceux qui portent les projets dictionnairiques, celles qu’ils expriment dans les paratextes des ouvrages ou les publications dans lesquelles ils développent leurs positions
théoriques 311.
311 Cette étude, en partie documentée par les données du corpus Rcorp12 (cf. § 1.4.3.), a par ailleurs donné
lieu à la relecture de différents textes de lexicographes analysant leurs propres pratiques ou celles observables dans des répertoires dus à d’autres auteurs.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
195
Dans cette perspective, T24 examine les représentations du lexique français que
proposent les dictionnaires généraux monolingues actuels en approchant cette question
à travers les aspects quantitatifs et qualitatifs de la sélection de leurs nomenclatures.
Ce choix conduit à accorder une attention particulière aux dictionnaires qui offrent
les descriptions les plus amples et consistantes, et ainsi à privilégier les répertoires
plurivolumes et les monovolumes les plus importants proposés par les trois éditeurs
majeurs du domaine 312.
Données quantitatives
L’analyse des aspects quantitatifs de la question (§ 1.) permet de montrer, sur la
base des décomptes de Martinez (2009) et de données stockées dans Rbd5, les difficultés de dénombrement et de comparaison des nomenclatures induites par les différences
de traitement des unités linguistiques, qui peuvent soit constituer des adresses d’articles principaux ou subordonnés, soit figurer comme adresses microstructurelles (éventuellement non valorisées typographiquement) 313.
Les observations faites à propos des tailles des nomenclatures au § 1. ramènent
par ailleurs à un double constat déjà effectué par P. Corbin (2008a) et F. & P. Corbin
(2008) :
– la disparition des plurivolumes imprimés qui, mis à part le Dictionnaire culturel en
langue française (cf. T24 n. 13), s’observe actuellement s’accompagne de la réduction des plus larges nomenclatures actualisées 314 à la limite des 60 000 unités, c’està-dire à la taille de celles des monovolumes de référence (Nouveau Petit Robert, Petit
Larousse, Dictionnaire Hachette et Dixel) 315 ;
– les versions électroniques de ces plurivolumes n’étant pas révisées, exception faite
de celle de L’encyclopédie en ligne (http://www.larousse.fr/encyclopedie, cf. T24 n. 19),
leurs nomenclatures risquent de perdre progressivement leur représentativité au regard
des usages actuels.
Outre l’amenuisement de la capacité des dictionnaires à répondre effectivement aux
demandes documentaires qui motivent leur consultation 316, cette évolution commerciale me semble jouer négativement
– chez les éditeurs, sur l’appréciation des besoins des usagers, qu’il ne faudrait pas indexer sur des contraintes matérielles d’édition de volumes imprimés (l’épaisseur maximale d’un volume devant rester dans des limites qui garantissent qu’il soit reliable puis
manipulable) ;
312 Ceci constitue un angle d’approche complémentaire de celui mis en œuvre pour la base Rbd5 (cf. § 2.3.2.).
313 Pour une illustration des différents modes d’adressage, cf. § 2.3.2., où sont décrites les adresses subordonnées et microstructurelles présentes dans le Nouveau Petit Robert s.v. cheval, aux II.
314 Le Lexis (Larousse) compte 70 000 unités, mais sa nomenclature n’est pas actualisée (cf. T24 n. 90).
315 Le lexique de la langue “commune” est évalué dans différents paratextes dictionnairiques comme comptant
entre 20 000 et 30 000 unités (cf. T24 n. 26). Un dictionnaire ayant une nomenclature de 60 000 items décrit
donc entre 30 000 et 40 000 unités relevant d’espaces d’expression plus particuliers, ce qui est peu au regard
de la diversité de ceux-ci.
316 Ce point est également abordé dans T17 (§ 2.7.2.) et il motive les recherches engagées à partir du corpus
de textes de lectures destinées aux élèves du cycle 2 (Rcorp13), cf. §§ 1.6.1. et 2.3.6.
196
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– et chez les usagers, qui, s’ils expérimentent plusieurs fois le fait de ne pas trouver un
mot qu’ils cherchent (dans un dictionnaire choisi de manière aléatoire le plus souvent),
risquent de ne plus être enclins à faire l’effort d’utiliser ces ouvrages de référence et
de préférer butiner sur Internet à la recherche d’éléments de réponses peut-être moins
fiables (ce qui n’est pas certain) mais assurément présents, ce que nous indiquons, en
conclusion de T24, en mentionnant la généralisation du recours à Wikipédia, qui semble
être la plus naturellement consultée des sources documentaires sur Internet, bien que
ce soit une encyclopédie et non un dictionnaire.
Données qualitatives
L’analyse qualitative des nomenclatures (§ 2.) ne prend en considération que les
unités linguistiques qui entrent dans les ensembles au sujet desquels des discours sont
régulièrement tenus, ce qui exclut les unités repérables par leur statut linguistique
(éléments de formation, mots construits, unités déformées par siglaisons, abréviations,
etc.), qui donnent lieu à peu de commentaires en dehors de répertoires comme le Robert
brio (dont le paratexte leur accorde une place particulière), au profit d’unités concernant lesquelles il est plus usuel de tenir un propos axé sur leurs usages. La prise en
compte des paratextes des dictionnaires et d’écrits métalexicographiques de lexicographes nous a conduits à envisager sous cet angle les sélections de nomenclatures
successivement en fonction de paramètres temporels, spatiaux, sociaux, discursifs et
thématiques (§§ 2.1. à 2.5.), qui recoupent plus ou moins des variables communément prises en compte par les lexicographes, éventuellement avec des dénominations
un peu différentes 317.
– Paramètres temporels
Concernant les facteurs temporels de différenciation des usages lexicaux (§ 2.1.),
l’accent est mis sur la dimension diachronique de nombre de dictionnaires dont la vocation première est synchronique, que les paratextes de grands dictionnaires de langue
et certains textes de commentaire justifient par l’aide apportée à la bonne compréhension des textes classiques patrimoniaux qui restent vivants dans la culture collective
par la médiation de l’école et des spectacles 318. L’attention se porte aussi sur un autre
ensemble de répertoires, en intersection partielle avec le précédent, celui des dictionnaires en un volume qui connaissent une édition annuelle millésimée et pour lesquels
c’est l’actualisation des nomenclatures qui est mise en avant, non sans un décalage
entre son affichage publicitaire et sa mise en œuvre, nécessairement limitée par des
contraintes éditoriales incontournables.
317 Dans la présentation de la première édition du Petit Robert, par exemple, Rey (1967 : XX-XXI) distinguait
les variables « temps », « espace », « société », « fréquence » et « style », cette dernière correspondant à notre
paramètre thématique (cf. T11 § 1.2.).
318 Le Grand Larousse de la langue française en sept volumes n’étant plus édité, le Grand Robert, demeure le
principal représentant de cette valorisation de la place de la tradition littéraire dans la culture contemporaine (cf. Rey (1985 : XXII ou 1983 : 549), cité dans les nn. 34 et 35), alors que la vocation du Trésor de la
langue française est plus spécifiquement de l’ordre d’une compilation moins sélective des richesses lexicales
du patrimoine textuel des deux siècles écoulés.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
197
– Paramètres spatiaux
Les options géolinguistiques des dictionnaires, évoquées au § 2.2., font l’objet d’une
valorisation croissante dans leurs paratextes, qui n’est pas seulement motivée par
l’intérêt linguistique accordé à ce paramètre (dont la prise en compte à grand échelle
nécessiterait des études de terrain très méticuleuses, à la manière de celles effectuées
par Rézeau dir. (2001)), mais est également déterminée par des choix de positionnement politique et commercial 319 au sein de l’espace francophone. Dans la pratique,
la place faite aux francophonismes dans les nomenclatures de certains répertoires s’est
accrue dans les deux dernières décennies 320, mais dans les limites d’un espace qui reste
trop contingenté pour qu’ils puissent être représentatifs des usages des différentes communautés francophones, et les marquages diatopiques qui leur sont associés se bornent
le plus souvent au nom du pays (ou, s’agissant du Québec, de la province) où ils sont
employés, ce qui contraste avec ceux, sensiblement plus précis, des mots des régions
hexagonales. Cette différence de précision dans la localisation des usages par rapport
aux mots du français de France métropolitaine peut résulter d’une sélection d’items
employés dans l’ensemble de chacune des aires francophones non françaises prises en
compte plutôt que de régionalismes de ces espaces, et aussi d’un choix de marquages
suffisamment approximatifs pour qu’ils soient interprétables par l’ensemble du public
de France et des autres aires francophones.
Dans cette dernière hypothèse, si de nombreux emplois du français de France peuvent
être plus précisément marqués par leur région d’usage, c’est soit que les noms de ces
régions sont réputés connus dans tout l’espace francophone contrairement à ceux des
régions des autres aires, soit que les dictionnaires accordent à la France métropolitaine
le privilège d’occuper une place centrale dans la francophonie prise en compte, ce qui
peut être légitime pour des dictionnaires de langue générale vendus en France mais
est de nature à susciter des réactions hors de France et à motiver que les représentants
des autres espaces de langue française, et en particulier les Canadiens francophones,
revendiquent la reconnaissance d’un français de référence distinct du français de France
(cf. Poirier (2003 : 220), dont la requête est rapprochée d’un propos très accueillant de
Rey (1983, n. 11) en n. 42).
À lire le plaidoyer de Garnier (2005 : 248 et 2008 : 67) pour l’entrée de francophonismes, en nombre nécessairement limité, dans le Petit Larousse au motif que chacun
des francophones sera confronté à des items d’un français qui ne relèvera pas de son
aire linguistique – après que Rey-Debove (1998 : 278) eut pour sa part attiré l’attention sur le fait qu’un dictionnaire, à la différence d’un trésor, a vocation non pas à relever toutes les particularités des usages d’une langue mais à permettre l’intercompréhension des locuteurs qui sont susceptibles de communiquer ensemble –, il me semble
que les points de vue de l’un et de l’autre sont indexés sur une limitation des sélections
de nomenclatures dans les bornes que nous leur connaissons dans les monovolumes
imprimés (soit 60 000 unités pour ceux qui sont millésimés). Il pourrait alternativement être envisagé que, dans la mesure où les dictionnaires sur support électronique
319 Les propos de Garnier (2005 et 2008) et de Catach (2000) repris par Martinez (2009) étayent ce point concernant les éditions Larousse et Le Robert.
320 Le Petit Larousse a fait une place aux canadianismes dès 1968 (millésime 1969), mais ils n’étaient alors que
huit selon Boulanger (2002 : 210 et 2005 : 256-257).
198
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
ne connaissent en principe pas de limitation d’espace comparable à celle des volumes
imprimés, ceux-ci, nécessairement plus sélectifs, privilégient les usages locaux alors
que des éditions électroniques se montreraient plus accueillantes et témoigneraient
de la richesse des parlers de la francophonie, voire même d’une plus grande attention
aux variantes régionales des différents espaces francophones 321.
Deux éléments semblent cependant indiquer que le projet d’éditions imprimées et
électroniques différenciées par leurs modes de traitement des francophonismes est
actuellement utopique :
– d’une part, depuis plus de vingt ans que les éditions électroniques doivent libérer
l’espace rédactionnel des lexicographes qui étaient jusque-là entravés par des contraintes de place, nous n’avons pas vu de créations électroniques qui auraient profité
de cette liberté acquise pour augmenter les volumes des nomenclatures 322 ;
– et d’autre part, il ne semble pas aisé de décrire les francophonismes en prenant en
compte ceux de chaque aire linguistique pertinente 323 et en trouvant le moyen de valoriser les différences afin que les populations dont on décrit les usages propres puissent
avoir l’impression qu’ils ne sont pas stigmatisés mais au contraire qu’ils sont considérés à parité avec les emplois plus partagés.
321 En France, les salons du livre régionaux et la diffusion régionale des « Dictionnaires du français » des éditions Bonneton témoignent de l’attachement de la population aux régions et aux usages régionaux. Si cette
attitude n’est pas seulement française, les francophones pourraient trouver une certaine satisfaction à voir
leurs particularismes locaux mieux pris en compte.
322 Les produits électroniques les plus innovants ont métissé des ressources existantes pour adjoindre des expressions ou des citations à des articles de facture classique. Ces créations ont nécessité des manipulations informatiques parfois complexes, mais elles n’ont eu qu’un faible coût en rédaction de descriptions nouvelles,
contrairement à ce qu’impliquerait un élargissement de nomenclature.
323 Seule une coopération internationale semble pouvoir être en mesure de permettre à chaque aire linguistique
d’être représentée, mais il faudrait également que les efforts de description réalisés pour les usages de
chacune soient commensurable à l’importance de ce qui y est observable, ce qui est difficile à évaluer sans
études de terrain minutieuses et alors que certaines se sont plus richement dotées que d’autres d’instances
d’étude des usages locaux.
La Base de données lexicographiques panfrancophone (http://www.bdlp.org/) est peut-être un exemple de projet
de recensement effectué dans la perspective qui vient d’être évoquée. Patronnée par l’Agence universitaire
de la Francophonie et développée sous la responsabilité de Claude Poirier, secondé par Michel Francard,
elle fait suite au projet de Trésor des vocabulaires français imaginé par Bernard Quemada dans les années
1980. Lancée en mars 2001, pour une mise en ligne des premières données en mars 2004,
– elle compile (au 25 mai 2010) des inventaires de français d’Acadie (520 fiches), d’Algérie (1 300), des Antilles
(124), de Belgique (33), du Burundi (1 152), de Centrafrique (1 325), du Congo-Brazzaville (850), de Côte
d’Ivoire (226), de France (202), de Louisiane (898), de Madagascar (264), du Maroc (854), de Maurice (202),
de Nouvelle-Calédonie (455), du Québec (3 384), de La Réunion (1 581), du Rwanda (586), de Suisse (2 602)
et du Tchad (970) ;
– et elle est interrogeable par fiches entières trouvées à partir d’une forme graphique mentionnée dans l’inventaire d’une aire francophone ou, transversalement, au moyen de formulaires d’interrogation qui explorent
conjointement les données de chaque inventaire local.
Mais les disparités dans le nombre des items décrits pour des aires qui semblent comparables (comme par
exemple la Belgique et la Suisse, pour lesquelles sont respectivement enregistrés 33 et 2 602 items) semblent
indiquer que les efforts de relevé et de description ne sont pas du même ordre pour chacune.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
199
– Paramètres sociaux
Le développement consacré à la variation sociale des usages (§ 2.3.) constate la
discrétion des paratextes dictionnairiques actuels concernant son rôle dans la sélection
des nomenclatures et s’interroge sur ses causes. Une première hypothèse pourrait être
que ce facteur est moins déterminant qu’antérieurement, les évolutions sociologiques
et les mutations technologiques en matière de communication ayant érodé certains
cloisonnements sociaux et troublé les repères antérieurs, ce qu’exprime, à partir des
années 1980, la diffusion, du Robert à Larousse, d’une réflexion critique sur la pertinence de la caractérisation d’usages comme “populaires” 324. D’autres explications
pourraient être que la caractérisation diastratique des usages ne va pas sans poser de
problèmes théoriques et pratiques, ou que certains de ceux qui peuvent être observés
sont perçus comme trop instables pour être intégrés durablement dans la nomenclature
de dictionnaires généraux. Mais on peut également se demander dans quelle mesure
la requalification diaphasique, en termes de “familiarité”, de beaucoup d’usages lexicaux antérieurement considérés comme “populaires” n’a pas induit une désaffection
plus globale à l’égard des considérations diastratiques, qu’elle prenne la forme des interrogations de Rey (1983 : 564) sur leur utilité lexicographique (cf. n. 67) ou se manifeste par l’absence d’évocation de groupes sociaux identifiables dans la société actuelle
qui soient susceptibles de partager des usages lexicaux typiques.
– Paramètres discursifs
S’agissant des conditions énonciatives qui peuvent déterminer des variations des
usages lexicaux, une ambition typologique peut être de distinguer le rôle de plusieurs
facteurs, comme le médium oral ou écrit, le contrôle de la formalité discursive ou le type
textuel des énonciations, ce que Hausmann (1989 : 651) assigne aux trois variables
« Medialität », « Formalität » et « Textsorte » 325. Cette finesse classificatrice suppose
toutefois des moyens dont la lexicographie du français ne dispose pas, et le recours à
ceux qui lui sont accessibles ne va pas sans introduire certaines limites ni induire certains biais dans la qualification discursive des usages, dont le § 2.4. donne un aperçu.
Les ressources documentaires de la lexicographie française sont très généralement
écrites, même quand il s’agit d’attester des faits présentés comme représentatifs de
l’oral, ce qui ne crée pas les conditions appropriées à la discrimination de ce qui ressortit à la variable diamédiale. Face au silence des paratextes des dictionnaires généraux sur ce point, c’est la « Présentation » d’un répertoire dédié aux « expressions quotidiennes », celui de Bernet & Rézeau (2008), qui analyse lucidement les inflexions
descriptives que peut entraîner cette contingence documentaire.
Parmi ces ressources écrites, les sources littéraires, du fait de leur accessibilité
comme de leur importance dans la culture française, restent d’un grand poids dans la
documentation des dictionnaires de langue de référence, avec une vocation de matériau
à toutes fins (cf. n. 75) assumée notamment par Rey (1983 : 545 et 1995 : 17), qui y
voit un réservoir de « la plus grande variété d’usages » (1985 : XXXVIII), ce qui a pour
324 Cf., respectivement, Rey (1983 : 557, 564 et 1985 : XL (« Présentation de la deuxième édition » du Grand
Robert)), et, en 1993, la préface (p. VII) du Dictionnaire général Larousse (cf. T11 § 1.3. (§ 2.4.1.)).
325 Cf. infra § 2.4. pour une présentation globale de la grille des marquages d’usages de Hausmann (1989).
200
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
contrepartie qu’elles ne soient typiques d’aucun usage particulier et pour corrélat que
le marquage de certains emplois comme “littéraires” ne spécifie pas tant l’appartenance
à une classe de discours que l’observance de conventions de formalité 326.
En tant que possible alternative documentaire, la presse écrite n’apparaît pas comme
un contrepoids très sûr dans l’équilibrage des usages observés, soit que, comme par
exemple dans le Nouveau Petit Robert, son utilisation, d’après certains indices (cf. n.
77), paraisse relativement restreinte, soit que, comme pour le DAFLES, rebaptisé
Base lexicale du français, la commodité du recours exclusif à des journaux d’un certain type dont l’exploitation électronique vise à dégager les usages lexicaux les plus
usuels induise des surreprésentations et des sous-représentations de certains items.
Quant à Internet, ressource discursive inépuisable autant qu’hétérogène et délicate
à exploiter, son utilisation pour l’élaboration de dictionnaires généraux est aussi avérée que les paratextes de ceux-ci sont discrets à son sujet, et ici encore c’est au dictionnaire spécialisé de Bernet & Rézeau (2008) que revient l’initiative d’aborder explicitement le sujet.
Eu égard aux contingences documentaires qui sont les siennes, la lexicographie générale française actuelle ne paraît donc guère en mesure, en matière d’appréciation des
variations des usages lexicaux liées aux circonstances énonciatives, d’aller beaucoup
plus loin que des considérations diaphasiques assez générales dont le couple antagonique “familier” / “soutenu” constitue l’armature, chaque dictionnaire modulant l’équilibrage de ses deux termes en fonction de son identité propre.
– Paramètres thématiques
Concernant enfin les dimensions thématiques des sélections de nomenclatures, le
§ 2.5. se fait l’écho de discours relatifs à l’importance des vocabulaires spécialisés,
dans l’absolu, où leur ordre de grandeur défie les comptages 327, mais aussi dans les
nomenclatures des plus grands dictionnaires (comme le Grand dictionnaire encyclopédique Larousse de 1982-1985 et le Grand Robert), et aux principes qui doivent régir la
sélection de sous-ensembles de ces vocabulaires dans les dictionnaires généraux de
diverses dimensions. Une attention particulière est portée à la crainte formulée par
Rey (1985 : XXIV) de voir les utilisateurs se perdre dans des nomenclatures trop fournies, sans doute fondée concernant les répertoires imprimés, mais qui d’une part perd
de son actualité du fait de la réduction de l’offre en fonction de l’évolution du marché
qui a été évoquée précédemment, et d’autre part semble ne pas avoir de réelle pertinence dans l’espace des éditions électroniques, où les usagers ne sont jamais confrontés
326 Selon le « Tableau des signes conventionnels, conventions et abréviations » du Grand Robert (2001), la marque
littér. « désigne un mot qui n’est pas d’usage familier, qui s’emploie surtout dans l’usage écrit et soutenu »
(p. LI). Il n’en va pas de même de la marque poét., qui, elle, a bien une valeur diatextuelle, mais qui ne concerne qu’un nombre limité de mots localisés dans un ensemble fini de textes spécifiés : « mot ou emploi appartenant à l’usage littéraire […], utilisé notamment en poésie, surtout dans la poésie classique et postclassique, où la hiérarchie des genres entraîne des spécialisations lexicales » (p. LIII).
327 Les responsables de dictionnaires de grande envergure qui ont été confrontés à ces vocabulaires surenchérissent volontiers concernant leur ampleur, de Dubois (1990 : 1579) évoquant « pour les seuls insectes […]
plus d’un million d’espèces dénommées ! » à Rey (2007 : 311) faisant état, pour un de leurs sous-ensembles,
de « deux mille espèces de formicidés ».
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
201
à de grandes pages foisonnant d’articles et où il est possible de jouer sur des affichages
variés pour la valorisation d’informations dans chaque article consulté.
Au-delà de ce qu’expose T24, on peut aussi observer que, quelles que soient les
thématiques représentées dans les dictionnaires, leurs paratextes ne sont guère explicites au sujet des modes d’échantillonnage retenus pour sélectionner les items intégrés
à la nomenclature, ni concernant les types d’énoncés dans lesquels ces items sont susceptibles d’être rencontrés. On peut imaginer, cependant, que les lexicographes sont
susceptibles de faire jouer trois critères selon des modalités variables :
– un critère linguistique, un item ayant sa place dans le dictionnaire s’il a par ailleurs
des spécificités étymologiques 328, morphologiques, sémantiques ou d’une autre nature
qui peuvent être jugées utiles à faire connaître aux destinataires du répertoire ;
– un critère de fréquence, un item n’étant retenu que s’il a de bonnes chances d’être
rencontré par les utilisateurs du dictionnaire : ce mode de sélection implique d’évaluer
l’usualité des items dans les discours auxquels ces personnes peuvent être confrontées,
ce qui, faute de mieux, est souvent fait de manière intuitive 329 ;
– et un critère de représentativité, comparable à celui qui peut être à l’œuvre dans des
descriptions dictionnairiques de classes ontologiques 330, au sein desquelles figurent
souvent quelques exemples d’espèces qui en relèvent.
Au sujet des typages des discours, il suffit d’être un observateur attentif pour constater que le personnel hospitalier ne parle pas aux malades comme en salle de repos
ni comme avec les médecins en visite, ou que ce qui s’entend dans les commentaires
sportifs n’est pas ce qui se dit dans les gradins, qui diffère aussi des propos échangés
dans les vestiaires, ce que les marquages des dictionnaires n’expriment pas. Il pourrait
y avoir quelque intérêt à évaluer s’il serait pertinent que les descriptions lexicographiques prennent en compte une partie au moins des travaux relatifs aux typages des
discours comme ceux de Biber (1988, 1995) 331, qui ont connu une certaine diffusion
en particulier il y a une dizaine d’année avec la promotion des corpus électroniques
dont on souhaitait qu’ils soient “représentatifs” 332.
328 Par exemple le fait d’être un emprunt, comme navicert, ou un nom de marque lexicalisé, comme volucompteur.
329 Les éditeurs français ne recourant généralement pas à des corpus, le faire pour évaluer les fréquences des
items des domaines thématiques nécessiterait pour eux d’en constituer ou d’en acquérir pour cet usage spécifique, ce qui serait coûteux. Les recherches que j’ai entreprises relativement aux corpus à haut rendement
(cf. l’introduction du § 1.3. et T3, T4 et T5 (§§ 1.3.1. à 1.3.3.)) avaient justement vocation à contribuer à la
documentation de leur réflexion en définissant des modalités de constitution de corpus thématiques présentant le meilleur rapport coût / rentabilité.
330 Ces descriptions de classes ontologiques peuvent être textuelles ou présentées sous formes de planches paratextuelles. Dans le second cas, il peut s’agir de classifications hiérarchiques, comme celle à six niveaux
proposée pour les mammifères dans le Lexis (p. 1096 de l’édition de 2009), ou de schémas ou de planches
iconographiques éventuellement enrichis de dispositifs de pointage permettant d’introduire des éléments
terminologiques, comme cela est fait dans le même répertoire pour le « bétail [de] boucherie » (p. 184).
331 Ces travaux ont déjà été évoqués quand j’ai abordé les questions de sélection d’énoncés à haut rendement
pour la constitution de corpus (cf. § 1.3.).
332 Pour être qualifié de “représentatif ” un corpus doit contenir des quantités bien pondérées de différents types
de discours. Cette qualité est reconnue au British National Corpus, mais aucune réalisation comparable
n’a vu le jour en France (cf. T2 et § 1.2.2.).
202
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Pour conclure
T24 est le seul de mes articles de métalexicographie analytique qui fonde son propos sur ce que les auteurs ou d’autres analystes ont indiqué concernant les principes de
sélection de nomenclatures plus que sur l’étude des textes dictionnairiques eux-mêmes.
La présence de son commentaire en introduction de la section consacrée à une pluralité de travaux qui concernent la détermination des unités linguistiques traitées par
les dictionnaires présente l’intérêt de poser les principes de choix des éditeurs avant
d’entrer dans des études de la mise en œuvre de ces choix : analyses des modes d’adressage des unités linguistiques sélectionnées et de ce qu’offrent les dictionnaires pour
expliciter quelles sont les unités et les emplois de celles-ci qu’ils traitent.
2.3.2. Comparaison de nomenclatures à partir des formes graphiques en adresses
macro- et microstructurelles [Rbd5]
Étudier les unités linguistiques traitées dans les dictionnaires présuppose de savoir
quelles sont celles qui le sont. Or, bien que cette question soit fondamentale, y répondre
n’est pas simple.
Afin de me construire une meilleure représentation des sélections de nomenclature
opérées par les responsables de projets éditoriaux et des modes de traitement des
unités retenues, j’ai engagé la création d’une base de données (Rbd5) compilant les
unités linguistiques traitées dans un sous-ensemble de dictionnaires et leurs modes
d’adressage. La réunion de ces données au sein d’une base SQL permet
– de disposer des unités présentes dans les nomenclatures des dictionnaires, en commençant par leurs sous-ensembles les plus accessibles (celles qui donnent lieu à des
adressages aisément repérables) pour augmenter ensuite progressivement l’inventaire ;
– et à terme de pouvoir manipuler l’ensemble des items informatiquement (pour constituer des sous-listes, des tris, des comparaisons,…), ce qui constitue un préalable à des
études en vraie grandeur sur les choix lexicaux des lexicographes.
Ce mode de traitement des nomenclatures n’est pas très frayé 333, probablement
parce que l’ordre de grandeur des données sur lesquelles il s’agit de travailler peut faire
préférer les échantillonnages, mais je l’ai adopté parce qu’il me semble non seulement
fructueux mais également plus praticable qu’on ne pourrait peut-être l’imaginer, en
tout cas en s’en tenant à des répertoires dont la nomenclature est de taille raisonnable,
comme les dictionnaires scolaires, ou qui sont disponibles en version électronique, comme
le Nouveau Petit Robert (dont la liste des entrées est exportable par sous-ensembles
dans l’édition de 2001), et/ou en adoptant certaines stratégies ad hoc : par exemple,
l’observation de points communs entre les principes de sélection et de traitement des
unités linguistiques figurant aux nomenclatures des sections alphabétiques A et B
des dictionnaires Hachette pour les cycles 3 et 2 aurait permis d’envisager de cons-
333 Une importante exception récente est fournie par Martinez (2009), qui, pour ses investigations sur les variations orthographiques, exploite l’intégralité de la nomenclature macrostructurelle des éditions étudiées du
Petit Larousse illustré et du Nouveau Petit Robert.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
203
tituer l’inventaire des unités lexicales du répertoire pour le cycle 2 à partir de celui
concernant le cycle 3 si le premier n’avait pas déjà été effectué de manière indépendante.
La base Rbd5 et les étapes de sa création sont présentées infra, après quelques
exemples illustrant les problèmes auxquels on est confronté quand on étudie les nomenclatures des dictionnaires.
Exemples de difficultés de détermination des unités linguistiques traitées
Les dictionnaires sont structurés en blocs textuels, les articles, qui ont des adresses
constituées de séquences graphiques représentant des unités linguistiques et qui enchâssent éventuellement des articles subordonnés eux-mêmes introduits par des items
en adresses qui entretiennent avec l’item en adresse principale une relation de nature
le plus souvent morphologique ou syntaxique (items construits sur ce dernier, groupes
syntaxiques le contenant). Les unités ainsi mentionnées en adresses dites “macrostructurelles”, qu’elles soient de premier niveau ou enchâssées, reçoivent une mise en
forme typographique qui les distingue et facilite le repérage du début de leur description, celle-ci leur étant normalement postposée. Mais d’autres unités sont introduites
plus discrètement, en particulier au sein des contextualisations des premières, sans y
faire toujours l’objet d’une valorisation typographique, et peuvent donner lieu à description, en particulier sémantique par le biais de gloses de contextualisations, 334
sans pour autant figurer nécessairement dans la liste des entrées des versions électroniques. Ceux qui lisent des articles de dictionnaires ne trouvent donc l’ensemble
des unités traitées qu’à condition de bien veiller à analyser les différentes valeurs de
chaque segment de texte, sans se limiter aux items des composants d’adressage macrostructurels. Les analystes de textes dictionnairiques, similairement, ne peuvent effectuer le relevé des unités traitées qu’en prenant en compte les nomenclatures principale et subordonnée mais aussi les adresses microstructurelles, dont l’identification
n’est pas toujours aisée 335.
Ce problème me semble particulièrement bien illustrable à partir d’unités polylexicales décrites dans le Nouveau Petit Robert : selon que l’on consulte la liste des entrées
334 Les deux exemples suivants illustrent certaines des formes que peuvent prendre, parmi d’autres, ces adressages dits “microstructurels” (dont une typologie méthodique est proposée par Hausmann & Wiegand (1989,
§ 8.)) :
(i) la locution à l’abandon est décrite dans toutes les éditions du Robert junior s.v. abandon 3., où elle est
introduite dans une contextualisation et expliquée par la glose de celle-ci, mais elle ne fait pas l’objet d’une
valorisation typographique : « Un jardin à l’abandon, dont on ne s’occupe plus. » ;
(ii) la locution afin que est décrite dans le Dictionnaire Hachette benjamin s.v. afin, où elle est également
introduite dans une contextualisation, mais l’item y est valorisé et elle est précédée de la définition de
celui-ci (ce qui n’est pas une configuration courante) : « Dans le but. Papa a fermé la fenêtre afin que le
chat ne sorte pas pendant la nuit. ».
Selon les types d’informations fournies pour chaque unité traitée, le repérage de ces adresses insérées au
cœur des articles peut être d’une complexité variable : dans un dictionnaire monolingue, la prise en charge
microstructurelle d’un item peut se limiter à suggérer son existence par sa seule mention, éventuellement
au sein d’une séquence d’éléments en italique dont certains ne seront que de banales contextualisations (c’est
l’« adressage zéro » dans les termes de Hausmann & Wiegand (1989 : 310)), alors que dans un bilingue la
présence au moins d’un équivalent traductionnel semble indispensable.
335 Si l’absence de valorisation typographique empêche de les repérer lors d’une lecture rapide des articles, c’est
alors la forme textuelle des informations qui peuvent leur être associées ou le fait que certaines séquences
semblent plus figées ou plus usuelles que d’autres qui détermine leur repérage comme unités traitées.
204
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
ou celle des composés présentées l’une et l’autre en marge gauche ou que l’on effectue
une recherche d’item décrit à partir d’une forme phonique ou graphique, les unités accessibles ne sont que partiellement les mêmes. J’ai par exemple évoqué dans T23 des
variations affectant les unités polylexicales décrites s.v. cheval, aux, qui méritent d’être
exposées ici pour une sélection plus large de ces unités afin de bien expliciter les différences de traitement observées et la difficulté qu’il peut y avoir à déterminer ce qui
doit être décompté pour reconstituer les nomenclatures macro- et microstructurelles.
La subdivision II. de l’article cheval, aux (cf. figure 44) réunit par exemple :
– des items écrits en petites majuscules (en brun ou en noir, sans que cette différenciation soit pertinente pour le propos) et insérés ou non dans un contexte plus large (cidessous : cheval de bois, cheval d’arçons, cheval de Troie, petits chevaux, cheval-vapeur
et cheval – le premier et le troisième ne figurant pas dans la liste des entrées en marge
gauche mais dans celle des composés, et le dernier, de même forme que l’adresse principale (limitée à son lemme), ne figurant dans aucune, probablement du fait de cette
homographie) ;
– des items écrits en italique et éventuellement précédés d’un numéro de subdivision
ou insérés dans un contexte plus large (ci-dessous : chevaux de bois, cheval de frise,
cheval fiscal, deux-chevaux, 2 CV, deuche et deudeuche – le deuxième, le quatrième et
les deux derniers figurant dans la liste des entrées, le troisième dans celle des composés, et les deux autres ne figurant dans aucune liste) ;
Figure 44. Extrait de l’article cheval, aux du Nouveau Petit Robert électronique millésime 2009
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
205
– des abréviations (écrites en brun) des unités polylexicales qui sont l’objet du propos
(ci-dessus : Ch (abrégeant cheval-vapeur) et CV (cheval fiscal) – présentes dans la liste
des entrées).
La copie de cet article et la conversion de son balisage HTML en XML (cf. n. 226)
donnent accès aux codes associés par l’éditeur à chacun des items précédents et permettent de voir qu’ils sont traités de manière hétérogène, enchâssés directement dans
des éléments <s_xpl>, <s_xpc> et <s_enc> ou dans des inclusions des uns dans les autres.
Par exemple, 2 CV figure dans le contenu textuel de l’élément <s_xpl> alors que deux-chevaux
constitue le contenu d’un sous-élément <s_enc> enchâssé dans le premier :
<s_xpl>Une <s_enc>deux(-)chevaux</s_enc> Citroën, une 2 CV […]</s_xpl>
Il serait trop long de détailler ici l’ensemble des configurations observées, mais elles
permettent de voir que, si les éléments <s_xpc> et <s_enc>, quand ils ne contiennent
que du texte, semblent être de bons candidats pour le balisage d’unités linguistiques
appartenant à la nomenclature, les contenus textuels des éléments <s_xpl> doivent être
considérés individuellement, et éventuellement par sous-segments textuels, afin d’y
repérer des unités (comme 2 CV 336, à isoler dans le balisage ci-dessus) décrites ou simplement mentionnées.
L’identification des unités linguistiques décrites doit par ailleurs tenir compte du
fait que les choix de traitement lexicographique ne sont pas nécessairement indexés
sur des analyses linguistiques : la distinction classique entre homonymes et acceptions
d’un item polysémique n’est pas toujours appréciée de la même manière et des mots
ou affixes qui partagent la même forme graphique canonique peuvent être traités de
deux façons (dans des dictionnaires différents mais aussi dans un même répertoire) :
– sous une même adresse principale, soit dans différentes subdivisions d’un seul article
(cf. -carpe ci-dessous), soit, en particulier en cas de changement de catégorie, l’un dans
l’article principal et le ou les autre(s) dans un ou des article(s) subordonné(s) :
-carpe
1. Élément, du gr. karpos « fruit » : endocarpe, péricarpe.
2. Élément, du gr. karpos « poignet » : métacarpe.
(Nouveau Petit Robert électronique millésime 2009, s.v. -carpe)
– ou dans des articles successifs (dont les adresses sont alors souvent précédées d’un
ordonnateur d’homographes) :
1. aÉlément, du latin ad, marquant la direction, le but à atteindre, ou le passage d’un état à un
autre (var. ad-; ac-, af-, ag-, al-, an-, ar-, as-, at-) : amener, alunir, adoucir. ➙ à.
(Nouveau Petit Robert électronique millésime 2009, s.v. 1. a-)
„
336 Il ne semble pas que ce mode de traitement particulier soit motivé par le fait que 2 CV n’est qu’une unité
graphique, qui se prononce comme deux(-)chevaux, ce que tend à confirmer par exemple l’observation du fait
que Ch, qui a des caractéristiques phonographiques de même ordre que 2 CV, fait l’objet, lui, d’un balisage
spécifique : <s_enc>Ch</s_enc>.
206
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
2. aÉlément tiré du gr. exprimant la négation (« pas »), ou la privation (« sans »), et dit a
privatif (var. an- devant voyelle) : anaérobie, apolitique.
(Nouveau Petit Robert électronique millésime 2009, s.v. 2. a-)
„
Le choix de traitement ne repose pas nécessairement sur les seules propriétés linguistiques des unités décrites, mais peut prendre en compte des critères de lisibilité
liés au projet dictionnairique et dont l’appréciation peut comporter une part de subjectivité. 337 Dans le cadre d’une aide à la compréhension des unités linguistiques décrites,
le regroupement sous une seule adresse graphique peut être jugé plus simple, puisqu’il
délimite clairement l’espace au sein duquel la réponse peut être trouvée (mais ceci fait
qu’il en implique la lecture), ou au contraire plus complexe, si le lecteur est susceptible
de savoir identifier la nature grammaticale de l’item ou des éléments syntaxiques ou
sémantiques, voire étymologiques, qui lui permettent de choisir entre les différentes
descriptions proposées dans les articles successifs. Enfin, une fois que les formes (canoniques ou non) des unités en adresses macro- et microstructurelles sont repérées et
que leurs traitements sont localisés, la détermination de ce qui est décrit implique de
comprendre la portée des indications fournies.
Rbd5 : une base de recensement des unités linguistiques des nomenclatures
Quand un usager consulte un dictionnaire pour comprendre un mot qu’il rencontre
par ailleurs, le dictionnaire peut répondre à son besoin, mais les indications qu’il fournit ne sont que rarement confrontées avec celles d’un autre répertoire 338. En revanche,
dans le cadre d’une pratique métalexicographique, il est naturel que l’on compare les
nomenclatures des répertoires étudiés. Quand cette comparaison ne se limite pas à
celle de la forme graphique des items en adresses, mais qu’elle prend en compte les
formes graphiques et phoniques des unités linguistiques traitées, les indications catégorielles disponibles ou spéculées et la valeur des acceptions décrites (les emplois, définis par le sens et par les constructions dans lesquelles l’unité s’intègre), l’entreprise
est d’une tout autre difficulté.
Les investigations que j’ai réalisées en la matière ont composé avec cette difficulté
à déterminer ce qui est traité au sein des articles, limitant prudemment la précision
de mon propos à ce qui est connaissable à partir des principes d’adressage et de traitement des dictionnaires examinés. C’est ainsi que les bases de données élaborées dans
le cadre de l’analyse des utilisations d’iconographies dans le Robert junior (Rbd2), des
337 Dans quelques cas, une variation de genre, comme celle observable pour des items comme sorcier et sorcière,
par exemple, est corrélée à une spécialisation des caractéristiques des référents en fonction de leur sexe
que les dictionnaires peuvent vouloir valoriser ou non. Deux répertoires pour le cycle 2 (le Dictionnaire
Hachette benjamin et le Larousse des débutants) traitent les deux items précédents comme des mots distincts
décrits chacun dans un article, alors que le Robert benjamin comme les répertoires pour le cycle 3 des trois
éditeurs proposent un seul article. Ces variations de choix de traitement ne facilitent ni les développements
de modules d’hyperappel de dictionnaires (comme celui que pourrait documenter le travail d’annotation
réalisé sur le corpus de textes de lecture de CE1 Rcorp13, cf. T20, § 4. point 6) (§ 1.6.1.)), ni le déroulement d’exercices réalisés en classe de CE1, puisque, parmi les élèves qui trouveraient sorcière dans leur
dictionnaire, certains le localiseraient s.v. sorcier et d’autres s.v. sorcière (cf. nn. 410 et 564).
338 Ceci peut néanmoins se produire en cas de recherches successives, par exemple si les premières ont apporté
des réponses décevantes, ou simultanées, en particulier dans les contextes scolaires (cf. n. 337).
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
207
spécifications d’emplois linguistiquement marqués (Rbd3), des études d’informations
étymologiques et historiques (Rbd4) et même, plus récemment, des observations de
mots marqués comme relevant du “parler enfantin” (Rbd6) utilisent les adresses macrostructurelles des dictionnaires au sein desquels les relevés ont été opérés (éventuellement associées à des indicateurs catégoriels et/ou sémantiques en cas d’homographie) pour identifier les unités linguistiques à propos desquelles les informations sont
formulées.
En 2008, la rédaction de T17 servant probablement de catalyseur, j’ai engagé la
constitution d’une base des nomenclatures (Rbd5) qui doit me permettre de réunir
les relevés des nomenclatures macrostructurelles principale et subordonnée des dictionnaires monolingues pour les cycles 2 et 3 de l’enseignement primaire (voire du
collège) 339 et du Nouveau Petit Robert, puis s’enrichir des adresses microstructurelles
des premiers et d’identificateurs 340 des acceptions retenues par chaque répertoire
scolaire pour chaque unité linguistique prise en compte 341.
L’un des objectifs de cette entreprise est de pouvoir évaluer sur des bases concrètes
ce qui est proposé dans les dictionnaires en fonction des publics destinataires, d’être
en mesure de comparer les sélections de nomenclature des répertoires qui occupent
un même segment de marché et d’avoir les moyens de confronter les unités linguistiques traitées dans les répertoires et ce que les élèves de l’enseignement primaire ou
secondaire rencontrent dans leurs lectures scolaires (cf. T20 (§ 1.6.1.)) ou périscolaires.
Si les données attestées dans des corpus de lectures comme Rcorp13 montrent, comme
j’en fais l’hypothèse sur la base de plusieurs sondages, que les unités linguistiques que
les élèves ont besoin de savoir interpréter sont plus nombreuses que celles des dictionnaires scolaires 342 (cf. T17 § 3.1. (§ 2.7.2.)), il conviendra de prendre en compte les
nomenclatures des répertoires du segment de marché qui est juste au-dessus, les dic-
339 Il n’existe pas sur le marché français de dictionnaire monolingue général spécifiquement destiné aux élèves
du lycée ou de l’enseignement supérieur.
340 Il s’agit d’indications syntaxico-sémantiques minimales, qui, dans un dictionnaire électronique modulaire,
pourraient figurer comme sélecteurs d’acceptions
– d’une part dans un affichage du plan de l’article donnant un accès par des liens à chaque subdivision de
celui-ci ;
– et d’autre part dans le cadre d’un mode de consultation onomasiologique fondé sur un réseau reliant les
descriptions d’items relevant des mêmes rubriques thématiques (cf. T17 § 3.2.2.1.).
341 Les adresses microstructurelles du Nouveau Petit Robert ne sont pas toutes identifiables aisément et sont
trop nombreuses pour être relevées manuellement, et les délimitations des descriptions d’acceptions y sont
beaucoup plus complexes que dans les dictionnaires scolaires, ce qui m’incite à différer leur relevé.
342 Les nomenclatures macrostructurelles des dictionnaires destinés aux élèves du cycle 3 avoisinent 20 000
items, d’après les paratextes de ces répertoires. Elles comptent donc plus d’unités linguistiques que le vocabulaire actif de ces écoliers. Mais ce n’est peut-être pas suffisant. En effet,
– si les élèves peuvent choisir de ne s’exprimer qu’en employant des mots qu’ils connaissent, il ne leur est
pas possible de circonscrire le lexique des énoncés qu’ils sont amenés à lire ou à entendre ;
– et si les dictionnaires qu’ils sont susceptibles de consulter ne décrivent que 20 000 items, ils excluent une
part, peut-être assez large, de ceux que les élèves rencontrent mais ne connaissent pas.
Il en résulte que ceux-ci, dont les connaissances sont par ailleurs inégales, trouvent mieux dans leurs dictionnaires les items qu’ils connaissent, et qui donc ne motivent pas leur consultation, que ceux qui sont susceptibles de poser des problèmes de compréhension ou de réemploi à bon escient, qui tendent, eux, à y être moins
assurément expliqués.
208
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
tionnaires de milieu de gammes 343 (ou “médians”) 344, qui incluent ceux destinés aux
collégiens (cf. nn. 391 et 392), voire le relevé de toutes les adresses du Nouveau Petit
Robert. Cette extension doit permettre d’évaluer si une nomenclature d’une richesse
comparable à celles des médians ou du dernier répertoire rendrait de meilleurs services
c’est-à-dire si elle remédierait au silence lexicographique trop souvent patent dans le
cadre de l’aide à la compréhension, sans souci du bruit induit par des répertoires comportant des mots étrangers aux rencontres potentielles des élèves, qui n’accéderaient
qu’aux descriptions d’unités linguistiques pour lesquelles ils engageraient une consultation dictionnairique.
Pour l’heure, l’inventaire des items présentés dans la liste des entrées du Nouveau
Petit Robert 345 a donné sa matière initiale à la liste de référence des couples de formes
graphiques et catégorisations grammaticales 346 sur laquelle se fonde celle des unités
linguistiques traitées. Celle-ci se constitue progressivement par diverses voies : 347
343 Cette dénomination est corrélée à la position des ouvrages réunis dans les gammes des produits proposés par
les éditeurs. Ces dictionnaires ont des nomenclatures comprises entre 35 000 et 40 000 entrées et ils partagent
diverses propriétés physiques et marchandes.
344 En fonction de la disponibilité de versions électroniques, le choix s’orienterait prioritairement vers
– le Larousse pratique de 2003, qui, enrichi d’une nomenclature de noms propres, est actuellement commercialisé en version imprimée en tant que Maxipoche 2011, dont le texte constitue depuis 2005 l’un des modules
du Larousse illico multidictionnaire français (cf. n. 281) et dont une version gratuite est consultable parmi
celles d’autres répertoires sur le site TheFreeDictionary (http://fr.thefreedictionary.com/), où chaque article
est suivi de la mention « Larousse Pratique. © 2005 Editions Larousse », ce qui ne correspond pas à un copyright de version imprimée (cf. T17 nn. 72 et 74) ;
– le Dictionnaire pratique du français (Hachette, 1987), qui a connu diverses éditions imprimées sous différents titres jusqu’en 2001 (où il paraissait comme Dictionnaire Hachette langue française) et qui a été publié
pendant plusieurs années sur le CD-ROM Dictionnaire Hachette. Langue française & synonymes à partir de
2001 (cf. T17 n. 81) ;
– le dictionnaire msn.encarta, un peu plus important que les médians (avec ses 50 000 unités principales présumées), accessible en ligne (http://fr.encarta.msn.com/encnet/features/dictionary/dictionaryhome.aspx) et
qui donne accès à toutes ses adresses, celles-ci connaissant un traitement comparable quelles qu’elles soient.
345 Les unités linguistiques présentes dans la liste des entrées ne constituent qu’une partie de la nomenclature
du Nouveau Petit Robert, l’autre partie trouvant sa matière dans ce qui n’y figure pas :
– d’une part les adresses subordonnées et microstructurelles déjà évoquées (cf. supra les observations formulées à propos de l’article cheval, aux) ;
– mais aussi certaines recatégorisations (comme celle de la forme na, qui ne figure qu’au titre de l’interjection dans la liste des entrées, mais pour laquelle l’article na contient successivement les descriptions de
l’interjection et du substantif ).
346 Les items associés à plusieurs catégorisations dans la liste des entrées ont été traités en fonction de ces étiquetages. Ainsi sur les 1 067 entrées dont la première lettre est un N, 130 font l’objet d’une double catégorisation liminaire et 2 d’une triple, ce qui a fourni 1 201 (1 067 + 130 + 4) unités linguistiques en N catégorisées
dans la liste de référence. Comme indiqué dans la note précédente, ces catégorisations multiples ne couvrent
qu’une partie des changements de catégorie pris en compte dans les articles.
347 Dans les exemples ci-après, je me limiterai à la comparaison des nomenclatures du Nouveau Petit Robert et
des dictionnaires Hachette pour les cycles 2 et 3 de l’école primaire (le Dictionnaire Hachette benjamin et le
Dictionnaire Hachette junior), le premier scolaire étant celui qui est exploité pour l’annotation du corpus
Rcorp13 (cf. T20 (§ 1.6.1.)) et dont Tdr5 (cf. § 2.3.6.) évalue qualitativement les descriptions d’emplois en
considérant leur capacité à éclairer la compréhension des items dans les contextes dans lesquels ils sont attestés dans le corpus, tandis que le second présente le double intérêt d’être proposé par le même éditeur et
d’offrir une référence dans la gamme des répertoires annonçant 20 000 unités à leur nomenclature.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
209
– l’enregistrement, sous une forme indépendante des codifications du Nouveau Petit
Robert, des unités déjà incluses dans la liste de référence et observées comme étant
traitées dans l’un au moins des répertoires scolaires :
Par exemple : à l’entrée « à - prép. » relevée dans le Nouveau Petit Robert correspondent les
adresses catégorisées « à (mot invariable) » dans le Dictionnaire Hachette benjamin et « à (préposition) » dans le Dictionnaire Hachette junior, ce qui motive l’enregistrement de l’unité linguistique à catégorisée comme préposition.
– l’ajout des unités appartenant à la nomenclature d’au moins un répertoire scolaire
mais ne figurant pas dans les entrées majeures du Nouveau Petit Robert :
Par exemple, sont enregistrés comme unités linguistiques décrites dans au moins un dictionnaire
– la locution adverbiale à l’abandon, qui figure en adresse subordonnée dans le Dictionnaire
Hachette junior et qui est présente s.v. abandon 5. dans le Nouveau Petit Robert mais pas dans
la liste des entrées de ce dictionnaire ;
– ou le nom masculin pluriel abats, qui figure en adresse principale dans le Dictionnaire Hachette
junior et qui est décrit s.v. abat II. dans le Nouveau Petit Robert mais qui n’est pas listé parmi
les entrées de ce dictionnaire.
– la mise en relation des items que compte la liste avec les adressages des répertoires
scolaires dépouillés et avec les entrées du Nouveau Petit Robert qui leur correspondent,
et l’adjonction 348
• des indications catégorielles
Par exemple :
– la préposition à est liée à l’adressage « à (mot invariable) » du Dictionnaire Hachette benjamin,
« à (préposition) » du Dictionnaire Hachette junior et à l’entrée « à - prép. » du Nouveau Petit
Robert ;
– la locution adverbiale à l’abandon est liée à l’adresse subordonnée « À l’abandon » du Dictionnaire Hachette junior (s.v. « abandon (nom masculin) ») ;
– et le nom masculin pluriel abats à l’adressage principal « abats (nom masculin pluriel) » du
Dictionnaire Hachette junior.
•
et des sélecteurs syntaxico-sémantiques qui s’avèrent être utiles :
Par exemple, le nom masculin bas, qui peut être soit un nom de vêtement, soit le nom dérivé
de l’adjectif bas pour nommer la partie inférieure de quelque chose est enregistré d’une part
comme un nom masculin associé à l’indicateur sémantique « vêtement » et d’autre part comme
un nom masculin associé à l’indicateur « partie inférieure », le premier étant lié aux adressages
« 2. bas (un) (nom) » du Dictionnaire Hachette benjamin et « 2. bas (nom masculin) » du Dictionnaire Hachette junior et à l’entrée « bas - n.m. » du Nouveau Petit Robert, tandis que le
second est lié à l’adresse subordonnée « Le bas » du Dictionnaire Hachette benjamin (s.v. « 1. bas
(Adjectif et nom) » 3.), à l’adressage d’item recatégorisé « „ bas (nom masculin) » du Dictionnaire Hachette junior (s.v. « 1. bas, basse (adjectif ) ») et à l’entrée « bas, basse - adj., n.m. et
adv. » du Nouveau Petit Robert.
348 Des transcriptions phonétiques auraient pu être introduites quand deux lemmes d’unités linguistiques homographes ne se prononcent pas de la même manière, mais leur saisie en alphabet phonétique international
dans la base de données pose des problèmes de gestion de caractères. Ceux-ci auraient pu être contournés
par l’emploi de la codification SAMPA (Speech Assessment Methods Phonetic Alphabet, cf. http://www.phon.
ucl.ac.uk/home/sampa/) ou un codage personnel basé sur l’alphabet ordinaire, mais j’ai jugé ces solutions
trop coûteuses comparativement aux services que l’enregistrement de ces transcriptions aurait rendus (qui
sont déjà très largement assurés par les catégorisations et les sélecteurs syntaxico-sémantiques).
210
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– la création de liens entre les adresses principales des répertoires scolaires et
• d’une part les unités linguistiques simples ou complexes qui figurent en adresses subordonnées dans l’article qu’elles introduisent, qu’il s’agisse d’items recatégorisés, de
dérivés ou de locutions :
Par exemple,
– l’adjectif abdominal et le nom pluriel abdominaux sont liés à l’adressage principal « abdominal, ale, aux (adjectif ) » du Dictionnaire Hachette junior et le nom est conjointement lié à
l’adresse subordonnée « abdominaux (nom masculin pluriel) » ;
– les unités linguistiques abandon et à l’abandon sont liées à l’adressage principal « abandon (nom masculin) » du Dictionnaire Hachette junior et la locution adverbiale est conjointement liée à l’adresse subordonnée « À l’abandon ».
• d’autre part ceux des mots dérivés qui sont listés dans un article principal (et qui
font généralement aussi l’objet d’une description et sont à ce titre associés à un adressage).
Par exemple s.v. abattre dans le Dictionnaire Hachette junior, le composant dérivationnel
liste les items « abat-jour, abattage, abattement, abattoir, rabattre », qui appartiennent tous
à la nomenclature principale du dictionnaire et qui à ce titre figurent dans la liste des unités
linguistiques traitées et liées à un adressage dans ce dictionnaire.
Pour enregistrer les données qui viennent d’être présentées, la base Rbd5 dispose
de cinq tables (cf. figure 45), dont le schéma de relations peut être lu comme suit :
– Les unités linguistiques enregistrées dans la table T_Unite_Linguistique avec mention
de leur forme et, si c’est pertinent, de leur catégorisation et d’un sélecteur syntaxicosémantique sont liées, via une table pivot (qui ne contient que les identificateurs utiles
pour la gestion informatique des mises en relation : T_pivot_ULing_Ad_Prin_Ad_Sub),
• d’une part aux adressages principaux sous lesquels figurent les descriptions des unités linguistiques dans les différents dictionnaires [la relation entre la table pivot et
T_Adressage_Principal est de type un à plusieurs d’abord parce qu’une même unité
peut éventuellement être décrite dans plusieurs articles, mais surtout en raison du fait
qu’elle est traitée dans plusieurs dictionnaires et que la table T_Adressage_Principal
compile les adressages de tous les répertoires pris en compte],
• et d’autre part, le cas échéant, aux adressages subordonnés, qui sont différenciés selon
ce qui les motive et sont déclarés comme étant de niveau zéro en cas de recatégorisation
et de niveau moins un pour les items dérivés de ou contenant l’item simple présenté
en adresse principale 349 [la relation entre la table pivot et T_Adressage_Subordonne
est de type un à plusieurs pour les mêmes motifs que précédemment concernant la table
349 Tous les répertoires ne différencient pas les mises en forme des composants d’adressage des items en adresses
subordonnées en fonction de la nature de leur lien avec l’item en adresse principale, mais le Dictionnaire
Hachette junior le fait :
– en cas de recatégorisation, les typographies des items et de leurs catégorisations sont les mêmes, mais
l’adresse subordonnée est précédée d’un carré (« abdominal, ale, aux (adjectif ) […] „ abdominaux (nom
masculin pluriel) […] » ;
– en cas d’expression construite syntaxiquement, les mises en formes sont différentes (« abandon (nom
masculin) […] • À l’abandon : […] »).
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
211
T_Adressage_Principal 350, mais il peut également y avoir zéro mise en relation pour
les enregistrements de la table pivot qui ne donnent lieu qu’à un adressage principal].
– Les adressages principaux de la table T_Adressage_Principal sont eux-mêmes liés aux
unités linguistiques qui figurent en qualité de dérivés (T_ULing_derive_sous_Ad_Prin)
dans l’article qu’ils introduisent [(i) la relation entre les tables T_Adressage_Principal
et T_ULing_derive_sous_Ad_Prin est de type un à plusieurs, puisque rien d’autre que
des contraintes linguistiques ou de sélection par les lexicographes ne borne le nombre
de dérivés listés dans un article ; (ii) comme chaque dérivé doit également avoir été enregistré dans la liste des unités linguistiques traitées, les valeurs de la table T_ULing_
derive_sous_Ad_Prin proviennent de la table T_Unite_Linguistique, ce qu’indique le
lien représenté entre les deux tables et qui se distingue des autres par l’absence de
cardinalités exprimées à ses extrémités 351].
Figure 45. Schéma de relations de la base des nomenclatures Rbd5
Bien qu’encore modeste dans son développement comme dans l’exploitation qui en
est faite dans le cadre de publications – limitées pour l’heure aux travaux réalisés pour
Rcorp13, qui ont alimenté la rédaction de T20 et Tdr5 (cf. §§ 1.6.1. et 2.3.6.) –, cette
base de données constitue un des grands travaux que je voudrais pouvoir mener à son
terme dans la mesure où elle me semble devoir jouer un rôle capital dans l’accession à
une meilleure connaissance de ce qui est décrit par les dictionnaires qui font le plus
régulièrement l’objet de mes investigations.
Parmi les études qui pourront être utilement documentées par Rbd5, quatre se
détachent actuellement, soit en raison de leurs liens avec des travaux déjà engagés,
soit par l’élargissement des publics d’apprenants qui pourraient être pris en compte :
350 En cas d’adressage subordonné, la mention du nom du dictionnaire où il est observé ne figure que dans la
table qui enregistre l’adressage principal car, les deux adressages étant conjointement liés à l’unité linguistique via la table pivot T_pivot_ULing_Ad_Prin_Ad_Sub, la mention du répertoire n’a pas besoin d’être
répétée : si la table pivot indique que à l’abandon est conjointement lié à l’adresse principale « abandon
(nom masculin) » du Dictionnaire Hachette junior et à l’adresse subordonnée « À l’abandon », il s’agit nécessairement de l’adresse subordonnée de l’article abandon du Dictionnaire Hachette junior.
351 Sur la figure 45 l’extrémité gauche de ce lien est mal visible, du fait qu’ elle est recouverte par la représentation de la relation un à plusieurs existant entre les tables T_Unite_Linguistique et T_pivot_ULing_Ad_
Prin_Ad_Sub. La suppression de la table pivot dans le schéma de relations permet de mieux visualiser les
extrémités du lien existant entre les tables T_Unite_Linguistique et T_ULing_derive_sous_Ad_Prin :
212
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– les trois premières sont réalisables à partir des données déjà enregistrées ou en
passe de l’être :
• si la reconstitution des nomenclatures permet de déterminer quelles unités linguistiques sont traitées, la confrontation des inventaires enregistrés dans Rbd5 permet
d’aller plus loin dans l’étude des choix de traitement des différents dictionnaires qui
décrivent les mêmes unités (dont en particulier les types d’adressages retenus et le
nombre de subdivisons de description constituées 352) et donc aussi dans celle des propriétés linguistiques qui peuvent motiver certaines options de description préférentiellement à d’autres ;
Concernant les mots construits, par exemple, les données enregistrées permettent
– d’une part d’identifier ceux qui sont intégrés aux nomenclatures et/ou dont la base l’est (les
dérivés pouvant être ou non mentionnés dans l’article consacré à celle-ci) ;
– et d’autre part de filtrer les items en fonction de leur mode de création (en se limitant pour
l’heure à des sous-chaînes de caractères correspondant à des constituants lexicaux ou infralexicaux, mais ceci pourrait être amélioré par l’ajout d’un champ de description dans la table
qui inventorie les unités linguistiques).
Ceci offre des perspectives pour l’étude par sous-ensembles cohérents des modes de traitement
des mots construits.
si les dictionnaires affichent le nombre d’unités que compte leur nomenclature (sans
préciser toutefois ce qui est compté), ils emploient des valeurs arrondies qui les positionnent sur le marché face à leurs concurrents, mais il est intéressant pour l’analyste de ne pas s’en tenir à l’indétermination de ce qui est compté et à l’approximation
des valeurs fournies ;
•
Comme l’indique T24 n. 8, la constitution de Rbd5 nous a permis de réévaluer à la hausse
le chiffre annoncé par le Dictionnaire Hachette benjamin (6 582 items lexicaux simples ou
complexes traités contre 6 000 annoncés). Cette valeur ajustée correspond à celle de 6 500
annoncées par ses concurrents, le Larousse des débutants et le Robert benjamin (depuis 2009),
cf. T24 n. 4, ce qui pourrait légitimement inciter son éditeur à aligner son affichage sur ceux
des deux autres répertoires sans évolution de nomenclature.
Comme l’indique T24 n. 6, Martinez (2009 : 114) a montré que le millésime 2008 du Nouveau
Petit Robert comptait 54 003 articles contre « 60 000 mots » annoncés sur sa couverture, ce qui
constitue une réévaluation à la baisse que l’inventaire des unités linguistiques traitées conduirait certainement à revoir encore, mais à la hausse cette fois, sans qu’il soit assuré que l’un
ou l’autre des décomptes réalisés nous permette de déterminer quelle est la valeur à accorder
à « mot » dans la quantification proposée par l’éditeur.
• si les dictionnaires pour le cycle 2 annoncent 6 000 à 6 500 items à leur nomenclature
et ceux pour le cycle suivant 20 000, les sélections opérées par chacun des concurrents
diffèrent sensiblement, ce qui m’incite à penser que la constitution d’une nomenclature
cumulative avec pondération de chaque item en fonction du nombre des dictionnaires
qui l’ont sélectionné peut permettre de se faire une représentation du lexique conçu
par les lexicographes comme étant à connaître par les élèves de chaque tranche d’âge
352 Rbd5 ne permet pas de savoir si ce sont les mêmes sens qui sont décrits par exemple s.v. abandon 1.
dans le Dictionnaire Hachette junior et le Robert junior. Un travail d’alignement au niveau des subdivisions de description serait bien plus complexe et donc coûteux que le recensement entrepris, qui traite les
nomenclatures au niveau des unités linguistiques.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
213
et de la confronter à celles du lexique actif des enfants émanant de travaux de psycholinguistes acquisitionnistes ou de pédagogues 353 ;
– la dernière étude envisagée implique d’élargir la sélection des dictionnaires actuellement pris en compte :
• si les dictionnaires pour le cycle 2 ont des nomenclatures de tailles supérieures à
celles de dictionnaires bilingues (partie français - langue x) destinés à des élèves plus
âgés de France (environ 4 800 articles dans la partie français-anglais du Robert &
Collins junior bilingue (cf. T6 § 1.1.)) ou d’autres pays (environ la moitié des 6 000
items annoncés pour la nomenclature globale des deux parties du Basiswoordenboek
Frans publié par Van Dale en 2009 pour les néerlandophones à partir de 8 ans par
exemple),
• et si celles des dictionnaires pour le cycle 3 et du Dictionnaire du français, répertoire monolingue pour allophones publié par CLE International & Le Robert en 1999,
sont quantitativement proches,
les sélections d’unités linguistiques opérées dans chaque répertoire en fonction de la
langue maternelle des destinataires et de la vocation des dictionnaires apporteraient
certainement des indications complémentaires des précédentes :
353 Paveau & Rosier (2008 : 208-209) évoquent différentes évaluations du nombre de mots connus ou qu’il conviendrait de connaître déterminées en fonction de l’âge ou d’autres paramètres socioculturels. Parmi celles-ci,
deux sous-ensembles se distinguent : celles qui sont formulées pour la promotion d’ouvrages et qui sont relevées dans leurs paratextes (premier paragraphe de la p. 208) et celles qui sont formulées dans le cadre de
recherches comme celles de Gougenheim (1964), mais aussi, plus récemment, de Florin (1993), Picoche (1993)
ou Gueunier (1994) et d’acquisitionnistes qui prennent en compte les apprentissages des premières années.
Celle reprise de Florin (1993 : 94) ne constitue qu’une fourchette indicative : au « début du vingtième siècle,
[…] le vocabulaire moyen d’enfants [de langue anglaise] de huit ans pouvait être estimé à 3 600 mots par
un auteur, et à 44 000 par un autre ».
Dans l’article cité, mais aux pages suivantes (1993 : 95-96), Agnès Florin expose un protocole expérimental
qui a permis d’évaluer le nombre de mots connus ou non par les élèves du cycle 3 (cf. Ehrlich, Bramaud du
Boucheron & Florin (1978)) :
« Notre échantillon de référence a été extrait du Dictionnaire du Français Contemporain [de 1971 en
retenant 13 500] mots primaires, représentatifs de toutes les familles sémantiques [en veillant à ce que]
les proportions des différentes catégories grammaticales dans la langue française [soient respectées
puis en classant les mots retenus] dans une échelle de connaissance en cinq points [qui sera également
utilisée par les 2 538 élèves questionnés : 1] je ne l’ai jamais entendu, [2] je l’ai déjà entendu mais je ne
sais pas ce qu’il veut dire, [3] je le connais mal et je l’utilise rarement, [4] je le connais assez bien et je
l’utilise assez souvent, [5] je le connais très bien et je l’utilise très souvent ; » (p. 95)
« Le répertoire de chaque enfant est estimé en rapportant ses réponses [pour un sous-ensemble de 450
mots] à l’ensemble des mots de l’échantillon de référence […].
Les résultats font apparaître une augmentation de la dimension des répertoires importante du CE1 au
CM2, puisque le nombre de mots jugés inconnus diminue de moitié au cours de cette période (8 081 en
CE1 ; 4 057 en CM2). Mais un examen plus qualitatif montre que le nombre de mots très bien connus
augmente peu (+ 1 000 mots du CE1 au CM2) […] Il apparaît que le vocabulaire fréquemment utilisé
varie peu pendant la scolarité d’école primaire, mais qu’on fait apprendre aux enfants beaucoup de mots
nouveaux, qu’ils n’utilisent guère, pour la plupart d’entre eux. » (p. 96)
Même si rien n’y est dit relativement au rôle des dictionnaires dans l’apprentissage observé, ces travaux
méritent une attention particulière dans la mesure où, dans une sélection de 13 500 items, ils situent à
4 000 unités environ la quantité de mots inconnus des élèves de CE1 mais connus de ceux de CM2, ce qui
n’a pas de commune mesure avec l’écart de 14 000 unités observable entre les nomenclatures des dictionnaires
destinés à ces deux ensembles d’écoliers, et qui conforte mon souhait de voir s’étoffer les nomenclatures des
répertoires scolaires, au moins pour ceux proposés en version électronique (cf. en particulier T17 § 3.2.1.
(§ 2.7.2.)).
214
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
• sur le
lexique réputé utile pour chaque tranche d’âge selon que les locuteurs s’expriment
dans leur langue maternelle ou dans une langue seconde ;
• et, en considérant plus particulièrement les dictionnaires conçus à l’étranger pour
de jeunes apprenants allophones, sur (i) la diversité des registres de langue pris en
compte (le dictionnaire Van Dale évoqué supra traite par exemple craquer pour, qui
ne figure pas dans les dictionnaires scolaires de France), et (ii) les items inclus dans
les nomenclatures sans pourtant être des unités linguistiques usuellement employées
par les jeunes de France – comme papier émeri (technique) ou poil de moustache (non
idiomatique), traités par le même dictionnaire Van Dale –, qui peuvent traduire une
connaissance insuffisante du français par des rédacteurs allophones et/ou la prise en
compte d’expressions non hexagonales.
Ces quelques pistes de travail montrent, sans épuiser la diversité des perspectives,
le potentiel documentaire de la base des nomenclatures Rbd5.
2.3.3. Analyse des relations entre unités linguistiques et représentations graphiques de leurs référents [Rbd2]
La base des iconographies du Robert junior (Rbd2) dont il va être question ci-après
constitue (comme Rbd5) une ressource pour l’analyse des unités linguistiques traitées
dans un dictionnaire scolaire. Mais elle aborde cette question d’une manière toute particulière, puisqu’elle ne prend en compte que les unités dont les référents donnent lieu
à des représentations graphiques et que les descriptions sont focalisées sur les iconographies et des relations qui lient celles-ci aux textes des articles auxquels elles sont
associées. Par ailleurs, elle ne concerne jusqu’à présent 354 qu’un répertoire, le Robert
junior, considéré dans sa version imprimée de 1997 et dans l’édition électronique de
1999.
Contexte déclencheur
Ce projet a initialement été conçu pour motiver un développement de base de données SQL sous Access dans le cadre des cours de notre formation professionnelle de
354 Rbd2 est extensible en principe à l’ensemble des dictionnaires scolaires iconographiés. L’intégration des données d’autres répertoires pourrait être motivée par le souhait de comparer leurs sélections d’items associés
à des iconographies, ce qui pourrait constituer un prolongement de la comparaison de leurs sélections de
nomenclatures à partir des données de Rbd5. Outre cet objectif métalexicographique, la diversification des
données enregistrées dans Rbd2 fournirait les moyens de comparer, pour eux-mêmes et en fonction de l’âge
des destinataires, les choix de ce qui est illustré (entités sensibles vs nonsensibles, statiques vs dynamiques
(procès), etc.), des modes iconographiques, des positionnements relatifs des iconographies par rapport aux éléments textuels des articles ou encore de leur interdépendance sémiotique.
Dans le cadre d’une première phase d’enrichissement, qui se concentrerait sur les dictionnaires concurrents,
ceux pour le cycle 2 pourraient être privilégiés, du fait
– de la limitation du corpus, qui, même si la proportion d’articles iconographiés y est très probablement supérieure à celle des répertoires pour le cycle 3 ou la frontière entre l’école et le collège, reste plus restreint en
valeur absolue ;
– de l’avancement de ma connaissance de leurs nomenclatures ;
– et des liens que ce travail aurait avec les travaux engagés sur deux d’entre eux – le Dictionnaire Hachette
benjamin et le Larousse des débutants –, qui donnent lieu à d’autres développements dans ce mémoire (cf.
respectivement §§ 1.6.1. et 2.3.6., où T20 et Tdr5 sont commentés, et § 2.2.1.3., où Rdic4 est présenté).
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
215
lexicographes (promotion 2002-2003) 355. J’ai proposé aux étudiants de simuler une
tâche qui avait plausiblement été effectuée déjà par l’éditeur de ces répertoires : la
préparation du réemploi des iconographies utilisées dans un ouvrage imprimé du catalogue dans le cadre de la dérivation d’une version électronique à partir de celui-ci 356
afin que, tout en exploitant pour l’essentiel le même stock d’illustrations, le produit
consultable sur écran donne l’impression d’être beaucoup plus richement iconographié
du fait du réemploi des mêmes images dans différents contextes 357.
Cette investigation rencontrait par ailleurs les intérêts de François Corbin, qui, dans
le cadre d’une thèse en préparation, travaillait sur la fonction des iconographies dans
les dictionnaires 358. L’adhésion enthousiaste des étudiants et de François Corbin 359
à ce projet m’a conduite à prendre en compte des paramètres qui ne l’auraient pas été
dans la base qu’aurait pu réaliser l’éditeur, dans la mesure où ils permettaient d’acquérir une meilleure connaissance du contenu de ce dictionnaire scolaire, des sélections d’items de la nomenclature qui avaient donné lieu à illustration, des manières
d’associer des iconographies à des descriptions textuelles et des conditions de réemploi d’une même illustration 360 dans différents contextes 361 (qui impliquent parfois
des ajustements locaux : recadrage, suppression de dispositifs de pointage permettant
de nommer des parties constituantes d’un tout, etc.).
355 C’est également cette promotion qui a réalisé les transcriptions des commentaires de matchs de football du
corpus Rcorp1 (cf. §§ 1.3.1. à 1.3.3.).
356 L’édition électronique intègre également des iconographies provenant du Robert benjamin de 1997 et de l’édition nord-américaine du Robert Junior de 1994 (pour une analyse plus fine des emprunts iconographiques
à ces deux répertoires Robert, cf. F. Corbin (2009 : 77, et en particulier nn. 24 à 26)).
357 La quatrième de couverture de l’édition imprimée du Robert junior de 1997 annonçait « 1 000 illustrations en
couleurs » et « 38 pages de planches thématiques ». Le dos du boîtier de l’édition électronique de 1999 mentionnait « 10 000 mots illustrés » sous l’accroche « visualiser et associer » et « 1 400 illustrations » sous « classer et
illustrer » (la rubrique qui présentait les regroupements thématiques qui permettaient d’accéder aux médias).
358 Cf. F. Corbin
– (2002), qui se concentre sur un dictionnaire destiné à un large public, le Petit Larousse illustré millésimes
2000 et 2001 ;
– (2005a), qui concerne un autre dictionnaire scolaire, le Larousse des débutants de 2000 (réédition retitrée
de la refonte de 1999 du Dictionnaire mini débutants, cf. n. 250) ;
– et (2009), qui traite de différentes éditions du Robert junior.
359 Je tiens à le remercier pour cette collaboration très stimulante.
360 Dans la mesure où nous disposions des deux éditions du Robert junior, les iconographies de la base Rbd2
qui sont décrites comme provenant de l’édition imprimée de 1997 peuvent
– soit être le produit de captures d’image réalisées à partir de la version électronique quand celles qui y figurent sont des réemplois sans changement de celles qui étaient dans l’édition imprimée ;
– soit avoir été numérisées à partir du volume.
361 Dans la version électronique, les iconographies sont présentées à droite des éléments textuels des articles
(cf. infra figure 49 par exemple) ou dans les regroupements thématiques qui constituent un mode d’accès
alternatif aux iconographies et enregistrements sonores du Robert junior et qui sont eux-mêmes accessibles
via la « Fenêtre des médias » (cf. F. Corbin (2009 : 86-89)), dans laquelle « l’accès à chaque groupe thématique s’effectue en cliquant au-dessus de l’intitulé de celui-ci sur une image encadrée qui reprend une ou
plusieurs image(s) du groupe, emblématique(s) du domaine auquel il est consacré » (id., partie I., n. 53). Cidessous à gauche, le bouton de la « Fenêtre des médias » inclus dans la barre d’outils du dictionnaire donne
un accès direct au « Sommaire des Médias » présenté à droite.
216
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Structure et contenu de la base iconographique
Le schéma de relations (cf. figure 46) donne une idée de la précision descriptive
visée :
– chaque iconographie
• est enregistrée dans la table T_Iconographies, où elle se voit associer des éléments de
description intrinsèque 362 ;
• est liée à chacune des descriptions des utilisations qui en sont faites (enregistrées
dans la table T_Utilisations) par des tables pivots qui présentent la caractéristique de
constituer trois mises en relation alternatives entre les tables T_Iconographies et
T_Utilisations, choisies en fonction du type d’utilisation : l’une est simple et ne contient que les identificateurs d’iconographies et d’utilisations, dont la présence est
indispensable pour la mise en place des relations, alors que les deux autres leur associent des éléments d’analyse spécifiques :
(i) pour un emploi dans une compilation : porte-t-elle une légende ? combien d’iconographies élémentaires réunit-elle ? les légendes de chacun des constituants sont-elles
préservées ? quelle est la position relative du constituant en cours de description ?
(ii) pour un emploi avec recadrage : est-il fait sur une sous-partie particulière ou s’agitil d’un zoom ?
– dans la table T_Utilisations, les descriptions de chaque emploi iconographique spécifient la présence éventuelle d’un dispositif de pointage, l’orientation de l’iconogra-
Bouton de la « Fenêtre des médias »
du Robert junior électronique
« Sommaire des Médias »
du Robert junior électronique
bouton d’accès à la « Fenêtre des médias »
dans la barre d’outils du Robert junior électronique
362 Parmi ceux-ci figure la légende qui accompagne éventuellement l’iconographie. Ceci trouve sa pertinence dans
le cadre de l’étude qui a motivé la création de Rbd2 : puisqu’il s’agissait d’étudier le réemploi des iconographies d’une édition imprimée particulière dans une édition électronique déterminée, considérer que la légende
“appartenait” à l’image ne posait pas de problème, mais il aurait alternativement été possible de traiter la
légende indépendamment de l’iconographie à laquelle elle était associée dans une utilisation donnée et donc
de la considérer comme une caractéristique de cette utilisation. Cette seconde solution était moins pertinente
pour les iconographies du Robert junior, mais elle aurait été mieux adaptée à l’intégration d’iconographies
provenant d’autres dictionnaires (cf. n. 354).
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
217
phie, si elle est employée seule ou dans une combinaison d’images dont le type est
spécifié et où elle est visible 363 ;
– chaque utilisation décrite est elle-même liée aux items auxquels les iconographies
peuvent être associées (enregistrés dans la table T_Items) par le biais de la table pivot
T_pivot_Items_Utilisations, qui enregistre des éléments d’analyse de la qualité des
utilisations au sein d’un dictionnaire donné, que ceux-ci soient effectifs ou qu’ils ne
soient qu’envisageables dans le cadre d’une recherche de réemploi d’iconographies
pour d’autres items traités ;
– les crédits de chaque iconographie sont enfin enregistrés dans la table T_Sources_
creditees, qui est liée à la table T_Iconographies par une table pivot, car, si les iconographies du Robert junior imprimé de 1997, en l’absence de crédits mentionnés dans
le volume, se voient toutes associer la valeur par défaut « Dictionnaires Le Robert »,
ce n’est pas le cas de celles de la version électronique de 1999 (ni naturellement de
celles d’autres répertoires si Rbd2 devait intégrer les iconographies d’autres dictionnaires scolaires, cf. n. 354).
Figure 46. Schéma de relations de la base des iconographies Rbd2
La saisie des descriptions se fait via un formulaire (cf. figure 47) où un système
d’onglets permet de n’avoir à l’écran que les sous-ensembles de champs pertinents
pour l’iconographie en cours d’enregistrement.
363 Selon les contextes d’emploi des iconographies, leur localisation peut correspondre à un identificateur
– d’article : l’item qui figure en adresse principale ;
– de planche hors texte de l’édition imprimée : sa pagination et sa position relative dans la page ;
– ou d’un élément des médias de l’édition électronique : le cheminement le plus direct qui conduit du « Sommaire des Médias » (cf. n. 361) à lui.
218
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Figure 47. Extrait du formulaire de saisie dans Rbd2 et de la description de la première
iconographie de la planche « CHAMPIGNONS » du Robert junior imprimé de 1997
L’image décrite dans ce formulaire appartient à une compilation. L’article champignon, qui
figurait à la page 157 de l’édition imprimée, était illustré par une planche en page 159 intitulée
« CHAMPIGNONS », qui réunissait 14 iconographies (cf. figure 48). La première (dont un extrait de la description dans la base Rbd2 est présenté supra) était associée à un dispositif de
pointage qui fournissait les noms de chaque partie constituante d’un champignon prototypique (le seul de la page dessiné en noir et blanc). La planche a été réemployée dans l’édition
électronique pour illustrer l’article champignon (cf. figure 49) et comme image représentant
« Les Champignons » dans « Le règne végétal » de la « Fenêtre des médias » (cf. figure 50), mais
la première iconographie y a perdu son dispositif de pointage, et l’ensemble de ses constituants
originaux (dispositif de pointage inclus pour la première iconographie) est proposé dans le
groupe thématique (cf. n. 361) « Les Champignons » dans la « Fenêtre des médias » (cf. figure
51, où lamelles a remplacé lames dans le dispositif de pointage de la première iconographie).
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
219
Figure 48. L’article champignon et la planche « CHAMPIGNONS »
du Robert junior imprimé de 1997
Figure 49. L’article champignon du Robert
junior électronique de 1999
Figure 50. Regroupement thématique « Le règne
végétal » du Robert junior électronique de 1999
220
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Figure 51. Regroupement thématique « Les champignons »
du Robert junior électronique de 1999
Le travail a été organisé en phases de dépouillement collectif 364 et d’analyse du contenu des deux versions du Robert junior prises en compte, des explorations dictionnairiques étant articulées à la conception évolutive du schéma de relations de la base
SQL jusqu’à la détermination de l’ensemble des informations descriptives et analytiques finalement retenues, au relevé des données, puis à leur contrôle.
Perspectives d’exploitation de Rbd2
La base Rbd2 a contribué à documenter une publication (F. Corbin (2009)). Elle
motivait aussi la coécriture d’un texte (qui n’a pas été achevé 365 ) par le biais duquel
nous souhaitions valoriser l’apport documentaire d’une base comme la nôtre dans le
cadre d’une analyse métalexicographique des iconographies.
La réédition en 2006 de la version électronique de 1999 du Robert junior (sous le
titre de Robert des enfants), après la refonte du texte et des iconographies de la version
imprimée en 2005, redonne indirectement une certaine actualité à la base Rbd2 dans
la mesure où, les répertoires de 2005 et 2006 proposant des traitements iconographiques qui sont encore plus disjoints que ceux que nous avions étudiés, les connaissances que nous avions acquises lors de ce travail seraient tout à fait utiles pour entamer la comparaison de ces deux éditions les plus récentes 366.
Que la base soit enrichie dans la perspective que je viens d’évoquer (ou dans celle
de l’extension à d’autres dictionnaires envisagée en note 354) ou qu’elle se limite à son
contenu actuel, elle constitue une documentation de qualité pour
364 Cf. n. 229. La collaboration des étudiants a permis d’explorer la version électronique en diversifiant plus que
je ne l’aurais fait seule les cheminements au sein des articles et des médias reliés par des liens hypertextuels :
les étudiants ont trouvé des liens que je n’avais pas localisés et, par leur nombre, ils m’ont aidée à mieux
systématiser leur activation (sans pour autant qu’il soit certain que nous les ayons tous visités).
365 Le travail sur le corpus footballistique (Rcorp1) engagé presque simultanément ne m’a pas laissé la disponibilité nécessaire pour travailler immédiatement avec François Corbin et j’ai choisi ensuite de différer celui
sur les iconographies après son désengagement de la recherche.
366 L’édition imprimée de 2010 ne semble pas avoir renouvelé le traitement iconographique.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
221
– d’une part l’approfondissement, à la suite de F. Corbin (2009), de l’analyse du travail
éditorial réalisé chez Robert lors du réemploi des iconographies ;
– et d’autre part l’étude des relations qui peuvent être perçues entre les unités linguistiques illustrées et ce que représentent les iconographies (cf. n. 354).
Dans le premier contexte, la base de données serait en mesure de fournir différents
éléments de description des iconographies de l’édition imprimée de 1997 et de leurs
emplois dans ce volume et dans l’édition électronique de 1999 :
– concernant les caractéristiques intrinsèques des iconographies, Rbd2 permet de
savoir :
• quel est leur mode iconographique (dessins en noir et blanc ou en couleur) ;
• si elles présentent leur référent en contexte ou hors contexte ;
• etc. ;
Les iconographies ne fournissent généralement aucun contexte (comme par exemple pour le
paon en figure 52) et, quand elles en donnent un, elles ne proposent qu’un minimum d’éléments au sein de celui-ci (comme le morceau de branche portant des feuilles pour le panda).
Figure 52. Iconographies du panda et du paon extraites des médias
du Robert junior électronique de 1999
Les iconographies présentées ci-dessous sont extraites des médias de l’édition électronique du Robert
junior, mais elles sont également associées aux articles panda et paon de cette édition comme de
celle, imprimée, de 1997 (où elles figurent avec les légendes « panda » et « paon » en 1997, et « un
panda » et « un paon » en 1999).
– concernant les emplois des iconographies, Rbd2 permet de savoir :
• si elles sont associées à un item en adresse et/ou accessibles via les regroupements
thématiques des médias dans l’édition électronique :
La trompette, par exemple, n’était pas iconographiée dans l’article consacré à son nom dans
l’édition imprimée mais dans la planche intitulée « INSTRUMENTS DE MUSIQUE », un
renvoi invitant à aller de l’article à la planche (cf. figure 53). Cette planche (où la trompette
figurait embouchure à droite et pavillon légèrement plus bas que cette dernière) n’a pas été
intégrée à l’édition électronique, mais le même dessin (horizontalisé et retourné latéralement)
est présenté dans les médias comme icône représentant « Les Cuivres » (à gauche en figure
222
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
54) et il a été enrichi d’un dispositif de pointage pour être inséré dans l’article trompette et
pour représenter cet instrument parmi d’autres cuivres dans les médias (à droite ci-dessous).
Figure 53. L’article trompette et la planche « INSTRUMENTS DE MUSIQUE »
du Robert junior imprimé de 1997
Figure 54. Iconographies de la trompette extraites des médias
du Robert junior électronique de 1999
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
223
• si elles sont exploitées isolément et/ou au sein d’une compilation, et, dans ce dernier
cas, s’il s’agit
(i) d’une composition locale présentée dans un article pour y cumuler ou y contraster
des représentations (cf. figures 55 et 56),
(ii) d’une planche thématique présentant différentes espèces du même genre et constituant un hors-texte lié à une description d’emploi lexical dans l’édition imprimée (cf.
figures 48 et 53), d’une illustration d’article (cf. figure 49) ou d’une image de la « Fenêtre
des médias » dans la version électronique (cf. figure 50),
et/ou (iii) d’une compilation spécifique aux médias de l’édition électronique au sein desquels elle sert de bouton d’accès à un sous-groupe thématique (cf. figure 57, colonne
de gauche).
Dans les compositions locales présentées dans les articles (cf. figures 55 et 56), les compilations peuvent permettre
– de montrer plusieurs objets nommés de la même manière, comme s.v. anse 1. ;
– ou d’illustrer une polysémie lexicale, comme s.v. griffe, où le nom de partie du corps de certains animaux, celui du crochet de bijouterie (dérivé du premier par analogie) et celui (métonymique) de l’étiquette vestimentaire sont conjointement illustrés.
Dans l’édition électronique, s.v. griffe, les trois référents sont représentés distribués dans
chacune des trois subdivisions de description, alors qu’ils étaient réunis en une seule vignette
dans l’édition imprimée. S.v. anse 2., une seconde illustration (provenant de l’article crique
du Robert benjamin) a été ajoutée dans l’édition électronique sans incidence sur celle présentée s.v. anse 1.
Figure 55. Les articles anse et griffe du Robert junior imprimé de 1997
224
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Figure 56. Les articles anse et griffe du Robert junior électronique de 1999
Dans la « Fenêtre des médias » de la version électronique, des iconographies représentent les
sous-groupes thématiques (cf. figure 57). Il peut s’agir de compilations ou d’iconographies
simples :
– « Les herbivores » sont représentés par une compilation qui inclut l’iconographie du panda
présentée s.v. panda (cf. figure 52).
– « Les Oiseaux terrestres » sont, eux représentés par celle du paon, privée de la légende qui
l’accompagnait s.v. paon (cf. figure 52).
Figure 57. Iconographies du panda et du paon insérées dans des compilations de sous-ensembles
d’animaux présentées dans les médias du Robert junior électronique de 1999
• si elles bénéficient d’un dispositif de pointage (ce qui peut varier d’un emploi à l’autre,
cf. figures 47 à 51 pour le champignon, 53 et 54 pour la trompette) ;
• si elles font l’objet de recadrages dans des réemplois de la version électronique
(comme dans le cas de la trompette évoqué précédemment) ;
• etc.
Dans le cadre de l’étude des relations entre les unités linguistiques illustrées et ce
que représentent les iconographies, les mises en relation des adresses d’articles asso-
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
225
ciés à une illustration, de l’iconographie elle-même, de la description textuelle de ce
qui figure sur celle-ci et de son mode d’exploitation permettent notamment d’étudier
le rôle du recours aux iconographies dans le traitement des unités linguistiques pour
lesquelles différents référents sont associables aux mêmes formes graphiques et/ou
phoniques (cf. ci-dessus figures 55 et 56). L’exploitation en sus d’éléments d’analyse
relatifs à la redondance ou à la complémentarité des indications textuelles proposées
par les articles et de ce qui figure dans les iconographies peut contribuer plus largement à l’analyse de la place relative des informations linguistiques et référentielles
dans les articles du Robert junior et du rôle des secondes dans la bonne appropriation
des premières par les élèves qui consultent ce répertoire.
Ces questions méritent à mon sens des analyses fines à réaliser dans les différents
dictionnaires scolaires 367 afin de prendre en considération les diverses modalités de
traitement iconographique et de mise en relation des composants textuels et des représentations graphiques. Ces analyses devraient permettre de mieux comprendre la valeur
pédagogique des iconographies et ainsi de dépasser sur des bases argumentées la position de rejet de principe de leur utilisation dans les dictionnaires de langue défendue
par Josette Rey-Debove, ce que François Corbin avait entrepris de faire 368.
Ce type de recherche me semble d’autant plus utile actuellement que
– d’une part, même si les iconographies sont utilisées avec une relative parcimonie dans
les dictionnaires scolaires imprimés, du fait de la place qu’elles consomment et du surcoût qu’induit leur présence, l’essor potentiel des dictionnaires électroniques destinés
aux jeunes lecteurs (cf. T17 nn. 113 et 115) pourrait permettre de leur faire une place
supérieure ;
– et d’autre part, bien qu’elles soient considérées par certains comme de simples ornementations qui égaient les pages (et qui par l’agrément de leur présence constituent
un argument commercial), elles ont certainement un autre rôle à jouer dans ces répertoires (comme le montrent les travaux déjà mentionnés de François Corbin (cf. n. 358)
et ceux sur les imagiers de P. Corbin (2001)) et une meilleure connaissance de leurs
fonctions permettrait d’améliorer l’exploitation qui en est faite.
2.3.4. Identification des unités linguistiques par leur(s) forme(s) phonique(s) et
graphique(s) [T23 (2010b)]
On consulte un dictionnaire pour y chercher un mot, un affixe, une expression, etc.
Ces unités linguistiques constituent ce dont on part pour accéder aux articles et aux
informations qu’ils contiennent, même si ce n’est pas nécessairement sur elles que
portent les interrogations qui motivent la consultation du répertoire. Une partie des
unités linguistiques qui servent ainsi de point d’entrée dans les dictionnaires est con367 Une étudiante de M1 TAL a étudié récemment, dans le cadre de son mémoire (Mdir54 (Sow (2008))), les
traitements textuels et iconographiques proposés pour une sélection d’items polysémiques et d’homographes
dans les dictionnaires que les trois éditeurs majeurs proposent pour le cycle 2. Ses investigations indiquent
qu’il y aurait bien matière à effectuer une étude d’une autre ampleur.
368 Ceci a donné lieu en particulier à un échange verbal entre ces deux protagonistes lors des Premières journées allemandes des dictionnaires de Klingenberg (cf. F. Corbin (2005b)).
226
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
nue avant que la recherche soit engagée, mais certaines n’ont jamais été rencontrées
encore et, parmi celles qui sont connues, une partie ne l’ont été qu’à l’oral. Que celui
qui s’apprête à consulter un dictionnaire le fasse pour résoudre une difficulté de compréhension d’un item lu ou entendu, pour trouver celui qui sera le mieux adapté dans
l’énoncé qu’il cherche à construire, ou encore pour enrichir sa culture générale, il doit
être capable de déterminer quelle est l’unité linguistique dont la recherche devrait le
conduire à l’information souhaitée, puis sous quelle(s) forme(s) celle-ci peut être trouvée.
Les dictionnaires sont des répertoires au sein desquels les descriptions sont écrites 369,
alors que les unités linguistiques qui y sont cherchées sont généralement employées à
l’écrit comme à l’oral et parfois même rencontrées uniquement via ce médium (ce qui
est le lot des enfants avant qu’ils sachent lire et courant pour tout un chacun en diverses circonstances). Il faut donc, pour que les utilisateurs de dictionnaires soient à
même de trouver les renseignements qu’ils y cherchent, qu’ils puissent établir les connexions nécessaires entres les formes écrites ou orales rencontrées en discours et celles
sous lesquelles les informations sont consignées pour chaque item appartenant à la
nomenclature des répertoires.
Je porte un intérêt récurrent à cette mise en relation des formes que chaque unité
linguistique peut pendre et de celle(s) que proposent les articles. Ceci s’observe dans
– T17 (cf. § 2.7.2.), où ce sont les formes actualisées des items, celles qui sont rencontrées et sur lesquelles on a buté au point de consulter un dictionnaire, qui sont prises
en compte en particulier pour envisager le recours à un hyperappel du dictionnaire,
cf. n. 131 et §§ 3.2.1.1. et 3.2.2.2. ;
– et T20 et Tdr5 (cf. §§ 1.6.1. et 2.3.6.), où l’appariement des formes en contexte dans
un texte de lecture et en adresse dans le dictionnaire est au centre du travail d’analyse.
Une des dimensions de la mise en relation des formes instanciées dans les discours
avec celles que retiennent les dictionnaires pour l’adressage des informations est l’accessibilité de ces derniers pour ceux qui n’ont pas une bonne maîtrise orthographique,
ce qui m’a amenée à consacrer mon premier article relevant spécifiquement de cette
thématique à la prise en compte des formes phoniques par certains répertoires, aux
présentations qu’ils en font et aux utilisations de celles-ci comme points d’accès aux
articles. Il s’agit de T23, qui a donné lieu à un exposé au congrès EURALEX de 2010
(C24).
De l’observation des traitements dictionnairiques…
Le plan en 5 parties de T23 fait se succéder, entre l’introduction et la conclusion
(§§ 0. et 4.), d’abord des éléments d’analyse développés selon deux modes d’approche
distincts, le premier ambitionnant d’exposer une synthèse des modalités de traitement
des formes phoniques communément adoptées dans les répertoires (§ 1.) et le second
de focaliser l’attention sur les qualités remarquables de certains produits proposés par
Le Robert 370 (§ 2.), puis des propositions pour des développements futurs (§ 3.).
369 Les descriptions écrites ont vocation à être lues par ceux qui les consultent, mais le dictionnaire en ligne
Mediadico (http://www.mediadico.com/) propose aussi une oralisation des articles.
370 Deux sont effectivement comparés : le Nouveau Petit Robert électronique (éditions 2001 à 2008 (millésime
2009)) et le Robert oral-écrit de 1989. Mais un troisième est pris en compte indirectement : le Robert junior
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
227
Comme l’ensemble des spéculations dictionnairiques auxquelles je me livre, celles-ci
portent sur de potentiels produits électroniques destinés à de jeunes utilisateurs, qui
doivent être entraînés à surmonter de manière autonome les incompréhensions suscitées par certains textes en recourant à la consultation d’ouvrages de référence appropriés, mais qui sont encore en train d’acquérir la maîtrise linguistique utile pour pleinement profiter des indications des dictionnaires qui ont vocation à répondre à leurs questions.
Les dictionnaires pris en compte dans cette étude attachent plus d’importance que
d’autres aux formes phoniques des unités linguistiques, mais seul le Robert oral-écrit
valorise explicitement cette option dans ses paratextes comme par sa macrostructure
(cf. ci-dessous figure 58).
Les articles de ce répertoire ont des transcriptions phonétiques comme adresses principales et des graphies comme sous-adresses. Ces dernières introduisent les descriptions
des différentes formes lexicales correspondant à la prononciation transcrite, au sein
d’articles dont la dimension sémantique et combinatoire est simplifiée mais qui comportent des développements orthographiques et flexionnels substantiels articulés par
des renvois à diverses rubriques d’une synthèse sur l’orthographe française figurant en
annexe de l’ouvrage. Les formes graphiques telles qu’elles s’observent dans les usages
sont répertoriées sous chaque forme phonique, ce qui motive, par exemple, la mention
de nous savons, forme du verbe savoir, s.v. sAv (où elle suit la sous-adresse graphique
le savon) ou celle de je sens, forme du verbe sentir, s.v. s (où elle suit les sous-adresses
graphiques cent, le sang et sans).
Dans leur corps principal, les articles ont un programme d’information relativement
classique mais où prédominent les indications sur les formes graphiques que peut recevoir chaque unité lexicale traitée. Des notes marginales complètent ces indications et
fournissent des conseils de prononciation (par exemple, pour les formes verbales, s.v.
sAvOnE savonner, s.v. sblE sembler ou s.v. sksjOnE sanctionner) ou explicitent les variations de forme phonique qu’une liaison par exemple peut induire (comme
s.v. s cent et s sans).
En haut de chaque double page les titres courants fournissent des repères relatifs
aux seules formes phoniques, et la liste des symboles phonétiques employés, inspirés
de ceux de l’alphabet phonétique international (API) et accompagnés de mots exemples
permettant de décoder leur valeur phonique, est rappelée en marge extérieure de chaque
page. Au sein de celle-ci, les majuscules indiquent des neutralisations de variantes de
prononciation pour différentes voyelles.
électronique de 1998, réédité en 1999 (déjà situé éditorialement supra au § 2.3.3. à propos du traitement dans
la base Rbd2 des iconographies qu’il a héritées de l’édition imprimée de 1997), repressé en 2003 et publié
sous le nom de Robert des enfants en 2006, qui offre des fonctionnalités comparables à celles de l’ouvrage
phare de cet éditeur au moins pour celles qui sont prises en compte dans cette étude (cf. T23 nn. 3 et 28).
228
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Figure 58. Extrait du Robert oral-écrit
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
229
230
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Le Nouveau Petit Robert et le Robert junior se présentent comme des dictionnaires
généraux, non spécialisés dans le traitement des formes phoniques, mais il se trouve
que celles-ci occupent une bonne place parmi les informations fournies à propos des
unités linguistiques traitées et que les fonctions de recherche de leurs versions électroniques (sur disques au moins 371) permettent d’accéder aux articles par l’intermédiaire de transcriptions des formes phoniques (cf. figure 59) ou de formes graphiques
fautives mais oralisables comme la graphie valide (cf. figure 60).
Figure 59. Fenêtre de recherche d’une entrée à partir de sa transcription phonétique
dans le Nouveau Petit Robert électronique de 2009
Par exemple : la saisie de [sS] (dont le tilde est décalé du a dans la copie d’écran ci-dessous comme il
le serait en codification SAMPA cf. n. 348) dans l’interface de recherche par critère phonétique permet
d’accéder à cinq adresses graphiques : C (adj. numér. card., « Cent, en chiffres romains. », s.v. 2. C 1.),
1. cent (adj. numér. et n.), 3. cent (n. m., « Centième partie de l’euro. »), sang (n. m.) et sans (prép.).
La saisie de [sS] dans l’interface de recherche ci-dessus permet d’obtenir les résultats ci-dessous :
371 Il est difficile de savoir ce que contiennent les versions en ligne, qui sont susceptibles d’évoluer en permanence,
spécifiquement s’agissant de celles auxquelles nous n’avons pas aisément accès, comme par exemple celle
du Robert junior qui est réservée aux élèves et enseignants de l’école primaire qui y sont abonnés. Concernant ce répertoire, au moment de la rédaction de T23, il était indiqué que « la version HTML ne contient
pas le module de recherches avancées ni le module des médias, qui figurent dans la version CDROM. »
(http://lerobert.customers.artful.net/editions-electroniques/catalogue/rde/robert_enfants_demo.asp [consulté le
05/12/2009]) ; en revanche, au moment où cette note est rédigée, la fiche détaillée du produit indique que la
version en ligne propose « la prononciation enregistrée de plus de 7 000 mots difficiles […]. Un accès
simple et direct au dictionnaire : […] par la liste de toutes les formes fléchies […] en utilisant le correcteur d’orthographe, basé sur la phonétique […]. De puissantes fonctions de recherche : […] par
la phonétique : pour rechercher des mots selon leur prononciation (recherche de rimes…) […]. » (http://www.
lerobert.com/espace-numerique/pro/le-robert-junior/fiche-detaillee.html [consulté le 05/05/2010]), mais la version de démonstration ne propose néanmoins pas de bouton ou de menu permettant de faire une recherche
phonétique.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
231
Figure 60. Fenêtre de recherche d’une entrée à partir d’une graphie approchante
dans le Nouveau Petit Robert électronique de 2009
La recherche des entrées graphiques proches de « san » en sélectionnant l’option « en utilisant la correction phonétique » fournit cinq adresses : les quatre dernières du résultat précédent (cf. figure 59)
et 2. cent (n. m. et f., « 1. N. m. Centième partie de l’unité monétaire de divers pays » et « 2. N. f. (1851)
Région. (Canada) […] cette unité, cette pièce. »).
232
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
La saisie de « san » dans l’interface de recherche ci-dessus permet d’obtenir les résultats ci-dessous :
L’objet de cette étude n’est donc pas de détailler les traitements des formes phoniques observables dans une large sélection d’ouvrages 372, mais de contribuer à une
meilleure connaissance de répertoires choisis en fonction de la manière remarquable
dont ils traitent un type particulier d’information.
Le § 1. de T23 est constitué d’une grille d’analyse des composants d’articles susceptibles de fournir une indication sur une forme phonique d’une unité linguistique
qui figure en adresse macrostructurelle ou microstructurelle. Celle-ci est suivie d’un
bref inventaire des besoins qui peuvent motiver une consultation de dictionnaire à
partir d’une forme phonique (qu’il s’agisse de celle d’une unité linguistique ou d’un
segment de taille inférieure ou supérieure). Ces éléments de cadrage, dont le mode
rédactionnel est très dense dans T23, correspondent à ce que j’ambitionne de pouvoir
présenter également, dans un livre en projet ou dans de futures publications, pour les
formes graphiques mais aussi, en procédant aux adaptations pertinentes, pour toutes
les informations linguistiques susceptibles de figurer dans un article, la circonscription fouillée de la nature, de la distribution et des finalités de celles-ci répondant tout
autant à la vocation de la recherche métalexicographique qu’aux besoins d’une formation professionnelle fortement spécialisée.
372 La synthèse des lieux et modes de transmission de ce type d’information présentée au § 1. de T23 ne donne
qu’un exemple de chaque manière évoquée, même pour celles qui sont partagées par un grand nombre de
répertoires, pour ne pas alourdir le propos en présentant des exemples redondants bien que différenciés
par la diversité de leurs sources.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
233
Le § 2. permet d’exposer les qualités et les faiblesses des traitements et des modes
d’accès aux informations de chacun des répertoires étudiés, mais la valorisation des
caractéristiques particulières du plus original de ces dictionnaires me conduit également à formuler deux observations de portée générale :
– La première est fondée sur cette originalité du Robert oral-écrit, dont le mode de présentation des informations est atypique, puisque les adresses des articles ne sont pas
des formes graphiques d’unités linguistiques mais des transcriptions phonétiques (les
formes graphiques ne constituant que des adresses d’articles subordonnés). En réfléchissant à l’accessibilité donnée aux formes graphiques par leur regroupement sous
une forme phonique partagée et en étudiant la transposition de ce principe dans un
dictionnaire électronique, j’ai retenu des éléments sur lesquels j’ai fondé des propositions, mais j’ai également perçu qu’une partie du sens des regroupements serait perdue du fait du changement de support de consultation. Concevoir une possible édition
électronique ayant les mêmes visées que le Robert oral-écrit ne consiste pas à améliorer son dispositif, remarquable dans son principe mais malcommode en pratique (ce
qui doit être pour quelque chose dans l’insuccès commercial rencontré), mais à concevoir une autre architecture en fonction des caractéristiques du support.
– La seconde réflexion est corrélée à une autre cause concevable de l’échec du Robert
oral-écrit, qui, à en croire certains analystes de dictionnaires extérieurs à l’horizon
francophone, pourrait être le peu d’intérêt porté par le public aux informations sur
les formes phoniques des items 373. Quel que soit le bien-fondé, difficile à apprécier,
de cette réticence supposée, celle-ci ne peut en tout état de cause qu’être amplifiée par
le problème de maîtrise de l’alphabet phonétique international (API) auquel sont confrontés les utilisateurs depuis que les dictionnaires français imprimés ont massivement
opté, il y a près d’un demi-siècle, pour ces notations conventionnelles, au détriment de
codifications plus traditionnelles exploitant l’alphabet ordinaire 374. Cette difficulté
ne saurait être minimisée, même si dans certains ouvrages le recours à d’autres dispositifs d’aide à la prononciation peut en partie l’atténuer 375. Et dans le cas du Robert
oral-écrit, la situation est aggravée par le fait qu’une consultation implique de savoir
transcrire la forme phonique de l’unité linguistique cherchée 376 (à moins de pouvoir
recourir à l’index alphabétique, ce qui suppose de connaître la forme graphique corres373 Cf. Landau (1989 : 97 [2001 : 126]), se référant à Hulbert (1968), résumé dans T23 n. 2.
374 Ces codifications, comme celles réactivées récemment dans des guides de conversation comme ceux du Routard
coédités par Hachette et Larousse depuis 2005 (cf. T10 (§ 1.4.2.)), ou celles que l’on trouvait, plus anciennement, dans un répertoire scolaire comme le Dictionnaire des débutants (Larousse, 1949 ; cf. T13 figure
8 (§ 2.5.2.)), pour ne mentionner que deux références dont des extraits sont reproduits dans mes articles,
peuvent sembler plus aisément décodables que l’API par des utilisateurs quelconques.
375 Ces transcriptions codées peuvent être associées à des modes d’information plus textuels qui explicitent
comment prononcer une lettre ou une séquence de lettres particulières ou rapprochent la prononciation
d’une partie d’une unité linguistique de celle d’une autre unité. Par exemple, dans le Robert oral-écrit, s.v.
sOl, les sous-adresses – un saule, c un sol, d un sol, une sole – dominent chacune une remarque où le
degré de fermeture ou d’ouverture du [O] est précisé : « O fermé (comme dans pot). » sous la première, « O
ouvert (comme dans port). » sous chacune des trois suivantes. D’autre répertoires peuvent faire appel aux
rimes, comme c’est le cas s.v. étendre 1 dans le Robert & Collins junior bilingue (cf. figure 43) : « Spread
rime avec red. ».
376 La capacité de transcrire une forme phonique est également utile pour la recherche de l’une de ces formes
par le module de recherche phonétique des dictionnaires électroniques Robert.
234
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
pondante) et de se repérer dans l’ordre alphabétique des symboles phonétiques 377 (ce
qui doit demander un apprentissage comparable à celui de la consultation d’un dictionnaire dont les adresses sont triées par ordre alphabétique, à la différence toutefois que
la mémorisation de l’ordre de ces caractères trouve moins de réemploi que celui de l’alphabet).
… aux spéculations
Les pistes de réflexion présentées dans le § 3. ne proposent pas de moyen transposable aux dictionnaires imprimés pour réduire la place des transcriptions en API
dans la description des formes phoniques, mais elles orientent la réflexion des concepteurs de dictionnaires électroniques (i) vers l’adjonction de formes oralisées écoutables à celles qui sont écrites dans les articles (ou les paratextes qui leurs sont liés :
tableaux de conjugaisons et d’autres paradigmes flexionnels) et (ii) vers l’intégration
d’un module de reconnaissance vocale, complémentaire des recherches par transcription phonétique ou par graphie fautive phonétiquement approchante déjà proposées
dans les interfaces d’interrogation et de synthèse de la parole pour l’oralisation des
formes isolées ou en contexte (cf. § 3.2.).
Avant d’envisager le recours à ces technologies, j’ai cherché comment il serait utile
non pas de reprendre la présentation du Robert oral-écrit, mais de transposer le principe de regroupement qui en fait la qualité linguistique. Les éditions électroniques permettant de présenter des affichages diversifiés, j’ai envisagé qu’un usager puisse accéder à deux regroupements de formes graphiques qui ont en partage une forme phonique
(cf. § 3.1.) :
– d’une part les différentes unités linguistiques dont les prononciations ou les segments
initiaux de celles-ci sont proches (cf. figure 61) :
Figure 61. Proposition de fenêtre de résultats d’une recherche d’unité linguistique
à partir de sa transcription phonétique intégrale ou partielle (initiale)
L’expression du motif de recherche associée au nombre des items lui correspondant (nombre qui figure
en bas de la liste des réponses dans le Nouveau Petit Robert) pourrait prendre les formes respectives
suivantes : « n mots décrits dans le dictionnaire se prononcent [sS] : » et « n mots décrits dans le dictionnaire se prononcent comme la forme graphique « san » : ». Si les unités linguistiques débutant par la
transcription sont présentées également, leur liste pourrait être précédée des mentions « n mots décrits
dans le dictionnaire débutent par [sS] : cendre (n. f.) […] » et « n combinaisons de mots phonétiquement soudés décrites dans le dictionnaire débutent par [sS] : conteste (sans) (loc. adv.) […] s’emparer (v.) […] » 378.
377 La répétition de la liste de ces symboles en marge de chaque page (cf. supra et figure 58) constitue une aide
appréciable, mais leur ordre n’est pas aisé à mémoriser sans associer à chacun la graphie la plus typique qui
lui correspond.
378 Ces données appellent deux remarques relatives à ce que le Nouveau Petit Robert permet actuellement de faire :
– les items cendre et sans conteste mentionnés ici correspondent au premier item simple et à la première
locution listés par le Nouveau Petit Robert en réponse à la recherche d’un mot qui débute par [sS] ;
– l’item s’emparer n’est pas accessible au moyen d’une recherche relative à [sS] mais il correspond au premier
verbe pronominal qui débute par [S].
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
235
– et d’autre part, à partir des formes d’un item, les lemmes et formes fléchies homophones, considérés en fonction de leur prononciation standard mais aussi de leurs
variantes (cf. figure 62) :
Figure 62. Proposition de fenêtre de présentation des homonymes du verbe être
Parmi les enrichissements envisagés :
– certains relèvent de décisions de traitement : ils impliquent d’élaborer les descriptions, transcriptions ou oralisations puis d’adapter les fonctions de recherche à ce qui
est rendu accessible, tâches de création éditoriale comparables à celles déjà réalisées
partiellement chez différents éditeurs, dont en particulier Le Robert ;
– d’autres, comme l’indication de variantes de prononciation à la manière de celles répertoriées par Martinet & Walter (1973) 379, sont moins aboutis dans leur conception :
ils impliquent une évaluation de la pertinence des variantes à laquelle je souhaiterais
travailler avec des linguistes spécialistes de phonologie et/ou de phonétique 380 ;
379 Cf. § 3.1. : dans ce dictionnaire de prononciation, on trouve par exemple, s.v. sens dessus dessous, la
mention des variantes « sSdsydsu (cdjlmnprtvwx) sSdBsydBsu (bgky) sStsytsu (a) », où les lettres mentionnées
entre parenthèses identifient les informateurs. Les « fiches signalétiques » de ceux-ci sont fournies dans
l’« Introduction » (§ II., pp. 37-48), précédées d’une synthèse intitulée « Traits généraux de la phonologie de
nos informateurs. » (§ « I. Présentation du dictionnaire », pp. 31-36).
380 Des conversations préliminaires avec Cyril Auran, un phonéticien de l’UMR STL, ont motivé la rédaction de
T23 qui, en décrivant les traitements dictionnairiques les plus consistants des formes phoniques et en profilant des perspectives de recherche, est susceptible de constituer un premier jalon pour une collaboration
plus foncière. Ce thème est le second sur lequel nous envisageons de travailler ensemble, après celui portant
sur l’étude des corrélations observables entre qualité de la voix, choix lexicaux et intensité des événements
décrits dans les commentaires de matchs de football (cf. §§ 1.3.2. et 1.5.1.).
236
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
– d’autres enfin sont tout à fait spéculatifs : il me serait impossible d’approfondir les
réflexions relatives aux intégrations raisonnées de reconnaissance vocale (pour proposer un mode de consultation orale) ou de synthèse de la parole (pour l’oralisation des
formes des unités linguistiques et de leurs contextualisations) sans les compétences
techniques de spécialistes de ces deux domaines 381.
Place de T23 dans mes travaux
Cet article est d’un genre particulier au sein de ma production actuelle en ce qu’il
fonde des spéculations sur l’analyse de traitements existants en lexicographie mais
aussi en phonétique pour les descriptions de variations de prononciations et les développements de reconnaissance et de synthèse vocale. Du fait de mon manque de
compétence en phonétique, l’affinement des enrichissements suggérés ne peut pas
être envisagé sans collaboration 382.
T23 appelle également d’autres développements de recherche réalisables, de manière
autonome ou avec des développeurs de dictionnaires électroniques et/ou de correcteurs
orthographiques, concernant l’analyse comparée du fonctionnement des modules de
recherche d’items en adresse à partir de formes graphiques fautives mais oralisables
comme la graphie valide. Outre l’intérêt métalexicographique que constitue la meilleure connaissance de cette fonction proposée dans certaines éditions électroniques 383,
cette analyse présenterait un intérêt dans le cadre de la réflexion engagée (cf. T17 n.
131 et § 3.2.1.1. (§ 2.7.2.)) autour des modules d’hyperappel de dictionnaires susceptibles d’être activés à partir de textes en cours de rédaction ou de textes lus comportant des fautes 384.
2.3.5. Analyse de descriptions de constructions syntaxiques [T9 (2009c)]
Si les composants d’adressage qui introduisent les articles présentent une sélection
des formes que peuvent prendre les unités linguistiques décrites accompagnée d’indications de catégorisation, et que ces données constituent les premiers indices dont les
usagers disposent pour repérer si un article traite bien de l’item qui les intéresse, il
leur faut ensuite identifier sur quoi porte chaque subdivision de description proposée.
Ceci nécessite qu’ils identifient quels sont les composants élémentaires des articles
en s’appuyant sur des indices typographiques, textuels et sémantiques, et qu’ils per-
381 Des interactions sont envisagées avec le site belge (Mons) du groupe Acapela (http://www.acapela-group.com/
index.html), qui, au titre de ses activités de recherche et développement, contribue à de nombreux projets
financés et dont j’ai invité un spécialiste de synthèse vocale à intervenir dans le cadre du M2 LTTAC en
2010-2011, à la suite d’une prise de contact en mai 2009 à l’initiative de l’entreprise, qui a débouché sur le
recrutement d’une de nos étudiantes sinophones.
382 Ceci serait tout aussi vrai pour les maisons d’édition qui souscriraient aux idées de développements que je
présente.
383 En particulier, pour les monolingues français, les dictionnaires électroniques Robert et le Trésor de la langue
française informatisé.
384 Ces contextes d’emploi ne sont pas pris en compte par Tdr5 (§ 2.3.6.), qui évalue la recherche de motsoccurrences présents dans des textes de lecture réputés non fautifs (ceux de Rcorp13).
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
237
çoivent comment ceux-ci sont organisés selon deux dimensions que matérialisent des
symboles, des repères typographiques et des options de mise en page :
(i) l’enchaînement linéaire, d’une part de ces composants élémentaires dans des unités
de traitement de base en fonction d’un ordre conventionnel plus ou moins contraint,
et d’autre part de ces unités de traitement de base elles-mêmes en fonction de principes linguistiques, fréquentiels ou historiques, qui varient selon les ouvrages, voire à
l’intérieur d’un même dictionnaire ;
et (ii) une profondeur structurelle plus ou moins importante, qui instaure dans la succession des unités de traitement de base une hiérarchie en adéquation variable avec
la structuration conceptuelle sous-jacente des articles.
Quand ils ont pris ces repères, les utilisateurs de dictionnaires doivent encore assimiler l’information qui est fournie, ce qui suppose qu’ils sachent discerner la ou les
fonction(s) de chacun des composants identifiés, percevoir et analyser les interactions
entre composants, interpréter les diverses codifications signifiantes (abréviations, symboles, signes de ponctuation, mise en page, etc.) qui sont utilisées et comprendre la métalangue qui est employée.
Ce n’est qu’au terme de ce travail de décodage qu’il devient possible de déterminer
sur quoi portent les informations fournies.
Si, en particulier pour des dénominations, l’évocation des référents, accompagnée
le cas échéant d’une iconographie, peut soutenir le travail de décodage des articles en
orientant les recherches des usagers vers certains éléments informationnels privilégiés, les descriptions de prédicats, et notamment de ceux qui présentent une certaine
polysémie, mobilisent plus les compétences de leurs lecteurs, qui doivent repérer dans
la diversité des informations fournies celles qui correspondent à l’emploi verbal qui
les intéresse.
Contexte déclencheur
Au cours de l’année universitaire 2004-2005, à l’occasion d’un exercice de rédaction
d’article dans un environnement structuré proposé avec Pierre Corbin à nos étudiants
de M2 LTTAC, nous nous sommes intéressés au verbe permettre, bien adapté à notre
objectif pédagogique par la complexité modérée de ses emplois, faite d’un peu de polysémie et de certaines variations de construction. Ce qui ne devait être qu’un objet
ponctuel de travaux pratiques a en fait mobilisé notre réflexion et nos énergies non
seulement dans le cadre de nos cours 385, mais aussi, plus durablement, en recherche,
385 Ces travaux ont impliqué, outre les étudiants de la promotion 2004-2005, ceux des promotions 2008-2009
et 2009-2010, avec qui j’ai plus particulièrement réfléchi à la manière de présenter les emplois selon que
les usagers des dictionnaires cherchent à comprendre le verbe ou à l’employer. Les descriptions de rections
verbales constituent par ailleurs un thème récurrent dans mes enseignements à différents autres niveaux :
– de 2006 à 2010, j’ai consacré une part du cours de lexicographie de L3 MIASHS (Mathématique et Informatique Appliquées aux Sciences Humaines et Sociales) à l’analyse des indications syntaxico-sémantiques fournies pour une sélection de verbes dans les dictionnaires scolaires ;
– avant cela, j’ai déjà régulièrement dispensé des enseignements semestriels de syntaxe lexicale durant lesquels s’élaboraient des descriptions de prédicats verbaux à partir de ce qui était indiqué par différents dictionnaires et de ce qui était attesté dans des énoncés extraits en corpus :
238
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
nous conduisant d’abord à présenter un exposé à la Journée des dictionnaires de CergyPontoise en 2005 (C10), puis à rédiger en 2009 un texte inspiré de celui-ci (T9) pour
le numéro 19 de la revue Lexique (D1) 386, ces contributions ayant servi de déclencheur
pour de nouvelles collaborations de recherche, que j’évoquerai plus loin.
Les dictionnaires comme outils d’épanouissement
Après un préambule (§ 0.) motivant le choix de descriptions dictionnairiques des
emplois d’un verbe comme objet d’analyse et indiquant les liens que ce choix entretient
avec ceux d’autres contributeurs du même volume, le § 1. de T9 expose ce qui a suscité la rédaction de cet article : considérant que les dictionnaires peuvent contribuer à
l’épanouissement et à l’autonomie de leurs destinataires à condition que ceux-ci sachent
accéder aux informations qu’ils contiennent et les interpréter, nous avons voulu mettre
en évidence les limites des descriptions présentées dans les volumes imprimés pour fonder des spéculations relatives à ce que pourraient proposer des dictionnaires sur support
électronique (que j’ai développées dans T17 § 3. et dans T21 (cf. § 2.7.2.)).
Ce travail est à situer par rapport à deux ensembles de spécificités de la place faite
aux dictionnaires en France, dont la conjonction présente des aspects paradoxaux :
1) d’une part l’existence d’un patrimoine dictionnairique important 387 et une population volontiers décrite comme soucieuse de révérence pour le “bon usage” 388, celui qui
est réputé consigné dans “le dictionnaire” ;
2) d’autre part, un corps enseignant qui (comme le reste de la population) n’a pas la
culture lexicographique poussée qui lui permettrait de transmettre optimalement ce
mode d’appropriation des savoirs aux élèves 389, et des éditeurs qui peinent à se maintenir à flot et cherchent comment exploiter l’essor du numérique pour proposer des
produits susceptibles de rencontrer leurs publics 390.
Notre statut d’enseignants-chercheurs ne nous donnant pas de prise sur ce contexte,
nous ambitionnions seulement de susciter des réflexions chez ceux qui auraient connaissance de nos travaux et qui pourraient être mieux en situation d’infléchir le cours
des choses.
386
387
388
389
390
• de 2001 à 2004, en licence option TAL et en maîtrise “Industries de la langue”, dans les cadres formels de
PATR (cf. Shieber (1986 et 1990 pour la version française)) et du Lexique génératif (cf. Pustejovsky (1995),
déjà exploité pour mon doctorat (1998) et dans T1 (cf. § 1.2.1.)) ;
• de 2005 à 2010, en L1 et L2 MIASHS et L3 de Lettres modernes et de Sciences du langage, en recourant à
des codifications plus aisément accessibles, inspirées des principes de M. Gross (1975) pour ce qui concerne les
indications syntaxiques et de notations de logique des prédicats pour l’expression des gloses sémantiques.
Ce texte a été inclus dans ce numéro en raison de sa totale adéquation avec le thème de celui-ci et du fait
que la publication d’actes de la journée de Cergy-Pontoise de 2005 ne semblait pas envisagée.
La production du passé récent est consistante (en particulier celle de la deuxième moitié du XXe siècle, baptisée « demi-siècle d’or » par Pruvost (2006 : 83-92)), mais l’actuelle n’est pas négligeable, alors même que le
secteur de la référence traverse une phase récessive (cf. P. Corbin (2008b) et F. & P. Corbin (2008)).
Pour une récente synthèse sur cette question, cf. Paveau & Rosier (2008).
Les instructions officielles incitent les enseignants à cette sensibilisation, mais de manière assez vague (cf.
T17 § 3., et en particulier les notes 113 à 115).
Ceci est naturellement impératif pour que les frais engagés dans l’élaboration de ces produits donnent lieu
à des retours sur investissements (jugés) acceptables.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
239
Descriptions des emplois du verbe permettre
L’offre commerciale des dictionnaires de milieu de gammes (cf. n. 343), qui réunit
les trois répertoires ciblant les élèves du collège 391 et les cinq qui leur étaient comparables à différents égards mais qui étaient destinés à un public plus large 392, étant
présentée au § 2., le § 3. examine les modalités de description du verbe permettre
dans les huit dictionnaires retenus 393 afin de situer celles proposées aux collégiens
dans l’offre générale et, corrélativement, de motiver le choix de concentrer l’étude sur
le Dictionnaire du français au collège par sa bonne couverture des emplois les plus
communs du verbe et la précision relative du traitement qu’il en propose 394. La lisibilité et la compréhensibilité par des collégiens des indications fournies reste alors à
évaluer, ce qui constitue le cœur de notre propos.
Comme exposé dans le § 4., l’article permettre du Dictionnaire du français au
collège offre une structure et des repères qui nous semblent avoir une bonne lisibilité
(cf. figure 63 ci-dessous et figures 2 et 3)
Figure 63. L’article permettre du Dictionnaire du français au collège (2000) [figure 2 de T9]
permettre [pDrmDtr] v.t. (lat. permittere) [c. 57]. 1. (sujet qqn, qqch) Permettre (à qqn, à qqch) qqch, de (+
inf.), que (+ subj.), lui laisser, lui donner la liberté, la possibilité, le moyen de le faire, lui en donner
l’occasion : Les règlements ne permettent pas le stationnement à cet endroit (SYN. autoriser, tolérer). L’im-
portation de ce produit n’est pas permise. Il ne permet pas que ses enfants regardent la télévision le soir
(SYN. admettre). Vous permettez qu’il soit présent à l’entretien ? Mon médecin m’a permis le café (CONTR.
interdire). Son père lui permet d’utiliser sa voiture. Ses occupations ne lui permettent pas de sortir le soir.
S’il m’est permis de faire une objection, je dirai que tout ceci manque de cohérence. Il est permis à tout
le monde de se tromper ! Ses moyens financiers ne lui permettent pas de vivre de cette façon. Il se croit
tout permis (= il croit que rien ne limite sa liberté). 2. (sujet qqch) Permettre qqch, le rendre possible :
Son absence permet toutes les craintes (SYN. autoriser, justifier). 3. Permettez, formule de politesse : Permettez, je voudrais dire un mot (SYN. s’il vous plaît). „ se permettre v.pr. Se permettre qqch, de (+ inf.),
faire ou dire qqch en prenant la liberté de, en dépassant les limites admises par la morale : Je ne me
permets pas de parler de ce que je connais mal. Il se permet des plaisanteries stupides. Je me permettrai
de vous faire observer qu’il est déjà midi.
et qui ne devraient pas dérouter des collégiens qui auraient antérieurement manipulé
le Larousse junior à l’école primaire (cf. figure 64 ci-dessous et figures 4 et 5).
Figure 64. L’article permettre du Larousse junior (2003) [figure 4 de T9]
permettre et se permettre v. (conjug. 51). 1. Donner l’autorisation de faire quelque chose. Ses parents
lui ont permis de sortir. SYN. autoriser, laisser. CONTR. défendre, interdire. 2. Rendre possible. Son travail
391 Le Dictionnaire du français au collège, le Larousse du collège (2003) et le Robert collège (2008).
392 Le Dictionnaire compact (2008), le Robert micro (2006), le Robert brio (2004), le Robert pour tous (1994) et
le Dictionnaire Hachette langue française (2001).
393 La validité de leur couverture descriptive d’ensemble a été confortée par la consultation de plusieurs dictionnaires de langue extérieurs au segment choisi (Grand Larousse de la langue française en sept volumes
(1971-1978), Lexis (édition de 2002), Dictionnaire du français usuel (Picoche & Rolland (2002)), ainsi que
de Méthodes en syntaxe (M.Gross (1975)) et du deuxième volume du Dictionnaire explicatif et combinatoire
du français contemporain (Mel’čuk & al. (1988)).
394 Il serait possible d’accroître encore cette précision descriptive par la systématisation de la présentation de
certaines alternances et une meilleure valorisation des emplois qui ont une valeur pragmatique.
240
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
lui permet de voyager. CONTR. empêcher. 3. Prendre la liberté de faire ou de dire quelque chose. Ma
sœur s’est permis de fouiller dans mes affaires.
Mais l’article du dictionnaire pour le collège présente également des difficultés de déchiffrement, pour partie inhérentes à la richesse de sa description des emplois verbaux
sur la base de leurs constructions syntaxiques, héritée de son ancêtre le Dictionnaire
du français contemporain de 1966, mais aggravées par la restructuration ultérieure
de l’article 395.
Quand, comme dans la section 1. de celui-ci, différents emplois sont regroupés et que
différentes constructions sont présentées au moyen d’une seule formule apparemment
linéaire – une sorte d’expression régulière comportant des variables –, le travail d’interprétation des dix-huit combinaisons possibles (cf. figure 65 et figure 6 396) constitue une épreuve que le lecteur surmonte mieux s’il fait l’hypothèse (qui n’est pas
naturelle) que le patron présenté surgénère et que certaines combinaisons ne correspondent pas à des emplois possibles du verbe.
395 Dans le Dictionnaire du français contemporain, élaboré sous la direction de Jean Dubois, les descriptions de
sens fournissaient des patrons de construction syntaxico-sémantiques et introduisaient des articles subordonnés consacrés aux dérivés héritiers d’une partie du sens et de la construction de la base. Au cours des
révisions et compactages textuels qui ont accompagné ses rééditions (1980, 1986, 2000), le texte de ce répertoire a perdu une partie de ses qualités, dont en particulier la précision des patrons et les regroupements
morphologiques initiaux. La n. 142 de T17 compare en détail les patrons de construction proposés dans
les articles permettre de 1966 et de 2000 et montre comment les options de description du répertoire de
1966 rendent mieux interprétables les informations qu’il fournit.
396 Les figures élaborées pour cet article ont été réalisées avec l’éditeur de graphes d’Unitex (déjà mobilisé dans
d’autres contextes métalexicographiques, cf. § 2.2.1.2.), puis ont fait l’objet de compléments et retouches
dans un logiciel de traitement d’images. L’emploi de graphes nous a semblé adapté pour présenter les analyses réalisées dans la mesure où, quand ils sont employés dans Unitex pour écrire des motifs de recherche
complexes à réaliser dans un corpus, ils permettent de figurer des combinaisons de segments textuels incluant éventuellement des variables, ce qui somme toute est assez proche de ce que nous voulions faire.
Dans des contextes qui articulent analyses métalexicographiques et exploration de corpus, les graphes
peuvent servir à extraire des corpus des énoncés attestés correspondant aux patrons théoriques des dictionnaires. Les graphes d’exploration de corpus sont alors produits par dérivation de ceux qui représentent les
contenus dictionnairiques. C’était déjà le cas dans l’étude relatée dans T10 (à propos des contextes d’emploi du nom musée considéré dans le corpus bilingue du tourisme Rcorp7 et dans des guides de conversation et un dictionnaire de tourisme). Le graphe de la figure 6 de T9 a par exemple été exploité en cours
pour dériver d’autres graphes, qui repèrent les énoncés du corpus relevant de chaque patron de construction décrit. Au sein de ces nouveaux graphes, les mentions qqn, qqch, (+inf.) et (+subj.) ont été remplacées
par des indications plus adaptées à l’expression d’un motif de recherche. Par exemple, le graphe ci-dessous
extrait les occurrences de permettre associé à un sujet et un complément indirect pronominaux et à une infinitive, que l’expression soit affirmative ou négative. En son sein (cf. § 1.3.2., figures 6 et 7), chaque nœud
comportant <PRO> représente un pronom, celui contenant <MOT> un mot, celui mentionnant <V:W> un
infinitif verbal et celui où figure le verbe permettre entre chevrons une forme de cet item. Les pronoms préverbaux optionnels au sein de l’infinitive (entre les nœuds contenant de et <V:W>) appartiennent à la rection verbale de l’infinitif, mais leur prise en compte dans le graphe est utile pour extraire des énoncés du
type Il se permet de le lui donner [contre mon gré].
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
241
Figure 65. Matrices de phrases générées par le patron de construction de la section 1.
de l’article permettre du Dictionnaire du français au collège (2000) [figure 6 de T9]
+
+
La glose qui suit le patron de construction condense, elle, sept éléments (cf. figure
66 ci-dessous et figure 8), dont seule la connaissance de l’unité linguistique décrite
peut permettre de savoir s’ils doivent être pris en compte ensemble pour représenter
le sens par petites touches juxtaposées ou s’ils sont alternatifs et donc éventuellement à
articuler à chaque combinaison du patron de construction (ce qui peut faire envisager
jusqu’à cent-vingt-six appariements).
Figure 66. Interprétations générées par les paraphrases de la section 1. de l’article permettre
du Dictionnaire du français au collège (2000) [figure 8 de T9]
Les onze contextualisations proposées ensuite ne sont pas listées dans un ordre qui
peut correspondre à celui de la lecture du patron ou de la glose, la tâche de faire les
mises en correspondance pertinentes étant une fois encore laissée aux lecteurs, ce que
deux facteurs ne facilitent pas :
– d’une part le fait que plusieurs contextualisations peuvent illustrer la même construction (cf. figure 10) tandis que quatre autres ne correspondent pas directement à
l’une de celles qui sont décrites (cf. figure 9) ;
– et d’autre part le jeu interprétatif important que laisse la mise en relation de chaque
contextualisation avec les éléments constituant la glose (cf. figure 11).
Les difficultés observées concernent donc les modes de présentation des indications
syntaxico-sémantiques et leurs illustrations au moyen de contextualisations phrastiques, et elles sont en partie induites par la distribution des informations dans différents composants d’articles successifs mais non articulés. Les synonymes et contraires,
qui sont présentés à la suite de chacune des contextualisations où ils pourraient se
substituer à permettre, ne posent pas, eux, de problèmes d’interprétation comparables,
mais, du fait de leur nombre trop réduit (cf. figure 12), ils ne peuvent pas constituer
une aide à la rédaction suffisante, ce que nous avons mis en évidence en suggérant
d’autres corrélats utiles (cf. figure 13) ainsi que des reformulations phrastiques (cf.
figure 67 et figure 14) qui le seraient tout autant mais supposent un espace dont ne
dispose pas le dictionnaire imprimé étudié.
242
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Figure 67. Alternatives phrastiques pour les contextualisations de la section 1.
de l’article permettre du Dictionnaire du français au collège (2000) [figure 14 de T9]
(Dans la colonne de droite, une puce noire précède les reformulations contenant
le verbe permettre, et une puce éclairée celles ne le contenant pas.)
CONTEXTUALISATIONS
Les règlements ne permettent pas le staa
tionnement à cet endroit.
L’importation de ce produit n’est pas perb
mise.
REFORMULATIONS PHRASTIQUES
•
•
•
{
Il ne permet pas que ses enfants regardent
c
la télévision le soir.
{
{
d
Vous permettez qu’il soit présent à l’entretien ?
{
•
e Mon médecin m’a permis le café.
{
{
{
f
Son père lui permet d’utiliser sa voiture.
{
{
Ses occupations ne lui permettent pas de
g
sortir le soir.
S’il m’est permis de faire une objection, je
h
dirai que tout ceci manque de cohérence.
{
•
•
{
{
i
Il est permis à tout le monde de se tromper !
{
{
Ses moyens financiers ne lui permettent
j
pas de vivre de cette façon.
k Il se croit tout permis.
{
•
Les règlements ne permettent pas de
stationner à cet endroit.
Il n’est pas permis d’importer ce produit.
Il ne permet pas à ses enfants de regarder la télévision le soir.
Il n’autorise pas ses enfants à regarder la télévision le soir.
Il ne laisse pas ses enfants regarder
la télévision le soir.
Il ne donne pas à ses enfants la permission de regarder la télévision le soir.
Est-ce qu’il (peut + pourrait) être présent à l’entretien ?
Mon médecin me permet ( le café + de
boire du café).
Mon médecin m’autorise ( le café + à
boire du café).
Mon médecin m’accorde (le café + le
droit de boire du café).
Son père veut bien qu’il utilise sa voiture.
Son père le laisse utiliser sa voiture.
Ses occupations l’empêchent de sortir
le soir.
Avec ses occupations, il ne peut pas
sortir le soir.
Si je peux me permettre (ø + de faire)
une objection,…
Si vous me permettez (ø + de faire)
une objection,…
Tout le monde peut se tromper !
Il n’y a que ceux qui ne font rien qui
ne se trompent jamais !
Nul n’est parfait !
L’erreur est humaine !
Avec ses moyens financiers, il ne peut
pas vivre de cette façon.
Il croit qu’il peut tout se permettre.
Aucun des éléments de l’analyse du Dictionnaire du français au collège n’étant de
nature à nous faire imaginer que des solutions aux problèmes décrits soient viables
dans l’espace nécessairement contingenté de dictionnaires imprimés, la conclusion de
l’article (§ 5.) pose logiquement que seul le développement de produits électroniques
pourrait proposer des sélections d’informations présentant la richesse voulue tout en
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
243
étant aisément compréhensibles. Notre contribution s’en tient toutefois à spéculer que
la moindre emprise des contraintes de place d’une édition électronique associée à la
diversité des modes d’affichage des informations à l’écran pourrait permettre de trouver des alternatives de présentation qui garantiraient mieux la compréhension des
indications fournies. J’ai proposé les premières dans T17 et T21 (cf. § 2.7.2.), après
avoir mené à bien quelques travaux exploratoires qui vont être résumés ci-après.
Perspectives électroniques : tests de génération de reformulations
Dans la perspective de créations dictionnairiques où l’expression des synonymes et
contraires prendrait en compte des énoncés complets, j’ai entrepris une expérimentation consistant à évaluer dans quelle mesure il serait envisageable que, pour certaines
contextualisations au moins, les reformulations proposées dans un dictionnaire électronique ne doivent pas toutes être écrites mais qu’une sélection d’entre elles puissent
être générées semi-automatiquement.
Le maître permet aux élèves de jouer au ballon 397
Ú par substitution lexicale du verbe et ajustements syntaxiques corrélés à celle-ci
Le maître autorise les élèves à jouer au ballon
Ce test s’est déroulé en trois étapes, les deux premières ayant mobilisé aussi Pierre
Corbin et les étudiants du M2 LTTAC 398 :
– les contextualisations extraites des huit dictionnaires de milieu de gammes et une
sélection de celles forgées par les étudiants durant la phase d’analyse introspective du
verbe (cf. n. 398) ont donné lieu à des reformulations synonymiques ou antonymiques
obtenues par substitutions lexicales (ce qui pouvait impliquer de menus ajustements
contextuels, par exemple quand il s’agissait de remplacer permettre par autoriser, qui
régit les mêmes actants mais impose une syntaxe différente), par insertion de négations ou par écriture de phrases substitutives ;
– l’ensemble des phrases compilées ou imaginées et celles produites par reformulation
ont fait l’objet d’analyses syntaxiques matérialisées par un balisage en XML 399 riche
de nombreux attributs dont les valeurs sont exploitables pour générer des explications
des variations observables (ce qui peut être rapproché des orientations préconisées
par G. Gross (1989 : 177-179)), puisqu’ils codent, pour chaque constituant syntaxique
des phrases reformulées, d’une part l’identité du constituant original correspondant
(@idref ) et d’autre part la nature des modifications, qui peuvent être des permutations
397 Les cadres et soulignements correspondent aux valeurs des sujets et compléments : Qqn permet (qqch à
qqn + à qqn de V-inf + que P).
398 Cf. n. 385. Les étudiants de M2 de la promotion 2004-2005 ont travaillé à la description du verbe permettre
en abordant cet objet d’abord par introspection puis en se fondant sur des observations en corpus, et les
résultats ont été critiqués et confrontés aux données présentes dans une large sélection de dictionnaires.
399 Ce balisage a permis de mettre en place des encadrements et soulignements des sujets et compléments comme
ceux présentés en n. 397. Faire participer les étudiants à la mise en œuvre de ce balisage visait à les sensibiliser à la difficulté qu’il peut y avoir à mettre en correspondance un patron qui rend compte d’une construction présentée de manière canonique et ses réalisations dans des énoncés, même dans ceux produits ou accommodés pour constituer des contextualisations de dictionnaires et donc présentant des emplois d’une
certaine typicité.
244
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
d’arguments internes (comme celles observables entre les synonymes permettre et autoriser (cf. @var-Ni, @var-type-syntaxique dans le balisage de la deuxième phrase ci-après)),
des introductions de verbes supports de registre plus ou moins formel ((donner + accorder
+ concéder) (la permission + l’autorisation)), des emplois d’expressions figées (comme
L’erreur est humaine !, proposable en tant qu’alternative phrastique pour Il est permis
à tout le monde de se tromper, cf. figure 14 de T9 reproduite supra en figure 67), etc. ;
<P type="forgee" id="permettre_ctxt1">
<N0 type-syntaxique="SN" type-semantique="humain-actif" id="permettre_ctxt1_N0">
Le maître
</N0>
<V id="permettre_ctxt1_it-ad" conj="PIND3S">
permet
</V>
<N2 type-syntaxique="SNP" type-semantique="humain" id="permettre_ctxt1_N2">
<PREP PREP-amalgamee="à" DET-amalgame="les">aux</PREP>
élèves
</N2>
<N1 type-syntaxique="Vinf" type-semantique="proces" id="permettre_ctxt1_N1">
de jouer au ballon
</N1>
</P>
Ø par substitution lexicale du verbe et ajustements syntaxiques corrélés à celle-ci
<P type="generee" id="autoriser_de_permettre_ctxt1">
<N0 type-syntaxique="SN" type-semantique="humain-actif" idref="permettre_ctxt1_N0">
Le maître
</N0>
<V id="autoriser_it-syno" idref="permettre_ctxt1_it-ad" conj="PIND3S">
autorise
</V>
<N1 type-syntaxique="SN" type-semantique="humain" idref="permettre_ctxt1_N2" var-Ni="N2" var-typesyntaxique="SNP">
les élèves
</N1>
<N2 type-syntaxique="VinfP" type-semantique="proces" idref="permettre_ctxt1_N1" var-Ni="N1" var-typesyntaxique="Vinf">
<PREP>à</PREP>
jouer au ballon
</N2>
</P>
– à partir de ces données balisées, j’ai imaginé ce que pourrait être un protocole de rédaction des contextualisations qui ambitionnerait de permettre de rédiger des phrases
pouvant donner lieu à des reformulations partiellement automatisables.
Sur la base des seules phrases étudiées durant cette expérimentation, il semble possible d’envisager que certaines des substitutions lexicales strictes ou avec ajustements
soient programmées (comme celles de permettre et autoriser évoquées supra) et que
des codes associés aux phases négatives rédigées puissent spécifier si en retirant la
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
245
négation une phrase de sens contraire acceptable et de même usualité est créée 400, ce
qui permettrait de déléguer leur génération à un automate,
Le chef de service ne permet pas que l’on parte plus tôt certains soirs
Ø par suppression de la négation une phrase de sens contraire est bien générée
Le chef de service permet que l’on parte plus tôt certains soirs 401
ou s’il convient de bloquer cette génération parce qu’elle produirait certaines contextualisations décalées par rapport aux emplois effectifs ou sans lien avec une situation
réelle connotée.
Je ne vous permets pas de me parler sur ce ton 402
Ø par suppression de la négation une phrase peu naturelle serait générée
Je vous permets de me parler sur ce ton
Fumer n’est pas permis dans les lieux publics
Ø par suppression de la négation une phrase en décalage avec la législation évoquée serait
générée
Fumer est permis dans les lieux publics
N’ayant pas encore poussé les analyses engagées au-delà des expérimentations réalisées au sujet du verbe permettre et de certains de ses synonymes et contraires, je ne
suis pas capable d’évaluer la proportion de réussite de ces reformulations automatiques
de phrases (dans les limites qui viennent d’être énoncées) pour tous les prédicats verbaux d’une nomenclature et, conséquemment, je ne sais pas s’il serait envisageable de
concevoir un mode rédactionnel les exploitant dans le cadre de la création d’un nouveau
répertoire ou de la refonte des composants de contextualisation d’un texte existant. Il
faudrait en particulier trouver les modalités d’évaluation pertinentes pour juger si elles
faciliteraient le travail de rédaction, qu’il s’agisse de créations textuelles ou de révisions
de contextualisations existantes, voire d’adaptations d’énoncés extraits de corpus 403,
ou si elles canaliseraient trop la créativité des rédacteurs et risqueraient de les conduire à produire des énoncés dont la qualité métalinguistique serait inférieure à celle
des contextualisations actuellement proposées.
400 Dans la mesure où il est toujours plus simple de supprimer automatiquement un élément présent que d’en
faire insérer un qui soit adapté au contexte, il est préférable de rédiger les phrases négatives et, si c’est pertinent, de générer à partir d’elles les phrases affirmatives.
401 Cette phrase est proposée dans le Dictionnaire compact.
402 Cette phrase est proposée dans le Robert collège.
403 Des recherches sur la génération de reformulations pertinentes dans un contexte dictionnairique pourraient
peut-être intéresser ceux qui développent des outils de recherche d’informations et/ou rencontrer les intérêts
de ceux qui travaillent en génération de textes, mais je n’ai pas encore documenté la pertinence de ces rapprochements.
246
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Perspectives électroniques : quel dictionnaire pour un environnement numérique
de travail scolaire ?
Ces travaux exploratoires ont stimulé une autre réflexion, qui porte, elle, sur la sélection des données à afficher à l’écran et sur les modalités de présentation de celles-ci.
Débutée avec les étudiants de la promotion 2004-2005, avec qui nous avons travaillé
sur des phrases extraites des dictionnaires ou forgées et sur leurs reformulations en
veillant à matérialiser en leur sein leurs analyses syntaxico-sémantiques au moyen
d’un balisage ad hoc, cette réflexion a été reprise quand le texte de la communication
C10 a été retravaillé pour élaborer T9 et que j’ai rédigé le § 3. de T17 et T21. Ce
sont donc d’autres étudiants, ceux des promotions 2008-2009 et 2009-2010, qui ont eu
la primeur de ces nouvelles spéculations et qui ont contribué à leur décantation.
Conclure T9 sur une note optimiste, en imaginant que des dictionnaires électroniques pourraient proposer des informations mieux lisibles que ceux qui sont imprimés,
appelait d’autres développements.
Les pistes de réflexion possibles me semblaient devoir tenir compte de deux des
fonctions des dictionnaires : apporter une aide à la compréhension d’une unité linguistique rencontrée ailleurs et fournir un moyen d’expression qui n’a pas pu être mobilisé
sans recourir à eux. 404
Me fondant sur les articles permettre du Dictionnaire du français contemporain de
1966 et du Dictionnaire du français au collège de 2000, confrontant ceux-ci à d’autres
articles de répertoires alphabétiques et à ceux de différentes éditions de deux dictionnaires britanniques thématiques de facture originale spécifiquement destinés à
soutenir l’expression d’allophones en anglais, le Longman Language Activator et le
Longman Essential Activator, et prenant en compte les propositions formulées dans
T9, j’ai progressivement élaboré des spécifications pour un dictionnaire qui aurait
des interfaces distinctes d’aide à l’expression et à la compréhension, dont la présentation est ébauchée dans T17 § 3. et T21 (§ 2.7.2.), et qui donnent lieu au développement d’un prototype (Rdic6 (§ 2.7.3.)) dont l’ampleur est encore très modeste, mais
qui constitue un exercice spéculatif stimulant. 405
Parmi les pistes de réflexion relatives à l’avenir des dictionnaires, il en est une qui
me paraît particulièrement utile. Elle consiste en l’intégration d’un dictionnaire conçu à
cette fin dans un environnement numérique de travail 406 qui permettrait de recourir
à lui dans le cadre de l’aide à la compréhension de textes lus à l’écran (ce que j’ai en404 La dimension culturelle des dictionnaires est sciemment exclue temporairement du cadre de réflexion.
405 Les étudiants de master mobilisés en 2008-2009 et 2009-2010 m’ont indirectement apporté de précieuses
informations sur la qualité des premiers résultats de ma réflexion. Les difficultés éprouvées par certains
d’entre eux pour percevoir quelles sélections d’informations sont utiles dans chacune des deux situations de
consultation envisagées m’ont permis de mieux percevoir qu’alors que les utilisateurs de dictionnaires comprennent assez bien par eux-mêmes à quoi servent une large part des différentes informations fournies dans
un répertoire bilingue (où la distribution des articles dans deux parties distinctes et, au sein de chacune, le
jeu des langues utilisées pour exprimer les informations constituent des points de repère), ils ont souvent
moins de facilité à identifier la fonction de chacune de celles qui sont proposées par les dictionnaires monolingues, et qu’ils sont même parfois déroutés au point de ne pas y trouver certaines indications pourtant
présentes.
406 Différents types d’environnements numériques de travail ont été envisagés pour les élèves des écoles primaires et des collèges (cf. T17 n. 118).
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
247
visagé dans T20 et Tdr5 (cf. §§ 1.6.1. et 2.3.6.) et qui est déjà réalisé par certains dictionnaires électroniques consultables par hyperappel, mais pas de manière aussi
poussée que je l’ai conçu) et dans le cadre d’une aide à l’expression. Dans ce second
contexte, il serait intégré à un outil de correction orthographique et grammaticale
enrichi de fonctions d’aide à la reformulation qui analyserait les éléments textuels
déjà saisis par le rédacteur et mobiliserait ce dictionnaire (comme ces outils le font
déjà pour les précis de grammaire qu’ils incluent) afin d’améliorer les sélections lexicales opérées ou de mobiliser d’autres items ou constructions. La synergie imaginée
implique d’autres modalités d’intégration que celles qui sont déjà mises en œuvre
actuellement pour permettre de consulter les articles du ou des dictionnaire(s) intégré(s), ceux-ci étant des répertoires de facture classique plus ou moins présentés
comme ils le seraient hors du correcteur. Le § 3. de T17 introduit cette perspective,
mais les réflexions relatives au développement de ce mode d’interrogation d’un dictionnaire ne pouvant à mon sens pas se faire sans que je connaisse mieux le détail du
fonctionnement des outils d’aide à la rédaction considérés et, le cas échéant, que je
puisse interroger et éventuellement travailler avec leurs développeurs, j’ai cherché à
établir des contacts avec eux, ce qui s’est fait en proposant à certains d’intervenir
dans le master 407 et en prolongeant ces rendez-vous par des conversations orientées
vers la recherche.
Un projet de recherche peut en appeler un autre…
Les échanges engagés ont été fructueux en termes de formation personnelle comme
en perspectives de recherche, mais ce n’est pas exactement sur le terrain qui motivait
ma prise de contact que les choses ont le plus avancé, ce qui est compréhensible eu
égard aux investissements que nécessiteraient de simples prospections dans les directions qui me semblent intéressantes.
D’autres projets, susceptibles de nourrir directement le précédent, semblent par
contre pouvoir être menés à bien avec l’un de ces éditeurs d’outils de correction, qui
souhaite améliorer la qualité des descriptions syntaxico-sémantiques de prédicats
utilisées par son produit pour améliorer les performances et le niveau d’explicitation
des indicateurs d’erreurs 408. Ce projet est susceptible de donner lieu à un contrat
CIFRE pour lequel nous cherchons depuis plusieurs années à trouver l’étudiant le
mieux capable de conjoindre des compétences d’analyse linguistique, de description
lexicographique (textuelle pour les lecteurs humains et formalisée pour être rendue
exploitable par l’outil) et de programmation (pour qu’il puisse se faire une bonne
représentation des contraintes de ce contexte de description particulier et éventuellement contribuer aux développements). Une étudiante, Audrey Renault, apporte
depuis deux ans des garanties d’implication et de compétence tant dans le travail
407 Trois outils de correction orthographique et grammaticale ont fait l’objet d’exposés relatifs à leurs développements : celui qui est interne au traitement de texte proposé par Microsoft, et deux outils autonomes
capables de s’intégrer dans différents logiciels de rédaction, Cordial et ProLexis. Ces interventions ont été
assurées par des partenaires qui ont activement contribué à certains aspects du développement ou de la
diffusion de ces outils : Julian Parish (Microsoft), qui est intervenu durant trois années à partir de 20052006, Dominique Laurent (Synapse Développement), en 2006-2007, et Roger Rainero (Éditions Diagonal),
depuis 2006-2007.
408 Pour d’évidentes questions de confidentialité, je ne présenterai ni l’entreprise ni les détails du projet.
248
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
effectué en stage dans cette entreprise que dans ses recherches sous ma direction et
j’ai bon espoir qu’elle puisse contribuer à la réalisation du projet de recherche en réalisant un doctorat que je coencadrerai. Mais sans anticiper sur le futur, le mémoire de
M2 qu’elle a réalisé cette année (Mdir109) a bénéficié à ma demande d’une double
direction universitaire, puisque Danièle Van de Velde, qui, dans le cadre de notre master
et dans le numéro 19 de la revue Lexique (D1), applique ses compétences de sémanticienne à l’analyse de descriptions dictionnairiques (cf. Van de Velde (2009)), a guidé
avec moi les recherches qui ont permis à cette étudiante de mettre en place une première méthodologie de travail en vue de l’élaboration de descriptions de constructions
syntaxico-sémantiques présentant un juste équilibre entre adéquation linguistique et
exploitabilité dans le cadre d’un outil de correction orthographique et grammaticale.
… sans écarter l’étude des emplois verbaux à partir des patrons dictionnairiques
Ainsi que nous venons de le voir, nous nous sommes intéressés, dans T9, à la façon
dont un dictionnaire à visée didactique, le Dictionnaire du français au collège, fournit
les patrons de construction syntaxico-sémantique de certaines des unités lexicales qu’il
décrit. En développant les patrons codés avec des mutualisations d’arguments s.v. permettre 1., nous avons observé que leur décodage n’est pas à la portée des collégiens
destinataires, qui doivent éliminer les combinaisons invalides (présentes du fait des
mutualisations) et tenter d’articuler chaque patron rétabli avec le ou les exemple(s)
qui l’illustrent (quand c’est le cas), qui sont tous fournis en une suite non triée.
Cet état de fait met les utilisateurs du dictionnaire considéré dans l’incapacité de
construire leur représentation des emplois possibles de ce verbe : faut-il en considérer
deux (autant que d’adresses d’articles), vingt-deux (la somme des dix-huit patrons reconstituables s.v. permettre 1., plus un s.v. permettre 2., un s.v. permettre 3. et deux
s.v. se permettre) ou plus encore (en articulant les indications de construction et les
éléments autonomisables des gloses sémantiques) ? Les analyses de T9 montrent que
la lecture minutieuse de l’article étudié ne permet pas de répondre à cette question de
manière tranchée.
Cette indétermination n’est pas nécessairement handicapante pour certains utilisateurs, qui
– soit connaissent le verbe et, étant simplement désireux de se remémorer quelle préposition employer pour introduire la mention de l’humain bénéficiant d’une permission,
n’observent éventuellement même pas la surgénération du patron de construction et
de la glose présentés en 1.,
– soit sont à la recherche d’éléments qui les mettront sur la voie de la bonne interprétation d’une fausse formule de politesse 409 dont ils découvrent l’usage.
Il n’en va pas de même, en revanche, pour d’autres usagers, qu’il s’agisse
– d’écoliers qui réalisent un exercice de français dans lequel ils doivent remplacer des
propositions d’un type par celles d’un autre ou qui ont à confronter des descriptions
proposées dans plusieurs répertoires 410 ;
409 Celle qui est décrite s.v. permettre 3., subdivision qui ne pose pas de problème d’interprétation.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
249
– ou de locuteurs quelconques qui cherchent à élaborer eux-mêmes une description du
verbe (par exemple pour répondre à un enfant ou un allophone qui demande qu’un mot
considéré en dehors de tout contexte lui soit expliqué).
Dans T9, la comparaison de la lisibilité des articles permettre du Dictionnaire du
français au collège et du Larousse junior conclut à une cohérence de présentation des
deux répertoires qui faciliterait l’accès au plus complexe pour ceux qui auraient déjà
eu l’occasion de travailler avec le dictionnaire pour le cycle 3 de l’enseignement primaire. J’ai ensuite poussé plus loin l’hypothèse en prenant en compte également les
articles permettre du Larousse des débutants de 2000 411 et de 2005 412 (cf. figures
68 et 69).
Figure 68. L’article permettre du Larousse des débutants (2000)
permettre verbe 1. Le médecin m’a permis de sortir, il m’a donné le droit de sortir. ♦ Synonymes :
autoriser, laisser. ♦ Contraires : défendre, interdire. 2. Son travail lui permet de voyager à
l’étranger, il lui donne la possibilité de voyager à l’étranger. ♦ Contraire : empêcher.
• Mots de la même famille : permis, permission.
Figure 69. L’article permettre du Larousse des débutants (2005)
permettre verbe
1. Permettre à une personne de faire quelque chose, c’est lui donner la permission, le droit de le faire. Le
médecin m’a permis de sortir. ♦ Synonyme : autoriser. ♦ Contraires : défendre, interdire.
2. Permettre, c’est rendre possible. Son travail lui permet de voyager à l’étranger. ♦ Contraire : empêcher.
● Mots de la même famille : permis, permission.
Celui de 2000 propose des exemples glosés alors que celui de 2005 introduit la description du premier sens par une indication de construction (amputée de la mention du
sujet). Ce patron, qui ne mentionne qu’une des constructions retenues dans celui qui
est proposé dans le Dictionnaire du français au collège, ne devrait pas présenter de
difficulté d’interprétation pour les jeunes lecteurs à qui il est destiné, puisque ses rédacteurs ont pris soin de le textualiser autant que c’est possible (le syntagme une personne,
préféré à l’emploi de qqn, a la même valeur mais pas la même abstraction). Cette bonne
lisibilité doit permettre de le comparer avec les éléments des contextes dans lesquels
le verbe a été rencontré et mal compris, ce qui peut avoir motivé de consulter le dictionnaire. Dans la même situation, le texte de 2000 demandait un effort plus important aux
élèves, qui devaient d’abord analyser la phrase exemple introduisant la subdivision de
description pour mettre en correspondance ses constituants et les éléments de la glose
et qui devaient ensuite évaluer si la glose éclairait de la même manière le contexte où
ils avaient rencontré le verbe. Les descriptions de 2000 et de 2005 ne peuvent par contre
pas plus l’une que l’autre contribuer à aider un jeune élève à enrichir son expression,
410 Lors d’exercices de manipulation de dictionnaires, les élèves peuvent être invités à chercher des mots chacun
dans leur répertoire et à confronter ce qui y est indiqué avec ce qui figure dans différents autres ouvrages
disponibles dans la classe (cf. nn. 337 et 564).
411 C’est celui qui a le plus de chances d’avoir été employé avant le Larousse junior de 2003 si ceux qui choisissent les dictionnaires (parents, maîtres) restent fidèles au même éditeur (ce qui n’est pas assuré).
412 Cette version refondue de celui de 2000 peut avoir été utilisée par ceux qui sont entrés au CP en 2005 et au
CE2 en 2007, juste avant la parution de la refonte du Larousse junior (en faisant l’hypothèse qu’un dictionnaire neuf est acheté à chacune de ces deux étapes importantes de la scolarité primaire).
250
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
le patron de 2005 n’étant pas assez consistant pour lui permettre d’observer dans le syntagme verbal des alternances entre complétive et combinaison de syntagme prépositionnel avec une infinitive ou un syntagme nominal (cf. n. 397).
Plus complet, le patron du dictionnaire pour le collège présenté s.v. permettre 1.
s’avère, lui, bien peu utile pour une aide à la compréhension du mot (son décodage étant
trop complexe en lui-même pour éclairer une incompréhension), mais il est davantage
en mesure de soutenir les efforts d’un élève qui cherche à mieux employer ce verbe en
diversifiant les constructions auxquelles il recourt.
La confrontation des indications syntaxico-sémantiques de différents répertoires
corrélée à l’examen de leur fonction là où elles figurent et de leur utilisabilité par ceux
qui consultent ces dictionnaires m’a conduite à concevoir l’utilité d’affichages différenciés en fonction des besoins et des compétences de ceux à qui les descriptions sont
destinées. Ils sont exposés dans T17 § 3.2. et T21 (cf. § 2.7.2.). Mais leur conception
nécessite que je pousse plus loin mes spéculations afin d’avoir une meilleure représentation des besoins des utilisateurs de dictionnaires. Ces recherches consistent, pour
commencer, à évaluer les répertoires pour ce qui concerne l’aide à la compréhension
limitée à l’identification des emplois verbaux rencontrés dans un texte de lecture.
L’étude métalexicographique entreprise sur ce thème a été débutée avant celle relative
à l’aide à l’expression, car certains de ses aspects rejoignent les spéculations portant
sur l’élaboration d’un module d’hyperappel de dictionnaire capable de conduire les
lecteurs d’un mot-occurrence rencontré dans un contexte de lecture à la description
dictionnairique pertinente pour l’éclairer. L’introduction de cet hyperappel “intelligent”
dans un dictionnaire scolaire est également motivée dans T17 § 3.2. et T21 (cf.
§ 2.7.2.).
2.3.6. Analyse des modalités d’identification des unités linguistiques à partir
des formes graphiques rencontrées dans des textes et de leurs contextes
d’emploi [Tdr5 (en préparation b)]
Les évaluations de la lisibilité d’articles de dictionnaires formulées dans T9 et, en
écho, dans T17 § 3.2.1. reposent sur la seule analyse des textes dictionnairiques, ce
qui me semble devoir être complété par des études simulant les modalités de consultation d’utilisateurs ordinaires. Ce sont les élèves de cours élémentaire première année
qui ont été pris en compte en premier lieu, ce qui a motivé la constitution d’un corpus
de textes scolaires annoté en fonction des contenus dictionnairiques 413 (Rcorp13,
présenté dans T20 (§ 1.6.1.)) et la préparation de Tdr5, qui présente la particularité
d’être commenté dans ce document de synthèse du fait de sa pertinence à la suite du
retour sur T9, alors que sa rédaction est encore en cours.
413 Chaque mot-occurrence est balisé et associé via des attributs à des indications relatives au mode de traitement de cet item dans le Dictionnaire Hachette benjamin.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
251
Portée de l’étude
Cette nouvelle recherche a été engagée en 2009. Circonscrite de manière précise,
elle prend en compte
– un motif de consultation dictionnairique : l’aide à la compréhension ;
– un type de public : les élèves du CE1 ;
– un type de documents au cours de la lecture desquels un problème de compréhension
peut être rencontré : les textes de lecture d’un manuel de français (À portée de mots
(éditions 2003 et 2009)) ;
– un dictionnaire : le Dictionnaire Hachette benjamin de 1996 ou 2002, concurrent du
Larousse des débutants dont il vient d’être question 414, et sur lequel s’appuie le manuel
d’où sont extraites les lectures pour les exercices d’initiation à la manipulation de dictionnaires ;
– et deux modes de consultation : une recherche manuelle, dépendante des compétences
de l’élève qui cherche un mot, et une recherche par hyperappel envisagée à partir d’une
version électronique des textes (par exemple dans le cadre d’un manuel électronique,
cf. T17 § 3.2.1.1.).
Liens entre mots-occurrences du corpus et items traités dans le dictionnaire
Comme indiqué ci-dessus, les premiers éléments de cette étude ont fourni la matière
d’un article relatif aux modalités de constitution et d’enrichissement du corpus de
textes de lecture (Rcorp13). Il s’agit de T20 (§ 1.6.1.), coécrit avec Stavroula Markezi
(une étudiante de M2 LTTAC de la promotion 2008-2009 qui avait travaillé avec moi
pour cette étape), et qui se concentre sur des questions techniques (i) de lemmatisation
et d’étiquetage morphosyntaxique de chaque mot-occurrence du corpus, puis (ii) d’appariement, si possible, avec un item en adresse dans le dictionnaire, complété le cas
échéant par l’indication de la subdivision de description de sens qui correspond à l’emploi attesté (ce qui n’était que très partiellement réalisé au moment de la rédaction de
T20). Ces annotations introduites dans le balisage XML du corpus à partir des informations stockées dans la base Rbd5 (§ 2.3.2.) complétées par un retour aux articles
du dictionnaire pour les mentions des indicateurs de subdivision de description constituent une aide précieuse pour l’analyse de l’utilisabilité du Dictionnaire Hachette benjamin pour la compréhension des textes de lecture du manuel développée dans Tdr5.
Dans cet article en préparation, après l’exposé des objectifs de l’étude et de l’utilité
du corpus annoté mobilisé, un état des items à propos desquels le dictionnaire est
susceptible de fournir une aide pour une meilleure compréhension est dressé au § 1.
sur la base des appariements des mots-occurrences du corpus et des adresses dictionnairiques (principales et subordonnées 415). Mais le fait qu’un lemme correspondant
414 À terme mon objectif est d’employer également le texte numérisé du Larousse des débutants de 2005 (Rdic4,
cf. § 2.2.1.3.) pour les annotations et les manipulations de ce corpus, mais il m’a semblé pertinent de commencer par celui avec lequel le manuel entretient un lien privilégié.
415 Dans chaque contexte, il est nécessaire de repérer si un mot-occurrence est employé dans une unité polylexicale décrite dans le dictionnaire (où elle figure alors en adresse subordonnée). Il faudrait également être
en mesure de déterminer si l’item figure dans une unité polylexicale non décrite, ce qui implique de savoir
252
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
potentiellement à une forme rencontrée dans un texte appartienne à la nomenclature
du Dictionnaire Hachette benjamin ne suffit pas à garantir que l’article associé à ce
lemme peut éclairer la compréhension du mot en contexte. Pour apprécier la capacité
du dictionnaire à fournir l’aide que l’on attend de lui, l’étude se concentre sur les modalités de description mises en œuvre en son sein et sur les indices que les articles
offrent à ceux qui les consultent pour déterminer si une partie des informations qu’ils
fournissent est susceptible d’éclairer leur compréhension d’un contexte rencontré
dans une lecture (en particulier des indications de construction ou des cooccurrences
lexicales).
Selon les premiers éléments qui ressortent de cette analyse en cours, les descriptions proposées dans le Dictionnaire Hachette benjamin n’offrent pas toujours des indices clairs facilitant l’identification de l’explication dictionnairique pertinente pour
éclairer l’emploi des unités lexicales dans leur contexte : contrairement à ce qui a été
indiqué supra à propos du Larousse des débutants de 2005, le dictionnaire Hachette
ne fournit pas de patron de construction syntaxico-sémantique mais se limite à montrer
de manière non systématique dans les gloses définitionnelles et les exemples qu’il propose quels peuvent être les actants impliqués par les prédicats, sans qu’il soit possible
de savoir (sans connaître le fonctionnement des items décrits) s’ils sont tous repérés,
si ceux qui le sont sont obligatoires ou si leur mention est sélective ou aléatoire.
L’analyse des indications fournies par le dictionnaire est indispensable pour déterminer ce sur quoi il est possible en leur sein de fonder le choix d’une description susceptible d’éclairer un contexte lu, mais l’examen minutieux d’une sélection de contextes
variés (présentant différentes constructions et sélections d’actants, des cooccurrents
réguliers ou non, etc.) est également utile pour l’évaluation de la diversité des emplois
pour lesquels une explicitation est susceptible d’être cherchée. Le corpus de textes de
lecture en fournit un ensemble d’extension variée selon les verbes 416, qui va successivement permettre d’élaborer une méthode d’appariement des contextes et des descriptions dictionnairiques et de tester sa mise en œuvre par un automate.
Le § 1. se termine sur les modalités de rapprochement des données du corpus et du
dictionnaire. La part des identifications d’emplois qui est automatisable aujourd’hui
se limite au repérage des mots-occurrences qui sont associés à des items polysémiques,
c’est-à-dire, dans ce contexte, qui constituent des adresses principales d’articles composés de plusieurs subdivisions de description consacrées à un item (indépendamment
des unités polylexicales qui peuvent être décrites à sa suite). Le dictionnaire décrivant le mot simple comme étant polysémique, il est nécessaire de déterminer quelle
description correspond le mieux au sens rencontré dans le corpus (si elle existe) 417 et
la repérer dans le texte, et si celle-ci est compositionnelle ou si au moins l’item a en son sein un sens qui est
décrit pour lui dans le dictionnaire.
416 Il convient de bien distinguer le nombre d’occurrences du verbe dans le corpus et la diversité des contextes
attestés. Quelle que soit la fréquence du verbe en corpus, il peut avoir plusieurs emplois et des patrons
syntaxico-sémantiques complexes pour lesquels le corpus fournira ou non des exemples de réalisation sans
que la probabilité de voir chaque emploi attesté dépende de la fréquence du verbe.
417 Si la tâche de sélection de description doit nécessairement être réalisée pour les items décrits comme étant
polysémiques, elle doit en toute logique l’être également pour les items décrits comme étant monosémiques,
dans la mesure où ce choix de traitement relève de la décision des lexicographes et non strictement des pro-
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
253
d’enregistrer dans le balisage du mot-occurrence du corpus l’identificateur de celleci 418. Pour ce faire, il est possible de demander à un programme informatique de
signaler les mots-occurrences auxquels correspondent plusieurs descriptions dans le
dictionnaire, mais, comme le choix de la subdivision à retenir demande une part
interprétative, je n’ai pas entrepris son automatisation avant d’avoir poussé plus loin
l’étude des indices de choix. À terme, l’objectif est de déterminer quels sont ceux qui
se révèlent pertinents dans les contextes attestés et de faire effectuer la procédure de
mise en correspondance par un automate qui les prendra en compte 419. Selon les premières évaluations, il apparaît assez nettement que le Dictionnaire Hachette benjamin
ne fournit pas suffisamment d’indices fiables pour que l’automatisation soit réalisable,
ce qui motive que je projette, au-delà de ce qui fait l’objet de Tdr5, de retravailler sur
les sélections d’indices pertinents en prenant en compte les indications syntaxicosémantiques et cooccurrencielles d’autres répertoires, scolaires ou non (comme le Dictionnaire du français contemporain ou le récent Dictionnaire des verbes du français
actuel ), pour rédiger des descriptions destinées, comme celles du Dictionnaire Hachette
benjamin, aux élèves du cycle 2, mais qui seraient plus homogènes entre elles que celles
de ce répertoire et dont le contenu offrirait une meilleure adéquation avec les besoins
repérés 420.
Items ou emplois apparemment exclus du dictionnaire mais attestés dans le corpus
L’étude des modes d’identification des unités linguistiques rencontrées dans des
textes de lecture scolaires en vue de la recherche de leur(s) description(s) dans le dictionnaire conduit par ailleurs à observer qu’une part non négligeable de ces unités ne
correspondent pas à des items de la nomenclature principale ou de second niveau (en
tous cas pas sous la forme lemmatisée cherchée) et que, quand l’item est décrit, ses
emplois attestés n’ont pas tous de subdivisions qui leur soient consacrées.
Le § 2. synthétise les causes identifiables de ces absences au moins apparentes.
priétés des mots (il peut en effet avoir été jugé pertinent de ne pas évoquer dans le dictionnaire un sens
moins usuel, marqué, ou considéré comme trop complexe pour le public destinataire).
418 La mention, dans le balisage, de l’adresse et de l’identificateur de subdivision pertinente permet de créer
une version des textes de lecture enrichie de liens hypertextes liant les mots-occurrences aux explications
pertinentes à leur sujet dans le dictionnaire. Ceci n’entre pas dans le cadre des recherches pour la mise en
place d’un module d’hyperappel capable de prendre en compte n’importe quel contexte où figurent les items
cherchés, mais des textes de lecture enrichis peuvent constituer un produit éditorial intéressant d’un point
de vue pédagogique.
419 Pour que des appariements comme ceux réalisés dans le corpus puissent être effectués au sein d’autres contextes, il faudra ensuite évaluer la non-ambiguïté des indices utilisés dans les contextes du corpus ainsi
que leur robustesse et leur efficacité pour le traitement d’autres contextes, et ajuster les choix d’indices en
fonction de ces résultats.
420 Le texte du Larousse des débutants numérisé, Rdic4 (cf. § 2.2.1.3.), à propos duquel j’ai indiqué dans la n.
414 que je souhaite l’utiliser (au même titre que le Dictionnaire Hachette benjamin) pour annoter le corpus
de textes de lecture Rcorp13, pourrait également servir de base pour les réécritures qui viennent d’être
évoquées. Les nouvelles descriptions de sens pourraient se substituer à celles du Dictionnaire Hachette
benjamin dans la version électronique des textes de lecture enrichis de liens hypertextuels évoquée en n.
418. Dans cette perspective, le fait d’avoir annoté le corpus avec les indications d’adressages du Larousse
(cf. n. 414) faciliterait le travail de réécriture et la mise en relation des descriptions et des mots-occurrences
qu’elles doivent éclairer.
254
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Les unités simples qui ne figurent pas dans les composants d’adressage du dictionnaire semblent avoir été exclues de la nomenclature au motif
– qu’elles relèvent de catégories non représentées (les noms propres, les articles et les
nombres, ces derniers ne figurant que dans un paratexte spécifique 421) ;
– que leurs formes attestées en corpus ne sont pas les graphies les plus conventionnelles pour ces unités (ces dernières figurant seules dans les adressages quand les premières peuvent faire l’objet d’une remarque ou ne pas être mentionnées du tout) ; 422
– ou que ce sont des dérivés construits de manière régulière (leur base étant souvent
décrite 423).
Mais il peut également s’agir d’items pièges qui semblent être présents alors qu’ils
sont absents : leur lemme est homographe de celui d’une autre unité linguistique qui,
elle, est prise en compte, ce qui est source de confusions lexicales (que les unités soient
homocatégorielles ou non, la catégorie étant de peu de secours à des élèves qui comprennent mal ce qu’ils lisent).
Il peut enfin s’agir d’items qui n’appartiennent pas à la nomenclature du dictionnaire alors qu’ils semblent être utiles à la construction d’une expression de qualité telle
qu’elle peut être envisagée à ce niveau scolaire, voire qui sont susceptibles d’être rencontrés à l’occasion d’activités d’éveil inscrites au programme du cycle des apprentissages fondamentaux.
Ciblage des descriptions d’emploi pertinentes par le module d’hyperappel
Le § 3., qui constitue le dernier point de Tdr5, reprend quant à lui le fil des réflexions engagées dans T17 § 3.2.1.1. (et que T20 prolonge déjà) à propos de la
mise en place d’un hyperappel du dictionnaire à partir des textes s’ils étaient lus à
l’écran (et donc intégrés à une hypothétique édition électronique du manuel À portée
de mots 424).
J’y reviens sur la question de la lemmatisation et de la catégorisation des motsoccurrences dans leurs contextes d’appel qui doivent conduire à des items en adresses
du dictionnaire et sur celle de l’enrichissement des descriptions dictionnairiques actuelles (au sein de leurs textes ou dans leurs balisages) pour y introduire plus d’informations syntaxico-sémantiques et cooccurrentielles (ce à quoi j’ai déjà commencé à
réfléchir dans T17 et qui réfère aux éléments d’analyse développés au § 1.).
Je m’y intéresse aussi, en particulier, au comportement que le module d’hyperappel pourrait avoir si la consultation est demandée
– soit à partir d’un mot régulièrement construit qui ne figure pas à la nomenclature
contrairement à sa base, ce qui peut permettre d’exploiter l’article de cette dernière et
421 Dans celui-ci, les descriptions se limitent à la mention d’une sélection de nombres et au repérage de la place
de chacun par rapport aux autres dans la suite numérique.
422 Le balisage du corpus enregistre la graphie de l’adresse, mais l’appariement du lemme du mot-occurrence et
de la forme en adresse ne peut être automatisé qu’au moyen de règles ad hoc.
423 L’examen des indications indirectement fournies concernant les dérivés dans les descriptions de leur base
rejoint l’une des perspectives d’étude qu’offre la base des nomenclatures (Rbd5 (§ 2.3.2.)), dont une table
(T_ULing_derivee_sous_Ad_Prin) enregistre les dérivés des items en adresse principale.
424 Il s’agit ici d’une édition qui pourrait être réalisée par l’éditeur indépendamment de celle envisagée en n. 418.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
255
une indication constructionnelle plutôt que de s’en tenir à l’indication du fait que ce
mot n’est pas dans le dictionnaire 425 ;
– soit à partir d’un mot qui régit une construction qui n’est pas décrite alors qu’une autre,
proche sémantiquement mais pas syntaxiquement 426, figure dans le dictionnaire, ce
qui peut permettre d’exploiter sa description pour soutenir la compréhension du sens,
mais en veillant à ce que les éléments de variation à observer soient explicitement
mentionnés.
Les recherches engagées dans la perspective de la conception d’un module d’hyperappel innovant ne me permettent pas encore de proposer des spécifications techniques
précises en vue de son développement et de l’élaboration du texte dictionnairique dont
il pourra exploiter le contenu pour sélectionner les subdivisions de description à présenter en réponse à une demande de consultation. Mais leur avancement permet déjà
de mesurer la distance qui sépare les hyperappels actuellement proposés de ce qui
pourrait mieux aider les utilisateurs de dictionnaires qui consultent un ouvrage de
référence pour tenter de remédier à un problème de compréhension 427.
Place de Tdr5 dans mes travaux
Cette étude, dont rend compte Tdr5, qui est encore en préparation, est la dernière
de la thématique relative à l’identification de ce qui est décrit dans les dictionnaires.
Le fait d’y conjoindre une analyse métalexicographique et l’observation d’items en
corpus lui confère une originalité au sein de mes travaux sur les dictionnaires, qui sont
en général plutôt centrés sur les textes des ouvrages étudiés pour eux-mêmes ou comparativement à d’autres, et la rapproche dans une certaine mesure de l’exploration du
corpus du tourisme que Hans Paulussen et moi avons abordée en comparant des usages
lexicaux attestés à ceux qui étaient décrits dans des dictionnaires et des guides de
conversation (cf. T10 (§ 1.4.2.)). 428
La confrontation des données dictionnairiques et des emplois attestés dans une
sélection de contextes fournit un angle d’approche des contenus des répertoires différent de celui que l’on peut avoir quand on les étudie isolément, qui présente l’intérêt
d’être plus en phase avec les fonctionnalités des ouvrages étudiés, mais dont je ne
425 Certains dérivés sont mentionnés dans l’article consacré à leur base (cf. n. 423) et à ce titre relevés dans Rbd5,
mais pour un fonctionnement optimal de l’hyperappel il faudrait que ces mentions soient systématiques.
426 Pour permettre, évoqué supra, ce pourrait être le cas si une complétive était à substituer à une infinitive
accompagnée d’un syntagme prépositionnel pour retrouver le sens décrit s.v. permettre 1. dans le Larousse
des débutants de 2005.
427 Ceux qui consultent un dictionnaire par hyperappel dans le cadre d’une aide à l’expression le font également à
partir d’un mot figurant dans un texte écrit sur support électronique, mais dans la mesure où ce sont eux qui
ont choisi son emploi, ce mot ne leur est pas inconnu (même s’ils cherchent à acquérir une meilleure maîtrise
de ses conditions d’emploi ou qu’ils sont intéressés par la mention d’unités qui lui soient substituables), et ils
pourraient donc être mieux en mesure de se satisfaire du fonctionnement des modules d’hyperappel actuels
(qui par exemple, à partir de permis, proposent de choisir entre le verbe et le nom).
428 Deux étudiantes de M1 TAL de la promotion 2009-2010 ont travaillé pour la rédaction de leurs mémoires dans
l’esprit de ce que j’ai entrepris, l’une en constituant un corpus d’énoncés de problèmes de mathématiques
proposés à des élèves de cycle 3 et en repérant les emplois qui y sont attestés mais qui ne sont pas décrits
dans les dictionnaires destinés au même public (Mdir100 (Dutrey (2010))), et l’autre en sélectionnant des
textes de TAL en anglais et en cherchant à évaluer dans quelle mesure un dictionnaire bilingue peut aider
un allophone à les lire (Mdir103 (Tettelin (2010))).
256
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
sais pas encore évaluer s’il constituera un mode d’étude réellement pertinent dans la
mesure où la richesse des analyses ainsi conduites est en partie dépendante de celle
du corpus 429, ni, dans l’hypothèse où je réitérerais ce mode d’approche, si j’étudierais
de nouveau les rapprochements des mots-occurrences et des descriptions disponibles
pour chacun dans un dictionnaire ou si je les envisagerais plutôt en constituant des
sous-ensembles définis en fonction des propriétés des unités lexicales et/ou du mode
de traitement lexicographique mis en œuvre pour elles.
2.3.7. Conclusion : du choix au repérage de ce qui fait l’objet de traitements
Les travaux réunis dans le § 2.3. abordent sous différents angles la question du choix
par les lexicographes des unités linguistiques à propos desquelles des indications sont
fournies dans les articles et celle de leur identification par les utilisateurs des dictionnaires.
Ils peuvent être rapprochés
– de ceux qui sont effectués par des métalexicographes, même si dans leurs publications ce ne sont souvent que des extraits correspondant à des segments alphabétiques
qui servent à illustrer leurs propos 430 ;
– et de ceux qui sont réalisés par les éditeurs qui, bien qu’ils soient souvent discrets au
sujet de leurs méthodes de sélection, semblent assez régulièrement procéder à des confrontations des adresses macrostructurelles des dictionnaires qu’un nouveau produit
en cours d’élaboration doit concurrencer et/ou constituer la nomenclature de celui-ci
par suppression d’adresses dans la liste de celles d’un répertoire plus consistant 431 de
leur fonds.
T24, qui analyse les principes de sélection à l’œuvre dans la constitution des nomenclatures des dictionnaires français, et Rbd5, la base des nomenclatures des dictionnaires
scolaires qui stocke l’inventaire des unités linguistiques placées en adresses macro- et
microstructurelles 432, sont assez comparables respectivement, à différents égards, à
ces démarches d’autres analystes ou d’éditeurs, et le fait qu’une fois encore mes activités
pédagogiques bénéficient des développements de mes recherches permet aux étudiants
de notre master de pouvoir participer rapidement à des tâches de sélection de nomenclatures durant leurs stages ou leurs premières embauches 433.
429 Les analyses internes des dictionnaires, réalisées en comparant les articles entre eux, permettent plus assurément d’observer les irrégularités de traitement, mais incitent moins qu’une confrontation de leur contenu
avec ce qui est attesté en corpus à chercher quels sont les emplois qui n’y sont pas pris en compte.
430 C’est le cas par exemple pour Rey-Debove (1971 : 78-79), qui se focalise sur les items en ba- ou Rey (1989)
qui observe ceux de la tranche fi- fil-, mais pas pour Martinez (2009) (cf. § 2.2.4.).
431 Occasionnellement, comme pour le Dictionnaire scolaire Hachette de 2002, c’est la nomenclature d’un répertoire plus modeste, en l’occurrence le Dictionnaire Hachette junior de 1998, qui est augmentée.
432 Le relevé est effectué en commençant pour chaque dictionnaire par celui des adresses macrostructurelles
puis en complétant celui-ci par celui des adresses microstructurelles (cf. § 2.3.2.), ce qui permet de toujours
disposer des items dont les lexicographes ont choisi de valoriser la présence à la nomenclature.
433 Les rapports de stages font état de ce type d’activité pour des stagiaires accueillis par différents éditeurs, de
même que les nouvelles que nous recevons de ceux qui ont quitté la formation depuis quelques années et
qui ont maintenant des responsabilités éditoriales.
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
257
Dans les recherches métalexicographiques, la détermination des unités linguistiques traitées est un prérequis pour
– l’étude de leur sélection, dès lors que l’on se propose de quitter les assertions des
textes de présentation des dictionnaires (comme dans T24) pour l’observation des
données ;
– l’analyse d’informations particulières susceptibles d’être associées à certains des
items (comme les caractérisations d’emplois marqués (cf. § 2.4.) ou les mentions d’origines étrangères (cf. § 2.5.)) ;
– la confrontation de dictionnaires concurrents, d’éditions d’un même répertoire séparées par une refonte ou d’ouvrages dédiés à des publics différents (comme les élèves
des cycles 2 et 3 ou du cycle 3 et du collège) ;
– la compilation de nomenclatures des répertoires d’un segment de marché pour l’évaluation des besoins cumulés identifiés par les éditeurs ;
– et probablement d’autres investigations encore.
C’est ce qui a motivé la création de Rbd5.
Mais le relevé des nomenclatures, s’il permet de travailler au niveau des unités linguistiques, n’est pas suffisant pour déterminer précisément ce qui est traité, puisqu’il
ne donne pas accès aux emplois décrits.
Chez les éditeurs, les constitutions de nomenclatures ne semblent pas non plus
prendre en compte les emplois et, quand la détermination de ceux-ci n’est pas laissée
à l’appréciation des rédacteurs, une trame de rédaction préétablie, pas nécessairement
de façon spécifique pour le projet éditorial en cours d’élaboration, peut leur en fournir
une sélection 434.
Pour mes analyses, n’ayant pas accès à ces éventuelles trames, je ne peux que tenter
de restituer les sélections d’emplois à partir de leurs descriptions, que celles-ci soient
textuelles (comme dans les définitions), plus codifiées (comme dans les patrons de construction étudiés dans T9) ou iconographiques (comme celles enregistrées et écrites
dans Rbd2).
Ce travail de reconstitution des emplois pris en compte est minutieux et plus complexe que celui concernant les unités linguistiques des nomenclatures, du fait (i) que
tous les répertoires ne traitent pas tous les emplois en usage pour chaque unité linguistique et (ii) que les emplois traités ne sont pas nécessairement délimités par chaque
ouvrage de la même manière (il peut y avoir des chevauchements partiels ou des différences de granularité des distinctions 435). Mais cette tâche est tout aussi importante
434 Chez Larousse, en particulier dans le département des bilingues, cette trame reçoit le nom de « canevas ».
435 Par exemple, si, s.v. allumer, le Larousse des débutants et le Dictionnaire Hachette benjamin décrivent un
premier sens dans des termes relativement comparables (respectivement « Allumer, c’est faire brûler,
mettre le feu. Allumer une bougie. Il est interdit d’allumer des feux dans la forêt. • Contraire : éteindre. » et
« Mettre le feu à quelque chose. Maman allume le gaz avec une allumette. »), le traitement du second sens
présente un écart plus marqué, puisque ce que décrit le dictionnaire Larousse correspond à l’emploi absolu
du verbe dans la définition et à celui avec un argument interne référant à un luminaire (lampe de chevet)
dans la contextualisation (« Allumer, c’est donner de la lumière en appuyant sur un interrupteur. Allume
ta lampe de chevet. • Contraire : éteindre. »), alors que le Hachette prend en compte une acception plus
large (l’argument interne pouvant référer à tout type d’appareil ou d’installation électrique) – dont celle du
Larousse ne constitue qu’un emploi particulier – et l’illustre en établissant un contraste entre un appareil
258
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
que celle consistant à identifier les unités linguistiques traitées, puisque pour l’essentiel des informations que couvrent les programmes de traitement des dictionnaires, ce
sont les emplois qui sont décrits et non l’unité linguistique dans sa globalité.
L’inventaire des emplois traités a pour l’heure été engagé par trois voies d’accès.
1) La base Rbd2 (cf. § 2.3.3.),
• qui recense les iconographies du Robert junior imprimé de 1997 et caractérise leurs
insertions effectives et potentielles dans ce volume et dans l’édition électronique de
1999 ainsi que les relations qu’elles y entretiennent ou y entretiendraient (pour les
utilisations possibles mais non effectives, cf. figure 46, T_pivot_Items_Utilisations)
avec les éléments de description textuelle ;
• qui a déjà permis d’observer certains usages iconographiques pour la différenciation
d’emplois d’items qui nomment plusieurs référents (comme griffe, cf. figures 55 et 56) ;
• et qui, étendue au traitement des illustrations présentées dans d’autres répertoires
mettant en scène les objets nommés ou les actions dénotées, contribuera à la réflexion
globale sur les indices que les dictionnaires comportent déjà ou dont ils devraient
mieux se doter pour pleinement aider leurs utilisateurs à déterminer ce qui, parmi
les emplois décrits, correspond à ce qu’ils ont rencontré et qu’ils cherchent à (mieux)
comprendre.
2) L’étude des caractérisations syntaxico-sémantiques des emplois verbaux à partir des
patrons qui sont proposés pour eux (cf. T9), qui constitue un préalable pour les spéculations relatives aux modalités de présentation des rections verbales (cf. T17 §§ 3.2.1.3.
et 3.2.2.2. et T21 (§ 2.7.2.)) comme pour les réécritures de descriptions de sens qui
ont été évoquées (§ 2.3.6.) en tant que prolongement du travail engagé à partir du
corpus de textes de lecture Rcorp13.
3) L’enrichissement du corpus Rcorp13,
• dont les annotations des mots-occurrences comportent les items en adresses et le
nombre des subdivisions consacrées à chacun dans le Dictionnaire Hachette benjamin
extraites de Rbd5 et doivent prochainement intégrer l’ordonnateur numérique de la
description pertinente pour éclairer le sens de chaque occurrence particulière (cf. Tdr5
(§ 2.3.6.)) ;
• pour lequel j’ai le projet de procéder aux mêmes annotations, mais à partir des adressages et des subdivisions du Larousse des débutants (dont le texte en cours de numérisation constitue la ressource Rdic4 (cf. § 2.2.1.3.)), afin (i) de vérifier si, du fait de la
présence d’indications de construction syntaxico-sémantiques au début de certaines
définitions de prédicats verbaux, ses descriptions sont plus éclairantes que celles du
Dictionnaire Hachette benjamin, et (ii) de constituer une édition du corpus enrichie
d’hyperliens créés entre chaque mot-occurrence et la description pertinente délimitée
au sein de Rdic4 (cf. n. 418) ;
• en articulation avec lequel, enfin, je souhaite (i) dériver un nouveau texte de Rdic4
(cf. n. 420), en veillant à l’adéquation des descriptions de sens avec les valeurs des
mots-occurrences afin d’évaluer jusqu’à quel point un dictionnaire général peut avoir
pour projet d’éclairer des contextes d’emploi particuliers, et (ii) réfléchir aux indicaà allumer et un éclairage à éteindre (« Mettre en marche un appareil électrique. Tu peux allumer la télévision, mais éteins la lumière. (Le contraire d’allumer est éteindre.) »).
Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits
259
teurs que le balisage des articles pourrait intégrer pour guider les mises en relation
des contextes problématiques et des descriptions susceptibles de fournir les éléments
utiles à leur compréhension dans le cadre d’un hyperappel de dictionnaire 436.
Enfin, la perspective d’étude des contenus dictionnairiques envisagée à partir d’énoncés extérieurs aux répertoires (comme ceux de Rcorp13, dont les mots-occurrences
sont supposés être cherchés dans un dictionnaire, cf. Tdr5) est partagée par T23, où
j’évalue comment consulter un dictionnaire à partir d’une forme phonique ou d’une
graphie (que l’on ne sait éventuellement pas déchiffrer) non interprétée, et de quels
moyens ce dernier dispose pour aider à surmonter la difficulté de compréhension rencontrée. Les unités linguistiques ne sont plus alors considérées au niveau de leurs emplois (même si elles sont en usage au moment où elles suscitent une consultation de
dictionnaire), mais à celui de la diversité de leurs formes. L’axage du propos reste, lui,
sur ce qui permet d’aller de ce qui est rencontré et considéré comme pouvant poser des
problèmes de compréhension vers ce qui est décrit dans un répertoire, qu’il s’agisse
d’interfaces de consultation ou des modes de traitement dont usent les dictionnaires.
Je reviendrai au § 2.7.2., dans le cadre du commentaire de T17, sur certains éléments des travaux relatifs à la détermination de ce qui est traité dans les articles, mais
j’évoquerai plus alors les questions de présentation et d’accès aux unités linguistiques
et aux informations fournies à leur sujet dans le cadre d’éditions électroniques. Avant
cela, les prochains développements de ce mémoire vont se concentrer sur deux ensembles
d’informations – (i) celles qui permettent de caractériser les conditions d’emploi des
unités linguistiques quand elles sont perçues comme non neutres (§ 2.4.), et (ii) celles
qui fournissent des éléments pour l’identification diachronique des items d’origine
étrangère (§ 2.5.) – avant d’évoquer (§ 2.6.) les textes de présentation des contributions métalexicographiques suscitées pour la revue Lexique – T19 pour le numéro 19
(D1) et Tdr3 pour un prochain numéro (D2).
436 T17 et T21 (cf. § 2.7.2.), rédigés en 2008 et 2009, proposent quelques pistes de réflexion concernant ces sujets, que l’extension du travail effectué à partir de Rcorp13 en utilisant Rdic4 comme base dictionnairique
doit me permettre d’approfondir, dans la limite toutefois des emplois attestés dans ce corpus particulier.
2.4.
Étude des marquages ou prescriptions d’emplois lexicaux
dans des dictionnaires monolingues
L’étude des descriptions des conditions d’emploi des unités linguistiques traitées
dans les dictionnaires constitue depuis quelques années un thème important dans mes
recherches métalexicographiques. Il n’est pas sans rapport avec la sélection des nomenclatures, dont il a été question au § 2.3.1. à propos de T24, dans la mesure où les
mêmes critères sont mis en œuvre pour décider d’intégrer ou non un item ou tel de ses
emplois dans un répertoire et pour y caractériser les conditions socio-énonciatives de
l’usage de ceux qui sont sélectionnés. Un rapprochement peut également être effectué
avec ceux de mes travaux qui impliquent des corpus spécialisés ayant vocation à documenter des pratiques discursives particulières (cf. § 1.3.).
Trois articles, tous à paraître, ont été rédigés, avec une portée propre à chacun,
puisque T11 (§ 2.4.1.) synthétise la globalité des tendances du traitement de la variation lexicale dans l’ensemble des dictionnaires généraux français au cours des deux
dernières décennies, tandis que T14 (§ 2.4.2.) explore, sous l’angle particulier de leur
dimension prescriptive, les dispositifs propres aux dictionnaires scolaires et que T22
(§ 2.4.3.) se focalise sur une variété langagière particulière, le parler dit “enfantin”,
analysée seulement dans certains dictionnaires Robert.
Pour leur outillage conceptuel, ces études sont tributaires des cadres typologiques
élaborés par Hausmann (1977 (pour le domaine français) puis 1989 (de portée générale)), eux-mêmes inspirés de Weinreich (1954) 437, sur lesquels il me semble souhaitable de fournir un éclairage avant de revenir en détail sur chaque article, à la fois
pour pallier leur notoriété peut-être plus réduite que cela n’a été envisagé dans l’introduction de T11, ce dont différentes questions qui m’ont été posées lors des communications préliminaires aux articles (C13, C23 et C17) m’ont apporté des témoignages,
et pour commenter certains aspects de ce modèle utile mais critiquable, en relation
avec l’enrichissement qui l’a vu passer de huit à onze variables entre ses deux états
successifs 438.
437 Cf. Hausmann (1989 : 652).
438 Ce bref développement fournit un début de concrétisation aux « discussions diverses auxquelles pourrait donner lieu » le classement de Hausmann qui sont évoquées dans l’introduction de T11, laquelle ne va pas plus
loin que la mention de quelques pistes de débat (« le découpage opéré, les choix dénominatifs effectués, le
manque de hiérarchie et d’articulation entre les critères retenus ou encore la distribution des marques sur
les différents types »).
262
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Présentation critique du cadre typologique utilisé comme référence
Le récapitulatif qui suit (figure 70), qui prend pour base l’état de 1989 et en particulier
son tableau synthétique (p. 651), présente pour chaque type de marquage considéré le
critère de variation pris en compte, le repère neutre pour la variable (« unmarkiertes
Zentrum »), les repères d’écarts par rapport au repère neutre (« markierte Peripherie »),
une sélection de marques extraites par Hausmann (1989) de dictionnaires allemands,
anglais et français (sans reprise de leurs sources), le numéro de l’article de l’Encyclopédie internationale de lexicographie [EIL] qui traite spécifiquement de la variable considérée 439 et la localisation correspondante dans Hausmann (1977). Après le tableau
qui synthétise ces données viennent quelques commentaires sur certaines variables
destinés à éclairer les réflexions que suscitent les modèles hausmanniens, les problèmes qu’ils posent, qui ne sont souvent que le reflet des flottements observés par
l’auteur dans les dictionnaires, et les distances que j’ai pu prendre avec eux lors de
l’utilisation que j’en ai faite dans les trois articles qui seront analysés ensuite.
Figure 70. Cadre typologique utilisé comme référence pour l’étude des marquages
(cf. Hausmann (1989 et 1977))
VALEUR DU
MARQUAGE
CRITÈRE DE
VARIATION
REPÈRE NEUTRE
REPÈRES D’ÉCARTS
EXEMPLES
DE MARQUES
diachronique
ancrage temactuel
porel a
vieux
vx.
nouveau
néol.
diatopique
localisation b d’usage général
régional ou dialecdial.
tal
ARTICLE
DE L’EIL
CORRÉLATION
AVEC 1977
54
§ 8.1., pp. 113-115
55
§ 8.2., pp. 115-117
56
§ 8.3., pp. 117-118
AmE c
dia-intégratif
caractère na- appartenant à la emprunté ou étrananglicisme
langue nationale e ger
tional d
diamédial
canal f
neutre
parlé
umgangssprachlich g
écrit
langue écrite
classe supérieure
diastratique
groupe socioneutre
culturel
diaphasique
caractère
formel h
diatextuel
type de discours k
neutre
neutre
classe inférieure
pop.
fam.
groupe d’enfants
ou d’élèves
formel
fml i
non formel
infml j
biblique
bibl
poétique
poet
§ 8.4.1., p. 119
57
§ 8.4.2., pp. 119-128
littéraire
journalistique
administratif
administratif
439 Les conditions de rédaction de l’encyclopédie ont fait que les auteurs des articles 54 à 61, consacrés à
différents types de marquage, ne connaissaient pas encore la typologie de l’article 53 (Hausmann (1989))
qui définit leur cadre et ne pouvaient donc se référer qu’à celle de 1977 (cf. P. Corbin (2006 : 108)).
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
VALEUR DU
MARQUAGE
diatechnique
CRITÈRE DE
VARIATION
caractère
technique l
diafréquentiel fréquence
REPÈRE NEUTRE
REPÈRES D’ÉCARTS
ARTICLE
DE L’EIL
CORRÉLATION
AVEC 1977
appartenant à la appartenant à une botanique
langue commune m langue spécialisée n viticulture
58
§ 8.6., pp. 130-133
fréquent
59
§ 8.7., pp. 133-139
60
§ 8.5., pp. 128-130
61
§ 8.8., pp. 139-143
rare
diaévaluatif
expressivité o neutre
connoté
dianormatif
normativité
incorrect
EXEMPLES
DE MARQUES
263
rare
derog p
euph
incorrect
correct
emploi critiqué
a
e
i
m
b
f
j
n
« Zeitlichkeit (Temporalität) »
« Räumlichkeit (Arealität) »
c “American English”
d « Nationalität »
« nationalsprachlich »
« Medialität »
g “langue usuelle”
h « Formalität »
“formell”
“informell”
k « Textsorte »
l « Technizität »
« gemeinsprachl[ich] »
« fachsprachlich »
o « Attitüde »
p “derogatory” [péjoratif]
– Concernant les spécifications que les dictionnaires peuvent fournir en matière de
délimitation temporelle des usages, le contraste symbolisé dans Hausmann (1989)
par les repères d’écarts “vieux” (« alt ») et “nouveau” (« neu ») donnait lieu en 1977 à
deux développements explicites consacrés respectivement à la diachronie envisagée
rétrospectivement (« nach rückwärts », § 8.1.1.) et prospectivement (« nach vorwärts »,
§ 8.1.2.) 440, qu’illustraient divers exemples de marquages observés, comme pour les
autres variables, dans la tradition dictionnairique française depuis Littré : vieilli, vieux,
ancien, archaïque ou archaïsme, abandonné d’une part, moderne, néol. ou néologisme,
nouveau ou nv. d’autre part.
Ce couplage, qui n’est pas isolé dans la littérature lexicographique et métalexicographique 441, a probablement contre lui de proposer, sous les apparences de l’évidence,
une symétrie partiellement illusoire, car si des marques comme vieilli ou vieux fournissent bien des indications sur des états de langue en signalant que les items ou les
emplois ainsi marqués n’appartiennent plus aux usages les plus répandus 442, il n’en
va pas de même pour néologisme, qui n’est porteur d’aucune information sur la diffusion discursive des faits lexicaux ainsi étiquetés (ni de pronostic sur leur usage à venir),
à la différence de moderne, qui, tel qu’il est spécifié par exemple dans le Grand Robert,
440 Pour rendre les expressions allemandes dans ce contexte, “rétrospectif ” et “prospectif ” sont probablement
plus adéquats que “régressif ” et “progressif ”, qui sont utilisés dans l’introduction de T11, article dans le
§ 2. duquel, par ailleurs, ne sont évoquées que des indications diachroniques rétrospectives, les nomenclatures des dictionnaires pour apprenants qui constituent l’objet de l’étude n’ayant pas vocation à accueillir
des néologismes.
441 L’article 54 de l’EIL (Schmidt (1989)), qui suit immédiatement celui de Hausmann (1989), en fournit un témoignage immédiat par l’intitulé de ses deux premières subdivisions : « Markierungen der Paläologismen »
(§ 1.) et « Markierungen der Neologismen » (§ 2.). Une observation comparable peut être faite concernant le
chapitre II (« Les marques diachroniques ») du livre de Glatigny (1998) consacré aux marques d’usage dans
les dictionnaires français du XIXe siècle, qui est organisé selon deux subdivisions similaires : « 1. Les archaïsmes » et « 2. Les néologismes ».
442 Ces indications ne dépassent pas ce degré d’approximation, les paratextes des dictionnaires n’allant pas, le
plus souvent, jusqu’à spécifier des variations générationnelles précises (il y a quand même des exceptions,
comme dans le cas de la définition de la marque vieilli dans le Dictionnaire Hachette encyclopédique 1994
(cf. infra § 2.4.1., figure 72), qui réfère à l’usage de « locuteurs généralement “âgés” »).
264
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
signale l’ancrage d’un usage dans la synchronie actuelle 443, mais qui n’attire peut-être
pas autant l’attention que les indicateurs de néologie 444.
– Pour la localisation des usages, le contraste symbolisé en 1989 par les exemples de
marques dial. et AmE correspond, pour le français, à la distinction entre variations
intra- ou extrahexagonales effectuée par Hausmann (1977 : 115), qui, par ailleurs, indiquait que le marquage diatopique ne se fait pas uniquement avec des marques mais
peut aussi prendre d’autres formes via les étymologies ou les définitions, ce qu’illustrait, pour le premier sous-ensemble de variations, un florilège étendu d’indications
observées, éventuellement en combinaison avec des spécifications ressortissant à
d’autres variables, qui s’articulaient autour de quelques items récurrents – dialectal,
régional / régionalisme 445, mot combiné à divers localisateurs 446 – ou prenaient des
formes plus libres 447. Pour les items ressortissant à une variété de français non métropolitaine, les exemples fournis se limitaient par contre à belgicisme, canadianisme et
helvétisme, conformément à la fois à leur faible représentation dans les dictionnaires
de l’époque et au centrage de l’espace francophone sur le français de France qui prévaut
dans nos dictionnaires généraux, deux caractéristiques qui sont analysées en détail
au § 2.2. de T24, où sont évoqués l’évolution récente de la première et les débats
suscités par la seconde (cf. supra § 2.3.1.).
– Pour ce qui a trait à la traduction lexicale des contacts de langues, Hausmann focalise,
en 1989 comme en 1977, le marquage dit « dia-intégratif » sur les emprunts à l’anglais et, hors indications étymologiques, signale essentiellement ceux-ci comme « anglicismes » – conformément à des pratiques dictionnairiques bien attestées 448 –, ce
qui suscite une interrogation quant à la validité même de la variable dia-intégrative :
est-il légitime d’autonomiser celle-ci dès lors que le marquage qui en est l’incarnation
revêt une valeur dianormative systématique 449, à laquelle Hausmann (1977) faisait
d’ailleurs écho, sans toutefois pousser l’observation jusqu’à cette ultime conséquence ? 450
443 Selon le « Tableau des signes conventionnels, conventions et abréviations » de ce dictionnaire, la marque mod.
« insiste sur le fait qu’un sens, un emploi est d’usage actuel, quand le sens précédent ou les emplois voisins
sont vieux (vx), vieillis, archaïques (abandonnés). » (version électronique de 2005). Spécification similaire dans
le tableau correspondant du Nouveau Petit Robert électronique de 2001.
444 On peut d’ailleurs observer que, si moderne est bien en usage dans des dictionnaires généraux actuels, il n’en
va pas de même des marqueurs de néologie, désormais inusités par exemple dans le Petit Robert, qui, originellement, en usait assez abondamment (cf. Hausmann (1977 : 114)).
445 Pop. et régional, vieux ou régional, anciennement régional, régionalisme (Lyon), régionalisme (Midi), régionalisme (Nord), vieux ou régionalisme.
446 Mot dauphinois, mot de l’Artois, mot des Alpes françaises, mot du Nord, mot du Nord de la France, mot d’un
parler du Massif central, mot du Rouergue, mot du Sud-Est de la France, mot picard, mot toulousain, mot
régional (Rouergue), mot d’argot provençal.
447 Désigne parfois encore, dans l’Ouest de la France … ; en Bretagne le … est appelé … ; nom donné à … en
Bretagne et en Normandie ; nom méridional de … ; se dit principalement dans le Midi ; synonyme méridional
de ….
448 À côté de ses centaines d’occurrences de la marque anglic., le Nouveau Petit Robert électronique de 2001 ne
caractérise que deux items comme germanismes (restauration 2. et statthalter), un seul comme italianisme
(bravoure 2.) et aucun comme hispanisme.
449 Les tableaux de conventions du Grand Robert et du Nouveau Petit Robert électroniques de 2005 et 2001 respectivement indiquent que la marque anglic. s’utilise pour un « mot anglais, de quelque provenance qu’il
soit » (le Grand Robert précisant que « la notion inclut les américanismes ») qui est « employé en français et
critiqué comme emprunt abusif ou inutile » (à l’exclusion des « mots anglais employés depuis longtemps et
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
265
– Le typage socio-énonciatif des usages, source de beaucoup d’approximations dictionnairiques bien connues 451, est celui qui présente le plus d’écarts apparents entre les
deux modèles de Hausmann, celui de 1977 réunissant sous le marquage diastratique
ce qui, en 1989, est distribué entre la variable diastratique proprement dite et les
variables diamédiale, diaphasique et diatextuelle. Le regroupement de 1977 articulait
des marques relevant de ces variables dans un schéma complexe de « niveaux de
langue » (p. 120) 452 qui visait à montrer, à l’intention d’apprenants du français langue
étrangère, le calage différent du « bon usage » dans l’échelle de ceux-ci selon que le
discours est parlé ou écrit, ce qui introduit en outre une dimension dianormative :
BON USAGE
“Parlé”
“Écrit”
(ridicule !) littéraire
littéraire
soigné
soigné
ÉCRIT
non marqué
PARLÉ
familier
(très) familier populaire
populaire
(vulgaire !)
BON USAGE
Si ces quatre variables apparaissent plus autonomisées chez Hausmann (1989), leur
interpénétration y reste évoquée (p. 652), et toutes ensemble elles n’y font l’objet que
du seul article 57 de l’EIL, sous l’intitulé de « marques stylistiques / diastratiques »
(P. Corbin (1989a) 453).
De fait, s’agissant de la variable dite « diamédiale », qui concerne les canaux qu’empruntent les discours, cette autonomie ne va pas de soi en matière d’usages lexicaux.
On peut en effet se demander dans quelle mesure il est possible d’isoler ces canaux de
classes de discours définies, qui se rattachent au « diatextuel » de Hausmann (1989),
et c’est avec l’hypothèse que c’est au niveau de celles-ci que peuvent s’observer les
variations fines des usages que j’ai abordé la constitution de corpus, notamment oraux,
dits “à haut rendement” 454. La réflexion serait de toute façon à reprendre dans sa globalité pour intégrer la prise en compte des modes scripturaux de masse apparus avec
les nouvelles technologies, dont T24 § 2.4. évoque de récentes exploitations diction-
450
451
452
453
454
normalement en français »). Il arrive même, dans certains articles de ces dictionnaires, que la marque anglic.
soit accompagnée, de façon redondante, par l’indication critiqué (par exemple s.v. best of ), tandis que, dans le
Petit Larousse électronique millésime 2005, la marque anglicisme a pour qualifiant régulier déconseillé (par
exemple s.v. cameraman).
Les rapprochements effectués à deux reprises par Hausmann (1977 : 113 et 117) entre anglicismes ou américanismes et néologismes ajoutent au questionnement sur la spécificité de la variable dia-intégrative.
Outre les deux textes de Hausmann, cf. notamment D. & P. Corbin (1980) et P. Corbin (1989a).
Ce schéma prenait appui notamment sur diverses marques observées dans des articles de dictionnaires qui
associaient à langue une pluralité de prédicats (littéraire, soignée, soutenue, écrite, standard, parlée, de la
conversation, familière, très familière, populaire), à quoi s’ajoutait argot (p. 121).
Commentant son article de l’EIL, P. Corbin (2006 : 109) indique pour sa part qu’il y a associé aux marques
diastratiques réunies par Hausmann (1977) trois finalités non désignées comme telles par ce dernier : « la
discrimination d’usages socialement marqués, la spécification de conditions d’énonciation et l’expression de
jugements de bienséance », le dernier élément intégrant implicitement une composante diaévaluative dans
certains marquages diastratiques.
Cf., au § 1.3., les réflexions concernant les typages de discours qui introduisent la présentation du corpus footballistique Rcorp1 et les qualités de celui-ci comparées à celles des autres corpus relatifs au même thème
(Rcorp2 et Rcorp4). Cf. également la présentation du corpus de paratextes de dictionnaires Rcorp12 et
le retour sur l’analyse du vocabulaire des lexicographes proposée dans T18 (§ 1.4.3.) et sur les réflexions développées dans T24 (§ 2.3.1.).
266
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
nairiques explicitées. Mais, en tout état de cause, il n’est pas sûr que le paramètre diamédial soit d’une grande utilité métalexicographique pour le domaine français, dont les
dictionnaires généraux semblent faire peu état de l’oralité 455 et réfèrent volontiers à
l’écrit par des voies indirectes qui, justement, évoquent certains types de discours 456.
Mieux isolée également par Hausmann (1989) qu’en 1977, où elle se mêlait étroitement au jeu des registres, la variation des usages lexicaux imputable à des groupes
sociaux déterminés y fait cependant l’objet d’une présentation en partie contestable,
tant par la référence à une dichotomie sociologique primaire contrastant « classe supérieure » et « classe inférieure » sans corrélat lexicographique avéré 457 que par la présence de fam. parmi les exemples de marques en compagnie de pop., ce qui traduit un
amalgame du diaphasique, auquel la marque fam. devrait logiquement être référée 458,
et du diastratique qui perpétue la représentation de 1977 et contredit la typologie
nouvelle. En revanche, la mention de « groupes d’enfants ou d’écoliers », qui fait sortir
le champ du diastratique de catégories sociologiques élémentaires, ouvre sur des corrélats dictionnairiques observables (dont cependant Hausmann ne donne pas d’illustration en 1989 et qu’il évoquait en 1977 comme s’intégrant mal à sa typologie (pp.
129-130)), qu’il s’agisse de ce qui y est présenté comme relevant du “parler enfantin”,
à quoi j’ai consacré T22 (cf. § 2.4.3.), ou de ce qui y est codé comme argot scolaire.
Dernière composante de l’appareil de description des variations de source socioénonciative, l’affectation de particularités lexicales à des types de discours – plus spécifiquement, Hausmann (1989) évoque en fait des types de textes (« Textsorte ») – ne
va pas non plus sans poser certains problèmes de concurrence de variables : si biblique
constitue une spécification textuelle stricte – mais de peu de portée dictionnairique 459 –
et que poétique peut qualifier un ensemble bien circonscrit de productions textuelles,
dont les tableaux de conventions des dictionnaires Robert dessinent les contours (cf.
T24 n. 76), littéraire, impliqué par Hausmann (1977 : 120) dans l’appréciation du bon
usage (cf. supra) et dont les emplois effectifs tirent communément vers le diaphasique
(ibid.), couvre, au sens propre, un vaste ensemble de productions textuelles aux frontières floues, trop hétérogènes pour être réduites à une variété discursive unique. Concernant journalistique et administratif, enfin, on peut hésiter, comme l’observe Hausmann (1989 : 652) pour ce dernier typage, entre les variables diatextuelle et diatechnique, selon qu’on se focalise plus ou moins sur le mode énonciatif ou sur le contenu
informationnel des énoncés, et l’observation des marquages effectués dans le Petit Ro455 Trois mentions seulement dans le Nouveau Petit Robert électronique millésime 2010, s.v. donf (à) (« (oral) »),
guillemet (« Loc. orale ») et 2. pas II. 4. (« (cour. dans la langue orale) »). Cf. déjà Hausmann (1977 : 123).
456 Dans le Grand Robert ou le Nouveau Petit Robert (électroniques de 2005 et millésime 2010 respectivement), ce
peut être par des marques comme admin. ou littér., que les tableaux de conventions de ces dictionnaires destinent respectivement à l’identification de ce qui ressortit à « la langue écrite de l’administration » et à « la
langue écrite élégante ».
457 Cf. Rey (1983 : 564, cité dans T24 n. 67) commentant l’isolement sociologique de populaire dans le jeu des
marques d’usage : « la marque “populaire” signifiant “unité employée par les locuteurs appartenant au peuple”,
devrait engendrer les marques “bourgeois”, “paysan”, “intellectuel”, “ouvrier”, etc., inutilisées et probablement inutilisables. ».
458 Les dictionnaires actuels s’accordent pour caractériser familier comme un indicateur de registre indépendant de l’appartenance sociale (cf. T11 § 1.3., T24 n. 64. et § 2.4.1. infra).
459 Le Nouveau Petit Robert électronique millésime 2010 y réfère dans le marquage, sous des formes diverses,
d’une petite dizaine d’items (par exemple s.v. fornication).
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
267
bert peut inciter à penser que la dimension diatextuelle ne soit pas de même nature
pour journalistique et pour administratif (que Hausmann (1977 : 130) regroupait avec
les marques commercial, juridique et religieux dans un ensemble de “manières de s’exprimer” (« Sprachstile ») hors typologie) 460.
– Concernant l’appréciation du caractère spécialisé ou non des usages lexicaux, la variable diatechnique de Hausmann (1989) connote tacitement, par les deux marques
botanique et viticulture qui l’illustrent, la distinction opérée en 1977 entre ce qui peut
être marqué par les dictionnaires d’une part par didactique ou scientifique, d’autre
part par technique, ou par des hyponymes de ces termes dont il fournissait des listes
(pp. 131-132). Cette partition classique ancre l’approche des lexiques spécialisés dans
les terminologies mais n’intègre pas les variations diaphasiques et diatextuelles au
sein d’un champ d’activité 461 qui peuvent donner lieu dans les dictionnaires à des marquages combinant argot et des prédicats domaniaux (méd., milit., scol. 462, etc.), que
Hausmann (1977 : 125-126) ne faisait qu’évoquer dans le développement composite
sur le marquage diastratique qui a été commenté précédemment et qu’il réunissait
un peu plus loin dans un ensemble de “parlers de groupes” (« Gruppensprachen ») décrits comme ni diastratiques, ni diatechniques, ni connotatifs (pp. 129-130).
– « Connotatif », justement, était chez Hausmann (1977) la dénomination du typage
devenu « diaévaluatif » en 1989, la trace de l’appellation initiale se conservant dans
l’utilisation de “connoté” (« konnotiert ») pour caractériser les items lexicaux qui ressortissent à ce type du fait que, outre leurs denotata, ils traduisent un rapport de l’énonciateur à son énoncé. Hausmann (1977 : 128-129) en illustrait un large choix de manifestations dictionnairiques, ordonnées implicitement sur une échelle de distinction
décroissante 463, et dont certaines, comme recherché, ne paraissent pas éloignées de
marques diaphasiques.
– Concernant les traitements dictionnairiques de la fréquence lexicale, parmi lesquels
le Trésor de la langue française, avec les statistiques sur corpus mentionnées dans ses
articles, constitue une exception, Hausmann (1989) reprend l’opposition entre les pôles
“fréquent” et “rare” mise en œuvre en 1977 (p. 133). Probablement motivé par l’implication déjà évoquée de l’auteur dans la didactique du français, qui lui fait inventorier
460 Si le millésime 2010 de ce dictionnaire (version électronique) ne présente guère qu’un nombre infime de mentions d’un style administratif (s.v. ébriété et reconsidérer) ou journalistique (s.v. édile 2.), en revanche,
l’utilisation assez abondante de la marque admin. touche essentiellement des emplois lexicaux observés dans
des textes administratifs qui concernent des réalités de diverses natures (comme celles auxquelles réfèrent,
par exemple, automobile, confidentialité, duplicata, sectoriser, etc.), ce qui rapproche le diatextuel du diaphasique, tandis que les occurrences, moins nombreuses, des marques journal. ou presse tendent à s’appliquer préférentiellement à des items référant à des réalités de la presse, et donc plus diatechniques en ce
qu’ils ressortissent à un jargon professionnel (par exemple brève, intertitre, marronnier, etc.).
461 Pour rappel, c’est l’intérêt pour ce type de variation peu décrit qui a suscité la constitution des corpus Rcorp1,
2 et 4 et Rcorp12, qui ont permis d’aborder le lexique afférent respectivement au football et à la lexicographie en prenant en compte l’incidence des types de discours sur les usages observés (cf. T4 § 2. et T18
§ 1. et supra l’introduction du § 1.3. et les §§ 1.3.2. et 1.4.3.).
462 Dans le Nouveau Petit Robert électronique millésime 2010, ces marques concernent respectivement des items
comme néo (s.v. néoplasme), arrosage (au sens de “bombardement”) ou archicube.
463 Solennel, noble, recherché, affecté, un peu affecté, emphatique, par exagération, ironique, par antiphrase, plaisant, par plaisanterie, péjoratif, par dénigrement, par mépris, injure, grossier, vulgaire, trivial.
268
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
les dictionnaires de mots fréquents existants (§§ 8.7.1. et 8.7.2.), ce cadrage n’est pas en
adéquation avec la bipolarité ordinaire de nos dictionnaires généraux, qui, au “rare”,
exprimé par diverses marques dont Hausmann (1977 : 137-138) faisait état (rare, peu
usité, inusité), n’opposent pas le “fréquent” mais le non-rare, signifié implicitement
par l’absence de marque 464. 465
– Enfin, chacun des deux marquages, incorrect et emploi critiqué, par lesquels Hausmann
(1989) illustre les observations expressément normatives des dictionnaires, incarne
une des modalités de celles-ci, selon que le lexicographe formule un jugement à son
propre compte ou qu’il l’énonce en discours rapporté. Sans faire état de cette distinction, Hausmann (1977 : 139-140) fournissait plusieurs exemples de marques ou de
formules de l’un ou l’autre type 466, à propos desquels on peut remarquer qu’aucun
n’appartient aux prescriptions positives des dictionnaires, dont une part importante,
il est vrai, s’exprime aujourd’hui par la mention de recommandations officielles 467
dont l’instauration, liée à la Loi du 4 août 1994 relative à l’emploi de la langue française 468, est trop récente pour avoir pu être prise en compte par Hausmann.
464 Indirectement, des marques qui ressortissent à d’autres variables peuvent être perçues comme des indications
indirectes de fréquence non rare, qu’il s’agisse de moderne, marque diachronique évoquée supra, ou d’indicateurs diatechniques comme usuel, dont l’usage, dans le Petit Larousse comme dans les dictionnaires Robert,
semble circonscrit (notamment pour des dénominations vulgaires d’espèces naturelles), ou de courant, dont
la définition dans le « Tableau des termes, signes conventionnels et abréviations du dictionnaire » du Nouveau
Petit Robert électronique millésime 2010 souligne la vocation foncièrement contrastive : « insiste sur le fait
qu’un sens, un emploi est connu et employé de tous, quand le mot est d’apparence savante ou quand les autres
sens sont techniques, savants, etc. ; plus cour. : plus courant que d’autres sens eux-mêmes courants ; ou relativement plus courant que les autres sens (sans être très courant dans l’absolu) ». La stipulation faite à propos
de la marque courant par le tableau correspondant du Grand Robert électronique de 2005, selon laquelle
« [l]’absence de marque correspond aux informations : moderne, courant. », semble autoriser une certaine
extrapolation du diachronique et du diatechnique au diafréquentiel.
465 Une exception relativement récente vient quand même, à sa manière, appuyer Hausmann : il s’agit du Dictionnaire du français, édité par Le Robert et CLE International à l’usage des allophones, qui matérialise par
un symbole au sein des articles les emplois jugés « importants », sur des bases toutefois pas purement fréquentielles (cf. Rey-Debove (1999 : VII) et T11 § 2.1.). Parmi les items ainsi évalués, on peut observer que
certains sont susceptibles de se voir affecter des marques qui ne valorisent pas leur usage, en particulier pour
des apprenants, comme con, conne, conard ou conasse, qui reçoivent l’étiquette « style très familier ».
Cette association originale d’indicateurs diafréquentiels et diaphasiques ou diaévaluatifs peut apparaître
comme une illustration de l’ambivalence des marquages dictionnairiques telle que la maître d’œuvre du
Dictionnaire du français, Josette Rey-Debove, avait pu la formuler en 1971 :
« Au moyen des marques, le lexicographe s’affranchit de la norme puisqu’il présente tous les niveaux de
langue, mais il la respecte aussi, dans la mesure où le cas marqué est choisi par la société, pour les langues
sociales et régionales (du point de vue purement linguistique et fréquentiel, le cas marqué dans les
langues sociales est souvent la norme). » (pp. 91-92).
466 Pour le premier, abusivement, emploi abusif ; pour le second, contesté, contesté par les puristes, critiqué, rejeté
par quelques / certains grammairiens.
467 Selon les tableaux de conventions et abréviations du Grand Robert et du Nouveau Petit Robert (électroniques
de 2005 et millésime 2010 respectivement), leurs indications respectives recomm. off. et recomm. offic. s’appliquent dans ces dictionnaires aux « termes et expressions approuvés ou recommandés par arrêté ministériel, en application des décrets relatifs à l’enrichissement de la langue française ».
468 http://www.culture.gouv.fr/culture/dglf/lois/loi-fr.htm.
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
269
Du cadre de référence aux analyses empiriques
Les quelques remarques qui précèdent soulignent certaines limites, des points discutables ou des aspects révisables de la typologie des marquages dictionnairiques de
Franz Josef Hausmann considérée dans ses deux versions de 1977 et 1989, comme il
en va de toute construction théorique visant à modéliser des pratiques empiriques
d’une certaine complexité. Il n’en reste pas moins que cette grille, plus élaborée, par
les onze types qu’elle distingue, que celles que proposent les dictionnaires et étayée
par une solide documentation métalexicographique, apporte une aide appréciable à la
conduite d’analyses particulières de marquages d’usages lexicaux et offre un cadre
permettant, par sa précision dans la couverture de l’ensemble des paramètres de variation, l’identification des valeurs de la plupart des indications observées moyennant,
dans certaines situations, les ajustements jugés opportuns (comme, par exemple, l’affectation, évoquée précédemment, de la marque familier à la variable diaphasique).
C’est sur cette base que la typologie de Hausmann a été utilisée, selon des modalités
différentes, pour classer certains observables dans les trois articles que j’ai consacrés
au marquage des usages dans des dictionnaires français récents ou actuels. Dans T11,
qui propose une vue d’ensemble des options des dictionnaires généraux des deux dernières décennies avec une attention particulière portée à ceux qui sont destinés aux
apprenants, elle sert à la fois de repère fixe pour la comparaison des dispositifs affichés
dans les paratextes des répertoires et d’outil de discrimination des types de marquages
actualisés dans ceux qui sont destinés à des apprenants de différents niveaux. Dans
T14, qui explore cette même classe de dictionnaires, elle est utilisée pour typer les
différentes voies par lesquelles les discours prescriptifs sont susceptibles de s’y exprimer en dehors des indications proprement normatives. Enfin, T22 l’exploite pour l’identification des types de marques qui sont susceptibles d’être associées aux indications
stipulant que certains items ressortissent au parler dit “enfantin”.
2.4.1. Étude de la variété des marquages [T11 (à paraître b) ; Rbd3]
L’objectif de T11, corédigé avec Pierre Corbin, était de présenter un état des principes de marquage retenus par les dictionnaires français généraux pour locuteurs
confirmés (§ 1.) et pour apprenants (§ 2.) des deux dernières décennies, pour faire
suite aux travaux, de couverture variable, de Hausmann (1977), D. & P. Corbin (1980),
P. Corbin (1989a) et Glatigny (1989) notamment.
Pour les lexicographes, le typage à grande échelle d’usages lexicaux hétérogènes
en fonction de diverses variables n’est pas une tâche aisée, du fait qu’ils n’ont nécessairement qu’une connaissance indirecte d’une part plus ou moins importante de ces
usages (cf. Rey-Debove (1971 :43)), que l’appréciation de ceux-ci se prête aux préjugés
idéologiques et que, pour des raisons de place, elle doit communément prendre la forme
condensée d’une étiquette par essence simplificatrice 469. L’action conjuguée de ces facteurs peut être à la fois source d’inertie, un marquage déterminé étant susceptible de
469 Sur l’évolution historique qui a vu les “marques d’usage” se substituer progressivement à des appréciations
plus textualisées, cf. Glatigny éd. (1990) et Glatigny (1998).
270
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
perdurer longtemps dans les avatars successifs d’un même texte dictionnairique, et
d’incertitude, des données identiques ou similaires pouvant être affectées de marquages
différents d’un dictionnaire à un autre, voire au sein d’un même répertoire. Sur la durée,
cependant, certaines tendances évolutives se dessinent, dans l’histoire d’un ouvrage
particulier ou dans la production d’ensemble d’un éditeur, voire même sur l’ensemble
de l’offre proposée aux utilisateurs. C’est à cet aspect des pratiques récentes de marquage dans la lexicographie française que nous nous sommes attachés dans T11.
Concernant les dictionnaires généraux (§ 1.), nous avons observé quatre tendances,
présentées en introduction et à chacune desquelles nous avons consacré un développement particulier : (i) une meilleure explicitation des principes de description de la
variété des usages, (ii) une révision des marquages diastratiques et diaphasiques,
(iii) une motivation normative souvent sous-jacente aux marquages diaphasiques et
(iv) la persistance de formes de marquage plus textuelles que les marques proprement
dites, par le canal des définitions.
Explicitation des marques des dictionnaires généraux destinés à un large public
Les §§ 1.1. et 1.2. sont consacrés à la première de ces tendances. La comparaison
des paratextes des répertoires proposés par les trois éditeurs majeurs, que synthétisent
les figures 71 à 73 ci-dessous, inspirées de ce qui avait été présenté dans l’exemplier
de C13 mais qui n’ont pu être intégrées dans T11, nous a permis de constater certaines différences de positionnement éditorial.
– Dictionnaires Robert
Les dictionnaires généraux Robert, qui entretiennent des parentés textuelles de
divers ordres, présentent, depuis la première édition du Petit Robert en 1967, une certaine stabilité dans leurs marquages articulés autour des variables temps, espace, fréquence, société et domaines spécialisés, avec des fluctuations dans les dénominations
et les mises en relief selon les ouvrages et leurs éditions dont la comparaison des préfaces des refontes du Grand Robert (1985), du Petit Robert (1993) et du Micro Robert
(1988) synthétisée et mise en relation avec la typologie de Hausmann (1989) dans la
figure 71 donne un aperçu significatif. On peut ainsi y observer certaines variations
dans le nom des variables entre le Grand Robert et le Nouveau Petit Robert, l’absence
de spécification de celles-ci dans le Micro Robert (probablement moins théorique du
fait de sa vocation de dictionnaire didactique) et, dans les trois ouvrages, le fait qu’il
est possible, sur la base de leur caractérisation, de corréler certaines marques (fam.,
littér., pop.) à plus d’un des types de Hausmann (1989).
Figure 71. Typage des marques présentées dans les préfaces
des Grand Robert (1985), Nouveau Petit Robert (1993) et Micro Robert (1988)
Les données relevées dans ce tableau proviennent respectivement des paragraphes intitulés « Le fonctionnement social du français dans les dictionnaires » (relatif aux « conditions normales d’emploi »)
dans le Grand Robert, « Variétés du français » (relatif aux « valeurs sociales d’emploi des mots et
des sens ») dans le Nouveau Petit Robert et « Jugements sociaux et marques d’usage » (relatif aux
« valeurs d’emploi ») dans le Micro Robert.
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
TYPE DE
MARQUAGE
(Hausmann
(1989))
Grand Robert
(1985, pp. XXXIX-XLI)
Nouveau Petit Robert
(1993, pp. XIII-XIV)
271
Micro Robert
(1988, p. XV)
variable « temps » :
pas de variable spécifiée :
variable « temps » :
• pour « des emplois vieux • pour « ce qui est donné
• pour des mots « qui peu[…], vieillis ou archaïcomme un archaïsme » :
vent être utilisés comme
ques » : vx, vieilli
vx, vieilli
archaïsmes » : vx (“vieux”),
diachronique
• pour « un emploi normal • pour ce qui est « en usage
vieilli
de nos jours » : « non maraujourd’hui » : « non marqué » ou, en contraste,
qué » ou, en contraste,
mod. (“moderne”)
mod. (“moderne”)
diatopique
dia-intégratif
diamédial
variable « espace » :
variable « espace » :
• pour les mots de la « fran- • pour les « régionalismes
cophonie » non métropode France et d’ailleurs » :
litaine : “en français
soit région., qui peut être
d’Afrique”, “français des
précisé par “Québec”,
Antilles”, etc.
“Français d’Afrique”, etc.,
• pour les « termes régiosoit “Au Québec”, “En
naux de France » : régioSuisse”, etc.
nal
pas de variable spécifiée :
pour des « emprunts à
l’anglais » discutés : anglic. (“anglicisme”)
•
pas de variable spécifiée :
variable « niveaux de lanvariable « société » :
• pour des « emplois […]
• pour la « langue famigue » :
normaux dans une com- • pour des « emplois réserlière, surtout parlée » :
vés à la langue écrite et à
munication sociale aisée,
fam.
des discours “soutenus” » : • pour la « langue littéraire,
plutôt parlée qu’écrite » :
écrite ou soutenue » : litlittér. (“littéraire”)
fam. (“familier ”)
• typage latent de fam. (“fatér.
milier ”) par le contraste
avec littér.
variable « société » :
variable « niveaux de lanpas de variable spécifiée :
• pour les « emplois réprou- gue » :
• arg. (“argotique”) ? (non
• pour « les usages qui consvés par les personnes
explicité)
tituent de véritables sipourvues d’un « capital
gnaux d’appartenance soscolaire » : pop. (“popuciale » : arg. (“argot, argolaire”)
diastratique
• pour « des mots et […] des
tique”), pop. (“populaire” :
emplois inconnus de la
pour les « emplois qui démajorité des locuteurs » :
notent une scolarisation
“argot”
insuffisante dans certains
milieux sociaux défavorisés »)
272
TYPE DE
MARQUAGE
(Hausmann
(1989))
diaphasique
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Grand Robert
(1985, pp. XXXIX-XLI)
variable « société » :
• pour des « emplois […]
normaux dans une communication sociale aisée,
plutôt parlée qu’écrite, et
dénuée de la contrainte
propre aux échanges officiels, hiérarchiques » :
fam. (“familier ”)
• pour ce qui relève du
« passage de l’argot à la
langue familière » : “argot familier ”
diatextuel
Nouveau Petit Robert
(1993, pp. XIII-XIV)
Micro Robert
(1988, p. XV)
pas de variable spécifiée :
variable « niveaux de lan• pour la « langue littéraire,
gue » :
• « emplois réservés à la
écrite ou soutenue » : litlangue écrite et à des distér.
cours “soutenus” » : littér. • typage latent de fam. (“familier ”) par le contraste
(“littéraire”)
• typage latent de fam. (“faavec une des caractérisamilier ”) par le contraste
tions de littér.
avec une des caractérisations de littér.
variable « domaines du sa- pas de variable spécifiée :
• littér. (« langue littéraire,
voir » :
• pour les « termes » qui
écrite ou soutenue »)
« ne sont en usage que
dans un domaine particulier de la communication
ou dans un type de discours » : « abréviations »
caractérisant un « emploi
didactique, technique ou
scientifique »
variable « usages et discours variable « domaines du sa- pas de variable spécifiée :
• pour les « termes technispécialisés » :
voir » :
• pour les « termes », pas
• pour les « termes » qui
ques et scientifiques » :
d’exemple de marque
« ne sont en usage que
soit en médecine, en scien• pour « un emploi normal
dans un domaine particuces, etc., soit, dans la défide nos jours » : « non marlier de la communication
nition, “Nom zoologique
diatechnique
qué » ou, en contraste,
ou dans un type de disde…”
cour. (“courant”)
cours » : « abréviations » • pour les « mots de la langue didactique, qui ne
caractérisant un « emploi
sont pas spécialisés dans
didactique, technique ou
un domaine précis » : discientifique »
dact.
variable « fréquence » :
• pour des « emplois non
spécialisés et non archaïdafréquentiel
ques très peu attestés, ou
des usages minoritaires
par rapport à une norme » : rare
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
TYPE DE
MARQUAGE
(Hausmann
(1989))
diaévaluatif
dianormatif
Grand Robert
(1985, pp. XXXIX-XLI)
variable « société » :
• « quand le contenu (érotique, scatologique, etc.)
est en cause » : “très familier ”, “familier et vulgaire”
variable « société » :
• pour les « emplois réprouvés par les personnes
pourvues d’un « capital
scolaire » : pop. (“populaire”)
Nouveau Petit Robert
(1993, pp. XIII-XIV)
273
Micro Robert
(1988, p. XV)
pas de variable spécifiée :
variable « niveaux de lan• vulg. (“vulgaire”) ? (non
gue » :
• pour des mots véhiculant
affectée à un type de mar« des contenus qui ne peuquage)
vent être exprimés sans • pour des « emplois grossiers, violents, injurieux »,
danger de choquer » :
« péjoratifs », « de nature
vulg. (“vulgaire”)
• pour des mots véhiculant
raciste » : péj. (“péjoratif ”)
« des contenus […] qui
terme d’injure raciste
manifestent une attitude
hostile et violente » : péj.
(“péjoratif ”), « insulte »,
« injure raciste »
pas de variable spécifiée :
pour des « emprunts à
l’anglais » discutés : anglic. (“anglicisme”)
• en contraste avec des emplois « signalés comme
critiqués » : “correct”
•
Le récapitulatif précédent ne prend pas en compte les indicateurs diatechniques
répertoriés dans les tableaux de conventions et abréviations, dont le nombre est élevé
et tend à croître, passant ainsi au fil des éditions du Petit Robert, d’environ 150 en 1967
à plus de 180 en 1977 et près de 250 en 1993 470. Cette progression n’est pas strictement additive, certains indicateurs pouvant également disparaître à l’occasion d’une
révision. Dans l’inventaire synthétique ci-dessous, des conventions typographiques
permettent de prendre les repères chronologiques appropriés : les indicateurs présents
dans l’édition originale de 1967 sont en italique, ceux qui figurent dans la refonte de
1977 en gras et ceux recensés en 1993 en petites capitales, ces trois traits étant cumulatifs : ainsi, ACOUST. (en petites capitales) est un ajout de 1993, tandis que eaux et
for. (en italique et gras) ne figure que dans les deux premières éditions et que ADMIN.
(en italique, gras et petites capitales) est commun aux trois, etc. La typographie des
opérateurs (virgules, parenthèses…) est neutralisée en romain maigre.
ACOUST. ; ADMIN. ; AÉRONAUT. ; AGRIC. ; AGRON. ; ALCH. ; ALG. ; ALPIN. ; ANAT. ; ANTHROP. ;
ANTIQ. ; APIC. ; ARBOR. ; ARCHÉOL. ; ARCHIT. ; ARITHM. ; ARTILL. ; ARTS (ou EN ART) ; ASTROL. ;
470 Le caractère approximatif de ces chiffres reflète certaines incertitudes du dénombrement qui ne seront pas
exposées ici. Par rapport à l’ordre de grandeur et à la progression du Petit Robert, le Dixel 2010, premier dictionnaire “encyclopédique” Robert, dont l’« Avant-propos » ne fait pas référence au marquage des usages,
apparaît en rupture, avec un jeu d’indicateurs diatechniques ramené à la centaine d’unités, ce qui correspond
approximativement à la moitié du nombre de ceux des dictionnaires qu’il a vocation à concurrencer, le Petit
Larousse et le Dictionnaire Hachette (cf. infra). Cette simplification, dont les principes et les modalités mériteraient d’être étudiés, passe notamment par des neutralisations de distinctions, comme par exemple celle qui
fait n’utiliser que psych. pour tout « terme didactique de psychanalyse, de psychiatrie ou de psychologie »,
alors que le Petit Robert distingue en l’occurrence trois indicateurs différents (auxquels s’en ajoutent trois
autres, qui affinent encore le balisage domanial : psychopathol., psychophysiol. et psychotechn.).
274
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
ASTRON. ; ASTRONAUT. ; ATHLÉT. ; AUDIOVIS. ; auto. / AUTOM. ; AVIAT. ; bactér. / BACTÉRIOL. ;
BALIST. ; BÂT. ; BIJOUT. ; BIOCHIM. ; biogéogr. ; BIOL. ; BLAS. ; BOT. ; BOUCH. ; BOULANG. ;
BOURSE ; BX-ARTS ; CALLIGR. ; CARACTÉROL. ; CARTES ; CARTOGR. ; CATHOL. (liturg. cathol.) ;
CÉRAM. ; CHARCUT. ; CHARPENT. ; CHASSE ; CHAUSS. (PONTS ET CHAUSS.) ; CH. DE FER ; CHIM. ;
chim. organ. ; CHIR. ; chir. dent. ; CHORÉGR. ; CHRÉT. (LITURG. CHRÉT.) ; CIN. ; COMM. (DR.
COMM.) ; COMMUNIC. ; compt. / COMPTAB. ; CONFIS. ; CONSTR. ; COUT. ; cristall. / CRISTALLOGR. ;
CUIS. ; CYBERN. ; DANSE ; DÉMOGR. ; DENT. (CHIR. DENT.) ; DIDACT. ; DIPLOM. ; DOC. ; DR. (DR.
CAN., DR. CIV., DR. COMM., DR. CR., DR. FISC., DR. INTERNAT., DR. TRAV.) ; eaux et for. ;
ÉBÉN. ; ÉCOL. ; ÉCON. ; écon. polit. ; ÉLECTR. ; ÉLECTRON. ; ÉLECTROTECHN. ; EMBRYOL. ;
ENTOMOL. ; ÉPISTÉM. ; ÉQUIT. ; ESCR. ; ETHNOGR. ; ETHNOL. ; ÉTHOL. ; faucon. / FAUCONN. ;
FÉOD. ; FIN. (DR. FIN.) ; FORTIF. ; GÉNÉT. ; GÉOD. ; GÉOGR. ; GÉOL. ; GÉOM. ; GÉORMORPH. ;
GÉOPHYS. ; GR. (ANTIQ. GR., HIST. GR.) ; gram. / GRAMM. ; GRAV. ; GYMN. ; HÉMATOL. ;
HÉRALD. ; HIPPOL. ; HIST. (HIST. ANT., HIST. MOD., HIST. SC., HIST. RELIG., hist. litt.) ;
HISTOL. ; HORLOG. ; HORTIC. ; HYDROGR. ; ICONOGR. ; IMPRIM. ; INDUS. ; INFORM. ; INGÉN. ;
JARD. ; JEU, JEUX ; JOAILL. ; JOURNAL. ; JUD. (ANTIQ. JUD., RELIG. JUD.) ; jur. ou JURID. ;
LÉGISL. ; LING. ; litt. / LITTÉR. (HIST. LITTÉR.) ; LITURG. (LITURG. CATHOL., CHRÉT., JUD.) ;
LOG. ; MAÇONN. ; MAR. (ARG. MAR.) ; MATH. ; MÉCAN. ; MÉCANOGR. ; MÉD. ; médiév. (hist.
médiév.) ; MENUIS. ; MÉTALL. ; MÉTÉOROL. ; MÉTR. ; métr. ou MÉTROL. ; MICROBIOL. ;
MILIT. ; MINÉR. ; modes ; MOR. ; MUS. (HIST. MUS.) ; MYST. ; MYTH. ou mythol. ; NAVIG. ;
NEUROL. ; NUCL. (PHYS. NUCL.) ; NUMISM. ; OCÉANOGR. ; OPT. ; PALÉOGR. ; PALÉONT. ; PAPET. ;
PARAPSYCHOL. ; PATHOL. ; PÂTISS. ; PÊCHE ; PÉDAG. ; pédol. ; PEINT. ; PÉN. (DR. PÉN.) ;
PÉTR. ; PHARM. ; PHARMACOL. ; PHILO. ; PHONÉT. ; PHONOL. ; PHOT. ; PHYS. ; PHYSIOL. ;
PISCIC. ; POLIT. ; PROCÉD. ; PSYCHAN. ; PSYCHIATR. ; psycho. / PSYCHOL. ; PSYCHOPATHOL. ;
PSYCHOPHYSIOL. ; PSYCHOTECHN. ; pub. ou PUBL. (DR. PUB., TRAV. PUBL.) ; PUBLIC. ;
PYROTECHN. ; RELIG. ; RELIURE ; RHÉT. ; ROM. (ANTIQ. ROM.) ; SC. ; SCOLAST. ; SCULPT. ; séc.
soc. ; SÉMIOL. ; socio. / SOCIOL. ; SORCELL. ; SPÉLÉOL. ; sports / SPORT (aviron, FOOTBALL,
TENNIS, BOXE, etc.) ; STATIST. ; sténo. / STÉNOGR. ; STYLIST. ; SYLVIC. ; TAUROM. ; TECHN. ;
TECHNOL. ; TÉLÉCOMM. ; TÉLÉDÉTECT. ; TÉLÉV. ; THÉÂTRE ; THÉOL. ; tissage ; TOPOGR. ; tr.
pub. ; TRAV. (DR. TRAV., TRAV. PUBL.) ; TURF ; TYPOGR. ; VÉN. ; VERSIF. ; VÉTÉR. ; VITIC. ;
ZOOL. ; ZOOTECHN.
– Dictionnaires Larousse
Larousse n’a pas la même tradition d’explicitation des marquages utilisés dans ses
dictionnaires que Le Robert. Les préfaces se limitent à des dénominations globales (cf.
§ 1.2.), volontiers articulées sur la distinction entre lexique général et lexique spécialisé, et parmi lesquelles « niveaux de langue » est une des plus récurrentes 471. Quant
aux tables de conventions et abréviations, ce n’est qu’à partir du Petit Larousse 1989
qu’elles se sont ouvertes à une explicitation de la valeur de certaines marques, dont
la figure 72 permet d’apprécier les éléments communs et les écarts entre des repères
majeurs de la production récente de l’éditeur 472. Ceux-ci, assez réduits, affectent l’évo471 La réserve de cet éditeur en matière de typologie des marques est particulièrement illustrée par l’avantpropos de la refonte de 1988 du Petit Larousse (millésime 1989), qui détaille l’affinement du marquage opéré
dans cette édition en énumérant plusieurs sous-ensemble cohérents de marques sans les référer à des variables explicitées, alors même que celles-ci se laissent clairement discerner :
« L’analyse en niveaux et en registres a été affinée par l’introduction de nouvelles rubriques (distinctions
entre vieux, vieilli et ancien ; entre familier, populaire, argotique et vulgaire ; entre littéraire et didactique ; entre péjoratif et injurieux, etc.) […] » (« Aux lecteurs », p. 6)
472 Pour le Petit Larousse, le millésime 2006, qui est une version actualisée de la refonte de 1997 (millésime 1998),
fournissait le repère le plus proche du moment de la rédaction de T11. Depuis lors, le Petit Larousse n’a pas
connu de changements, mais le Larousse des noms communs a apporté en 2008 une nouvelle modulation à
la matrice générale, en reprenant l’essentiel des indications du Grand Larousse illustré de 2005, assorties
de quelques retouches, empruntées au Petit Larousse le plus récent ou inédites.
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
275
lution de l’usage de certaines marques (par exemple la régression de populaire et l’apparition de soutenu), le caractère plus ou moins explicite des dictionnaires pour les
mêmes marques (le plus développé étant le Petit Larousse 1989) et l’illustration de
certaines marques par des exemples dans les dictionnaires les plus récents (à partir
du millésime 1998 pour le Petit Larousse).
Figure 72. Explicitation des marques dans différents dictionnaires
“encyclopédiques” Larousse récents
Les données relevées dans ce tableau proviennent respectivement des « Rubriques, abréviations et
termes conventionnels employés dans cet ouvrage » pour les Petit Larousse 1989 et 1992 (pp. 22-24),
des « Abréviations utilisées dans l’ouvrage » pour le Dictionnaire général (pp. XXXV-XXXVI) et des
« Abréviations et signes conventionnels » pour le Petit Larousse 2006 et le Grand Larousse illustré
(respectivement pp. 41-42 et XLI-XLII). Dans les trois derniers répertoires, les marques diatechniques
font l’objet d’une liste distincte, intitulée « Rubriques utilisées dans l’ouvrage » dans le Dictionnaire
général (pp. XXXVI-XXXVII) et simplement « Rubriques » dans le Petit Larousse 2006 (pp. 42-43) et
le Grand Larousse illustré (pp. XLII-XLIII).
Les variantes de marques écrites en petites capitales introduites sous la forme « (ou ARG.) » sont
attestées dans le Dictionnaire général.
Le symbole « ∉ » indique qu’une marque n’est pas mentionnée dans la liste des abréviations et conventions d’un dictionnaire.
MARQUES
Petit Larousse
illustré 1989
(1988)
Petit Larousse
illustré 1992
(1991)
Dictionnaire
général
(1993)
Petit Larousse
illustré 2006
(2005)
Grand Larousse
illustré
(3 vol., 2005)
TYPE DE
MARQUAGE
(Hausmann
(1989))
abusif
« emploi abusif ; « emploi abusif ; ∉
abusivement » abusivement »
AFR.
∉
∉
∉
∉
« ancien ; anciennement (mot qui
n’est ni vieux ni
vieilli mais qui
désigne une réalité aujourd’hui
disparue ou devenue rare) »
« ancien ; ancien- « ancien ; anciennement (mot qui nement »
n’est ni vieux ni
vieilli mais qui
désigne une réalité aujourd’hui
disparue ou devenue rare) »
« ancien ; anciennement (signale
un mot dont
l’emploi n’est ni
vieux ni vieilli,
mais qui désigne
une réalité aujourd’hui disparue ou devenue
rare : aumônière) »
« ancien ; anciennement (signale
un mot dont
l’emploi n’est ni
vieux ni vieilli,
mais qui désigne diachronique
une réalité aujourd’hui disparue ou devenue
rare : aumônière) »
anglic.
« anglicisme »
« anglicisme »
« anglicisme »
« anglicisme »
« anglicisme »
« argot ; argotique »
« argot ; argotique »
« argot ; argotique »
arg. (ou
ARG.)
« argot ; argo« argot ; argotique (mot aptique »
partenant soit
au vocabulaire
des malfaiteurs,
du milieu, soit
au vocabulaire
propre à une
profession ou à
un groupe social) »
arg. mil.
∉
∉
anc.
∉
« africanisme »
« emploi abusif ; « emploi abusif ;
dianormatif
abusivement » abusivement »
diatopique
dia-intégratif
diastratique
« argot militaire » « argot militaire » diastratique
276
MARQUES
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Petit Larousse
illustré 1989
(1988)
Petit Larousse
illustré 1992
(1991)
Dictionnaire
général
(1993)
Petit Larousse
illustré 2006
(2005)
Grand Larousse
illustré
(3 vol., 2005)
TYPE DE
MARQUAGE
(Hausmann
(1989))
arg. scol.
∉
∉
∉
« argot scolaire » « argot scolaire » diastratique
auj.
« aujourd’hui »
« aujourd’hui »
« aujourd’hui »
« aujourd’hui »
« aujourd’hui »
diachronique
autref.
« autrefois »
« autrefois »
« autrefois »
« autrefois »
« autrefois »
diachronique
BELG.
∉
∉
« belgicisme »
∉
∉
diatopique
CAN.
∉
∉
« canadianisme » ∉
∉
diatopique
contemp.
« contemporain » « contemporain » « contemporain » ∉
∉
diachronique
cour.
« courant, couramment »
« courant, couramment »
« courant, couramment »
« courant, couramment »
diatechnique /
diafréquentiel
CRÉOL.
∉
« courant, couramment »
∉
« créolisme »
∉
∉
diatopique
dial. (ou
« dialecte ; diaDIALECT.) lectal, e »
« dialecte ; dialectal, e »
« dialectal »
« dialecte ; dialectal »
« dialecte ; dialectal »
diatopique
« didactique (mot
employé le plus
fréquemment
dans des situadidact. (ou
tions de commuDIDACT.)
nication impliquant la transmission d’un savoir) »
« didactique (mot
employé le plus
fréquemment
dans des situations de communication impliquant la transmission d’un savoir) »
« didactique (mot
employé le plus
fréquemment
dans des situations de communication impliquant la transmission d’un savoir) »
« didactique (mot
employé le plus
fréquemment
dans des situations de communication impliquant la transmission d’un savoir : dual) »
« didactique (mot
employé le plus
fréquemment
dans des situadiatechnique /
tions de commudiatextuel
nication impliquant la transmission d’un savoir : dual) »
« emprunt du ;
emprunté à »
« emprunt du ;
emprunté à »
« emprunt du ;
emprunté à »
∉
∉
« exagération
(par) »
« exagération
(par) »
∉
« par exagération »
« par exagération »
empr.
exagér.
(ou par
exagér.
473)
dia-intégrative
diaévaluative
fam. (ou
FAM.)
« familier ; fami- « familier ; fami- « familier ; fami- « familier ; fami- « familier ; familièrement (mot lièrement »
lièrement »
lièrement »
lièrement »
réservé à la communication entre
proches et généralement évité
dans les situadiaphasique
tions formelles,
notamment celles qui mettent
en jeu des rapports hiérarchiques) »
HELV.
∉
∉
∉
diatopique
impropr.
« improprement » « improprement » « improprement » ∉
∉
dianormatif
∉
helvétisme
473 Dans le Petit Larousse 2006 et le Grand Larousse illustré.
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
MARQUES
Petit Larousse
illustré 1989
(1988)
Petit Larousse
illustré 1992
(1991)
Dictionnaire
général
(1993)
Petit Larousse
illustré 2006
(2005)
Grand Larousse
illustré
(3 vol., 2005)
277
TYPE DE
MARQUAGE
(Hausmann
(1989))
∉
injur.
« injurieux (mot « injurieux »
généralement
employé dans
l’intention de
porter atteinte
à la dignité ou à
la réputation de
quelqu’un) »
« injurieux (mot
employé pour
blesser ou pour
nuire à la réputation de qqn :
vendu, e) »
« injurieux (mot
employé pour
blesser ou pour
nuire à la répudiaévaluatif
tation de qqn :
vendu, e) »
iron.
« ironique ; ironiquement »
« ironique ; ironiquement »
« ironique ; ironiquement »
« ironique ; ironiquement »
« ironique ; ironiquement »
« littéraire (mot
employé surtout
par les écrivains
dans le registre
élevé) »
« littéraire (mot
que l’on rencontre surtout dans
les textes écrits) »
« littéraire (mot
que l’on rencontre surtout dans
les textes écrits) »
« littéraire (mot
que l’on utilise
surtout à l’écrit
ou dans des relations sociales
réglées par des
conventions, et
qui produit un
effet de sérieux
ou d’élégance :
brasiller, superfétatoire) »
« littéraire (mot
que l’on rencontre surtout dans
les textes écrits :
brasiller) »
« militaire »
« militaire »
« militaire ; militairement »
∉
∉
diastratique
« moderne »
« moderne »
« moderne »
« moderne »
« moderne »
diachronique
litt. (ou
LITT.)
mil.
mod.
diaévaluatif
diaphasique /
diamédial
« par plaisante- « par plaisante- « par plaisante- « par plaisante- « par plaisantepar plais.
diaévaluatif
rie »
rie »
rie »
rie »
rie »
« péjoratif »
« péjoratif »
« péjoratif »
« péjoratif ; péjorativement (mot
qui indique le
mépris dans lequel est tenu
qqn ou qqch :
clientélisme) »
« péjoratif ; péjorativement (mot
qui indique le
mépris dans le- diaévaluatif
quel est tenu
qqn ou qqch :
clientélisme) »
« poétique »
« poétique »
« poétique »
« poétique »
« poétique »
péj. (ou
péjor. 474)
poét.
474 Dans le Dictionnaire général.
diatextuel
278
MARQUES
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Petit Larousse
illustré 1989
(1988)
Petit Larousse
illustré 1992
(1991)
Dictionnaire
général
(1993)
Petit Larousse
illustré 2006
(2005)
∉ 476
Grand Larousse
illustré
(3 vol., 2005)
∉ 475
pop.
« populaire (mot « populaire »
usité surtout
par les locuteurs
appartenant aux
couches sociales
les moins aisées,
et peu employé
par la bourgeoisie cultivée, sauf
effet de style) »
recomm.
off.
« recommandation officielle »
« recommandation officielle »
« recommandation officielle »
région. (ou « régional »
RÉGION.)
« régional »
« régionalisme ; « régional »
régional »
« régional »
scol.
TYPE DE
MARQUAGE
(Hausmann
(1989))
« populaire »
diastratique
« recommandation officielle »
« recommandation officielle »
dianormatif
diatopique
« scolaire »
« scolaire »
« scolaire »
« scolaire »
« scolaire »
∉
∉
« soutenu »
∉
« soutenu (mot
employé dans
des relations
sociales réglées
par des convendiaphasique
tions et produisant un effet de
sérieux ou d’élégance : superfétatoire) »
∉
« très familier,
très familièrement »
« très familier » « très familier ;
très familièrement (mot grossier, parfois injurieux : conneau) »
« vieilli (mot qui
tend à sortir de
l’usage, mais
qui reste compris de la plupart des locuteurs natifs).
Voir anc. et vx. »
« vieilli (mot qui
tend à sortir de
l’usage, mais
qui reste compris de la plupart des locuteurs natifs.)
Voir VX. »
sout. (ou
SOUT.)
très fam.
(ou
T. FAM.)
« vieilli (mot qui
tend à sortir de
l’usage, mais
qui reste comvieilli (ou
pris de la pluVIEILLI)
part des locuteurs natifs) »
« vieilli (mot qui
tend à sortir de
l’usage, mais
qui reste compris de la plupart des locuteurs : indéfrisable). Voir anc.
et vx. »
diastratique
« très familier ;
très familièrement (mot grosdiaévaluatif
sier, parfois injurieux : conneau) »
« vieilli (mot qui
tend à sortir de
l’usage, mais
qui reste compris de la pludiachronique
part des locuteurs : indéfrisable). Voir anc.
et vx. »
475 Cette abréviation est présente dans la liste, mais accompagnée du décodage « populaire (lat. pop.) », qui
signifie qu’elle doit ne se rencontrer que dans les constituants étymologiques des articles.
476 Cette abréviation était encore présente dans le Petit Larousse 2005 (2004).
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
MARQUES
vulg. (ou
VULG.)
Petit Larousse
illustré 1989
(1988)
« vulgaire ; vulgairement (mot
renvoyant à une
réalité frappée
de tabou, le plus
souvent d’ordre
sexuel ou excrémentiel, et qu’il
est considéré
comme malséant
d’employer en
public) »
« vieux (mot qui
n’est plus compris ni employé,
vx (ou VX) sauf dans une
intention délibérée d’archaïsme) »
Petit Larousse
illustré 1992
(1991)
Dictionnaire
général
(1993)
Petit Larousse
illustré 2006
(2005)
Grand Larousse
illustré
(3 vol., 2005)
279
TYPE DE
MARQUAGE
(Hausmann
(1989))
« vulgaire ; vul- « vulgaire »
gairement (mot
renvoyant à une
réalité frappée
de tabou, le plus
souvent d’ordre
sexuel ou excrémentiel) »
« vulgaire ; vulgairement (signale un mot
renvoyant à une
réalité frappée
de tabou, le plus
souvent d’ordre
sexuel ou excrémentiel : chaudepisse) »
« vulgaire ; vulgairement (signale un mot
renvoyant à une
réalité frappée
de tabou, le plus
diaévaluatif
souvent d’ordre
sexuel ou excrémentiel : chaudepisse) »
« vieux (mot qui
n’est généralement plus compris ni employé).
Voir anc. et vieilli. »
« vieux (mot qui
n’est généralement plus compris ni employé :
accordailles).
Voir anc. et vieilli. »
« vieux (mot qui
n’est généralement plus compris ni employé : diachronique
accordailles).
Voir anc. et vieilli. »
« vieux (mot qui
n’est généralement plus compris ni employé).
Voir VIEILLI. »
Comme précédemment pour les dictionnaires Robert, les nombreux indicateurs diatechniques ne sont pas pris en compte dans le tableau ci-dessus. Chez Larousse, ces
indicateurs, qui sont toujours en petites capitales dans les ouvrages considérés, présentent deux types de formulations : « COMPTAB. comptabilité » pour les abréviations,
et « BANQUE terme particulier au vocabulaire de la banque » quand ce qui est décodé
n’est pas une forme abrégée. Comme pour les éditions successives du Petit Robert (cf.
supra), la comparaison des indicateurs répertoriés dans les tableaux de conventions
et abréviations des dictionnaires Larousse examinés permet aussi d’observer des variations. Si la nomenclature plus réduite et le projet didactique du Dictionnaire général
y maintiennent le nombre de ces marques à environ 180, celui-ci s’affiche autour de 200
dans les quatre autres ouvrages, qui sont tous des variations autour du même texte, le
Grand Larousse illustré utilisant comme base celui du Petit Larousse. Pour autant, cette
stabilité quantitative n’équivaut pas à une indifférenciation qualitative : à cet égard,
l’écart est au contraire important entre d’une part les Petit Larousse 1989 et 1992 et
d’autre part le Petit Larousse 2006 et le Grand Larousse illustré, qui constituent deux
ensembles homogènes présentant une centaine de différences, dans lesquelles le nombre
des suppressions équivaut presque à celui des ajouts. Le récapitulatif ci-dessous adopte
les mêmes conventions que celles utilisées pour le Petit Robert, l’italique étant affecté
aux Petit Larousse 1989 et 1992, le gras au Dictionnaire général et les petites capitales
au Petit Larousse 2006 et au Grand Larousse illustré.
ACOUST. ; ADMIN. ; AÉRON. ; AGRIC. ; AGROALIM. ; alch. / ALCHIM. ; alg. / ALGÈBRE ; ALP. ; ANAL. ;
ANAT. ; ANTHROP. ; anthrop. phys. ; ANTIQ. ; ANTIQ. GR. ; ANTIQ. GR. ET ROM. ; ANTIQ. ROM. ;
APIC. ; ARBOR. ; ARCHÉOL. ; ARCHIT. ; ARITHM. ; ARM. ; art contemp. ; ART MOD. ; artill. ; ARTS
APPL. ; arts déc. ; arts graph. ; arts plast. ; ASTROL. ; ASTRON. ; ASTRONAUT. ; astrophys. ;
AUDIOVIS. ; AUTOM. ; AVIAT. ; avic. ; bactér. ; BANQUE ; BIJOUT. ; BIOCHIM. ; BIOL. ; BIOL.
280
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
CELL. ; BOIS ; BOT. ; BOUCH. ; BOURSE ; boxe ; BROD. ; bx-a. / BX-ARTS. ; CARTOGR. ; CATH. ;
CHASSE ; CH. DE F. ; CHIM. ; CHIM. INDUSTR. ; CHIM. MINÉR. ; CHIM. ORG. ; chir. / CHIRURG. ;
chorégr. ; chrét. ; CHRIST. ; cin. / CINÉMA ; climatol. ; COMM. ; COMPTAB. ; CONSTR. ; COST. ;
COUT. ; CRISTALLOGR. ; CUIRS ; CUIS. ; cybern. ; CYCL. ; cytol. ; DANSE ; déf. ; DÉMOGR. ; DESS.
INDUSTR. ; DR. ; dr. adm. / DR. ADMIN. ; dr. anc. ; dr. can. / DR. CANON ; DR. CIV. ; DR. COMM. ;
DR. CONSTIT. ; dr. coutum. ; dr. féod. ; DR. FISC. ; DR. INTERN. ; DR. MAR. ; DR. PÉN. ; dr.
rom. ; ÉCOL. ; ÉCON. ; ÉLECTR. ; ÉLECTROACOUST. ; ÉLECTROMAGN. ; ÉLECTRON. ; ÉLECTROTECHN. ; ÉLEV. ; EMBRYOL. ; ÉNERG. ; ENSEIGN. ; ENTOMOL. ; ÉPISTÉMOL. ; ÉQUIT. ; escr. ;
ethnogr. ; ETHNOL. ; ÉTHOL. ; fauc. / FAUCONN. ; FÉOD. ; FIN. ; forest. ; FORTIF. ; GÉNÉT. ;
GÉOGR. ; GÉOL. ; géom. / GÉOMÉTR. ; GÉORMORPH. ; GÉOPHYS. ; GRAMM. ; GRAV. ; HÉRALD. ;
HIST. ; HISTOL. ; HORLOG. ; HORTIC. ; hydrogr. ; HYDROL. ; ICON. ; IMAG. MÉD. ; IMMUNOL. ;
impr. / IMPRIM. ; ind. / INDUSTR. ; INDUSTR. GRAPH. ; INFORM. ; jard. ; JEUX ; LING. ; LITTÉR. ;
liturgie ; LOG. ; MANUT. ; MAR. ; mar. anc. ; MATÉR. ; MATH. ; MÉCAN. ; MÉCAN. INDUSTR. ;
MÉD. ; médiév. ; MENUIS. ; MÉTALL. ; météor. / MÉTÉOROL. ; métr. ; métr. anc. ; MÉTROL. ;
MICROBIOL. ; MIL. ; MIN. ; minér. / MINÉRALOG. ; monn. ; MUS. ; MYCOL. ; MYTH. ; MYTH. GR. ;
MYTH. GR. ET ROM. ; MYTH. ROM. ; NAVIG. ; NEUROL. ; NUCL. ; NUMISM. ; OCCULT. ; océanogr. ;
OCÉANOL. ; OPT. ; ORFÈVR. ; ORNITH. ; OUTILL. ; paléogr. ; PALÉONT. ; PAPET. ; PARAPSYCHOL. ;
pathol. ; PÊCHE ; PÉDOL. ; PEINT. ; PEINT. INDUSTR. ; pétr. / PÉTROLE ; PÉTROL. ; PHARM. ;
PHILOS. ; PHON. ; phot. / PHOTOGR. ; PHYS. ; PHYS. NUCL. ; PHYSIOL. ; POLIT. ; PRÉHIST. ;
PRESSE ; PROBAB. ; procéd. ; PSYCHAN. ; PSYCHIATR. ; PSYCHOL. ; psychopath. / PSYCHOPATHOL. ; RADIODIFF. ; radiol. ; radiotechn. ; REL. ; RELIG. ; relig. chrét. ; RHÉT. ; sc. ; sc.
de la v. ; sc. éduc. ; SCULPT. ; serrurerie ; sexol. ; soc. ; SOCIOL. ; SPÉLÉOL. ; SPORTS ; STAT. ;
STYL. ; sylv. / SYLVIC. ; TECHN. ; technol. ; TÉLÉCOMM. ; TÉLÉV. ; TEXT. ; THÉÂTRE ; TH. DES
ENS. ; théol. ; THÉOL. CATH. ; THÉOL. CHRÉT. ; thérap. ; THERM. ; THERMODYN. ; TOPOGR. ; tr.
publ. / TRAV. PUBL. ; turf ; typogr. ; URBAN. ; vén. / VÉNER. ; VERR. ; VERSIF. ; VÉTÉR. ; VITIC. ;
ZOOL. ; zoot.
– Dictionnaires Hachette
L’offre assez réduite de Hachette n’amène à prendre en compte dans le catalogue
de cet éditeur que son Dictionnaire encyclopédique, qui, sous diverses dénominations,
concurrence le Petit Larousse depuis 1988. La « Note de l’éditeur » de sa première version, le Dictionnaire de notre temps 1989, ne retenait que l’opposition entre « vocabulaires de spécialité » et « niveaux de langue », qui fut déplacée dans le « mode d’emploi »
de l’ouvrage à partir du millésime 1991, avant de revenir dans la « Note de l’éditeur »
à l’occasion de la refonte de 2001 (Dictionnaire Hachette encyclopédique 2002), enrichie
d’une référence au vocabulaire de la francophonie. Les tables de conventions et d’abréviations distinguent corrélativement depuis l’origine les « Indications de vocabulaires
de spécialités » des « Rubriques de langue » (dans les termes du Dictionnaire de notre
temps 1989). Renommées « Marques d’usage » dans le Dictionnaire Hachette encyclopédique 1994, celles-ci y ont fait l’objet d’un typage en fonction des paramètres « lieu »,
« temps » et « faits de société » 477 et la plupart des indicateurs listés se sont vu associer
une définition. Ce principe d’explicitation a été conservé depuis lors, avec des retouches
plus ou moins importantes à l’occasion des millésimes 2002 (qui vit disparaître le
paramètre « lieu » du typage 478) et 2008 (qui, outre la restauration d’un paramètre
« espace », substitua aux « faits de société » la distinction entre ce qui ressortit à un
477 « La marque d’usage qualifie les caractéristiques d’emploi du mot. Elle peut être liée au lieu (régional,
dialectal), au temps (vieux, vieilli, ancien), aux faits de société (populaire, familier, etc.). » (p. XIII).
478 « La marque d’usage qualifie les caractéristiques d’emploi du mot. Elle peut être liée au temps (vieux,
vieilli, ancien), aux faits de société (populaire, familier, etc.). » (p. XIII).
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
281
« groupe social » et ce qui dépend d’une « situation de communication » 479) : le tableau
récapitulatif de la figure 73 permet en particulier d’observer des variations dans la
présence de quelques marques (abus., rare, très fam.) ou de certaines explicitations
(cour., dial., enfantin, mod., plaisant), des déplacements définitionnels non anecdotiques (arg., fam., iron., littér., poét., pop., région., vieilli, vulg. ou vx), l’absence constante de représentant de la variable dia-intégrative et l’apparition d’exemples dans le
millésime 2008 480.
Figure 73. Explicitation des marques d’usage présentées dans plusieurs éditions
du Dictionnaire Hachette encyclopédique
Le symbole « ∉ » indique qu’une marque n’est pas mentionnée dans la liste des abréviations et conventions d’un dictionnaire.
Originellement suivies d’un point, les abréviations l’ont perdu à partir du millésime 2002.
MARQUES
abus.
anc.
arg.
Dictionnaire Hachette
encyclopédique 1994
(1993, p. XIII)
Dictionnaire Hachette
encyclopédique 2002
(2001, p. XIII)
Dictionnaire Hachette
2008
(2007, p. 7)
TYPE DE
MARQUAGE
(Hausmann
(1989))
∉
« abusivement »
« abusivement »
« ancien, anciennement »
« forme ni vieille ni
vieillie qui désigne une
réalité disparue. »
« ancien »
« forme ni vieille ni
vieillie qui désigne une
réalité disparue. »
« ancien »
« signale une réalité aujourd’hui disparue. Le
bouffon désignait autrediachronique
fois un personnage de
théâtre. Dans son emploi actuel, il n’a plus
ce sens. »
dianormatif
« argot, argotique »
« forme particulière à
un groupe social, à une
profession, et au milieu
(monde de la pègre).
Elle est généralement
inconnue de la majorité
des locuteurs, mais un
passage de l’argot à la
langue familière s’opère
souvent, ce qui crée des
usages qualifiables
d’ARG. ou FAM. »
« argot, argotique »
« forme particulière à
un groupe social, généralement inconnue de
la majorité des locuteurs, mais un passage
de l’argot à la langue
familière s’opère souvent. »
« argot, argotique »
« qui n’est employé et
compris que par un
groupe social restreint :
bahut (argot scolaire).
Un passage de l’argot à
diastratique
la langue familière
(+ diaphasique)
s’opère souvent. »
479 « Dans le dictionnaire, certains mots, sens ou expressions sont marqués par une abréviation telle que fam,
anc, etc. Cette abréviation est une marque d’usage, c’est-à-dire une indication sur l’emploi de ces termes.
En effet, tous les mots ne sont pas neutres : ils peuvent être “marqués” dans le temps (un mot qui devient
rare), dans l’espace (un mot propre à une région), être propres à un groupe social (comme l’argot) ou à une
situation de communication (à plus ! ne s’emploie qu’avec une personne qui nous est familière). Ce dernier
type d’emploi est également appelé niveau de langue. » (p. 7).
480 Pas encore publié au moment de la préparation de C13, il n’a pas été pris en compte dans T11.
282
MARQUES
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Dictionnaire Hachette
encyclopédique 1994
(1993, p. XIII)
Dictionnaire Hachette
encyclopédique 2002
(2001, p. XIII)
Dictionnaire Hachette
2008
(2007, p. 7)
TYPE DE
MARQUAGE
(Hausmann
(1989))
cour.
« courant, couramment »
« marque utilisée afin
d’écarter un doute, ou
pour indiquer une opposition avec un emploi
spécial. »
« dialectal »
dial.
« dialectal »
« dialectal »
« forme comprise et employée à l’intérieur d’un
dialecte ou d’un patois,
elle n’est généralement
pas utilisée par la bourgeoisie et par les habitants des villes. »
didac.
« didactique »
« forme employée dans
des situations de communication impliquant
la transmission d’un savoir ; langue savante. »
« didactique »
« forme souvent employée dans des situations impliquant la
transmission d’un savoir. »
« didactique »
« qui n’est employé que
dans un contexte sadiatechnique /
vant : anfractuosité
diaphasique
pour cavité. »
enfantin
« enfantin »
« forme surtout employée par les enfants
ou par les adultes pour
parler aux enfants. »
« enfantin »
« enfantin »
« forme surtout employée par les enfants
ou par les adultes qui
parlent à des enfants. »
fam.
« familier, familièrement »
« forme et sens employés dans une communication libre, sans
contrainte hiérarchique,
pouvant aller jusqu’à
un registre franchement
grossier (TRÈS FAM.). »
« familier »
« forme et sens employés dans une communication libre, sans
contrainte hiérarchique,
pouvant aller jusqu’à
un registre franchement
grossier (très fam). »
« familier »
« qui est employé dans
une communication libre, entre personnes
diaphasique
proches, sans contrain(+ diaévaluatif)
tes hiérarchiques : bagnole pour voiture. »
inj.
« injurieux »
« forme dont le contenu
sémantique implique un
désir de blesser, d’insulter ; plus fort que péjoratif. »
« injurieux »
« forme dont le contenu
sémantique implique un
désir de blesser, d’insulter ; plus fort que péjoratif. »
« injurieux »
« dont l’emploi implique
un désir de blesser,
diaévaluatif
d’insulter : ordure. »
« courant »
« courant »
« marque utilisée afin
d’écarter un doute, ou
pour indiquer une opposition à un emploi spécial. »
diatechnique
diatopique (+
diastratique)
diastratique /
diaphasique
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
MARQUES
Dictionnaire Hachette
encyclopédique 1994
(1993, p. XIII)
Dictionnaire Hachette
encyclopédique 2002
(2001, p. XIII)
mod.
péjor.
(Hausmann
(1989))
« ironique »
« antiphrase. »
« ironique »
« qui est employé par
moquerie ou pour montrer le côté dérisoire de
quelque chose : sacrosaint. Un terme ironique est souvent em- diaévaluatif
ployé avec un sens contraire à sa véritable signification : Les joies
du métier (pour parler
des inconvénients du
métier). »
« littéraire »
« forme employée par
des écrivains dans un
registre élevé, ainsi que
dans la critique littéraire. »
« littéraire »
« forme employée par
des écrivains dans un
registre élevé, ainsi que
dans la critique littéraire. »
« littéraire »
« qui est employé dans
un texte répondant à
diaphasique et
certaines exigences esdiatextuel, ou
thétiques : fortune pour
diatechnique
chance. On parle également de registre soutenu. »
« moderne »
« marque utilisée afin
d’écarter un doute, ou
pour indiquer une opposition avec un emploi
[…] vieux. »
« moderne »
« moderne »
« marque utilisée afin
d’écarter un doute, ou
pour indiquer une opposition à un emploi […]
vieux. »
« péjoratif »
« forme méprisante ;
certains emplois péjoratifs sont également
injurieux. »
« péjoratif »
« forme méprisante ;
certains emplois péjoratifs sont également injurieux. »
« péjoratif »
« qui est employé par
mépris, pour dévaloriser ce dont on parle :
diaévaluatif
cliché pour idée, expression toute faite. Certains
emplois péjoratifs sont
également injurieux. »
« plaisant »
« plaisant »
« plaisant »
« qui est employé de façon humoristique, parfois avec une légère
diaévaluatif
pointe d’ironie : illustrissime, taquiner la
muse. »
« poétique »
« usage littéraire ; en
poésie classique et postclassique, la hiérarchie
des genres entraîne des
spécialisations lexicales. »
« poétique »
« usage littéraire ; en
poésie classique et postclassique, la hiérarchie
des genres entraîne des
spécialisations lexicales. »
« poétique »
« qui rappelle, par son
pouvoir évocateur, le
langage poétique : azur diatextuel
pour ciel. »
plaisant
poét.
TYPE DE
MARQUAGE
« ironique »
« antiphrase. »
iron.
litt.
Dictionnaire Hachette
2008
(2007, p. 7)
283
diachronique
284
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Dictionnaire Hachette
encyclopédique 1994
(1993, p. XIII)
Dictionnaire Hachette
encyclopédique 2002
(2001, p. XIII)
« populaire »
« forme comprise et employée par les couches
sociales les moins aisées, peu utilisée par la
bourgeoisie cultivée,
sauf effet de style. Cependant, le plus souvent, ces formes ne sont
plus des marques d’appartenance sociale mais
des choix de discours
en fonction de situations
de communication. »
« populaire »
« forme provenant des
couches sociales les
moins instruites et peu
utilisée par la bourgeoisie cultivée, sauf par
effet de style. »
« populaire »
« qui est employé par
les couches sociales les
moins instruites et peu
utilisé par la bourgeoisie cultivée, sauf par
effet de style : raquer
diastratique (+
pour payer, caoua pour diaphasique)
café. »
« raciste »
« forme injurieuse et
péjorative à connotation
raciste. »
« raciste »
« forme injurieuse et
péjorative à connotation
raciste. »
« raciste »
« qui est employé par
hostilité à l’égard de
certains peuples : you- diaévaluatif
pin pour juif. Les termes racistes sont également injurieux. »
rare
« rare »
« forme très peu attestée. »
∉
∉
rég.
« régional »
« régional »
« forme comprise et employée dans une région
spécifique, elle peut
être utilisée par la bourgeoisie urbaine. »
MARQUES
pop.
raciste
très fam. « très familier »
Dictionnaire Hachette
2008
(2007, p. 7)
TYPE DE
MARQUAGE
(Hausmann
(1989))
diafréquentiel
« régional »
« dont l’emploi est limité à une ou plusieurs
diatopique (+
régions de France : ai- diastratique)
guail dans le Midi pour
rosée. »
diaévaluatif
∉
∉
vieilli
« vieilli »
« forme encore compréhensible et/ou pouvant
être produite par certains locuteurs généralement “âgés” ; mot qui
est en train de sortir de
l’usage. »
« vieilli »
« forme encore compréhensible mais qui tend
à sortir de l’usage. »
« vieilli »
« dont l’emploi, bien
que généralement compris, tend à sortir de
diachronique
l’usage : bigle pour strabique. »
vulg.
« vulgaire, vulgairement »
« forme renvoyant à une
réalité frappée de tabou
(sexuel ou scatologique)
qu’il est considéré comme grossier d’employer
en public, quelle que
soit la classe sociale. »
« vulgaire »
« forme renvoyant à une
réalité frappée de tabou
(sexuel ou scatologique)
qu’il est grossier d’employer en public. »
« vulgaire »
« qui renvoie à une réalité frappée de tabou :
putain pour prostituée.
diaévaluatif (+
Le caractère grossier
dianormatif )
des termes vulgaires
en proscrit l’usage en
public. »
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
Dictionnaire Hachette
encyclopédique 1994
(1993, p. XIII)
Dictionnaire Hachette
encyclopédique 2002
(2001, p. XIII)
Dictionnaire Hachette
2008
(2007, p. 7)
« vieux »
« forme qui n’est plus
clairement comprise et
jamais spontanément
produite dans la communication, sauf dans
une intention d’archaïsme (effet de style) ou
dans un emploi dialectal ; renvoie souvent à
l’usage classique (auteurs). »
« vieux »
« forme qui n’est plus
clairement comprise et
jamais spontanément
produite dans la communication, sauf par
effet de style ou dans
certaines régions. »
« vieux »
« qui ne s’emploie plus
sauf par effet de style
ou dans certaines régions : en gésine pour
sur le point d’accoucher. »
MARQUES
vx
285
TYPE DE
MARQUAGE
(Hausmann
(1989))
diachronique
(+ diatopique)
Dans le Dictionnaire Hachette, les indicateurs diatechniques, qui ne sont pas pris
en compte dans le tableau ci-dessus, présentent beaucoup plus de stabilité que les
marques qui viennent d’être décrites, avec un ordre de grandeur avoisinant 180 unités,
soit un peu moins que le Petit Larousse mais beaucoup plus que le Dixel (cf. supra n.
470). Le récapitulatif ci-dessous adopte les mêmes conventions que celles utilisées
pour le Nouveau Petit Robert et les dictionnaires Larousse, l’italique, le gras et les
petites capitales étant affectés respectivement aux millésimes 1994, 2002 et 2008.
; AERON ; AGRIC ; ALG ; ALPIN ; AMEUB ; ANAT ; ANTHROP ; ANTIQ ; ANTIQ GR ; ANTIQ ROM ;
; ARBOR ; ARCHEOL ; ARCHI ; ARCHI ANTIQ ; ARITH ; ARM ; ART ; ARTILL ; ARTS GRAPH ; ASTRO ;
ASTROL ; AUDIOV ; AUTO ; AVIAT ; BIOCHIM ; BIOL ; blas ; BOT ; Bx-A ; CHASSE ; CH de F ; CHIM ; CHIR ;
CHOREGR ; CHRET ; CINE ; COMM ; COMPTA ; CONJUG 481 ; CONSTR ; COUT ; CUIS ; CYCLISME ; DR ;
DR ADMIN ; DR ANC ; DR CANON ; DR COMM ; DR FEOD ; DR INTERN ; DR MARIT ; DR PUBL ; DR ROM ;
ECOL ; eco / ECON ; EDITION ; ELECT ; ELECTROACOUST ; ELECTROCHIM ; ELECTRON ; ELEV ; EMBRYOL ;
ENTOM ; EQUIT ; ESP ; ETHNOL ; fauc ; FEOD ; FIN ; FISC ; FOREST ; FORTIF ; GENET ; GEOGR ; GEOL ;
GEOM ; GEORMORPH ; GEOPH ; GEST ; GOLF ; GRAM ; GRAM GR ; GYM ; herald ; hippo ; HIST ; HISTOL ;
HORL ; HORTIC ; HYDROL ; ICHTYOL ; IMPRIM ; INDUSTR ; INFORM ; ISLAM ; JEU ; LEGISL ; LING ;
LITTER ; LITURG ; LITURG CATHOL ; LOG ; MAR ; MAR ANC ; MATH ; MECA ; MED ; MED BIOL ; MED
VET ; METALL ; METEO ; METR ANC ; METROL ; MICROB ; MILIT ; MINER ; MINES ; MUS ; MYTH ;
NEUROL ; NUCL ; OBSTETR ; OCEANOGR ; ŒNOL ; OPT ; ORNITH ; PALEONT ; PECHE ; PEDAG ;
PEDOL ; PEINT ; PETROCHIM ; PETROG ; PHARM ; PHILO ; PHILO ANC ; PHON ; PHOTO ; PHYS ;
PHYSIOL ; PHYS NUCL ; POET ; POLIT ; PREHIST ; PRESSE ; PROTOHIST ; PSYCHAN ; PSYCHIAT ;
PSYCHO ; PSYCHOPATHOL ; PUB ; RADIOELECTR ; RELIG ; RELIG CATHOL ; RELIG CHRET ; RHET ;
SC NAT ; sculp / SCULPT ; SOCIOL ; SPECT ; SPORT ; STATIS ; SYLVIC ; TECH ; TELECOM ; TENNIS ;
TEXT ; THEAT ; THEOL ; TOPOGR ; TRANSP ; TRAV PUBL ; TRIGO ; TURF ; TYPO ; URBAN ; ven ;
VERSIF ; VETER ; VITIC ; ZOOL
ADMIN
APIC
Plus précises ci-dessus que dans T11, les descriptions des évolutions relatives aux
explicitations des valeurs des marques ont permis d’observer les tendances repérables
chez chacun des trois éditeurs majeurs. Concernant les autres évolutions, notre attention s’est principalement focalisée sur les dictionnaires dirigés par Alain Rey seul ou
avec Josette Rey-Debove.
481 La présence de cette abréviation dans la liste des indicateurs de spécialités pourrait être une erreur éditoriale.
286
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Autres évolutions dans les dictionnaires généraux destinés à un large public
Après la vue panoramique des §§ 1.1. et 1.2., les trois dernières subdivisions de
T11 s’arrêtent sur certains aspects remarquables des pratiques actuelles de marquage
des usages observés à partir des relevés effectués :
– d’abord (§ 1.3.), la progression du diaphasique au détriment du diastratique observée
en premier lieu dans les dictionnaires Robert puis chez des éditeurs concurrents, qui
s’est accompagnée d’une graduation de familier à l’intensif très familier. Ce glissement
non contrôlé du diaphasique au diaévaluatif est un indice de la fragilité théorique des
révisions des dispositifs de marquage de nos dictionnaires ;
– ensuite (§ 1.4.), la persistance d’arrière-plans normatifs à des marquages présentés
comme diaphasiques, qui s’observe dans de nombreuses utilisations de la marque
familier non pas pour caractériser les conditions d’emplois de certains mots mais pour
stigmatiser certaines de leurs propriétés formelles ou sémantiques. Cette déviance,
qui affecte de très nombreux usages lexicaux 482, mériterait en elle-même, au regard
de son importance, une étude extensive spécifique ;
– et enfin (§ 1.5.) la persistance de l’alternance, dans les pratiques de marquage, entre
le recours à des marques proprement dites et des formulations textuelles intégrées aux
définitions, qui est à la fois assez répandue et pas pleinement régulière, en dépit de
principes de répartition avancés notamment dans la préface du Nouveau Petit Robert
de 1993 483 à propos d’indications diatopiques 484. Il est aisé de remarquer que le marquage définitionnel n’est pas limité à cette seule variable, et il y aurait ici également
une étude d’envergure à mener pour prendre la mesure exacte du phénomène.
Dictionnaires pour allophones
La deuxième partie de T11 se focalise sur l’étude des dictionnaires pour apprenants
(§ 2.). Elle porte d’une part sur ceux destinés aux allophones et d’autre part sur ceux
pour les élèves de l’école primaire.
Concernant le français langue étrangère (§ 2.1.), pour lequel l’offre se limite au
Dictionnaire du français (Le Robert et CLE International, 1999), dirigé par Josette
Rey-Debove, et au Dictionnaire du français usuel (Picoche & Rolland (2002)), l’attention
s’est concentrée sur le premier de ces répertoires, le second présentant peu d’intérêt
pour l’étude des marquages.
Le Dictionnaire du français, qui a des principes de description des usages explicites
dans la tradition des dictionnaires Robert (cf. supra), pose que l’expression peut avoir
trois valeurs marquées et une neutre, qui constituent un continuum 485 :
TRÈS FAMILIER
FAMILIER
NEUTRE
RECHERCHÉ
482 Cf. aussi P. Corbin (2006 : 112-114).
483 Cf. Rey-Debove & Rey (1993 : XIII).
484 C’est également au titre de cette variable que, comme cela a été noté précédemment, Hausmann (1977 : 117)
avait souligné l’existence des deux pratiques de marquage considérées.
485 Cf. Rey-Debove (1999 : XI).
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
287
et sur cette base, afin de refléter l’usage, il décrit ce qui relève de chacun des niveaux permettant aux allophones de choisir le mode d’expression qui convient à chaque situation,
fait rare dans un dictionnaire d’apprentissage, où une expression neutre est plus généralement encouragée, et comme tel également pointé dans T24 (§ 2.4.) 486.
Ce dictionnaire présente par ailleurs des variations de marquage selon les lieux de
mention des mots : en adresses ou comme items de renvoi postposés à une flèche au
cœur des articles. L’interprétation la plus plausible de ces écarts est qu’il s’agisse d’un
défaut de cohérence du dispositif global d’évaluation des usages proposé par le dictionnaire, ce que T11 inscrit dans le droit fil d’observations de même ordre faites par
D. & P. Corbin (1980) concernant le Petit Robert et le Micro Robert. Une autre hypothèse est-elle envisageable ? On pourrait imaginer que certaines variations observées
soient corrélées au fait que, quand un item marqué figure en adresse, il est décrit pour
lui-même en référence au système linguistique considéré globalement, alors que, quand
il est mentionné en tant que renvoi au sein de la description d’un autre item, sa valeur
est évaluée relativement à celle de ce dernier. Selon cette hypothèse, si le verbe foutre
(= « Faire ») est marqué comme relevant du STYLE TRÈS FAMILIER dans l’article qui lui
est consacré mais ne se voit assigner que le STYLE FAMILIER s.v. fabriquer 4., qui est
lui-même porteur de cette marque, ce pourrait être parce que la rédactrice a jugé que
dans les contextes où fabriquer peut être employé (« Alors, qu’est-ce que tu fabriques ?
[…] »), son remplacement par foutre (Alors, qu’est-ce que tu fous ?) ne modifierait pas
significativement le registre énonciatif. La valeur du marquage de foutre en tant que
renvoi s.v. fabriquer serait ainsi relative et dépendante de celle de fabriquer, alors
qu’elle serait à considérer en référence à la globalité des emplois du verbe foutre dans
l’article qui lui est consacré. Il semble cependant inenvisageable de soutenir pour l’ensemble du dictionnaire cette hypothèse visant à chercher des principes de cohérence
par-delà des apparences désaccordées, les contre-exemples étant trop aisés à mobiliser : il suffit à ce titre d’observer que s.v. fiche 1., affecté au STYLE FAMILIER, le renvoi à
foutre à partir d’un contexte similaire à celui évoqué pour fabriquer (« Qu’est-ce que
tu fiches ici ? ») s’accompagne de la marque STYLE TRÈS FAMILIER. Ceci étant, dans les
limites des investigations menées pour la rédaction de T11, qui n’est pas dédié à
l’étude du Dictionnaire du français, les distorsions de marquage n’ont pas donné lieu
à un relevé systématique permettant leur appréciation quantitative et qualitative
globale, qui mériterait un approfondissement.
Dictionnaires scolaires
Concernant les dictionnaires scolaires (§§ 2.2. et 2.3.), les données présentées
reprennent le détail de ce qui peut être dit à propos des paratextes compte tenu de leur
pauvreté (cf. figure 74), mais synthétisent ensuite les observations réalisées dans les
textes de chaque répertoire avec une densité qui ne permet pas de les résumer ici intégralement, ce qui m’amènera à n’en retenir que quelques caractéristiques particulièrement saillantes.
486 Cf. aussi supra n. 465.
288
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
Figure 74. Analyse des présentations des modalités de marquage
dans les paratextes des dictionnaires pour l’école primaire et l’entrée au collège
TYPES
D’OUVRAGES
PRÉSENTATION DES MARQUAGES DANS LA PRÉFACE,
LA TABLE DES CODES ET LE MODE D’EMPLOI
OUVRAGES
[DESTINATAIRES]
Dictionnaire scolaire
Hachette (2002)
[CM-collège ; 9-14 ans]
Monovolumes
pour la frontière
école primaire collège :
environ 25 000
Larousse super major
mots
(2004)
[CM-6e ; 9-12 ans]
Dictionnaire Auzou junior (2006)
[CE-CM ; 7-11 ans]
Dictionnaire Hachette
junior (2004)
[CE-CM ; 8-11 ans]
Larousse junior (2003)
[CE-CM ; 7-11 ans]
•
•
•
pas de table des codes
pas de présentation des marques dans la préface
dans le mode d’emploi (« Présentation du dictionnaire », p. 4) :
•
•
•
pas de présentation des marques dans la préface
pas de marque dans la table des codes
dans le mode d’emploi (« Comment utiliser le Super Major : La partie des noms communs », p. VIII) :
•
•
pas de préface ni de table des codes
pas de présentation des marques dans le mode d’emploi
•
•
•
pas de table des codes
pas de présentation des marques dans la préface
dans le mode d’emploi (« Mode d’emploi », p. 5) :
•
pas de présentation des marques dans la préface ni dans le mode
d’emploi
pas de marque dans la table des codes
pas de présentation des marques dans la préface
pas de marque dans la table des codes
dans le mode d’emploi :
« Les registres de langue : comme on n’utilise pas toujours les
mêmes mots selon que l’on écrit ou que l’on parle, ce dictionnaire
précise les mots qui sont familiers (ceux que l’on utilise avec ses
camarades) ainsi que ceux qui appartiennent à la langue littéraire
(ceux que l’on trouve surtout à l’écrit). » (« À la découverte du Larousse junior », p. XI)
•
•
•
•
Monovolumes
pour le cycle 3 :
autour de 20 000
mots
Dictionnaire junior
(Larousse, 2008)
[CE-CM ; 7-11 ans]
(« À la découverte du Larousse junior », p. XII)
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
TYPES
D’OUVRAGES
PRÉSENTATION DES MARQUAGES DANS LA PRÉFACE,
LA TABLE DES CODES ET LE MODE D’EMPLOI
OUVRAGES
[DESTINATAIRES]
•
•
Dictionnaire maxi débutants (Larousse, 1997) •
[CE1-CM2 ; 7-10 ans]
Monovolumes
pour le cycle 3 :
autour de 20 000
mots (suite)
Robert junior illustré
(2005)
[CE-CM ; 8-11 ans]
Dictionnaire Hachette
benjamin (2004)
[CP-CE ; 6-8 ans]
Monovolumes
Larousse des débutants
pour le cycle 2 :
(2005)
entre 6 000 et
[CP-CE ; 6-8 ans]
6 500 mots
Robert benjamin (2005)
[CP-CE ; 6-8 ans]
289
•
•
•
•
•
•
•
•
•
pas de mode d’emploi
présentation des marques dans la table des codes (« Liste des abréviations et des signes », p. XVIII :
« fam., très fam. familier, très familier : le mot appartient à la
langue familière ou très familière ; en principe on ne l’emploie pas
quand on écrit ou si on surveille son langage »
et dans la préface (« À la découverte du “Maxi débutants” », pp. VIIIIX) :
« Le rôle du dictionnaire est surtout de t’apprendre le langage
soigné, et si beaucoup d’expressions et de mots familiers s’y
trouvent, c’est pour que tu remarques bien l’abréviation fam.
et que tu apprennes comment on peut dire la même chose en
langage soigné. »
pas de marque dans la table des codes
présentation de marques diatopiques dans la préface (p. VI)
dans le mode d’emploi (« Comment utiliser le Robert junior », p. VIII) :
pas de table des codes
pas de présentation des marques dans la préface ni dans le mode
d’emploi
pas de table des codes
pas de présentation des marques dans la préface ni dans le mode
d’emploi
pas de table des codes
pas de présentation des marques dans la préface ni dans le mode
d’emploi
Le premier élément saillant que je retiendrai est la constance avec laquelle les dictionnaires pour la fin de l’école primaire posent dans leurs paratextes de présentation
qu’ils ont un rôle éducatif à jouer. Ce projet induit deux types de postures distincts :
alors que le Petit Robert des enfants revendiquait en 1988 l’exclusion de la nomenclature de ce qui ne relève pas de l’usage scolaire et qui ne fait pas progresser la maîtrise
lexicale 487, le Dictionnaire maxi débutants de 1997 et le Dictionnaire junior Larousse
de 2008, plus récents, se montrent plus accueillants en n’annonçant pas de proscription
induite par le fait qu’un emploi est marqué mais en alertant sur la nécessité qu’il peut
y avoir à choisir ses mots en fonction de ses interlocuteurs (certains items ne devant
être utilisés qu’avec un sous-ensemble d’entre eux) pour le premier de ces répertoires
ou en spécifiant le type de médium qui peut voir se réaliser certains emplois pour le
second.
Au-delà des sélections de nomenclatures, une des manières de jouer un rôle pédagogique consiste pour les répertoires scolaires à proposer des marquages (textuels ou,
487 Ce qui peut constituer également un critère pour le Dictionnaire Hachette benjamin, qui ne dit rien à ce sujet
mais qui sélectionne une nomenclature qui appelle peu les marquages (cf. n. 159).
290
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
plus rarement, exprimés sous forme de marques) prescrivant des emplois linguistiques
mais aussi parfois des comportements, ce que j’ai souhaité étudier plus en détail et qui
a fourni la matière de T14, sur lequel je reviendrai au § 2.4.2.
Une autre caractéristique frappante est le fait que, bien qu’ils soient économes en
matière de marques proprement dites, les dictionnaires scolaires couvrent un large
sous-ensemble des variables de la grille de Hausmann. Ceci est observable au premier
chef pour les dictionnaires destinés au cycle 3, mais, comme le note T11, ceux pour le
cycle 2, à leur échelle, ont aussi une certaine couverture, ainsi qu’en témoigne en particulier le Mini débutants, qui, dès sa première édition en 1985, a introduit quelques
marquages diatextuels, diamédiaux et diaphasiques, puis a amplifié les premiers en
1999 en référant explicitement à des textes de la littérature enfantine 488.
Bilan et perspectives
Dans le travail préparatoire à la rédaction de T11, deux méthodes de dépouillement
différentes ont été mises en œuvre en fonction des dictionnaires analysés dans chacune
des deux parties.
Pour les dictionnaires généraux destinés à un large public, dans la mesure où nous
partions des analyses de Hausmann (1977 et 1989), D. & P. Corbin (1980) et P. Corbin
(1989a) et où nous disposions de paratextes dictionnairiques consistants, l’étude empirique des marquages au sein des articles est restée relativement secondaire et a
bénéficié du fait qu’il est possible de faire des recherches en plein texte portant sur
les marques dans les versions électroniques disponibles pour la majorité des dictionnaires étudiés.
En revanche, pour l’étude des dictionnaires pour apprenants allophones et natifs,
dont les marquages n’ont pas fait, à ma connaissance, l’objet de publications antérieures et dont les paratextes n’ont majoritairement pas la consistance des précédents,
les analyses des spécifications d’emplois formulées dans les articles ont joué un rôle
central 489. Débutées solitairement, ces investigations ont été ensuite approfondies
avec Pierre Corbin puis avec les étudiants des deux années de master qui ont suivi
nos cours de lexicographie monolingue en 2006-2007. Comme pour les explorations
structurelles évoquées au § 2.2.1., un travail de dépouillement collectif (cf. n. 229) des
répertoires pris en compte a permis d’une part de consolider les principes de sélection
des données pertinentes en évaluant la qualité relative de chacun des segments de
texte dont les étudiants proposaient la sélection, et d’autre part de réaliser une moisson
importante quoique non exhaustive.
Les données ont été compilées dans une base (Rbd3) qui, comme le montre la figure
75, enregistre (dans les tables T_Unite_Linguistique, T_Adressage_Principal, T_Adres488 En 2005, dans l’édition refondue du Larousse des débutants, les citations ont été supprimées ou intégrées
aux textes des définitions et contextualisations, mais une icône figurant un livre papillon marque les items
en usage dans la littérature enfantine, qui sont ceux pour lesquels il en était proposé.
489 Les dépouillements de répertoires scolaires ont été particulièrement méthodiques, d’une part du fait de l’enregistrement de données dans la base des marquages (Rbd3) dont il va être question, et d’autre part parce
que je souhaitais acquérir une bonne familiarisation avec ces produits éditoriaux afin d’asseoir sur des bases
solides les travaux de conception dictionnairique auxquels je réfléchissais et dont les premiers éléments ont
été développés à partir de 2009 dans T17 puis T21 et Tdr5 (cf. §§ 2.7.2. et 2.3.6.).
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
291
sage_Subordonne et T_pivot_ULing_AdPrin_AdSub, similairement à ce qui est fait
dans Rbd5 (cf. § 2.3.2.)) quelles sont les unités linguistiques marquées et quels sont
leurs modes d’adressages dans les dictionnaires. Pour chaque item marqué dans un
répertoire,
– la table T_Marquages
• localise chaque segment textuel identifié comme exprimant un marquage,
• repère en son sein l’opérateur de celui-ci,
• en précise la portée en termes de subdivisions d’article et de texte contenu par ces
dernières,
• et en donne un typage selon les catégories de Hausmann (1989) ;
– et la table T_Commentaires, enfin, permet de formuler les premiers éléments d’analyse relatifs au marquage ou à sa portée.
Outre la mise à disposition des données triables en fonction des répertoires et des
types de marquages, du fait du stockage de la double indication (de la subdivision et
du texte) de ce sur quoi portent les spécifications d’emploi, cette base offre la possibilité de repérer les interdépendances de composants d’articles et les cas de marquage
d’une sous-partie du contenu de l’un d’eux.
Figure 75. Schéma de relations de la base des marquages textuels et codés
des dictionnaires scolaires (Rbd3)
Au terme de l’étude conduite dans ces conditions, les enseignements que dégage la
conclusion de T11 apparaissent contrastés, les évolutions positives observées étant
contrebalancées par la persistance de faiblesses nécessitant des améliorations, qu’il
s’agisse
– de l’adéquation descriptive des dictionnaires, qui dépend directement de la documentation métalinguistique sur laquelle peut prendre appui la connaissance des usages
qu’ont les rédacteurs ;
– de la cohérence des traitements, qui ne semble pas avoir aussi sensiblement progressé
que l’outillage informatique le permettrait : par exemple, si les marquages sont balisés
comme tels, un automate pourrait (i) contrôler (lors de la rédaction ou a posteriori)
que si une marque est associée à un item de renvoi, un marquage de même valeur est
292
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
associé à l’item décrit pour lui-même et (ii) alerter les rédacteurs si ce n’est pas le cas,
ce qui donnerait à ces derniers les moyens de corriger leur erreur ou de valider la différence de description 490 ;
– ou du manque toujours patent de cadre théorique qui permette de dépasser les représentations aussi simplificatrices et réificatrices qu’idéologisées et normatives pour en
concevoir une qui soit plus en adéquation avec les usages décrits 491. 492
Les recherches préparatoires à T11 ont suscité plusieurs projets d’études complémentaires, dont un petit nombre a été concrétisé. C’est à elles que se consacrent les
développements suivants.
2.4.2. Analyse fonctionnelle des marquages interprétables comme prescriptifs
[T14 (à paraître e)]
Ayant observé, notamment en rassemblant la documentation utilisée pour la rédaction de T11, ce qui m’apparaissait comme une présence affirmée des marquages à vocation éducative (relatifs aux usages linguistiques mais aussi aux manières d’être) dans
les dictionnaires scolaires, j’ai saisi l’occasion d’un colloque sur « la prescription en
langue » organisé par Danielle Candel et Douglas Kibbee en 2007 pour élaborer C17
et rédiger T14 (dont la publication est toujours en attente) en prenant appui sur les
données enregistrées dans la base des marquages (Rbd3).
Une étude parmi d’autres relatives aux dictionnaires scolaires
Le § 1. de T14 présente ce texte comme s’inscrivant dans une série de travaux sur
les dictionnaires scolaires et incluant notamment les études qui seront présentées au
§ 2.5. (T12, T13, T15 et T16) relatives aux mots d’origine étrangère à propos desquels
des informations diverses, en particulier phonographiques ou normatives, sont fournies
plus souvent que pour d’autres items. Il inscrit également les analyses présentées dans
une perspective plus large d’étude des modes de description des emplois lexicaux non
neutres (qui avait motivé la création de la base des marquages (Rbd3)) et dans le cadre
de laquelle, comme je l’indiquerai infra (cf. § 2.4.3.), je me suis d’abord concentrée sur
les marquages concernant le “parler enfantin”, qui présentent la particularité d’être
très peu présents dans les dictionnaires scolaires du fait d’un principe de sélection de
nomenclature qui exclut assez souvent les items susceptibles d’être marqués à ce
titre. 493
490 En l’absence d’automate de contrôle, il faut soit s’accommoder des incohérences, soit consacrer du temps de
relecture à leur correction, ce qui a un coût financier.
491 Cf. P. Corbin (2006 : 45-47 et 110-114), qui fait notamment écho (p. 110) à la « représentation économiste des
échanges verbaux » développée dans Bourdieu (1977 et 1982).
492 Dans l’ambitieuse perspective de la définition d’un cadre de marquage mieux fondé sur des analyses d’usages,
une première tâche pourrait consister à circonscrire les domaines d’étude susceptibles de fournir de la bibliographie utile (cf. par exemple Gadet (2008) pour l’approche sociolinguistique et Adam (1997) pour celle de
la typologie textuelle).
493 Cette caractéristique a impliqué que, dans T22, l’analyse de ce type de marquage soit envisagée contrastivement dans les dictionnaires scolaires et dans des répertoires généraux pour adultes (plus accueillants que
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
293
Le même paragraphe introductif focalise par ailleurs l’étude sur les dictionnaires
scolaires imprimés, ce qui peut paraître en décalage avec le fait que je consacre une
large part de mes spéculations à ce que pourraient être des éditions électroniques de
qualité destinées aux jeunes lecteurs. Ce centrage est fondé sur la nature même de
l’offre dictionnairique pour l’école primaire : il n’existe que deux dictionnaires électroniques pour le cycle 3 (cf. T23 n. 28) et ils dérivent de dictionnaires imprimés sans
ajout concernant les marquages.
Qu’est-ce que la prescription dans un dictionnaire scolaire ?
Le § 1. accueille également une définition de la prescription adaptée au contexte
d’étude et qui m’a semblé cohérente
– d’une part avec les deux modes d’expression de la normativité envisagés par Glatigny
(1989 : 700) :
« Appartenant à la catégorie du discours pédagogique (Dubois 1971, 49), le dictionnaire monolingue a nécessairement un caractère normatif (Hausmann 1977, 139 ; Collignon / Glatigny
1978, 52). Dans un pays où règne la croyance qu’un “mot qui n’est pas dans le dictionnaire n’est
pas français”, la normativité s’exprime “plutôt par la sélection, par l’exclusion que par un discours d’interdiction” (Rey 1983, 543). Il importe donc de distinguer l’inévitable normativité et
le commentaire normatif facultatif. »
l’auteur précisant quelques lignes plus bas la teneur du second mode en définissant
ce qu’est un énoncé normatif dans un dictionnaire :
« tout énoncé prédicatif qui formule explicitement des indications plus ou moins impératives
concernant la forme ou l’emploi d’une entrée ou sous-entrée »
– et d’autre part avec un projet pédagogique qui fait des dictionnaires scolaires des
outils d’aide au contrôle de l’expression, ce qui peut être explicitement exposé comme
dans l’« Avant-propos » du Robert benjamin (jusqu’en 2005) 494 :
« le Robert Benjamin permet aussi à l’enfant de mieux s’exprimer, à l’oral comme à l’écrit. Il
apprend à écrire dès qu’il apprend à lire et a besoin de vérifier l’orthographe des mots, d’en
consulter le sens plutôt que de les employer à mauvais escient » (p. 6) 495
T14 prend en compte les textes des articles, afin d’y observer les lieux où sont insérées les prescriptions et leur mode discursif, mais pas les paratextes dictionnairiques.
Afin de compléter le propos de T14, j’y ferai toutefois allusion ponctuellement dans le
les premiers). L’étude des dictionnaires scolaires s’est ainsi poursuivie avec la création d’une seconde base,
Rbd6, en partie intersective avec la première, qui amplifie l’inventaire envisagé et le spécialise tout à la fois
en stockant les données relatives aux items du “parler enfantin” extraites d’une sélection de onze dictionnaires Robert, Larousse et Hachette.
494 Ce dictionnaire est le seul à le faire aussi explicitement parmi les dictionnaires pris en compte pour T14.
Cette mention a disparu de l’« Avant-propos » des éditions de 2008 et 2009.
495 Selon la formulation employée, les emplois « à mauvais escient » évoqués sont limités aux choix lexicaux
sémantiquement invalides. Il me semble néanmoins que le projet pédagogique présenté dans la phrase précédente justifie d’étendre leur portée à ceux qui ne donnent pas une image d’expression contrôlée et de qualité.
294
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
cadre de ce commentaire 496, et en premier lieu pour distribuer les répertoires dans
l’une des trois classes de la typologie de Glatigny (1989) :
« a) les dictionnaires peu explicites sur la norme et dont les articles ne comprennent aucune
rubrique destinée à recevoir les jugement du lexicographe […] b) ceux qui […] présentent des
“Remarques”, mais ne donnent aucune précision sur le statut et le contenu de celles-ci. c) les
quelques dictionnaires qui fournissent quelques indications sur le contenu de leurs “Remarques”. »
(p. 700)
Puisqu’ils comportent des discours normatifs dans leurs articles mais n’évoquent
pas nécessairement dans leurs paratextes les types de prescriptions et les lieux de leurs
formulations ou bien ne le font que de manière très vague, comme le Dictionnaire Auzou
junior :
« Remarques : Hugo et Léa t’invitent à déjouer les pièges de la langue française ! Tu sauras
tout des problèmes de grammaire et d’orthographe ! » (« Le mode d’emploi de ton dictionnaire », p. 4) 497
les dictionnaires scolaires relèvent pour la plupart de la seconde classe. Néanmoins,
le Robert junior précise mieux que les autres dans son « Avant-propos » les contenus
de ses articles et, partant, les types d’informations normatives qu’ils contiennent :
« le Robert junior donne de nombreuses informations utiles, comme les pluriels difficiles ou
irréguliers, le féminin des noms et des adjectifs (toujours indiqué en entrée) […]. La prononciation est indiquée à l’aide de l’alphabet phonétique pour les mots qui ne se prononcent
pas comme ils s’écrivent […].
Des remarques […] donnent des informations utiles sur l’orthographe d’un mot quand celleci est difficile (ex. chrysanthème), sur les variantes quand un mot peut s’écrire ou se dire de
plusieurs façons (ex. cacahuète, calmar), sur l’aire géographique où ce mot est employé (ex.
chicon, huitante). Les particularités d’emploi et les difficultés grammaticales éventuelles sont
clairement signalées. […] » (« Avant-propos », pp. V-VI)
Ce qui fait l’objet de prescriptions
Après l’introduction, qui situe et définit l’objet d’étude, le plan de T14 est organisé
en fonction de cinq paramètres :
(i) sur quels types d’objets portent les prescriptions (les formes des unités linguistiques
(§ 2.) et leurs emplois (§ 3.), ou des éléments extralinguistiques (les comportements 498,
§ 4.)) ?
(ii) sont-elles explicites ou implicites ?
496 Sauf mention contraire, je ne me réfère dans ce commentaire qu’aux paratextes des éditions étudiées dans
T14. Dans leur ordre de mention ici, il s’agit du Robert benjamin de 2005, du Dictionnaire Auzou junior de
2006, du Robert Junior de 2005, du Dictionnaire junior Larousse de 2008 (appelé Larousse junior dans cet
article par commodité dénominative, en référence à l’édition première de 2003), du Maxi débutants Larousse
de 1999, du Larousse des débutants de 2005, du Dictionnaire Hachette benjamin de 2007 et du Fleurus junior
de 2004.
497 Le § 1.3. de T12 signale que, dans Mon premier dictionnaire avec Martine, c’est le chat Moustache qui signale les difficultés.
498 Ceux-ci n’étaient pas pris en compte par Glatigny (1989), dont le propos ne concernait que des données linguistiques.
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
295
(iii) à propos de quoi mettent-elles en garde (pour les unités linguistiques : une forme
graphique ou phonique, une combinatoire remarquable ou une particularité socioénonciative) ?
(iv) dans quels composants d’articles figurent-elles (zone d’identification de l’unité linguistique traitée 499, définition, contextualisation, remarque ou marque au sein d’un
composant précédent) ?
et (v) quelle est la nature de l’information fournie ?
Les données utilisées à chaque niveau pour illustrer le propos sont trop riches pour
être reprises dans leur détail, mais certaines appellent des commentaires.
– Prescriptions relatives aux formes graphiques et phoniques
Parmi les prescriptions explicites portant sur les formes graphiques (§ 2.1.1.),
celles relatives aux variantes méritent d’être distinguées de celles portant sur une
règle d’orthographe, une graphie remarquable ou des confusions lexicales. Alors que
les dernières guident vers l’emploi d’une forme explicitement posée comme étant celle
qui doit être employée, la première fournit une forme qui peut l’être mais dont le statut
n’est pas clair : si elle n’est retenue que comme variante, c’est que la forme réputée la
plus standard n’est pas celle-ci mais celle qui figure dans le composant d’adressage ;
en conséquence se pose pour une variante la question de savoir si elle est recommandable (c’est le cas de celles issues de la réforme de l’orthographe de 1990) 500 ou non
499 Cette terminologie est empruntée à Hausmann & Wiegand (1989), article de première importance concernant la structure des articles de dictionnaires monolingues.
500 La note 11 de T14 indique qu’en 2008 le Larousse junior était le seul à spécifier dans un paratexte la prise
en compte de la réforme de l’orthographe et à exploiter des remarques pour introduire les formes graphiques
qu’elle permet (ce qui les présente donc comme moins usuelles que celles qui figurent dans les composants
d’adressage). Deux ans plus tard le Robert junior de 2010 consacre pour la première fois un paratexte (pp.
1140-1141) à cette réforme, mais rien n’est dit dans les articles au sujet des graphies réformées (y compris
pour les mots figurant en exemple dans le paratexte). Par ailleurs j’évoque dans cette note le fait que la
place faite à cette réforme dans les différents dictionnaires scolaires reste à évaluer. Jecjic (2006) constitue
un premier pas qui n’épuise pas le sujet, puisqu’il n’est pas centré sur les dictionnaires scolaires et qu’il ne
couvre pas les répertoires récents : Fabrice Jejcic a étudié la visibilité donnée aux nouvelles graphies dans
quatre dictionnaires Robert disponibles en 2001 (le Grand Robert de 2001, le Nouveau Petit Robert de 2002,
le Robert collège de 1997 et le Robert junior de 2001) à partir de ce qu’indiquent leurs paratextes et de ce qui
est observable dans les articles des items en adresses débutant par la lettre a. Il conclut que le dictionnaire
pour le cycle 3 est à la fois celui qui propose le moins de graphies rectifiées et qui a le système graphique le
plus complexe. La comparaison des items listés en annexe 2 (ceux dont la graphie a été réformée et qui
figurent avec l’ancienne ou la nouvelle graphie à la nomenclature de l’un au moins des quatre dictionnaires
Robert étudiés) et de ceux qui figurent dans l’édition du Robert junior de 2005 – comme dans celle de 2010
(celle qui inclut un paratexte présentant la réforme), qui ne présente aucune évolution par rapport à la
précédente – montre une grande stabilité :
– concernant les mots composés : allume-cigare est entré avec son pluriel rectifié, à-pic n’est plus invariable, aéroclub a fait son entrée sans trait d’union ;
– concernant les accentuations : asséner figure en remarque s.v. assener et allègement comme adresse subordonnée s.v. alléger (avec allégement présenté comme variante en remarque) ;
– concernant les « anomalies » (comme absoudre traditionnellement écrit absous au participe passé et pour
lequel la réforme propose absout) : aucune évolution ;
– concernant les emprunts : arobase est entré à la nomenclature (dès 2003).
D’autres travaux, comme celui de Martinez (2009), qui consacre de longs développements à la prise en compte
de la réforme de l’orthographe dans les dictionnaires généraux (chap. 5.), et qui réfère à Jejcic (2006) mais
296
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
(c’est celui de celles qui sont marquées). La mention d’une autre forme au sein d’une
remarque générant une incertitude, elle ne soutient pas directement l’acquisition d’une
expression de qualité. Comme par ailleurs elle ne se fait pas dans le composant d’adressage, elle ne facilite pas la recherche de la forme 501, ce qui la rend peu aisément exploitable en situation de décodage et qui incite à penser qu’elle pourrait avoir une vocation
plus culturelle que fonctionnelle.
Les indications relatives aux variantes phoniques (libres ou fautives) (§ 2.1.2.) ne
posent pas exactement le même problème : si le dictionnaire est consulté pour y trouver une aide à l’oralisation d’une forme graphique, et qu’une variante de prononciation
accompagne celle qui est réputée standard, les deux peuvent être exploitées pour le
déchiffrement de l’item. L’emploi de la variante peut néanmoins nécessiter une certaine
vigilance :
– si elle est libre, elle est alternative à la forme standard et ne pose pas de problème ;
– si elle est fautive et signalée comme telle 502, le fait de la voir critiquée doit susciter
une correction de l’expression orale afin que l’oralisation de la forme écrite non reconnue soit effectuée conformément à la prononciation standard.
Par ailleurs, les transcriptions fournies pour représenter les formes phoniques 503
ne sont exploitables qu’à deux conditions :
– savoir décoder les transcriptions écrites en alphabet phonétique international, alors
que l’usage de cet alphabet n’est pas très courant dans les pratiques scolaires et que les
valeurs de certains de ses caractères ne sont pas extrapolables à partir de celles des
lettres de l’alphabet latin ;
– et effectuer les adaptations contextuelles nécessaires : la forme graphique ayant dû
être lemmatisée pour trouver l’article qui contient la forme phonique, celle-ci doit à son
tour être enrichie de la prononciation des marques flexionnelles pertinentes, mais elle
peut aussi devoir changer sous l’influence des items qui lui sont adjacents s’ils impliquent
des liaisons ou d’autres ajustements (cf. T23 (§ 2.3.4.)).
En complément de ces prescriptions explicites, des prescriptions implicites (§ 2.2.)
sont exprimées, concernant les seules formes graphiques, dans divers composants des
articles des dictionnaires scolaires : certaines définitions (quand elles prennent la forme
d’énoncés du type un X (c’est + est) Y ) et les contextualisations (qui se prêtent aux variations, notamment flexionnelles, des graphies des mots). Concernant ces deux composants d’articles, il ne semble pas y avoir de gestion des redondances des formes fournies
ni d’attention portée à la complétude du paradigme flexionnel présenté (pour les noms
et les adjectifs au moins).
aussi à Rebejkow (2001) et Honvault-Ducrocq (2006), informent sur l’intégration de nouvelles graphies mais
ne traitent pas spécifiquement des dictionnaires scolaires.
501 La difficulté évoquée n’est fondée que pour les dictionnaires imprimés.
502 Sa mention témoigne de son usualité et valide l’hypothèse qu’elle puisse aider au déchiffrement.
503 Elles sont souvent accompagnées d’indications relatives à d’autres propriétés des items transcrits, comme
en particulier des éléments étymologiques et historiques (cf. T13 et T16 (§ 2.5.2.)), sans qu’il soit toujours
aisé de comprendre ce qui motive la coprésence des informations.
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
297
– Prescriptions socio-énonciatives
Les prescriptions socio-énonciatives, déjà en partie décrites dans T11, peuvent être
exprimées par des marques, qui ne sont pas toutes présentées aux lecteurs dans les
paratextes, ou des marquages textuels, que ces derniers évoquent rarement (cf. § 2.4.1.,
figure 74). Deux dictionnaires Larousse se distinguent de tous les autres répertoires
étudiés en consacrant un passage rédigé spécifique aux informations de cet ordre :
– Le Larousse junior définit les registres de langue, mais il y mêle indûment les marquages diaphasique familier et diamédial littéraire, ce qui est également patent dans
les dictionnaires généraux Larousse.
– Le Maxi débutants adopte une démarche pédagogique afin de présenter le marquage
diaphasique : 504
« Un mot différent pour une occasion différente
[…]
On peut dire que vélo et bicyclette sont des synonymes, de même que copine et camarade, ou se balader et se promener.
Mais tu te rends bien compte que ces synonymes ne sont pas exactement équivalents. Si tu
racontes par écrit ce que tu as fait dans la journée, tu emploieras un langage soigné, et tu diras
plutôt : “Nous nous sommes promenés à bicyclette avec des camarades” ; si tu parles dans
un langage plus familier, par exemple à ton frère, tu diras tout naturellement : “On s’est baladés en vélo avec des copains”.
Dans ton dictionnaire, les mots copain, balade et se balader, vélo, sont précédés de l’abréviation fam.
Cela signifie qu’il s’agit de mots du langage familier et qu’on ne peut pas les employer dans
toutes les circonstances.
En général, on ne s’habille pas de la même façon quand on va jouer avec des copains ou des
copines et quand on est invité à un anniversaire ou à une fête ; c’est exactement la même chose
quand on parle ou quand on écrit : on adapte certains détails de son langage aux circonstances
de la vie.
Le rôle du dictionnaire est surtout de t’apprendre le langage soigné, et si beaucoup
d’expressions et de mots familiers s’y trouvent, c’est pour que tu remarques bien
l’abréviation fam. et que tu apprennes comment on peut dire la même chose en langage soigné. » (« À la découverte du “Maxi débutants” », pp. VIII-IX)
Alors que dans les paratextes seul est évoqué le caractère formel ou non des énoncés
produits, dans les articles les types de marquages sont variés, comme en témoignent
les exemples mentionnés au § 3.1.2. et récapitulés ci-après en figure 76, mais la sélection de ceux présentés dans T14 est plus réduite que celle de T11 et tous les types
n’y sont pas représentés.
Figure 76. Types de marquages présentés comme exemples dans T14
accompagnés de la localisation de leurs attestations
TYPE DE MARQUAGE
diachronique
diaévaluatif
EXPRIMÉ
SOUS FORME DE
MARQUE
EXPRIMÉ
TEXTUELLEMENT DANS
UNE DÉFINITION
EXPRIMÉ
TEXTUELLEMENT DANS
UNE REMARQUE
+
+
+
+
+
504 Seul le dernier paragraphe de la citation ci-dessous est reproduit au § 2.4.1. La reproduction d’un extrait
plus large ici permet de présenter l’ensemble du développement pédagogique.
298
TYPE DE MARQUAGE
diamédial
dianormatif
diaphasique
diatextuel
diatopique 505
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
EXPRIMÉ
SOUS FORME DE
MARQUE
EXPRIMÉ
TEXTUELLEMENT DANS
UNE DÉFINITION
+
+
+
EXPRIMÉ
TEXTUELLEMENT DANS
UNE REMARQUE
+
+
+
+
+
– Prescriptions relatives aux rections verbales
Concernant les contraintes relatives aux rections verbales telles qu’elles sont implicitement présentées dans certaines définitions et contextualisations (§§ 3.2.2. et
3.2.3.) se pose la question de la représentativité de ce qui est donné à voir : quand
une prescription portant sur une sélection argumentale est explicite, l’attention des
lecteurs est attirée sur une propriété particulière et peu importe que tout ne soit pas
exprimé à propos de la construction du verbe traité puisque l’objet de la prescription
est clairement circonscrit ; par contre, dans le cadre d’indications implicites, faut-il
comprendre que ce qui n’est pas décrit ne doit pas être employé ? Dans ce cas, la définition proposée dans le Larousse des débutants s.v. empailler (« Empailler un animal
mort, c’est remplir sa peau avec de la paille pour le conserver. ») joue bien son rôle, mais
pas celle fournie s.v. emmêler (« Emmêler des cheveux, c’est les mettre en désordre. »),
qui est trop restrictive, d’autres objets pouvant être emmêlés 506. La réponse à la question précédente est assurément négative dans son principe mais positive en pratique
dans les cas de verbes ayant un paradigme d’arguments possibles limité (comme empailler) ou faisant l’objet d’une prescription normative en conflit avec certains usages
que les rédacteurs transmettent implicitement plutôt que de formuler une remarque.
Ces observations ont une relation directe avec deux autres sous-ensembles de mes
travaux de recherche : d’une part ceux portant sur la détermination des emplois décrits
des items traités (ce qui inclut les constructions syntaxico-sémantiques, cf. T9, T20
ou Tdr5 (§§ 2.3.5., 1.6.1. et 2.3.6.)) et d’autre part ceux qui ont trait à la mise en place
de repères clairement identifiables pour les lecteurs des descriptions lexicales, qu’ils
soient dans une situation de recherche d’aide pour le décodage d’un énoncé rencontré
ou pour l’expression de leurs idées (cf. T17, prolongé respectivement dans chaque
domaine par Tdr5 et T21 (§§ 2.7.2. et 2.3.6.)).
505 La remarque proposée dans le Dictionnaire Hachette junior pour week-end, que l’on ne devrait pas employer au
Québec, fait partie d’un petit ensemble d’exemples que j’ai repris dans plusieurs textes (pour cette remarque
spécifiquement : T12, T13 et T16), comme lien symbolique entre les développements, mais aussi naturellement en vertu de leur qualité illustrative là ils ont été insérés. La prescription évoquée aurait également
pu illustrer dans T24 le passage consacré à la prise en compte des usages extra-hexagonaux (§ 2.2.) si
cette contribution ne s’était pas focalisée sur les paratextes internes ou externes (cf. supra § 2.3.1.).
506 Le choix des cheveux comme entité emmêlée peut éventuellement être motivé par la fréquence de cooccurrence du verbe et du nom considérés dans l’espace enfantin. Les élastiques employés pour jouer dans les cours
de récréation pourraient également être de bons candidats à l’emmêlement, mais ce jeu n’est pas autorisé
partout.
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
299
– Prescriptions implicites par exclusion
Les sélections de nomenclature et d’emplois décrits (§ 3.2.1.) constituent le premier
mode d’expression de la normativité des dictionnaires 507, mais les exclusions sont discrètes et seuls les motifs de choix des items traités sont suggérés dans les paratextes
afin d’appuyer sur les besoins d’acquisitions lexicales des élèves les évaluations quantitatives des nomenclatures 508 :
« 6 000 mots […] les mots que l’enfant connaît et ceux qu’il doit apprendre pour progresser »
(Dictionnaire Hachette benjamin, 4e de couverture)
« 20 000 mots du vocabulaire de base qui doivent être connus des enfants de huit à douze ans »
(Fleurus junior, « Avant-propos », p. 3)
Par ailleurs, les éléments fournis dans les paratextes dictionnairiques concernant
la pertinence des unités incluses dans la nomenclature sont trop vagues pour être
réellement informatifs et seul le travail de relevé de nomenclature entrepris dans la
base Rbd5 (cf. § 2.3.2.) permettra de comparer les choix des lexicographes les concernant, et ainsi d’étudier si les non-sélections d’items relèvent de principes de prescription par non-description, de sélections morphologiques (les mots construits pouvant
ne pas être inclus à la nomenclature s’ils sont interprétables à partir du traitement
de leur base par exemple) ou de divers autres critères, parmi lesquels il ne faut pas
négliger la part de la gestion de l’espace imprimé 509 et celle du démarquage vis-à-vis
de la concurrence.
La conclusion de T14 propose des pistes de recherches (autres que les questions
de sélection qui viennent d’être évoquées) auxquelles les explorations réalisées pour
écrire ce texte ont donné une certaine actualité :
– une étude de la systématicité des discours prescriptifs : sont-ils bien présents pour
toutes les unités, tous les emplois qui en méritent ? sinon, peut-on déterminer des critères de choix des lieux de mention ?
– et l’évaluation de leur interprétabilité par les élèves auxquels ils sont destinés 510.
D’autres pistes seraient envisageables.
En écho à ce qui a été présenté au début de ce commentaire, une recherche complémentaire pourrait consister à analyser les données de la base des marquages observés dans les dictionnaires scolaires (Rbd3) en prenant appui sur les six types de
formulations prescriptives distingués par Glatigny (1989 : 700-701) en fonction des
termes caractéristiques qu’il a observés dans les commentaires dictionnairiques :
507 Je mentionne alternative, au sens de “possibilité par opposition à une autre”, comme exemple d’item à propos duquel les dictionnaires scolaires optent volontiers pour une prescription par omission de traitement de
l’emploi réprouvé. Cet exemple et d’autres, comme pallier, achalandé, etc., sont partagés par de nombreux
ouvrages traitant du “bon usage” de la langue française, comme l’ont rappelé récemment Paveau & Rosier
(2008 : 214) en référant à plusieurs d’entre eux.
508 À défaut de correspondre strictement aux besoins des élèves (cf. n. 353), les valeurs indiquées servent en tout
état de cause à positionner les répertoires dans un segment du marché (cf. n. 205 et T24 n. 4).
509 Cf. § 3.2.1. et T24 § 1.
510 Cette question est récurrente dans mes recherches, comme en témoignent en particulier T9 (§ 2.3.5.) pour
les constructions syntaxico-sémantiques et T15 (§ 2.5.3.) pour les identifications diachroniques.
300
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
« [1] les expressions empruntées au vocabulaire de la morale : faute, fautif, […] type de qualificatif […] plus fréquent au XIXe siècle qu’au XXe. [2] les termes qui dénotent la déviance par
rapport à une règle : abusivement […] barbarisme […]. [3] les mots qui expriment un jugement
de non-concordance : aberrant […]. [4] [l]es termes exprimant l’obligation […] on dit, on emploie […]. [5] des jugements positifs [qui] expriment le refus implicite ou explicite d’une interdiction virtuelle ou formulée : […] s’emploie indifféremment […]. [6] une série de commentaires
qui expriment un jugement sur une forme de langue […] »
Une autre investigation pourrait comprendre une prise en compte stricte des orientations du paratexte du Maxi débutants qui a été cité supra, pour déterminer parmi les
items à la nomenclature les équivalences synonymiques neutres des items marqués et
évaluer les implications de ces substitutions, d’une part du point de vue sémantique
ou syntaxique, et d’autre part de celui de l’expressivité des énoncés. Ceci pourrait par
exemple se faire en exploitant le corpus de textes de lecture (Rcorp13), qui doit déjà
être enrichi de liens vers les articles décrivant les mots-occurrences (cf. § 2.3.6. et en
particulier n. 418), pour en fournir une version alignée contenant chaque texte réécrit
en respectant les prescriptions des dictionnaires scolaires et dans laquelle chaque substitution lexicale biaisant l’énoncé original serait commentée.
2.4.3. Étude du marquage des mots du “parler enfantin” [T22 (à paraître c) ;
Rbd6]
Parmi les prescriptions que les enfants d’âge scolaire entendent formuler, il peut y
en avoir une qui touche leur expression et/ou leur comportement et qui leur enjoint de
ne plus être des “bébés” mais des “grands”, alors même que les mots du “parler enfantin” occupent (encore) une certaine place dans les échanges verbaux que l’on a avec eux.
C’est à ces mots qu’a été consacré le travail engagé, à l’occasion d’un colloque organisé à Amiens par Christophe Rey et Philippes Reynes, pour la rédaction de T22 et la
communication C23 qui l’a précédé, dans laquelle j’ai présenté un plus large éventail
de données examinées que celui qui est restitué dans l’article destiné aux actes. Plus
précisément,
– C23 s’est attachée aux unités linguistiques marquées comme relevant du “parler
enfantin” dans les dictionnaires généraux et scolaires des trois éditeurs majeurs afin
de définir les modalités de marquage de ces unités et de comparer les principes de
sélection de celles qui sont caractérisées comme relevant des échanges observables
entre les enfants et les adultes de leur entourage ;
– T22 a limité l’échantillon dictionnairique précédent aux répertoires Robert.
La continuité de ce travail avec ceux réalisés pour les rédactions de T11 et T14 se
manifeste symboliquement par la reprise dans l’introduction de T22 (en n. 4) d’un
exemple déjà exploité dans ces deux textes (respectivement au § 2.2. et en n. 24) :
celui des remarques successivement présentées dans les articles joujou du Robert junior, dans lesquelles, à partir de 2005, l’indication « On utilise ce mot quand on s’adresse
à de très jeunes enfants. » a été substituée à la notation « Ce mot est utilisé par les
très jeunes enfants. » observable de 1993 à 2003.
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
301
Retour sur T22
T22 débute par l’explicitation du fait que la dénomination “parler enfantin” dont
j’use pour évoquer mon objet d’étude n’est pas celle employée par les dictionnaires analysés, ce qui correspond au désir de ne pas donner a priori une position privilégiée à
l’un d’eux en reprenant sa terminologie.
Le § 1. de T22 présente le corpus dictionnairique pris en compte : le Nouveau Petit
Robert électronique de 2001, deux versions du Robert junior (le texte de 1999 réédité
en version électronique sous le titre de Robert des enfants en 2006 et l’édition imprimée
refondue de 2005) et le Robert benjamin de 1997 (resté inchangé jusqu’à la révision
de 2008 et la refonte de 2009 (cette dernière étant prise en compte en n. 48)). Ces
répertoires ont été choisis pour représenter trois segments de marché – les dictionnaires généraux pour adultes et ceux destinés aux élèves des cycles 3 et 2 de l’école
primaire –, pour la relative synchronie des textes d’un représentant de chaque ensemble,
concentrés entre 1997 et 2001, et pour la disponibilité du texte amplement remanié de
l’un d’eux, le Robert junior de 2005. La n. 7 stipule par ailleurs que des dictionnaires
Hachette et Larousse ont également été pris en compte pour l’étude préalable à la rédaction de ce texte. Il s’agit des répertoires appartenant aux mêmes segments de marché :
– Hachette proposait dans la même période deux dictionnaires généraux et deux scolaires : d’une part le Dictionnaire Hachette. Langue française & synonymes électronique
de 2002 et le Dictionnaire Hachette encyclopédique 2002 (refonte parue en 2001), d’autre part le Dictionnaire Hachette junior de 1998 511 et le Dictionnaire Hachette benjamin de 1996 ;
– Larousse n’ayant pour son compte produit de dictionnaire pour le cycle 3 comparable
à ceux de ses concurrents qu’en 2003 512, les trois répertoires analysés – Petit Larousse
illustré électronique (étudié dans sa version de 2005 513), Larousse junior de 2003 et
Larousse des débutants de 2005 – sont plus tardifs que ceux des autres éditeurs.
La méthode de dépouillement retenue pour ces répertoires a été aussi proche que
possible de celle mise en place pour les dictionnaires Robert 514, décrite au § 1. de T22,
et les données extraites des répertoires des trois éditeurs ont été stockées dans la même
511 Son texte n’a plus été revu avant cette année, pour une sortie à la rentrée scolaire 2010.
512 Larousse avait antérieurement publié le Maxi débutants (depuis 1986 sous ce titre, et 1977 pour la première
parution en tant que Nouveau Larousse des débutants) à l’intention des élèves de même niveau, mais il avait
un principe de description fondé sur les exemples glosés qui risquait d’introduire une distorsion dans les observations relatives aux répertoires de cette maison d’édition par rapport à ceux des autres éditeurs. Maintenant
que les dictionnaires de facture plus classique ont été étudiés, il conviendrait de dépouiller également le Maxi
débutants afin d’évaluer l’incidence effective des options pédagogiques qu’il valorise dans ses paratextes.
513 Le choix de cette version pour ce dictionnaire actualisé chaque année et dont l’édition électronique est vendue
isolément depuis 1996 et avec le volume imprimé au moins depuis le millésime 2003 est dû au fait, contingent, qu’elle était la plus stable sur mon ordinateur parmi celles produites à partir de 2003.
514 Les dictionnaires Larousse, dépouillés juste après les Robert, l’ont été de manière tout à fait comparable (à
ceci près que les données extraites des Robert ont aussi servi d’appui) : l’édition électronique a été explorée
au moyen de la recherche en plein texte et les volumes imprimés exploités sur la base de ce qui avait été
trouvé dans les éditions électroniques des deux éditeurs. Le dictionnaire électronique Hachette ne proposant
pas de fonction de recherche dans les textes des articles, le dépouillement de l’ensemble des répertoires
Hachette, qui s’est fait en dernier, a été manuel.
302
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
base (Rbd6), sommairement présentée en n. 6 de T22 et dont le schéma de relations
reproduit en figure 77 permet de constater que sa structure est simple :
– les tables T_Unite_Linguistique, T_Adressage_Principal, T_Adressage_Subordonne
et T_pivot_ULing_AdPrin_AdSub enregistrent (pareillement à ce qui est fait dans
Rbd5 (cf. § 2.3.2.) et Rbd3 (cf. § 2.4.1.)) quelles sont les unités linguistiques marquées
et leurs modes d’adressage dans les dictionnaires ;
– pour chaque item marqué dans un répertoire, la table T_Marquage stocke les expressions des marquages textuels ou exprimés sous forme de marques et leur lieu d’insertion ;
– et la table T_Commentaires contient des notes analytiques portant sur les marquages
observés.
Figure 77. Schéma de relations de la base des mots du “parler enfantin” (Rbd6)
Comme le pointe la conclusion de la présentation de la méthode de constitution du
corpus d’étude, ce mode contingent de collecte des données, qui a permis de relever et
de croiser beaucoup d’informations, ne peut cependant pas garantir leur exhaustivité,
du fait que l’exploration des ressources électroniques se fait sur la base de mots-clés
supposés (enfantin, enfant(s), adulte(s)…) dont on ne peut pas être assuré d’épuiser
l’inventaire. Et de fait, la reprise des relevés pour la préparation du présent document
m’a permis, par un élargissement de la liste des mots-clés potentiels à des items comme
affection, d’observer dans le Nouveau Petit Robert le marquage de l’item bonhomme 515,
non pris en compte dans T22 :
« Terme d’affection en parlant à, d’un petit garçon. » (Nouveau Petit Robert, s.v. bonhomme II. 5.)
Le § 2. expose les marques et marquages textuels observés dans les quatre dictionnaires Robert et leurs lieux d’insertion. Il en ressort que
– le Robert benjamin ne propose qu’un marquage explicite (s.v. cocotte) et deux séquences définitionnelles jugées pertinentes (s.v. mamie et papi) au sein desquelles
les locuteurs, incluant les jeunes lecteurs du dictionnaire mais ne se limitant pas à eux,
sont représentés par le pronom on ;
515 L’extension de la recherche a été suggérée par la définition de loup 2. dans le même dictionnaire, qui associe
affection à l’item enfant initialement utilisé comme motif de recherche : « Terme d’affection à l’égard d’un
enfant […] ».
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
303
– seul le Nouveau Petit Robert emploie des marques proprement dites (enfantin, langage
enfantin, appellatif enfantin et terme enfantin) ;
– les marquages textuels, qui mobilisent régulièrement les items enfantin et enfant 516,
peuvent figurer dans des remarques, des définitions, mais aussi dans des gloses d’expressions et une citation du Nouveau Petit Robert et dans des contextualisations du Robert
junior ;
– le Robert junior précise volontiers s’il s’agit de propos d’enfants, de ceux d’interlocuteurs leur parlant ou de ceux échangés par les uns et les autres et il est le seul à utiliser
des contextualisations pour fournir des informations métalinguistiques :
Cf. n. 41 : « Le mot « joujou » appartient au langage des enfants. » (s.v. langage 2. dans le Robert
des enfants) et « Le mot « quenotte » appartient au langage des enfants. » (s.v. langage 3. dans
le Robert junior de 2005) ; « Les enfants appellent les poules des cocottes. » (s.v. 1. cocotte dans
le Robert des enfants)
– le marquage étudié est parfois combiné à la marque diphasique familier et plus rarement, et seulement dans le Nouveau Petit Robert, aux marques diastratique et diachronique populaire et vieux ;
– enfin, quelques marquages (principalement dans le Nouveau Petit Robert) ne concernent pas les emplois actuels mais sont proposés dans le composant d’identification
diachronique.
Les §§ 3. et 4. accueillent les comparaisons des marquages opérés dans le dictionnaire général et le dictionnaire junior d’une part et entre les deux éditions de celui-ci
d’autre part. La tendance est nette : les scolaires incluent nettement moins de mots
du “parler enfantin” à leur nomenclature, mais ils sont plus soigneux dans la description des emplois observés.
Élargissements
Dans le cadre de ce commentaire, je vais étendre les données observées afin de présenter un état concernant les trois éditeurs majeurs, en débutant par l’examen des dictionnaires généraux puis en décrivant les dictionnaires scolaires pour la fin de l’école
primaire avant ceux destinés aux jeunes lecteurs.
– Dictionnaires destinés à des lecteurs confirmés
1) Dans le Dictionnaire Hachette. Langue française & synonymes électronique de 2002,
au sein duquel vingt-neuf marquages sont proposés, la distinction entre marques prédéfinitionnelles et marquages textuels au sein d’un autre composant d’article n’est pas
toujours très nette : des parenthèses encadrent les premières comme parfois les seconds,
et des variations de forme sont observables pour les deux. L’item enfantin figure une
fois seul entre parenthèses (il est alors combiné à la marque familier placée avant cellesci 517), mais il peut également être précédé dans celles-ci (i) de langage avec ou sans la
516 S.v. bonhomme, le marquage au moyen de « petit garçon » semble être un cas exceptionnel, mais d’autres
items dont les marqueurs sont aussi occasionnels peuvent encore ne pas avoir été identifiés.
517 « Fam. (enfantin) », 1 occurrence : s.v. quéquette.
304
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
mention de particulièrement et avec ou sans une autre marque ( familier ou populaire)
combinée ou en disjonction 518, et plus exceptionnellement (ii) de dans le langage 519 ou
(iii) de mot 520. L’item enfantin peut par ailleurs être précédé de dans le langage, de
mot ou d’exclamation et figurer dans un marquage textuel inclus dans une définition 521
ou, une fois, être employé isolément dans une référence de citation 522. L’item enfant
peut, lui, figurer dans une marque prédéfinitionnelle ou au sein de marquages textuels
inclus dans une définition ou dans une glose d’expression, mais il appartient toujours
à des formulations qui spécifient si les locuteurs sont des enfants 523, si ce sont les personnes plus âgées qui s’adressent à eux 524 ou si ce sont indifféremment les deux 525.
518 Avec ou sans majuscule initiale :
– « (Langage enfantin.) », 1 occurrence : s.v. dodo, ce marquage étant mis en facteur commun pour les
subdivisions de description 1. (relative à faire dodo) et 2. (relative à dodo ayant le sens de « Lit » dans aller
au dodo) ;
– « Fam. (Langage enfantin.) », 5 occurrences : s.v. caca, compter II. 3. – Compter pour du beurre, mémé,
minou 1. et tata 1. ;
– « Fam. 1. (Langage enfantin) » sans point après enfantin, 1 occurrence : s.v. coco (œuf ) 1., avec une marque
diaphasique qui précède l’ordonnateur de subdivision de description portant sur les deux descriptions de sens
(“œuf ” et “terme d’affection” (cf. n. 524)), alors que la marque de “parler enfantin” postposée à celui-ci a une
portée limitée à la première ;
– « Fam. (langage enfantin) », 2 occurrences : s.v. bisou et mamie, mammy ou mamy ;
– « Fam. (Langage enfantin, partic.) » : 1 occurrence s.v. zizi (sexe) ;
– « Pop. (Langage enfantin.) », 1 occurrence : s.v. pépé ;
– « Pop. 1. (Langage enfantin.) », 1 occurrence : s.v. mémère 1., avec une marque diastratique antéposée à
l’ordonnateur de subdivision de description qui porte sur les deux descriptions de sens, alors que la marque
de “parler enfantin” qui est postposée à celui-ci a une portée limitée à la première ;
– ou encore, dans un composant synonymique parenthésé associé à l’expression C’était pour rire, où les marques
précèdent l’expression et sont articulées à elle par deux points, « (langage enfantin ou pop. : pour de rire) »,
1 occurrence : s.v. rire (verbe) I. 3. pour de rire.
519 « (Dans le langage enfantin.) », avec majuscule initiale, 2 occurrences : s.v. joujou, oux et tonton.
520 « (Mot enfantin.) », avec majuscule initiale, 1 occurrence : s.v. dada (cheval) 1.
521 Quatre formes textuelles observées, avec ou sans parenthésage de l’expression du marquage :
– « (dans le langage enfantin) », en fin de définition, 1 occurrence : s.v. cocotte 1. ;
– « dans le langage enfantin », en fin de définition, 1 occurrence : s.v. nounou ;
– « (mot enfantin) », en fin de définition, 1 occurrence : s.v. pépère I. 1. ;
– « Exclamation enfantine », qui introduit la définition pour marquer et typer tout à la fois l’interjection décrite : 1 occurrence s.v. na !.
522 S.v. tapette, la référence approximative « (comptine accompagnant un jeu enfantin) » placée après la mention
de l’extrait « Le premier de nous deux qui rira aura une tapette » explicite quels en sont les locuteurs potentiels.
523 Trois formes de marquage textuel observées :
1) inclus dans une définition : « Dans le langage des enfants », qui, placé en début de définition, identifie
mieux les enfants comme étant les énonciateurs que ne le ferait “Dans le langage enfantin”, 1 occurrence :
s.v. bobo (nom) 1. ;
2) incluses dans une glose d’expression :
– « employée par les enfants », 1 occurrence : s.v. pouce 3. – – – Pouce ! ;
– « interj. des enfants », 1 occurrence : s.v. coucou 7. Coucou !.
524 Deux formes textuelles observées, encadrées de parenthèses :
– « (souvent à l’adresse d’un enfant) », 1 occurrence : s.v. coco (œuf ) 2. (cette subdivision de description de
sens – relative à l’emploi comme terme d’affection – étant elle-même sous la portée de la marque familier,
cf. n. 518) ;
– « (Surtout en s’adressant à un enfant.), 1 occurrence : s.v. vilain, aine I. 4.
525 « utilisé par les enfants et ceux qui leur parlent », 1 occurrence : s.v. papa 1.
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
305
Enfin, comme dans le Nouveau Petit Robert, le nom bonhomme est marqué dans une
définition par l’emploi de l’item garçon 526.
2) Dans le Dictionnaire Hachette encyclopédique 2002, qui pointe vingt-cinq unités linguistiques en employant des marques pour seulement cinq d’entre elles, deux marquages ne sont pas formulés à propos d’emplois actuels des items mais au sujet de leur
mode de formation et figurent donc dans le composant d’identification diachronique 527.
Les marques mobilisent l’item enfantin isolément ou associé à langage 528 et, dans le
premier cas, éventuellement combiné aux marques familier et populaire 529. Dans les
marquages textuels, l’item enfantin est employé dans une reprise en fin de définition
de la forme « (langage enfantin) » déjà observée comme marque 530, dans une expression rédigée de même teneur 531 ou pour qualifier exclamation 532. L’item enfant figure,
lui, dans des marquages définitionnels qui peuvent spécifier que les locuteurs sont les
enfants 533 ou ceux qui leur parlent 534.
526 « (en parlant à un petit garçon) », s.v. bonhomme 5.
527 Deux formes textuelles observées :
– « Onomat. enfantine pour canard. », 1 occurrence : s.v. 2 cancan, qui marque le mode de formation d’un item
qui ne relève pas du “parler enfantin” ;
– « Formation enfantine. », 1 occurrence : s.v. quéquette, qui marque la formation de l’item mais ne dit rien sur
son usage actuel, qui n’est pas non plus marqué dans un autre composant d’article.
528 Deux formes observées :
– « enfantin », 1 occurrence : s.v. tantine ;
– « (langage enfantin) », 1 occurrence : s.v. mamie (le dictionnaire de langue propose en outre un marquage
familier, cf. n. 518).
529 Deux combinaisons observées :
– « fam, enfantin », 1 occurrence : s.v. caca (le dictionnaire de langue propose les mêmes marquages mais pas la
même formulation, cf. n. 518) ;
– « pop, enfantin », 2 occurrences : s.v. pépé et pépère A 1 (le dictionnaire de langue propose un marquage
comparable pour pépé mais sans marque diastratique pour pépère, cf. nn. 518 et 521).
530 « (langage enfantin) », 2 occurrences : s.v. nounou et tata.
531 « dans le langage enfantin », toujours placé en fin de définition, avec ou sans virgule antéposée :
– avec virgule, 6 occurrences : s.v. 2 coco 1 (“œuf ”), 1 cocotte 1, 1 dada 1 (“cheval”), joujou 1, mimi 1 et
tonton ;
– sans virgule, 2 occurrences : s.v. 2 dodo, minou 1.
532 « Exclamation enfantine », 1 occurrence : s.v. na (le dictionnaire de langue propose un marquage identique
s.v. na !, cf. n. 521).
533 Trois formes textuelles observées :
– « dans le langage des enfants » placé en début ou en fin de définition :
• en début de définition et suivi d’une virgule, 1 occurrence : s.v. bobo 1 (le dictionnaire de langue marque
bobo de la même manière, cf. n. 523) ;
• en fin de définition sans virgule antéposée, 2 occurrences : s.v. mémé et mémère (le dictionnaire de langue
ne précise pas que les locuteurs sont les enfants et il propose en outre un marquage familier pour mémé et
populaire pour mémère, cf. n. 518) ;
– « employée par les enfants », 1 occurrence : s.v. pouce B (le dictionnaire de langue marque pouce de la
même manière, cf. n. 523) ;
– « utilisé par les enfants », 1 occurrence : s.v. papa (le dictionnaire de langue ajoute, s.v. papa 1., « et ceux
qui leur parlent » aux locuteurs mentionnés dans le dictionnaire encyclopédique, cf. n. 525).
534 Deux formes textuelles observées :
– « en parlant à un petit garçon », 1 occurrence : s.v. bonhomme A 3 (le dictionnaire de langue le marque
en mettant cette expression entre parenthèses, cf. n. 526) ;
306
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
3) Dans le Petit Larousse illustré électronique 2005, les trente-huit marquages ne
sont pas fournis sous forme de marques, même s’ils se présentent le plus souvent
sous la forme dans le langage enfantin dans les définitions 535 comme dans une glose
d’expression 536, et que sinon, dans les premières, ils mobilisent les items enfantin 537
ou enfant 538. Les contextualisations, quant à elles, ne marquent pas le “parler enfantin”, mais certaines évoquent des échanges verbaux entre enfants et adultes qui
peuvent renforcer le marquage proposé en définition ou dans la glose d’expression 539.
Le seul cas de marquage combiné impliquant familier présenté sous forme de marque
en début de description de sens concerne une évocation du “parler enfantin” réalisée
au moyen de l’item puéril et dont la prise en compte peut être discutée 540.
Les marquages des dictionnaires généraux Hachette et Larousse sont moins consistants que ceux mis en place dans le Nouveau Petit Robert, ce qui est conforme au
projet de chaque dictionnaire comme à la sociologie des destinataires de ces ouvrages,
puisque, bien qu’ils soient tous conçus pour des lecteurs confirmés, le Nouveau Petit
Robert vise plutôt les lettrés alors que les répertoires Hachette et Larousse sont destinés plus largement aux familles.
Les combinaisons de marquages, pour leur part, y font une place bien moindre que
dans le Robert à la marque diaphasique familier et, dans les seuls dictionnaires
Hachette, ne mobilisent qu’un autre marquage (le diastratique populaire).
L’élaboration de sous-ensembles en fonction des dictionnaires qui partagent la propriété de marquer les items comme relevant du “parler enfantin” (cf. figures 78 à 80)
permet d’observer qu’outre les trente-huit items qui sont marqués par le seul Nouveau
Petit Robert, dix-neuf le sont par les quatre dictionnaires généraux pris en compte,
quatre le sont dans trois des répertoires, quinze dans deux et cinq dans un seul (autre
que le Nouveau Petit Robert).
Chacune de ces figures fournit une représentation des contenus de chacun des quatre
répertoires par le jeu de quatre ensembles intersectifs :
535
536
537
538
539
540
– « souvent à l’adresse d’un enfant », 1 occurrence : s.v. 2 coco 3 (“terme d’affection” ; le dictionnaire de langue
le marque en mettant cette expression entre parenthèses et en affectant au registre familier les deux emplois
s.v. coco (“œuf ”), cf. n. 524).
Placé en fin de définition, avec virgule antéposée, 29 occurrences : s.v. bobo n.m., bonne-maman, bon-papa,
caca n.m., coco n.m. (“œuf ”) 1., cocotte (“poule”) 1., cui-cui, dada n.m. (“cheval”) 1., dodo (“lit”, “sommeil”),
grand-maman, grand-papa, joujou 1., lolo, mamie, mamy ou mammy, mémé 1., mémère 1., mimi
n.m. 1., minou 1., nounou, nounours, papy ou papi, pépé, pépère n.m., pouce interj., tantine, tata,
tonton, toutou et zizi n.m. (“sexe”).
« surtout dans le langage enfantin », avec virgule antéposée, s.v. personne n.f. 1. – grande personne.
« Exclamation enfantine », 1 occurrence : s.v. na.
« dans le langage affectif, surtout celui des enfants. », 2 occurrences : s.v. maman et papa.
Elles peuvent simuler
– des propos d’enfants :
• « J’irai pas, na ! », s.v. na ;
• « Pouce ! je ne joue plus ! », s.v. pouce interj. ;
– ou certains de ceux qui peuvent leur être adressés :
• « Tu as bobo à ton genou ? Ce n’est qu’un petit bobo. », s.v. bobo n.m. ;
• « Laisse parler les grandes personnes ! », s.v. personne n.f. 1. – grande personne.
« Familier. Affecter la niaiserie, s’exprimer d’une façon puérile. », s.v. bêtifier.
Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux
307
– Nouveau Petit Robert électronique de 2001 (NPR)
– Dictionnaire Hachette. Langue française & synonymes électronique
de 2001 (DHL)
– Dictionnaire Hachette encyclopédique 2002 (DH )
– Petit Larousse illustré électronique 2005 (PL)
Les placements de ces ensembles permettent de créer des zones propres à chaque
dictionnaire et sous-ensemble de deux, trois ou quatre dictionnaires. Dans chaque zone,
les noms des dictionnaires sont symbolisés par leurs initiales, et le signe « ∩ » qui les
réunit dans certaines cellules indique que le sous-ensemble délimité correspond à leurs
intersections.
La première de ces figures (figure 78) ne présente que le nombre d’items relevant du
“parler enfantin” relevés dans les répertoires. Les deux suivantes, qui sont complémentaires, présentent pour chaque sous-ensemble les items et leur(s) marquage(s) : dans
la figure 79, ce sont les sous-ensembles comptant 19 et 38 items qui sont traités, dans
la figure 80, ce sont ceux qui en comptent de 1 à 8. Dans ces trois figures la taille de
chaque zone varie en fonction de la place que prend l’expression de leur contenu, mais
leurs positions relatives restent les mêmes.
Figure 78. Répartition des items marqués comme relevant du “parler enfantin” (I) :
sous-ensembles intersectifs d’items marqués dans un ou plusieurs des dictionnaires généraux
NPR
38 items
DHL
1 item
NPR ∩ DHL
5 items
NPR ∩ DHL ∩ PL
1 item
DHL ∩ PL
0 item
DHL ∩ DH
2 items
NPR ∩ DHL ∩ DH
1 item
NPR ∩ DHL ∩ DH ∩ PL
19 items
DHL ∩ DH ∩ PL
0 item
DH
0 item
NPR ∩ DH
0 item
NPR ∩ DH ∩ PL
2 items
DH ∩ PL
0 item
NPR ∩ PL
8 items
PL
4 items
Le relevé des marquages observés effectué pour élaborer les figures 79 et 80 permet
de proposer une représentation synthétique de leurs formes et des repérages de locuteurs. Pour chaque item marqué sont indiqués, le cas échéant, l’expression dans laquelle
il apparaît et qui donne lieu au marquage puis, entre accolades, les lieux et modes de
marquage. Les lieux incluent les noms des dictionnaires (codés cette fois encore par leurs
initiales), mais le composant d’article où figure le marquage n’est indiqué ensuite que
s’il s’agit du composant d’identification diachronique (« étym. »), d’un renvoi (« renv. »)
ou d’une citation (« cit. »). Les modes de marquage sont résumés au moyen d’un code qui
spécifie conjointement s’il s’agit d’une marque ou d’un marquage textuel (respectivement « Mrq » ou « Txt ») et le repérage des énonciateurs (« » si les locuteurs sont les
enfants, «  » si les propos sont destinés aux enfants et « » si aucun énonciateur n’est
identifié ou si ce peut être les enfants ou ceux qui s’adressent à eux). Quand une marque
308
Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia
diaphasique, diastratique ou diachronique est combinée à un marquage de “parler enfantin”, celle-ci est mentionnée après lui (« fam. » pour familier, « pop. » pour populaire
et « vx » pour vieux) et quand elle lui est associée de manière disjonctive, un « ou » précède la marque. Enfin, quand dans un même répertoire l’item est marqué au sein de
plusieurs composants, une esperluette sépare les marquages relevés.
Figure 79. Répartition des items marqués comme relevant du “parler enfantin” (II) :
focus sur les sous-ensembles comptant 19 et 38 items marqués
NPR
38 items : attraper {NPR Txt } ; beau {NPR Mrq fam.} ; bébête {NPR Mrq } ; bibi {NPR
étym. Mrq & pop. ou fam.} ; bon [Avoir tout bon, avoir bon (à un problème)] {NPR Mrq } ;
boudin {NPR Mrq } ; boum [Faire boum] {NPR Mrq } ; brigand {NPR Txt} ; commission
[La grosse, la petite commission] {NPR Mrq } ; croix [Croix de bois, croix de fer (si je mens, je
vais en enfer)] {NPR Txt fam.} ; crotte {NPR Mrq fam.} ; cucul {NPR Mrq } ; cuillère [Une
cuillère pour maman, une cuillère pour papa] {NPR Mrq } ; doudou {NPR étym. Mrq &
fam.} ; doudoune {NPR étym. Mrq } ; doudounes {NPR étym. Mrq & fam.} ; faire [Faire
caca, pipi] {NPR Mrq fam.} ; fifille {NPR Mrq } ; gentil {NPR Mrq } ; grand [Mon grand,
ma grande] {NPR Txt fam.} ; guéguerre {NPR étym. Mrq & fam.} ; homme [ jeune homme]
{NPR Txt fam.} ; laid {NPR Mrq au moral} ; loup {NPR Txt fam.} ; mater (n.) {NPR
Mrq fam.} ; miam-miam {NPR Mrq & étym. Mrq } ; monsieur {NPR Mrq } ; monstre
[Petit monstre ! ] {NPR Txtfam.} ; pépée {NPR Mrq } ; pioupiou {NPR étym. Mrq & fam.
vx} ; pipi {NPR Mrq fam. & étym. Mrq } ; pouf {NPR Mrq } ; prout {NPR Mrq } ; quatreheures {NPR Mrq fam.} ; roudoudou {NPR étym. Mrq & fam.} ; sent-bon {NPR Mrq
fam.} ; titi {NPR étym. Mrq } ; tutu {NPR étym. Mrq }
DHL
1 item
NPR
NPR ∩ DHL ∩ PL
DHL
∩ DHL
1 item
∩ PL
5 items
0 item
DHL
NPR
NPR ∩ DHL ∩ DH ∩ PL
DHL
∩ DH ∩ DHL 19 items : bobo (n.) {NPR Mrq ; DHL Txt ; DH Txt ; PL Txt } ; caca {NPR
∩ DH
2 items ∩ DH Mrq fam. ; DHL Mrq fam. ; DH Mrq fam. ; PL Txt } ; coco (“œuf ”) {NPR