Nathalie GASIGLIA Des usages en corpus aux
Transcription
Nathalie GASIGLIA Des usages en corpus aux
Nathalie GASIGLIA Des usages en corpus aux descriptions dictionnairiques VOLUME 1 : Document de synthèse Habilitation à diriger des recherches Université Charles-de-Gaulle - Lille 3, 6 décembre 2010 Jury : Dany AMIOT (Garante) Gaston GROSS Ulrich HEID Jean PRUVOST (Rapporteur) Serge VERLINDE Pierre ZWEIGENBAUM (Rapporteur) © Nathalie GASIGLIA, 2010 Avant-texte général Le dossier que cet avant-texte introduit a été élaboré en vue de l’obtention d’une habilitation à diriger des recherches (HDR). Préparé de juillet 2009 à octobre 2010, il est, conformément à l’usage, composé d’un document de synthèse et de la compilation des contributions commentées. Cet avant-texte expose le principe d’organisation de ce dossier et exprime mes remerciements à ceux qui, d’une manière ou d’une autre, ont contribué à ce que ce travail arrive à son terme. Principes d’organisation Le premier volume est lui-même composé de deux subdivisions majeures : les paratextes introductifs et le document de synthèse proprement dit. Les paratextes réunissent la table des matières, une table des sigles et des abréviations utilisés dans la synthèse et plusieurs inventaires, qui détaillent respectivement mes publications et productions scientifiques, mes communications et exposés, les projets financés auxquels j’ai participé, les ressources (corpus, bases de données métalexicographiques et prototypes de dictionnaires) que j’ai développées dans le cadre de mes recherches, mes relations avec le monde industriel ou socio-économique, le séminaire de recherche et de formation doctorale que j’ai animé et les mémoires dirigés, seule ou en collaboration. Chacun des éléments inventoriés est associé à un code constitué d’une ou plusieurs lettre(s) qui en spécifie(nt) la nature et d’un nombre qui indique son rang, défini en fonction de son ordre chronologique au sein du sous-ensemble des objets de même nature. Par exemple, T1 réfère au premier texte rédigé et publié, Rcorp1 à la première ressource de type corpus, etc. Tout ce qui est répertorié dans la rubrique « Inventaires » (pp. XXIII-XLVIII), à l’exception des communications et exposés (codes C et E) et des mémoires dirigés (Mdir), est également listé sur le marque-page joint aux volumes. Les mentions des projets (P), des ressources (Rcorp, Rbd et Rdic), des relations avec le monde professionnel (Exp) et du séminaire (S) sont accompagnées de courts descriptifs dans le paratexte introductif, mais pas dans ce récapitulatif autonome. Le texte du document de synthèse est structuré en deux parties principales, qui, comme l’exprime le titre général Des usages en corpus aux descriptions dictionnairiques, correspondent à un découpage de mes activités de recherche en deux grands sous-ensembles : d’une part les traitements de corpus et d’autre part les études métalexicographiques, qui peuvent être orientées vers des analyses de produits éditoriaux ou des conceptions de prototypes dictionnairiques. Les deux autres volumes réunissent, eux, les vingt-quatre textes publiés ou en cours de publication et les cinq textes de diffusion restreinte sur lesquels portent les commentaires formulés dans le mémoire. Ces textes connaissent pour la circonstance une réédition qui permet de gommer les séquelles des différents accidents éditoraux advenus lors de certaines éditions originales et d’homogénéiser la présentation des contributions. II Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Ce dossier, qui revient sur les activités de recherche qui ont été les miennes depuis mon recrutement comme maître de conférences en linguistique et informatique en 1999, témoigne de la polyvalence que j’ai acquise au fil des ans. Comme il est destiné à des spécialistes de différents domaines qui sont susceptibles de ne pas avoir les mêmes repères dans tous ceux qu’abordent mes travaux, j’ai tenté de conjoindre dans le texte de la synthèse une densité technique conforme à ce qui peut être attendu dans ce type d’écrit et un didactisme utile pour que chacun puisse disposer des repères nécessaires à la compréhension de chaque développement. Remerciements En sa qualité de production écrite, ce document existe pour les lecteurs qui lui consacreront ou lui ont déjà consacré du temps et de l’attention. Parmi ceux-ci, je voudrais dire ma reconnaissance aux membres du jury, qui me font l’honneur de lire ou relire les pièces de ce document : Dany Amiot, Gaston Gross, Ulrich Heid, Jean Pruvost, Serge Verlinde et Pierre Zweigenbaum. Chacun d’eux ayant des domaines de recherche intersectifs avec les miens mais aussi des terrains autres (en morphologie, syntaxe et sémantique, en traitements automatiques de corpus, et en lexicographie et métalexicographie), les commentaires qu’ils formuleront seront empreints de leurs connaissances respectives et assurément complémentaires. Je les remercie d’avoir bien voulu lire ce copieux document dans un temps très court et je me réjouis de pouvoir bénéficier de leurs critiques et de leurs éclairages. D’autres personnes ont lu des versions préliminaires. Je tiens à remercier une nouvelle fois ici ceux qui, avant leur publication, ont commenté certains des textes compilés dans les deux autres volumes. Je voudrais également exprimer ma gratitude à Pierre Corbin et à Frédérique Landeau pour leur accompagnement et pour les annotations critiques qu’ils ont portées sur les premières versions du texte de la synthèse. Le document présenté dans le cadre d’une HDR est à la fois le produit du travail borné dans le temps de la préparation du mémoire et celui de l’ensemble des activités de recherche de la première partie d’une carrière. Les travaux développés depuis 1999 seraient autres si je n’avais pas eu à animer avec Pierre Corbin la formation professionnelle de lexicographes qu’il a créée avec Danielle Corbin. C’est très souvent à cet ancrage pédagogique que mes recherches ont dû les rencontres dont mes travaux se sont nourris. Je souhaite exprimer ma sympathie aux étudiants avec lesquels j’ai eu des échanges stimulants, et en particulier ceux qui ont contribué à des développements de corpus (comme Vassil Mostrov, qui a consacré une année post-DESS à l’un d’eux). Je tiens par ailleurs à remercier les partenaires professionnels, qu’ils représentent des entreprises privées, des laboratoires de recherche ou des organismes d’État, qui nous font profiter de la richesse de leur expérience et qui m’ont aidée à acquérir des compétences informatiques et lexicographiques, ainsi qu’une certaine connaissance de la vie des maisons d’édition et de prépresse ou des industries de la langue. Les échanges de vues que nous avons eus ont dynamisé mes recherches en leur offrant un cadre. Les noms de ces partenaires sont évoqués à l’occasion, au fil des pages du mémoire, et je ne peux malheureusement pas les reprendre tous ici. Mais je veux néan- Avant-texte général III moins mentionner expressément ceux de Luc Audrain, Martyn Back, Ann Bertels, Jean Binon, Ralf Brockmeier, Estelle Campion, Laurent Catach, Claude de Loupy, MarieJeanne Derouin, Alexandre Ecker, Ralph Fichtner, Thierry Fontenelle, Bénédicte Gaillard, Valerie Grundy, Ilan Kernerman, Dominique Le Fur, Sylvain Loiseau, Julian Parish, Hans Paulussen, Thierry Poibeau, Roger Rainero, Pierre Rézeau, Thierry Selva et Serge Verlinde. J’ai plaisir aussi à exprimer mes remerciements aux collègues enseignants-chercheurs, chercheurs et autres partenaires au contact desquels mes travaux se sont élaborés ou avec lesquels des projets sont engagés : Fabio Acerbi, Antonio Balvet, Henri Béjoint, Jean-Claude Boulanger, François Corbin, Alise Lehmann, André Le Meur, Camille Martinez, Jean-Marie Pierrel, Jean Pruvost, Dejan Stosic, Danièle Van de Velde, Jean Véronis, Geoffrey Williams, et tous ceux avec lesquels j’ai des échanges plus informels. J’aimerais enfin témoigner ma reconnaissance aux informaticiens – Édouard Neidenberger pour l’UMR STL, et Franck Wisniewski et ses collaborateurs pour les salles pédagogiques de l’Université Lille 3 – qui m’ont fourni une précieuse assistance technique, aux personnels qui assurent la gestion de nos activités de recherche (projets, déplacements, etc.) et aux collègues qui ont dirigé et animé l’UMR qui m’accueille. Paratextes introductifs du volume 1 Table des matières Volume 1 Avant-texte général.................................................................................................... I Paratextes introductifs du volume 1 ......................................................................... V Table des matières ................................................................................................ VII Volume 1 .......................................................................................................... IX Volume 2 .......................................................................................................... XIII Volume 3 .......................................................................................................... XIV Table des sigles et des abréviations ..................................................................... XVII Inventaires ............................................................................................................ XXIII Publications et productions scientifiques ....................................................... XXV Communications et exposés ............................................................................ XXIX Projets financés................................................................................................ XXXII Ressources développées ................................................................................... XXXV Relations avec le monde industriel ou socio-économique : valorisation de la recherche .......................................................................................................... XL Animation de séminaire de recherche et de formation doctorale.................. XLI Mémoires dirigés ............................................................................................. XLII Document de synthèse ............................................................................................... 1 0. Introduction ..................................................................................................... 3 1. Traitements de corpus..................................................................................... 11 1.1. Définir des manières d’envisager les traitements de corpus ................ 13 1.2. Définir un objet de recherche qui motive de recourir à des corpus....... 19 1.2.1. Explorer un corpus de presse pour observer des unités lexicales liées morphosémantiquement [T1 (2001)] ..................................... 19 1.2.2. Problématiser le recours aux corpus en lexicographie [T2 (2002) ; Tdr1]................................................................................................ 23 1.3. Préconiser le haut rendement par une sélection stricte des documents primaires : les commentaires de matchs de football.............................. 33 1.3.1. Introduction de la notion de corpus à haut rendement [T3 (2005b) ; Rcorp1 ; Rcorp2] ......................................................................... 40 1.3.2. Maturité du corpus de commentaires footballistiques radiodiffusés [T4 (2004a) ; Rcorp1 ; Rcorp2 ; Rcorp4] ................................. 43 1.3.3. Le haut rendement valorisé par des explorations méthodiques [T5 (2008b) ; Rcorp1 ; Rcorp3 ; Rdic3] .................................... 53 1.3.4. Expérience bilingue : le corpus serbe / français [P3 ; Rcorp16]... 65 1.3.5. Conclusion : aborder le rendement exploratoire des corpus par le typage discursif des documents qui les constituent....................... 67 1.4. Créer d’autres corpus thématiques pour étudier l’incidence de chaque variation domaniale................................................................................. 71 X Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia 1.4.1. Les corpus de transcriptions du projet OURAL [P2 ; T8 (2008c) ; Rcorp5 ; Rcorp6] ......................................................................... 72 1.4.2. Le corpus bilingue du tourisme [T10 (2008d) ; Rcorp7]............. 77 1.4.3. Le corpus de lexicographie [T18 (2009a) ; Rcorp12 ; Rdic2] ... 83 1.4.4. Conclusion : la thématisation des corpus ne garantit pas leur rendement.............................................................................................. 89 1.5. Fournir une expertise technique pour des corpus variés ...................... 93 1.5.1. Élargir les perspectives de collaborations [S1 ; Tdr2 (2006)] ..... 94 1.5.2. D’un corpus littéraire à une base textuelle en ligne [P3 ; Rcorp15] 97 1.5.3. D’un corpus des versions et traductions d’un texte à l’édition critique parallèle de celui-ci [P5]........................................................ 100 1.5.4. De l’étude de la “densité déductive” de théorèmes mathématiques à leur publication électronique [P4 ; Rcorp14]........................... 102 1.5.5. Conclusion : quand l’informatique éditoriale fait partie intégrante des traitements de corpus ............................................................... 104 1.6. Définir des principes de structuration déterminés par la nature des explorations prévues................................................................................ 109 1.6.1. Le corpus de textes de lecture [T20 (à paraître d) ; Rcorp13]... 110 1.6.2. Le corpus des écrits de Danielle Corbin [Tdr4 (en préparation a) ; Rcorp8 ; Rcorp9 ; Rcorp10 ; Rcorp11].................................. 115 1.6.3. Conclusion : Annoter un corpus en prévision des explorations à venir ................................................................................................. 127 1.7. Conclusion : place des traitements de corpus ........................................ 129 2. Métalexicographie ........................................................................................... 133 2.1. Définir une manière d’étudier des dictionnaires ................................... 135 2.1.1. Objets, méthodes et moyens............................................................ 135 2.1.2. Références et descriptions des répertoires monolingues généraux : la base du marché éditorial [Rbd1] ............................................... 140 2.1.3. Plan du commentaire des travaux métalexicographiques ............ 145 2.2. Analyses structurelles : du repérage des composants d’articles à l’étude de leurs contenus ..................................................................................... 149 2.2.1. Analyse structurelle d’articles de dictionnaires monolingues ...... 151 2.2.1.1. L’article tuer du Nouveau Petit Robert.................................. 151 2.2.1.2. Le Larousse pratique ............................................................... 157 2.2.1.3. Le Larousse des débutants [Rdic4]........................................ 167 2.2.1.4. Conclusion : des articles monolingues aux bilingues............... 171 2.2.2. Analyse structurelle d’articles de dictionnaires bilingues [T6 (2004b)] ............................................................................................ 171 2.2.3. Balisage semi-automatique d’articles bilingues et repérage des relations privilégiées liant certains composants [T7 (2005a)]...... 178 2.2.4. Conclusion : xmlisation de répertoires pour la valorisation des textes imprimés et l’analyse métalexicographique........................ 184 Table des matières XI 2.3. Identification des unités linguistiques et de leurs différents emplois décrits dans les articles de dictionnaires ............................................... 193 2.3.1. Étude des principes de sélection de nomenclatures [T24 (à paraître a)] ........................................................................................... 194 2.3.2. Comparaison de nomenclatures à partir des formes graphiques en adresses macro- et microstructurelles [Rbd5] ......................... 202 2.3.3. Analyse des relations entre unités linguistiques et représentations graphiques de leurs référents [Rbd2] ........................................... 214 2.3.4. Identification des unités linguistiques par leur(s) forme(s) phonique(s) et graphique(s) [T23 (2010b)] .......................................... 225 2.3.5. Analyse de descriptions de constructions syntaxiques [T9 (2009c)] . 236 2.3.6. Analyse des modalités d’identification des unités linguistiques à partir des formes graphiques rencontrées dans des textes et de leurs contextes d’emploi [Tdr5 (en préparation b)] ...................... 250 2.3.7. Conclusion : du choix au repérage de ce qui fait l’objet de traitements................................................................................................ 256 2.4. Étude des marquages ou prescriptions d’emplois lexicaux dans des dictionnaires monolingues ........................................................................... 261 2.4.1. Étude de la variété des marquages [T11 (à paraître b) ; Rbd3] .. 269 2.4.2. Analyse fonctionnelle des marquages interprétables comme prescriptifs [T14 (à paraître e)] ............................................................ 292 2.4.3. Étude du marquage des mots du “parler enfantin” [T22 (à paraître c) ; Rbd6] .............................................................................. 300 2.4.4. Conclusion : un panorama et des études particulières pour mieux comprendre l’emploi des marques et marquages textuels ............ 314 2.5. Étude des indications relatives à l’origine des mots décrits dans des dictionnaires scolaires ............................................................................. 319 2.5.1. Étude de la variété des sélections et expressions des mentions d’origines étrangères [T12 (2008a) ; Rbd4] ................................. 320 2.5.2. Analyse des fonctions des mentions d’origines étrangères et de leurs associations avec d’autres informations [T13 (2008g) ; T16 (2008f )] ............................................................................................. 334 2.5.3. Analyse critique des identifications diachroniques dans une sélection de dictionnaires pour le cycle 3 et le début du collège [T15 (2008e)]............................................................................................. 343 2.5.4. Conclusion : vers un dictionnaire historique de la langue junior ? .. 350 2.6. Susciter et faire dialoguer des analyses plurielles de dictionnaires..... 353 2.6.1. Croiser des modes de lecture innovants [Tdr3 (2010)]................. 353 2.6.2. Apprécier d’éventuelles évolutions dictionnairiques [T19 (2009b)]... 357 2.6.3. Conclusion : stimuler le partage de thématiques de recherche .... 361 2.7. Incidences des évolutions informatiques dans les processus éditoriaux ... 363 2.7.1. Appréhender les évolutions éditoriales [T17 (2009d) §§ 1. et 2.].. 364 XII Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia 2.7.2. Spéculations dictionnairiques : vers un prototype de dictionnaire scolaire [T17 (2009d) § 3. ; T21 (2010a) ; Rdic6]...................... 368 2.7.3. Conclusion : de l’observation de pratiques éditoriales à l’élaboration de prototypes de dictionnaires................................................. 375 2.8. Conclusion : place de la métalexicographie (analytique et de conception).. 379 3. Conclusion........................................................................................................ 383 Références bibliographiques................................................................................. 389 Références de dictionnaires, d’encyclopédies, de bases lexicales et de didacticiels ................................................................................................................ 391 Autres références ............................................................................................. 399 Table des matières XIII Volume 2 Paratextes introductifs du volume 2 ......................................................................... XLIX Avant-texte des textes publiés, à paraître ou à diffusion restreinte.................. LI Rappel de la table des matières ........................................................................... LIII Volume 1 .......................................................................................................... LV Volume 2 .......................................................................................................... LIX Volume 3 .......................................................................................................... LX Textes publiés ou à paraître (1e partie)..................................................................... 413 « Meaning and the Generation of Reference » (2001, en collaboration avec Pierre CADIOT & François NEMO) ................................................. 415 T2 « Pour un traitement automatique optimisant la consultation de corpus électroniques en lexicographie » (2002) ................................................ 427 T3 « Stratégie de constitution de corpus oraux transcrits (1) : arguments pour un corpus plurithématique à haut rendement » (2005b) ............ 435 T4 « Faire coopérer deux concordanciers-analyseurs pour optimiser les extractions en corpus » (2004a)................................................................. 451 T5 « Stratégie de consultation de corpus oraux transcrits : pistes méthodologiques pour l’exploration d’un corpus thématique à haut rendement » (2008b)........................................................................................ 471 « Lire les dictionnaires (2). Une DTD pour le Robert & Collins Junior bilingue : spéculations métalexicographiques » (2004b, en collaboration avec Pierre CORBIN) .................................................................... 491 T7 « Étude de faisabilité d’une conversion XML semi-automatique du texte du Robert & Collins Junior bilingue (1) : délimitation des éléments et calcul de portée des contextualisations phrastiques » (2005a) ....... 549 T8 « Stratégie de constitution de corpus oraux transcrits (2) : pistes méthodologiques adoptées pour la création d’un corpus thématique dans le cadre du projet OURAL » (2008c) ..................................................... 591 « Le monde étrange des dictionnaires (9). La quadrature du cercle des dictionnaires monolingues imprimés pour l’expression : le cas du Dictionnaire du français au collège » (2009c, en collaboration avec Pierre CORBIN) ....................................................................................... 603 T10 « De la création d’un corpus bilingue du tourisme à partir du Web à son exploration avec ParaSearch et Unitex pour la documentation des lexicographes » (2008d, en collaboration avec Hans PAULUSSEN)... 629 T11 « Éléments pour un état de la description de la variété des usages lexicaux dans les dictionnaires français monolingues (1980-2008) » (à paraître b, en collaboration avec Pierre CORBIN) ................................. 657 T12 « Le traitement des emprunts dans les dictionnaires d’apprentissage français : options descriptives et choix rédactionnels » ( 2008a)......... 677 T13 « Le traitement des anglicismes dans quelques dictionnaires français pour jeunes lecteurs » (2008g)............................................................... 723 T1 T6 T9 XIV Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Volume 3 Paratextes introductifs du volume 3 ......................................................................... LXIII Rappel de la table des matières ........................................................................... LXV Volume 1 .......................................................................................................... LXVII Volume 2 .......................................................................................................... LXXI Volume 3 .......................................................................................................... LXXII Textes publiés ou à paraître (2e partie)..................................................................... 741 T14 « Les divers aspects de la prescription dans les dictionnaires scolaires » (à paraître e)........................................................................................... 743 T15 « Le traitement des “identifications diachroniques” dans des dictionnaires scolaires français : évaluation de pratiques et proposition de principes de rédaction alternatifs » (2008e) ......................................... 759 T16 « Description of loan words in French school dictionaries: treatment of words of foreign origin in Dictionnaire Hachette junior (2006) and Le Robert junior illustré (2005) » (2008f ).............................................. 789 T17 « Évolutions informatiques en lexicographie : ce qui a changé et ce qui pourrait émerger » (2009d).................................................................... 799 T18 « Approche des métaphores dans le lexique afférent à la lexicographie » (2009a, en collaboration avec Pierre CORBIN) ...................................... 857 T19 « Changer les dictionnaires ? Une pluralité d’approches » (2009b, en collaboration avec Pierre CORBIN) ........................................................ 879 T20 « Stratégie de constitution d’un corpus de textes scolaires dédié à des études métalexicographiques et à la conception d’un module d’hyperappel de dictionnaire » (à paraître d, en collaboration avec Stavroula MARKEZI) ................................................................................................ 909 T21 « Some editorial orientations for a multi-tier electronic monolingual school dictionary » (2010a) .................................................................... 925 T22 « Étude des marquages d’emplois lexicaux identifiés comme relevant du “parler enfantin” dans quatre dictionnaires Robert monolingues contemporains » (à paraître c)............................................................... 931 T23 « Donner un accès aisé aux formes phoniques des mots décrits dans un dictionnaire : étude pour un dictionnaire monolingue français destiné à de jeunes utilisateurs » (2010b) .................................................. 945 T24 « Représentations lexicographiques actuelles du lexique français : aperçus sur les choix de nomenclatures » (à paraître a, en collaboration avec Pierre CORBIN) ............................................................................... 959 Textes à diffusion restreinte ...................................................................................... 985 Tdr1 « Electronic corpora for lexicographers: how we can optimise the output of KWIC lists consultations » (2001) .............................................. 987 Tdr2 « Comité d’orientation pour Frantext : contribution de linguistes de l’UMR STL pour la réunion du 16 novembre 2006 » (2006) ................ 995 Table des matières XV Tdr3 « Lire les dictionnaires : une pluralité d’approches. Présentation du projet » (2010)......................................................................................... 1009 Tdr4 « Vers une édition critique électronique des écrits de Danielle Corbin (1) : du corpus structuré à l’interface de consultation en ligne » (en préparation a) ........................................................................................ 1021 Tdr5 « Le Dictionnaire Hachette benjamin met-il à la portée des élèves du CE1 les mots d’un manuel de français ? » (en préparation b) ............. 1027 Table des sigles et des abréviations Les abréviations relatives aux ouvrages sont décodées en bibliographie. AFNOR Agence Française de NORmalisation AGILE [projet] Atelier de Génie Informatique et Linguistique ALITHILA Analyses LITtéraires et HIstoire de la LAngue (EA 1061, Université Lille 3) ALT Apprentissage des Langues et Technologies ANHIMA ANthropologie et HIstoire des Mondes Antiques (UMR 8210, Université Paris Diderot) ANR Agence Nationale de la Recherche API Alphabet Phonétique International ARTFL [projet] American and French Research on the Treasury of the French Language ATALA Association pour le Traitement Automatique des LAngues ATILF Analyse et Traitement Informatique de la Langue Française (UMR 7718, Nancy-Université) AWK langage de programmation inventé par Alfred Aho, Peter Weinberger et Brian Kernighan BQR Budget Qualité Recherche (des universités) C Communication CALL Computer-Assisted Language Learning CALN Compréhension Automatique du Langage Naturel (anciennement équipe du LIF) CDD Contrat de travail à Durée Déterminée CE1 / CE2 Cours Élémentaire 1e / 2e années (de l’enseignement primaire) CIFRE Convention Industrielle de Formation par la REcherche CIFRE (contrat) contrat de travail subventionné dans le cadre d’une Convention Industrielle de Formation par la REcherche CLIN [meeting] Computational Linguistics In the Netherlands CMLF Congrès Mondial de Linguistique Française CM1 / CM2 Cours Moyen 1e / 2e années (de l’enseignement primaire) CNRS Centre National de la Recherche Scientifique CNRTL Centre National de Ressources Textuelles et Lexicales COD Complément d’Objet Direct CP Cours Préparatoire (de l’enseignement primaire) CRISCO Centre de Recherches Inter-langues sur la Signification en COntexte (EA 4255, Université de Caen) CRTT Centre de Recherche en Terminologie et Traduction (EA 4162, Université Lumière Lyon 2) CSS Cascading Style Sheets XX Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia D Direction d’ouvrages collectifs DEA Diplôme d’Études Approfondies DEL “Diplôme Européen de Lexicographie” DELIC DEscription Linguistique Informatisée sur Corpus (anciennement EA 3779, Université de Provence) DESS Diplôme d’Études Supérieures Spécialisées DFG Deutsche Forschungsgemeinschaft DGLF Délégation Générale à la Langue Française DGLFLF Délégation Générale à la Langue Française et aux Langues de France DTD Définition de Type de Document E Exposé EA Équipe d’Accueil EACL [congrès] European Chapter of the Association for Computational Linguistics EAO Enseignement Assisté par Ordinateur Exp mission d’Expertise ou de conseil FLE Français Langue Étrangère FLS Français Langue Seconde FOS Français sur Objectifs Spécifiques HDR Habilitation à Diriger des Recherches HTML (ou HTM) Hypertext Markup Language IDL (maîtrise) maîtrise “Industries De la Langue” ILF Institut de Linguistique Française (fédération de recherche 2393) INALCO Institut NAtional des Langues et Civilisations Orientales INaLF Institut National de la Langue Française (anciennement fédération de recherche) IRD Institut de Recherche pour le Développement ISBN International Standard Book Number ISO International Organization for Standardization KWIC list Key Word In Context list LADL Laboratoire d’Automatique Documentaire et Linguistique (anciennement laboratoire du CNRS) LDI Lexiques, Dictionnaires, Informatique (UMR 7187, Universités Paris 13 et de Cergy-Pontoise) LIF Laboratoire d’Informatique Fondamentale de Marseille (UMR 6166, Universités Aix-Marseille 1 et 2) LT (DESS) DESS “Lexicographie et Terminographie” Table des sigles et des abréviations XXI LTTAC (DESS, M2 ou master) DESS, M2 ou master “Lexicographie, Terminographie et Traitement Automatique des Corpus” Mdir Mémoire dirigé MÉTADIF centre de recherches MÉTAlexicographiques et DIctionnairiques Francophones (anciennement UMR 8127, Université de Cergy-Pontoise) MRAP Mouvement contre le Racisme et pour l’Amitié entre les Peuples M1 / M2 master 1e / 2e années n. note nn. notes P Projet financé p. page PAO Publication Assistée par Ordinateur #PCDATA mot-clé des langages de balisage SGML et XML désignant des “données” (DATA) de type caractères (C ) analysables par un parseur (P ) (le dièse indiquant que PCDATA est un mot-clé) PDF Portable Document Format PHP PHP: Hypertext Preprocessor (langage de scripts utilisé pour produire des pages Web dynamiques) pp. pages Rbd Ressource développée de type base de données métalexicographique Rcorp Ressource développée de type corpus (ou outil ou produit associé) Rdic Ressource développée de type prototype de dictionnaire S Séminaire SGML Standard Generalized Markup Language SHS Sciences Humaines et Sociales SILEX Syntax Interprétation LEXique (anciennement UMR 8528, Université Lille 3) SQL Structured Query Language STEVIN [programme] Spraak- en Taaltechnologische Essentiële Voorzieningen In het Nederlands STL Savoirs, Textes, Langages (UMR 8163, Universités Lille 1 et 3) T Texte publié ou à paraître TAL Traitement Automatique des Langues TAL (M1) M1 “ Traitement Automatique des Langues” TALEP Traitement Automatique du Langage Écrit et Parlé (composante du LIF) TALN [conférence] Traitement AUtomatique des Langues Naturelles XXII Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Tdr Texte à diffusion restreinte TEI Text Encoding Initiative UMR Unité Mixte de Recherche URL Uniform Resource Locator W3C World Wide Web Consortium XML eXtensible Markup Language XPath XML Path Language XSL eXtensible Stylesheet Language XSL-FO eXtensible Stylesheet Language - Formatting Objects XSLT eXtensible Stylesheet Language Transformations Inventaires Publications et productions scientifiques Directions d’ouvrages collectifs 2009, en collaboration avec Pierre CORBIN, Lexique 19, « Changer les dictionnaires ? », 305 p. [D1] Contributeurs : Henri Béjoint, Jean Binon, François Corbin, Pierre Corbin, Thierry Fontenelle, Nathalie Gasiglia, Thierry Selva, Danièle Van de Velde, Serge Verlinde. en préparation, Lexique 22, « Lire les dictionnaires. Une pluralité d’approches ». [D2] Contributeurs : Lucie Barque, Pierre Corbin, Nathalie Gasiglia, Alexandre Ecker, Ralph Fichtner, Philippe Gréa, Sylvain Loiseau, Camille Martinez, Alain Polguère. Articles publiés avant la soutenance de thèse 1996a, « Pressoir à/pour olives et ventilateur à/avec hélice, deux indices interprétatifs pour les N1 à N2 noms d’instruments », LINX, numéro d’hommage à Jean Dubois, pp. 169186. 1996b, « Le rôle de la préposition et de certains suffixes dans l’interprétation automatique de séquences N1 à N2 désignant des instruments, et dont le N1 est en liaison avec un verbe », Recueil du Centre d’Études Linguistiques, Université de Dunkerque, pp. 56-68. Thèse 1998, Constructions de représentations sémantiques de séquences polylexicales de structure N1 à N2 désignant des instruments à partir des indices portés par la préposition à, la morphosémantique des N1 et N2 et de propriétés extraites sur ces noms, thèse de doctorat nouveau régime en linguistique théorique, formelle et automatique, soutenue le 8 octobre 1998, Université Paris VII. Jury : Bernard Bosredon, Pierre Cadiot (rapporteur), Benoît Habert (codirecteur), Hélène Huot, Danièle Leeman (rapporteur), François-Xavier Testard-Vaillant (directeur). Articles publiés depuis la soutenance de thèse (ou à paraître) 2001, en collaboration avec Pierre CADIOT & François NEMO, « Meaning and the Generation of Reference », in Pierrette Bouillon & Kyoko Kanzaki eds, First International Workshop on Generative Approaches to the Lexicon. April 26-28, 2001, Geneva, Switzerland, Genève, Université de Genève, École de Traduction et d’Interprétation, pp. non numérotées [225-232]. [T1] 2002, « Pour un traitement automatique optimisant la consultation de corpus électroniques en lexicographie », in Anna Braasch & Claus Povlsen eds, Proceedings of the Tenth International EURALEX Congress, EURALEX 2002, Copenhague, Center for Sprogteknologi, vol. I, pp. 105-111. [T2] XXVI Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia 2004a, « Faire coopérer deux concordanciers-analyseurs pour optimiser les extractions en corpus », Revue française de linguistique appliquée IX.1 (« Linguistique et informatique : nouveaux défis », Benoît Habert dir.), pp. 45-62. [T4] 2004b, en collaboration avec Pierre CORBIN, « Lire les dictionnaires (2). Une DTD pour le Robert & Collins Junior bilingue : spéculations métalexicographiques », Cahiers de lexicologie 84 (« Hommage à Michel Glatigny », Jean Pruvost éd.), pp. 135-194. [T6] 2005a, « Étude de faisabilité d’une conversion XML semi-automatique du texte du Robert & Collins Junior bilingue (1) : délimitation des éléments et calcul de portée des contextualisations phrastiques », in Michaela Heinz éd., L’exemple lexicographique dans les dictionnaires français contemporains. Actes des “Premières journées allemandes des dictionnaires”, Lexicographica Series Maior 128, Tübingen, Max Niemeyer Verlag, pp. 147-186. [T7] 2005b, « Stratégie de constitution de corpus oraux transcrits (1) : arguments pour un corpus plurithématique à haut rendement », in Geoffrey Williams dir., La linguistique de corpus en France ou en français, collection Rivages linguistiques, Rennes, Presses Universitaires de Rennes, pp. 219-232. [T3] 2008a, « Le traitement des emprunts dans les dictionnaires d’apprentissage français : options descriptives et choix rédactionnels », in Jean Pruvost dir., Les Journées des dictionnaires de Cergy. Dictionnaires et mots voyageurs. Les 40 ans du Petit Robert. De Paul Robert à Alain Rey, collection Actes de colloque, Éragny-sur-Oise, Éditions des Silves, pp. 153-212. [T12] 2008b, « Stratégie de consultation de corpus oraux transcrits : pistes méthodologiques pour l’exploration d’un corpus thématique à haut rendement », in Geoffrey Williams éd., Actes des Troisièmes Journées de la Linguistique de Corpus, revue électronique Texte et Corpus, pp. 145-164, http://web.univ-ubs.fr/corpus/jlc3/2_5_gasiglia.pdf. [T5] 2008c, « Stratégie de constitution de corpus oraux transcrits (2) : pistes méthodologiques adoptées pour la création d’un corpus thématique dans le cadre du projet OURAL », in Geoffrey Williams éd., Actes des quatrièmes Journées de la Linguistique de Corpus, revue électronique Texte et Corpus, pp. 13-23, http://web.univ-ubs.fr/corpus/jlc4/acteJLC2005_ 2_gasiglia.pdf. [T8] 2008d, en collaboration avec Hans PAULUSSEN, « De la création d’un corpus bilingue du tourisme à partir du Web à son exploration avec ParaSearch et Unitex pour la documentation des lexicographes », in François Maniez, Pascaline Dury, Nathalie Arlin & Claire Rougemont dir., Corpus et dictionnaires de langues de spécialité, Grenoble, Presses Universitaires de Grenoble, pp. 231-270. [T10] 2008e, « Le traitement des “identifications diachroniques” dans des dictionnaires scolaires français : évaluation de pratiques et proposition de principes de rédaction alternatifs », in Jacques Durand, Benoît Habert & Bernard Laks resp., Congrès mondial de linguistique française. Paris, 9-12 juillet 2008, Paris, Institut de Linguistique Française / EDP Sciences, pp. 1117-1136 du CD-ROM ; http://www.linguistiquefrancaise.org/articles/cmlf/ pdf/2008/01/cmlf08236.pdf, pp. 1129-1148. [T15] 2008f, « Description of loan words in French school dictionaries: treatment of words of foreign origin in Dictionnaire Hachette junior (2006) and Le Robert junior illustré (2005) », in Elisenda Bernal & Janet DeCesaris eds, Proceedings of the XIII EURALEX International Congress (Barcelona 15-19 July 2008), Sèrie Activitats 20, Barcelona, Institut Universitari de Lingüística Aplicada, pp. 1115-1122. [T16] Inventaires XXVII 2008g, « Le traitement des anglicismes dans quelques dictionnaires français pour jeunes lecteurs », in François Maniez & Pascaline Dury dir., Lexicographie et terminologie : histoire de mots. Hommage à Henri Béjoint, Travaux du CRTT, Gap, Louis Jean Imprimeur, pp. 157-174. [T13] 2009a, en collaboration avec Pierre CORBIN, « Approche des métaphores dans le lexique afférent à la lexicographie », in Pascaline Dury, François Maniez, Nathalie Arlin & Claire Rougemont éds, La métaphore en langues de spécialité, Travaux du CRTT, Grenoble, Presses Universitaires de Grenoble, pp. 83-116. [T18] 2009b, en collaboration avec Pierre CORBIN, « Changer les dictionnaires ? Une pluralité d’approches », Lexique 19 (« Changer les dictionnaires ? », Pierre Corbin & Nathalie Gasiglia dir.), pp. 7-38. [T19] 2009c, en collaboration avec Pierre CORBIN, « Le monde étrange des dictionnaires (9). La quadrature du cercle des dictionnaires monolingues imprimés pour l’expression : le cas du Dictionnaire du français au collège », Lexique 19 (« Changer les dictionnaires ? », Pierre Corbin & Nathalie Gasiglia dir.), pp. 41-68. [T9] 2009d, « Évolutions informatiques en lexicographie : ce qui a changé et ce qui pourrait émerger », Lexique 19 (« Changer les dictionnaires ? », Pierre Corbin & Nathalie Gasiglia dir.), pp. 224-298. [T17] 2010a, « Some editorial orientations for a multi-tier electronic monolingual school dictionary », in Sylviane Granger & Magali Paquot eds, eLexicography in the 21st Century: New challenges, new applications. Proceedings of eLex 2009, Louvain-la-Neuve, 22-24 october 2009, coll. Cahiers du Cental, vol. 7, Louvain-la-Neuve, UCL, Presses Universitaires de Louvain, pp. 393-398. [T21] 2010b, « Donner un accès aisé aux formes phoniques des mots décrits dans un dictionnaire : étude pour un dictionnaire monolingue français destiné à de jeunes utilisateurs », in Anne Dykstra & Tanneke Schoonheim eds, Proceedings of the XIV Euralex International Congress (Leeuwarden, 6-10 July 2010), Ljouwert, Fryske Akademy / Afûk, pp. 1092-1104. [T23] à paraître a, en collaboration avec Pierre CORBIN, « Représentations lexicographiques actuelles du lexique français : aperçus sur les choix de nomenclatures », Cahiers de lexicologie. [paru en octobre 2010 (Cahiers de lexicologie 96.1 (« Problèmes de lexique », Jean-Claude Anscombre & Gaston Gross dir.), pp. 35-65.) ; T24] à paraître b, en collaboration avec Pierre CORBIN, « Éléments pour un état de la description de la variété des usages lexicaux dans les dictionnaires français monolingues actuels », in Actes du colloque international La marque lexicographique : quel avenir ?, Université de Chypre, 21-23 octobre 2006. [prévu pour fin 2010 ; T11] à paraître c, « Étude des marquages d’emplois lexicaux identifiés comme relevant du “parler enfantin” dans quatre dictionnaires Robert monolingues contemporains », Carnets d’Atelier de Sociolinguistique (actes du colloque Dimensions (visions et représentations) sociolinguistiques dans les dictionnaires, organisé par Christophe Rey et Philippe Reynes, Atelier du LESCLaP, Université de Picardie Jules Verne, Amiens, 9 décembre 2009). [T22] à paraître d, en collaboration avec Stavroula MARKEZI, « Stratégie de constitution d’un corpus de textes scolaires dédié à des études métalexicographiques et à la conception d’un module d’hyperappel de dictionnaire », in Geoffrey Williams éd., Actes des sixièmes Journées de la Linguistique de Corpus, revue électronique Texte et Corpus. [T20] XXVIII Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia à paraître e, « Les divers aspects de la prescription dans les dictionnaires scolaires », in Danièle Candel & Douglas Kibbee éds, Actes du colloque international Prescriptions en langue (histoire, succès, limites) (Paris, 15 & 16 novembre 2007). [T14] Habilitation à diriger des recherches (HDR) 2010, Des usages en corpus aux descriptions dictionnairiques, mémoire d’Habilitation à diriger des recherches, 3 vol., Université Charles-de-Gaulle, Lille 3. Jury : Dany Amiot (directrice), Gaston Gross, Ulrich Heid, Jean Pruvost (rapporteur), Serge Verlinde, Pierre Zweigenbaum (rapporteur). Textes à diffusion restreinte joints au dossier d’HDR 2001, « Electronic corpora for lexicographers: how we can optimise the output of KWIC lists consultations », Twelfth CLIN (Computational Linguistics In the Netherlands) Meeting, Twente (Pays-Bas), 30 novembre 2001. [Tdr1] 2006, « Comité d’orientation pour Frantext : contribution de linguistes de l’UMR STL pour la réunion du 16 novembre 2006 », Comité d’orientation pour Frantext, ATILF, Nancy, 16 novembre 2006. [Tdr2] 2010, « Lire les dictionnaires : une pluralité d’approches. Présentation du projet ». [Tdr3] en préparation a, « Vers une édition critique électronique des écrits de Danielle Corbin (1) : du corpus structuré à l’interface de consultation en ligne ». [Tdr4] en préparation b, « Le Dictionnaire Hachette benjamin met-il à la portée des élèves du CE1 les mots d’un manuel de français ? », Lexique 22 (« Lire les dictionnaires. Une pluralité d’approches », Nathalie Gasiglia dir.). [Tdr5] Texte en préparation non joint au dossier d’HDR en préparation c, « Lire les dictionnaires. Présentation d’une sélection de lectures innovantes », Lexique 22 (« Lire les dictionnaires. Une pluralité d’approches », Nathalie Gasiglia dir.). Compte rendu d’ouvrage 2004, « Jean Véronis, Parallel Text Processing: Alignment and use of translation corpora, Kluwer Academic Publishers, 2000, 428 p., ISBN 0-7923-6546-1 », Traitement automatique des langues 45.1, pp. 183-187. Inventaires XXIX Communications et exposés Communications en colloques internationaux avant la soutenance de thèse 1995a, « Le rôle de la préposition et de certains suffixes dans l’interprétation automatique de séquences N1 à N2 désignant des instruments et dont le N1 est en liaison avec un verbe », Rencontres des jeunes linguistes, Dunkerque, 17-18 mars 1995. 1995b, « Éléments pour l’interprétation automatique de séquences N1 à N2 désignant des instruments », Deuxièmes rencontres de l’Atelier de doctorants de linguistique de l’Université Pais VII, 8 décembre 1995. 1996, « Rôle des N2 et Lexique génératif, deux pistes pour l’interprétation automatique de séquences N1 à N2 noms d’instruments », Deuxièmes rencontres des jeunes linguistes, Dunkerque, 15-16 mars 1996. Communications en colloques internationaux depuis la soutenance de thèse 2001a, en collaboration avec Pierre CADIOT & François NEMO, « Meaning and the Generation of Reference », GL2001, 1st International Workshop on Generative Approaches to the Lexicon, Genève (Suisse), 26-28 avril 2001. [C1, cf. T1] 2001b, « Corpus électroniques : quelles perspectives pour la lexicographie monolingue ? », Journée “Linguistique de corpus et linguistique appliquée”, organisée par l’Association Française de Linguistique Appliquée (AFLA), Université de Bretagne-Sud, Lorient, 14 septembre 2001. [C2] 2001c, « Corpus alignés et lexicographie bilingue », Huitième Symposium International de traduction, terminologie et lexicologie de l’Université Dalhousie, Halifax (Canada), 5 octobre 2001. [C3] 2001d, « Electronic corpora for lexicographers: how we can optimise the output of KWIC lists consultations », Twelfth CLIN (Computational Linguistics In the Netherlands) Meeting, Twente (Pays-Bas), 30 novembre 2001. [C4, cf. Tdr1] 2002a, « Extractions automatiques en corpus de langue commune française : quels enrichissements en attendre pour les descriptions lexicographiques et comment procéder efficacement ? », Atelier “Les français des corpus”, organisé sous l’égide de l’Association of French Studies et la Society of French Studies, Bristol (Grande-Bretagne), 16 février 2002. [C5] 2002b, « Pour un traitement automatique optimisant la consultation de corpus électroniques en lexicographie », Tenth EURALEX International Congress, Copenhague (Danemark), 13-17 août 2002. [C6, cf. T2] 2002c, « Vers un corpus thématisé de dialogues radiodiffusés : défense et illustration », Journées “Linguistique de corpus et linguistique appliquée”, organisées par le Centre de Recherche en Littérature, Linguistique et Civilisation (CRELLIC), Université de BretagneSud, Lorient, 12-14 septembre 2002. [C7, cf. T3] 2003, « Pistes méthodologiques pour l’exploration d’un corpus à haut rendement relatif au parler du football, une langue de spécialité de grande diffusion », 3 es journées de linguistique de corpus, organisées par le Centre de Recherche en Littérature, Linguistique et XXX Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Civilisation (CRELLIC), Université de Bretagne-Sud, Lorient, 11-13 septembre 2003. [C8, cf. T5] 2004, « Une DTD pour typologiser les contextualisations : étude exploratoire du Robert & Collins Junior bilingue », 1 ères Journées allemandes des dictionnaires - Colloque international de lexicographie : “Entre définition et citation : l’exemple. L’exemple lexicographique dans les dictionnaires français contemporains”, organisé par Michaela Heinz, Klingenberg am Main (Allemagne), 25-27 juin 2004. [C9, cf. T7] 2005a, en collaboration avec Pierre CORBIN, « La quadrature du cercle des dictionnaires monolingues imprimés pour l’expression : le cas du Dictionnaire du français au collège », Journée des dictionnaires 2005 : “Cent ans du Petit Larousse illustré et une lexicographie laroussienne de plus de cent cinquante ans”, organisée par l’UMR MÉTADIF, Université de Cergy-Pontoise, 23 mars 2005. [C10, cf. T9] 2005b, « Stratégie de constitution de corpus oraux transcrits (2) : pistes méthodologiques adoptées pour la création d’un corpus thématique dans le cadre du projet OURAL », Quatrièmes journées de la linguistique de corpus, organisées par le Centre de Recherche en Littérature, Linguistique et Civilisation (CRELLIC), Université de Bretagne-Sud, Lorient, 15-17 septembre 2005. [C11, cf. T8] 2006a, en collaboration avec Hans PAULUSSEN, « De la création d’un corpus bilingue du tourisme à partir du Web à son exploration avec ParaSearch et Unitex pour la documentation des lexicographes », Colloque “Corpus et dictionnaires de langues de spécialité”, organisé par le Centre de Recherche en Terminologie et Traduction (CRTT), Université Lumière Lyon 2, 28-29 septembre 2006. [C12, cf. T10 & E8] 2006b, en collaboration avec Pierre CORBIN, « Les marques dans les dictionnaires français monolingues : état actuel », Colloque international “La marque lexicographique : quel avenir ?”, organisé par le Département d’Études Françaises, Université de Chypre, Nicosie, 20-23 octobre 2006. [C13, cf. T11] 2007a, « Le traitement des emprunts dans les dictionnaires d’apprentissage français : options descriptives et choix rédactionnels », Journée des dictionnaires 2007 : “Dictionnaires et mots voyageurs. Les 40 ans du Petit Robert. De Paul Robert à Alain Rey”, organisée par l’UMR MÉTADIF, Université de Cergy-Pontoise, 14 mars 2007. [C14, cf. T12] 2007b, « The treatment of anglicisms in a selection of dictionaries designed for young schoolchildren in France », 38 th Poznán Linguistic Meeting PLM 2007, organisé par The School of English, Adam Mickiewicz University, Poznán (Pologne), 13-16 septembre 2007. [C15] 2007c, « Le traitement des anglicismes dans quelques dictionnaires français pour jeunes lecteurs », Colloque international “Lexicographie et terminologie : histoire de mots. Hommage à Henri Béjoint”, organisé par le Centre de Recherche en Terminologie et Traduction (CRTT), Université Lumière Lyon 2, 27-29 septembre2007. [C16, cf. T13] 2007d, « Marquage et prescription dans les dictionnaires scolaires », Colloque international “Prescriptions en langue (histoire, succès, limites)”, organisé par Danielle Candel & Douglas Kibbee, Ministère délégué à la Recherche, Paris, 15-16 novembre 2007. [C17, cf. T14] 2008a, « Le traitement des “identifications diachroniques” dans des dictionnaires scolaires français : évaluation de pratiques et proposition de principes de rédaction alternatifs », Congrès mondial de linguistique française, organisé par l’Institut de Linguistique Française (ILF ), Cité universitaire internationale, Paris, 9-12 juillet 2008. [C18, cf. T15] 2008b, « Description of loan words in French school dictionaries: treatment of words of foreign origin in Dictionnaire Hachette junior (2006) and Le Robert junior illustré (2005) », Inventaires XXXI XIII EURALEX International Congress, Université Pompeu Fabra, Barcelone, 15-19 juillet 2008. [C19, cf. T16] 2008c, en collaboration avec Pierre CORBIN, « La métaphore dans le lexique de la lexicographie », Journée du CRTT “La métaphore en langues de spécialité”, Université Lumière Lyon 2, 26 septembre 2008. [C20, cf. T18] 2009a, en collaboration avec Stavroula MARKEZI, « Stratégie de constitution de corpus pour une étude métalexicographique et la conception d’un module d’hyperappel de dictionnaire », 6 es Journées internationales de linguistique de corpus, organisées par l’équipe Linguistique de Corpus et des Ressources Numériques (LiCoRN), Université de BretagneSud, Lorient, 10-12 septembre 2009. [C21, cf. T20] 2009b, « Some editorial orientations for a multi-tier electronic monolingual school dictionary », Colloque international “eLexicography in the 21st century: new challenges, new applications” (eLex2009), organisé par le Centre for English Corpus Linguistics (CECL), Université Catholique de Louvain, Louvain-la-Neuve (Belgique), 22-24 octobre 2009. [C22, cf. T21] 2009c, « Étude des marquages d’emplois lexicaux identifiés comme relevant du “parler enfantin” dans des dictionnaires monolingues français contemporains », Colloque international “Dimensions (visions et représentations) sociolinguistiques dans les dictionnaires”, organisé le Laboratoire d’Études Sociolinguistiques sur les Contacts de Langues et la Politique Linguistique (LESCLaP), Université de Picardie Jules Verne, Amiens, 10-11 décembre 2009. [C23, cf. T22] 2010, « Donner un accès aisé aux formes phoniques des mots décrits dans un dictionnaire : étude pour un dictionnaire monolingue français destiné à de jeunes utilisateurs », XIV EURALEX International Congress, Fryske Akademy, Leeuwarden, 06-10 juillet 2010. [C24, cf. T23] Exposés en séminaires ou groupes de travail 2000a, « Retour critique sur les recherches menées dans le cadre du doctorat », séminaire interne de l’UMR SILEX, Université Lille 3, 4 février 2000. [E1] 2000b, « Exploitation de la cocompositionnalité du sens observée au sein des séquences N1 à N2 permettant de désigner des instruments pour la génération automatique de patrons interprétatifs », séminaire interne du LADL, Université Paris 7, 28 février 2000. [E2] 2000c, « Réflexions sur la formalisation de descriptions lexicales (1) », groupe de travail “Sémantique et indexicalité du sens”, fondé et animé par Pierre Cadiot (Université Paris 8 et ELSAP), 15 mars 2000. [E3] 2000d, « Réflexions sur la formalisation de descriptions lexicales (2) », groupe de travail “Sémantique et indexicalité du sens”, fondé et animé par Pierre Cadiot (Université Paris 8 et ELSAP), 14 juillet 2000. [E4] 2003, « Quel outillage informatique pour le travail du linguiste ? », séminaire de l’École doctorale ACCES, Université Lille 3, 20 février 2003. [E5, cf. T4] 2004a, « Quand deux concordanciers-analyseurs collaborent pour étudier la langue du football », séminaire interne de l’UMR SILEX, Université Lille 3, 13 février 2004. [E6, cf. T4] XXXII Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia 2004b, « Un objet d’étude linguistique – les verbes exprimant la transmission du ballon au football –, deux concordanciers-analyseurs. », séminaire de l’École doctorale ACCES, Université Lille 3, 16 mars 2004. [E7, cf. T4] 2006a, en collaboration avec Hans PAULUSSEN, « Créer un corpus bilingue aligné à partir du Web et l’exploiter : comment procéder et quels bénéfices en tirer ? », Séminaire “Constitution et exploration de corpus”, UMR STL, Université Lille 3, 18 septembre 2006. [E8, cf. T10 & C12] 2006b, « Comité d’orientation pour Frantext : contribution de linguistes de l’UMR STL pour la réunion du 16 novembre 2006 », Comité d’orientation pour Frantext, ATILF, Nancy, 16 novembre 2006. [E9, cf. TC4] 2007a, « Frantext (1) », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 9 janvier 2007. [E10] 2007b, « Constitution de corpus multilingues à partir de traductions saisies dans des traitements de texte et des mémoires de traduction (1) », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 11 janvier 2007. [E11] 2007c, « Frantext (2) », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 23 janvier 2007. [E12] 2007d, « Frantext (3) », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 2 février 2007. [E13] 2007e, « Structuration de corpus monolingues en XML », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 28 mars 2007. [E14] 2007f, « Frantext (4) : exploration avec Unitex des exports de Frantext », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 3 avril 2007. [E15] 2007g, « Constitution de corpus à partir de CD-ROM de presse », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 13 avril 2007. [E16] 2007h, « Structuration en XML de corpus multilingues de textes alignés », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 16 mai 2007. [E17] 2007i, « Présentation de différentes techniques d’alignement de textes traduits réunis dans un corpus multilingue », séminaire “Constitution et exploration de corpus”, UMR STL & École doctorale, Université Lille 3, 16 mai 2007. [E18] Projets financés P1 Projet Matoutou (en 2001) Françoise et Pierre Grenand, anthropologues de l’Institut de Recherche pour le Développement (IRD) d’Orléans, travaillaient avec différents linguistes (dont François Nemo et Pierre Cadiot) à la description de langues parlées en Guyane française : le wayana, le wayampi et le palikur. Ces recherches ont motivé le projet d’un dictionnaire bilingue wayana-français augmenté d’équivalences traductionnelles en wayampi et palikur. Inventaires XXXIII Ce projet, intitulé Matoutou et porté par Françoise Grenand, a été financé de janvier à novembre 2001 par la DGLF (Délégation Générale à la Langue Française, maintenant DGLFLF ), le CNRS et l’IRD. Il est fondé sur le principe que tout travail mené sur une des langues de Guyane doit être utilisable ultérieurement pour d’autres langues et par d’autres chercheurs. J’ai pour ma part participé à la conception de l’organisation structurelle du dictionnaire, – en travaillant avec les différents partenaires, – en encadrant les mémoires consacrés à ce sujet de deux étudiantes de la promotion 20002001 du DESS “Lexicographie et Terminographie” (Marianne Ebersberg (Mdir4) et Caroline Moulart (Mdir6)), – et en codirigeant avec François Nemo les stages de quatre mois (prolongés par des CDD d’un mois) de ces deux étudiantes. Du 15 mars au 15 août 2001 j’ai ainsi – participé à la définition du projet dictionnairique et à la délimitation de son programme d’informations avec l’ensemble des partenaires, – conçu une structuration en composants d’information élémentaires conforme au projet et un schéma de relations de la base SQL qui devait accueillir les descriptions, puis implémenté celle-ci sous 4D, un système de gestion de base de données compatible Mac, avec la collaboration des deux étudiantes, – et supervisé la rédaction par ces dernières d’un mode d’emploi de la base lexicographique destiné à la formation des chercheurs et des informateurs (bilingues wayana / français en particulier) qui seraient amenés à la manipuler. P2 Projet OURAL (de 2003 à 2005) Le projet OUtils et Ressources pour l’Analyse de la Langue (OURAL) est l’un des constituants du projet AGILE (Atelier de Génie Informatique et Linguistique), financé dans le cadre de la campagne “Technolangue”. OURAL a impliqué des chercheurs de 6 entités : – l’entreprise Sinequa SAS (porteur du projet : Claude de Loupy), – mon UMR de rattachement (UMR 8528 - SILEX, pour laquelle j’ai assumé la responsabilité du projet), – le Laboratoire de Psychologie Expérimentale (UMR 8581) de l’université Paris V, – le Laboratoire d’Informatique de l’université Paris VI, – le Laboratoire d’Informatique d’Avignon de l’université d’Avignon et des Pays de Vaucluse, – et le Laboratoire VALORIA (EA 2593) de l’université de Bretagne Sud. Ce projet avait vocation à mettre à la disposition des industries de la langue et des chercheurs en linguistique et informatique, de manière gratuite ou à faible coût, des outils et des ressources de base pour le traitement de la langue écrite ou parlée. Pour ce qui concernait SILEX et VALORIA, il s’agissait de produire des corpus xmlisés à partir de documents oraux transcrits, au sein desquels chaque mot-occurrence soit associé à une lemmatisation et à un étiquetage en parties du discours. Outre le travail sur les corpus, mon implication dans ce projet m’a conduite à faire recruter un étudiant par l’université durant un an et cinq stagiaires durant deux à trois mois chacun, afin qu’ils participent à mes côtés à la constitution de deux corpus, le premier (de 55 000 mots-occurrences) réunissant des émissions radiophoniques relatives à des questions juridiques (Rcorp5), et le second (de 99 000 mots-occurrences) rassemblant des entretiens portant sur des questions de gestion locative de bien immobiliers (Rcorp6). Pour des raisons de non-obtention des droits d’exploitation des sources radiophoniques, seul le second corpus a été livré en fin de projet. [cf. http://www2.enseignementsup-recherche.gouv.fr/technolangue/projet/projlabel.htm] P3 Projet Constitution du corpus parallèle français-serbe (depuis 2008) Le projet multicomposantes Constitution du corpus parallèle français-serbe est porté par Dejan Stosic (Université d’Arras, EA 4521 - Centre de Recherche en Linguistique française et en Didactique du français, également connu sous le nom de Grammatica). XXXIV Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia D’abord financé par une dotation du BQR (le Budget Qualité Recherche) de l’université d’Arras, il l’est maintenant par l’ÉGIDE dans le cadre du programme franco-serbe (projet PHC Pavle Savic 2010, cf. http://www.egide.asso.fr/jahia/Jahia/accueil/appels/phc/appelphc/savic). Le projet initial prévoyait le développement de quatre corpus, dont deux en français (dédiés respectivement à des études de français langue étrangère (FLE) ou de français sur objectifs spécifiques (FOS) et à des analyses morphologiques de mots construits du vocabulaire médical), et deux bilingues ou trilingues serbe / français et optionnellement anglais, dédiés à des études syntaxiques et sémantiques sur chaque langue ou en les comparant. Ce sont les créations des deux derniers corpus qui sont financées par l’ÉGIDE et c’est à elles que je participe. Il s’agit – d’un corpus de textes littéraires alignés (Rcorp15), développé avec l’équipe d’un mathématicien de l’université de Belgrade (Duško Vitas, qui a déjà créé plusieurs corpus bilingues) et pour lequel je contribue aux traitements informatiques des textes et à l’élaboration de l’interface de consultation, – et d’un corpus footballistique serbe / français réunissant des commentaires radiophoniques et télévisuels transcrits (Rcorp16), qui doit me fournir l’occasion de comparer avec Dejan Stosic les modes narratifs des deux langues et, de manière plus autonome, des productions orales en français selon qu’elles sont ou non accompagnées d’images. P4 Projet Algo (depuis 2009) Le projet Structures déductives algorithmiques dans les mathématiques pré-algébriques, dont le nom d’usage est Algo, est un projet ANR “blanc” (réf. ANR-09-BLAN-0300-01) porté par Fabio Acerbi (UMR 8163 - STL) et Bernard Vitrac (UMR 8210 - ANHIMA) et coordonné par le premier. Les textes étudiés dans le cadre de ce projet portent sur les mathématiques de l’époque prémoderne : grecques anciennes, arabes, arabo-latines, babyloniennes, chinoises, égyptiennes et indiennes. L’objectif est d’analyser les caractéristiques algorithmiques de certains de leurs schémas inférentiels. Ma participation à ce projet est limitée au traitement des Données d’Euclide étudiées par Fabio Acerbi. Leur structuration en un corpus xmlisé (Rcorp14) doit permettre de les exploiter pour développer un système d’analyse automatique de la “densité déductive” de leur contenu. Cet outil d’analyse doit contribuer à documenter les commentaires des textes étudiés qui, à terme, constitueront des paratextes de leurs éditions critiques. [cf. http://algo.hypotheses.org/a-propos] P5 Projet Eurolab (depuis 2010) Le projet ANR-DFG Eurolab. Dynamique des langues vernaculaires dans l’Europe de la Renaissance. Acteurs et lieux a été sélectionné dans le cadre du « Programme franco-allemand en sciences humaines et sociales ANR-DFG » (réf. ANR-09-FASHS-027 / DFG). Il est cofinancé par la Deutsche Forschungsgemeinschaft (2010-2012) et porté par Elsa Kammerer (EA 1061 - ALITHILA, Université Lille 3) et Jan-Dirk Müller (Institut für Deutsche Philologie, Ludwig-Maximilians-Universität de Munich). Son objectif est de permettre, par l’étude de textes, de mieux comprendre comment, entre la fin du XVe et le début du XVIIe siècle, les différentes langues européennes se sont élaborées comme langues de savoir, d’art et de communication. J’ai été invitée à participer à ce projet pour aider les analystes à réfléchir à l’opportunité de structurer en XML les textes qu’ils étudient et ainsi contribuer à faire évoluer leur manière d’aborder les éditions critiques qu’ils sont amenés à publier. Il est prévu que je fasse un premier exposé en mars 2011 dans le cadre du séminaire “Langues, glossaires et bases de données informatiques”, qui est un des séminaires de recherche adossés à ce projet (inclus dans le cycle “Vie des mots, dynamique des langues : l’Europe du Moyen Âge à l’époque moderne”). [cf. http://eurolab.meshs.fr/ et http://alithila.recherche.univ-lille3.fr/AXE%201.html] Inventaires XXXV Ressources développées Corpus et outils ou produits d’exploration associés Rcorp1 Corpus footballistique de multiplex (de 2002 à 2005) Ce corpus a été conçu avec Pierre Corbin dans le cadre d’une réflexion relative à l’importance des choix de documents primaires à retenir afin de constituer une ressource à haut rendement de consultation en fonction des analyses prévues. Il réunit des commentaires de matchs de football radiodiffusés dans le cadre de multiplex, qui ont été transcrits et dont les transcriptions ont été structurées en XML. Le balisage permet de délimiter les tours de parole en identifiant les locuteurs et annote une sélection de particularités linguistiques (comme des prononciations remarquables) et d’entités nommées (noms de joueurs, de stades, etc.). Le corpus compte 200 000 mots-occurrences. Rcorp2 Corpus footballistique du journal L’Équipe (en 2002-2003) Ce corpus a été constitué pour comparer son rendement de consultation à celui de Rcorp1. Il compile des articles du journal L’Équipe publiés à la suite des matchs dont les commentaires sont transcrits dans Rcorp1. Il compte 60 000 mots-occurrences. Rcorp3 Ontologie des actions de jeu du football (de 2002 à 2005) Cette structure de description des actions de jeu qui sont susceptibles de se dérouler sur un terrain durant un match de football a vocation à permettre d’analyser les expressions employées par les commentateurs qui les narrent. Chaque action y est décrite en fonction de quatre paramètres d’analyse qui définissent ses acteurs, son caractère offensif ou défensif, si elle implique le ballon et si elle se fait dans le cours du match ou lors d’une remise en jeu ou qu’elle induit une interruption de jeu. Cette structure, dite ontologique du fait des typages par traits de chaque action, a été conçue avec Pierre et François Corbin. Rcorp4 Corpus Web footballistique (en 2003-2004) Ce corpus a été constitué pour comparer son rendement de consultation à celui de Rcorp1 et Rcorp2. Il compile des textes de pages Web consacrées au football et compte 60 000 motsoccurrences. Rcorp5 Corpus juridique radiodiffusé (en 2003-2004 ; cf. P2) Constitué de transcriptions d’émissions juridiques radiodiffusées saisies avec Transcriber, ce corpus xmlisé, qui compte 55 000 mots-occurrences, a ses tours de parole délimités mais pas d’autres enrichissements. Rcorp6 Corpus d’entretiens relatifs à la gestion locative de biens immobiliers (en 2004-2005 ; cf. P2) Des entretiens organisés sur le thème de la gestion locative de biens immobiliers ont mobilisé des propriétaires et des locataires. Les enregistrements des propos échangés, transcrits avec Transcriber, constituent un corpus xmlisé de 99 000 mots-occurrences au sein duquel les tours de parole sont délimités et chaque mot-occurrence associé à la mention de son lemme et d’un code morphoflexionnel. Rcorp7 Corpus bilingue du tourisme (de 2005 à 2007) Conçue avec Hans Paulussen dans le cadre d’une réflexion relative à un corpus plurithématique multilingue dont elle devait être le premier constituant, cette ressource compile des textes relatifs au tourisme conjointement disponibles (en HTML) sur des sites Web en français et en XXXVI Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia anglais. Il compte 645 978 mots-occurrences (330 009 pour les documents en français et 315 969 pour ceux en anglais) et est aligné au niveau des paragraphes selon le principe de structuration requis par ParaSearch, le concordancier multilingue utilisé pour son exploration. Rcorp8 Corpus des écrits de Danielle Corbin (depuis 2006) Conçu avec Pierre Corbin, ce corpus en cours de développement est dédié à des études épistémologiques, linguistiques et terminologiques en vue de l’édition critique électronique de l’œuvre scientifique de la morphologue. Les textes, structurés en XML, doivent être très finement annotés, ce qui est déjà le cas pour les deux premiers. Pour documenter les types d’étude envisagés, le balisage délimite et caractérise les références à d’autres travaux (évocations, citations ou commentaires critiques), les unités lexicales et infralexicales sur lesquelles portent les développements et les informations fournies à leur sujet (indications constructionnelles, gloses, etc.) et la terminologie employée par Danielle Corbin pour son propre compte ou en écho aux textes qui l’ont documentée. Ce balisage est ensuite exploité par des transformations XSLT qui extraient des sélections de données et les stockent dans des bases SQL (Rcorp9, 10 et 11) en vue de leur exploitation pour les paratextes de l’édition critique. Rcorp9 Base de données des références bibliographiques de Danielle Corbin (depuis 2006) Les références des travaux auxquels se réfère Danielle Corbin ainsi que toutes les localisations des passages où elle les mobilise et les indications de la manière dont elle le fait (évocation, citation, commentaire) sont extraites du corpus Rcorp8 en fonction du développement de celui-ci. À ces données sont ajoutées sélectivement des informations relatives aux textes référencés (par exemple leur plan). Rcorp10 Base de données des unités lexicales et infralexicales mentionnées par Danielle Corbin (depuis 2006) Les unités lexicales et infralexicales qui fondent ou illustrent les propos de Danielle Corbin ainsi que les informations fournies à leur sujet sont extraites du corpus Rcorp8 en fonction du développement de celui-ci, ce qui permet de compiler ce qui est dit sur chacune en différents endroits d’un même texte ou dans des textes différents. Outre ce qui est extrait du corpus, la base stocke des descriptions rédigées qui synthétisent les informations extraites. Rcorp11 Base de données des termes employés par Danielle Corbin (depuis 2006) Les termes employés par Danielle Corbin, balisés et typés dans le corpus Rcorp8 en fonction du développement de celui-ci, sont extraits et associés, dans la base de données, à une description synthétique de leur(s) valeur(s). Rcorp12 Corpus de paratextes dictionnairiques (depuis 2007) Ce corpus, en cours de constitution, rassemble des paratextes de présentation de dictionnaires français contemporains, à la fois internes aux répertoires (préfaces, etc.) et extérieurs à ceuxci (en particulier les sites Web des éditeurs), afin de permettre l’étude du vocabulaire utilisé par les professionnels de l’édition lexicographique quand ils s’adressent à un large public. Rcorp13 Corpus de textes de lecture (depuis 2009) Les textes de lecture introduisant les différentes subdivisions du manuel de français À portée de mots CE1 édité par Hachette, considéré dans ses deux éditions successives de 2003 et 2009, ont été numérisés, et leurs près de 20 000 mots-occurrences balisés en XML et associés d’une part à leur lemme et à un code morphoflexionnel, et d’autre part à une codification de la localisation dans le Dictionnaire Hachette benjamin de la description de sens qui explique les emplois rencontrés quand celle-ci existe. Ce corpus est étudié à des fins métalexicographiques et lexicographiques : il permet d’évaluer la capacité du dictionnaire à aider des écoliers qui ne compren- Inventaires XXXVII draient pas les mots de leurs textes de lecture et d’étudier comment un module d’hyperappel du dictionnaire depuis les textes pourrait conduire aux descriptions de sens pertinentes. Rcorp14 Corpus de mathématiques en grec ancien (depuis 2009 ; cf. P4) Les textes des quatre-vingt quatorze théorèmes des Données d’Euclide de l’édition critique de référence proposée par Henricus Menge en 1896 ont été extraits du Thesaurus Linguae Graecae® version E (cf. http://www.tlg.uci.edu/about/history.php). Balisés en XML afin de délimiter en leur sein les subdivisions internes de chaque théorème (énoncé, ecthèse, construction, démonstration, etc.), les ponctuations ajoutées (virgules, points bas et points hauts) et les items lexicaux simples et complexes qui marquent la progression déductive d’une preuve mathématique, les textes de ces théorèmes sont manipulés par des transformations XSLT qui permettent d’analyser automatiquement la “densité déductive” de leurs contenus. Rcorp15 Corpus littéraire trilingue serbe / français / anglais (depuis 2010 ; cf. P3) Des textes littéraires disponibles en serbe, en français et optionnellement en anglais, sélectionnés par Dejan Stosic, sont alignés par ce dernier et l’équipe de Duško Vitas, à l’université de Belgrade. Je travaille ensuite avec Dejan Stosic pour que ces textes, structurés en XML puis convertis en base de données SQL au moyen de transformations XSLT, soient à terme interrogeables en ligne via des scripts PHP afin que des internautes puissent accéder aux contextes d’emploi des mots de leur choix et aux segments de textes alignés qui contiennent la traduction dans une ou deux langues de chacun de ces contextes. Rcorp16 Corpus footballistique bilingue serbe / français (depuis 2010 ; cf. P3) Les commentaires radiodiffusés et télévisuels de deux matchs de qualification pour la Coupe du Monde 2010 opposant les équipes de France et de Serbie ont été transcrits et alignés à leurs sources sonores, ce qui donne la possibilité de les aligner entre eux sur la base du temps de jeu écoulé. Cet alignement mécanique doit ensuite être affiné afin de permettre d’accéder aux narrations des actions de jeu et des autres événements survenant sur le terrain durant le match qui sont formulées dans les deux langues et via les deux médias, et ainsi de confronter leurs expressions. Bases de données métalexicographiques Rbd1 Base du marché dictionnairique monolingue français (depuis 2001) Les répertoires monolingues généraux français contemporains sont enregistrés dans une base de données SQL qui stocke pour chacun des données identificatrices (titre, ISBN, etc.), des informations généalogiques (pour les textes dérivés ou produits par métissage), des descriptions de leur contenu dictionnairique et de leurs différents paratextes (planches thématiques, atlas, etc.), et des indications fournies dans les présentations des ouvrages (dont en particulier les données quantifiées : nombre d’items à la nomenclatures, de sens décrits, etc.). Rbd2 Base des iconographies des éditions imprimée de 1997 et électronique de 1999 du Robert junior (en 2002-2003) Les iconographies du Robert junior imprimé ayant été exploitées dans l’édition électronique de ce dictionnaire par une multiplication de leurs lieux d’insertion, la base SQL iconographique décrit chaque emploi de chaque image dans chaque répertoire, en notant les variations qu’ils présentent (recadrage, changement d’inclinaison, retrait de dispositif de pointage, etc.), et elle indique pour quels autres items chacune serait à nouveau réutilisable, à la manière de ce que pourrait faire l’éditeur s’il désirait augmenter encore le nombre de réemplois des images originales. XXXVIII Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Rbd3 Base des unités lexicales marquées dans les dictionnaires scolaires Hachette, Larousse et Robert (en 2006-2007) Une sélection d’unités lexicales est associée dans les dictionnaires scolaires à des spécifications d’usage formulées textuellement, ou plus rarement sous forme de marques. La base SQL qui enregistre ces marquages spécifie pour chacun quels sont l’item marqué et son mode d’adressage, localise le segment textuel qui exprime le marquage, repère en son sein l’opérateur de celui-ci et en précise la portée et le type selon les catégories de Hausmann (1989). Rbd4 Base étymologique des unités lexicales signalées comme étant d’origine étrangère dans une large sélection de dictionnaires pour enfants (en 2007-2008) Certains items d’origine étrangère (hérités du latin ou empruntés à diverses langues) voient cette propriété signalée à leur sujet dans les dictionnaires, scolaires ou non, destinés aux enfants. Chacune des mentions d’origine étrangère observée dans une large sélection de répertoires a été relevée et enregistrée dans une base de données SQL, où elle est liée à l’indication de l’item pour lequel cette information est fournie, à la localisation de celle-ci (dans quel dictionnaire, quel article, quel composant d’article) et à des notes relatives aux autres types d’informations communiquées pour le même item (dont en particulier les remarques phonographiques). Rbd5 Base des unités linguistiques présentes dans les nomenclatures des dictionnaires pour les cycles 2 et 3 de l’enseignement primaire (depuis 2008) L’étude comparée des nomenclatures de dictionnaires scolaires a motivé la création d’une base SQL qui enregistre les unités linguistiques traitées dans au moins l’un de ces répertoires et, pour chacune, ses modes d’adressage dans les répertoires dans lesquels elle est prise en compte et, le cas échéant, ses dérivés mentionnés comme tels dans l’article (si elle appartient à la nomenclature principale). Cette base inclut également les unités que le Nouveau Petit Robert électronique de 2001 propose dans sa liste des entrées. Leur présence est corrélée au fait que cette liste a servi de base à la constitution de celle des unités linguistiques effectivement traitées dans les répertoires scolaires. Elle reste motivée par le projet d’étudier si les nomenclatures des dictionnaires scolaires comptent assez d’unités pour répondre aux besoins de leurs utilisateurs ou si celles de répertoires de milieu de gamme destinés à un large public (qui comptent 40 000 unités), voire d’ouvrages plus volumineux encore, seraient plus adéquates. Rbd6 Base des unités lexicales marquées comme relevant du “parler enfantin” dans onze dictionnaires Hachette, Larousse et Robert (en 2009) Selon un principe comparable à celui défini pour la base des marquages observés dans les dictionnaires scolaires (Rbd3), la base SQL du “parler enfantin” enregistre toutes les unités lexicales à propos desquelles un des onze dictionnaires étudiés au moins signale qu’il relève du parler enfantin ou qu’il vient d’un mot enfantin. Pour chaque unité lexicale considérée dans chaque dictionnaire, la base stocke les indications relatives d’une part à son mode d’adressage et d’autre part à l’expression et au lieu d’insertion du marquage dont elle fait l’objet. Les onze dictionnaires dépouillés sont : – pour Hachette : le Dictionnaire Hachette. Langue française & synonymes électronique de 2002, le Dictionnaire Hachette encyclopédique 2002, le Dictionnaire Hachette junior de 1998 et le Dictionnaire Hachette benjamin de 1996 ; – pour Larousse : le Petit Larousse électronique 2005, le Larousse junior de 2003 et le Larousse des débutants de 2005 ; – pour Le Robert : le Nouveau Petit Robert électronique de 2001, deux versions du Robert junior (le texte de 1999 réédité en version électronique sous le titre de Robert des enfants en 2006 et l’édition imprimée refondue de 2005) et le Robert benjamin de 1997. Inventaires XXXIX Prototypes de dictionnaires Rdic1 Dictionnaire encyclopédique wayana / wayampi / palikur / français du projet Matoutou (en 2001 ; cf. P1) Le dictionnaire encyclopédique mis en chantier à l’initiative de Françoise Grenand dans le cadre du projet Matoutou (P1) devait mêler, pour chaque unité lexicale du wayana, d’une part des indications linguistiques et des connaissances sur les référents des objets nommés rédigées en français, et d’autre part des équivalences traductionnelles en français et optionnellement en wayampi et en palikur (ce qui paraît préfigurer les objectifs des Encyclopédies palikur, wayana et wayãpi qui, sous la direction de Françoise Grenand, ont commencé à paraître par fascicules depuis 2009). La structure de ce dictionnaire, conçue à partir des besoins exprimés par Françoise Grenand et François Nemo, qui collaborait avec elle sur ce projet, a donné lieu à l’élaboration conjointe d’une DTD en vue de la rédaction du dictionnaire en XML et d’un schéma de relations SQL sur lesquels j’ai travaillé avec les deux étudiantes du DESS “Lexicographie et Terminographie” qui ont effectué leur stage dans le cadre du projet P1 (cf. supra). Une base SQL ayant été préférée, le système de gestion de base de données 4D (compatible Mac) a été utilisé pour créer la base livrée aux rédacteurs. Rdic2 Dictionnaire des mots afférents à la lexicographie (de 2001 à 2006) Le vocabulaire employé par ceux qui parlent des dictionnaires est vaste et les choix lexicaux opérés par chacun des énonciateurs sont variés. Afin de décrire la diversité de ces usages, la rédaction d’un dictionnaire alphabétique et thématique des unités lexicales de la lexicographie a été engagée très tôt sous la forme empirique d’une première rédaction de quelques centaines d’articles par plusieurs promotions d’étudiants en formation professionnelle. Les présentations thématiques des descriptions de sens permettent de regrouper celles-ci en fonction des domaines dans lesquels les emplois lexicaux s’observent (par exemple l’informatique éditoriale), de l’étymologie des mots décrits (en prenant en compte la langue d’origine des emprunts et la datation des usages) et des types d’énonciateurs ou de discours. Relativement abouti quant à la conception de sa structure, Rdic2 serait à reprendre du point de vue rédactionnel pour être enrichi par l’exploration méthodique des matériaux paratextuels compilés dans Rcorp12. Rdic3 Dictionnaire des actions de jeu du football (de 2002 à 2005) Les expressions employées pour narrer les actions de jeu relevées dans les transcriptions du corpus de commentaires de matchs radiodiffusés (Rcorp1) et étudiées en prenant en compte les caractérisations des actions selon les quatre paramètres de l’ontologie de celles-ci (Rcorp3) ont donné lieu à des descriptions structurées en XML. Celles-ci se conforment à une DTD conçue pour permettre de présenter les descriptions de chaque emploi lexical dans des articles triés en fonction de l’ordre alphabétique de leurs items en adresses ou regroupés thématiquement (par types d’actions, de joueurs impliqués, etc.). Dans ce cadre, une promotion d’étudiants en formation professionnelle de lexicographie a rédigé plusieurs centaines d’articles, dont la qualité varie notamment en fonction des connaissances footballistiques des rédacteurs. et qui demandent en conséquence à être homogénéisés. Rdic4 Rétroconversion xmlisée du Larousse des débutants (depuis 2007) Un dictionnaire imprimé pour le cycle 2 de l’enseignement primaire, le Larousse des débutants (édition de 2005), a été scanné, puis le texte des articles structuré en XML. Cette numérisation a été entreprise dans le cadre de l’étude structurelle de ce répertoire. Mais le produit de ce travail a maintenant vocation à être exploité pour enrichir de trois manières le corpus de textes de lecture (Rcorp13) : – en associant à chacun de ses mots-occurrences les indications d’adressage des descriptions lexicales du Larousse des débutants qui peuvent éclairer leur compréhension (en complément du Dictionnaire Hachette benjamin) ; – en ajoutant également un lien depuis les mots-occurrences de Rcorp13 vers les descriptions de Rdic4 afin que les secondes puissent être aisément consultées à partir des premiers ; XL Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – et en dérivant de nouvelles descriptions de celles qui sont actuellement proposées par le Larousse des débutants, afin de mieux soutenir les jeunes lecteurs dans leurs consultations d’un dictionnaire pour éclairer la compréhension de chaque mot rencontré dans un texte de lecture. Rdic5 Dictionnaire des unités lexicales construites décrites par Danielle Corbin (depuis 2006) Conçu comme un prolongement du projet de “dictionnaire dérivationnel” entrepris par la morphologue (cf. D. Corbin (1990) et D. & P. Corbin (1991)), le dictionnaire des unités lexicales construites est un produit dérivé xmlisé du corpus Rcorp8 et de la base SQL des unités lexicales et infralexicales Rcorp10, au sein de laquelle les unités linguistiques sont déjà associées à des descriptions synthétiques. Celles des unités lexicales sont retravaillées afin de pouvoir être consultées indépendamment de l’édition critique des écrits de la morphologue (cf. Rcorp8), que les descriptions de chaque unité soient classées dans l’ordre alphabétique de celles-ci ou par type d’opération de construction, par affixe commun, etc. Le développement de Rdic5 étant indexé sur celui de Rcorp8 et Rcorp10, ce dictionnaire ne concerne actuellement que les deux premiers articles écrits par Danielle Corbin. Rdic6 Dictionnaire scolaire électronique et évolutif (depuis 2009) Modeste encore dans son développement, puisque, du fait de son caractère expérimental, il ne compte encore qu’un petit nombre d’articles inégalement aboutis, le prototype du dictionnaire scolaire électronique est conçu comme devant accompagner les élèves durant leur scolarité, en leur proposant des rédactions d’articles d’une complexité proportionnée à leurs compétences ou à leur besoins ponctuels accessibles via des affichages dédiés à l’aide à la compréhension de mots rencontrés par ailleurs ou à l’amélioration de leur expression. Intégrant une large partie des orientations dictionnairiques procédant de mes études métalexicographiques, sa structure comme son programme d’information sont pour l’heure mieux définis concernant les contenus dictionnairiques qui ont fait l’objet de ces travaux, comme les indications syntaxico-sémantiques ou étymologiques. Relations avec le monde industriel ou socio-économique : valorisation de la recherche Exp1 Contribution aux travaux de révision de la norme ISO 1951 (en 2002 et 2003) Participation aux réunions du groupe d’experts X 03 A - GE 1 « Lexicographie » de la Commission de normalisation X03A « Terminologie – Principes et coordination ». Les réunions de travail étaient organisées à l’AFNOR (Agence Française de Normalisation) et animées par André Le Meur. La nouvelle norme a été publiée en 2007 sous la référence NF ISO 1951 Avril 2007. Exp2 Conseil pour le projet Lëtzebuerger Online Dictionnaire (en 2004-2006) Le LOD (http://www.lod.lu/lod/), dictionnaire quinqualingue à nomenclature luxembourgeoise et traductions en allemand, français, portugais et anglais, est réalisé par le groupe “Dictionnaires” du Ministère de la Culture, de l’Enseignement Supérieur et de la Recherche luxembourgeois. Les travaux de rédaction sont encadrés par Ralf Fichtner (responsable du groupe “Dictionnaires”) et Alexandre Ecker (lexicographe formé à l’université Lille 3). Invitée en qualité d’expert par Ralph Fichtner, je me suis rendue à Luxembourg en novembre 2005 et j’ai di- Inventaires XLI rigé le retour critique sur la DTD du LOD qu’Alexandre Ecker a rédigé dans le cadre de son mémoire de master (Mdir39 (Ecker (2007))). Exp3 Expertise pour le Comité d’orientation pour Frantext (en 2006) Jean-Marie Pierrel a invité des représentants des différents laboratoires de l’ILF à réfléchir aux évolutions souhaitables pour la base Frantext gérée par l’UMR ATILF. Après une phase de travail dans chaque composante (de juillet à novembre), nous avons eu une réunion de concertation à Nancy (le 16 novembre), au cours de laquelle j’ai présenté, au nom de l’UMR STL, les propositions consignées dans Tdr2. Exp4 Expertise des propositions d’articles pour le LEXique d’ONCOlogie (depuis 2007) Le répertoire Lexonco (http://www.sor-cancer.fr/index.php?tg=articles&topics=64) est en cours de rédaction dans le cadre du programme Standards, Options & Recommandations [SOR] SAVOIR PATIENT de la Fédération Nationale des Centres de Lutte Contre le Cancer (http:// www.sor-cancer.fr/). Le travail d’expertise demandé consiste en une révision des modes rédactionnels des sélections d’informations qui doivent être fournies pour chaque item à la nomenclature. Exp5 Contribution aux travaux de réflexion relatifs aux produits lexicographiques et à leur commercialisation (depuis 2008) Participation aux réunions de la Commission de normalisation française (X 03 A) du Comité Technique “Terminologies et autres ressources langagières” (CT37) de l’AFNOR relative à un nouveau projet de norme (encore confidentiel) concernant les descriptifs commerciaux de dictionnaires. Échanges avec les partenaires professionnels de la formation lilloise de lexicographes (depuis 1999) Invitation des intervenants, animation des conférences (15 à 20 par an), suivi des stages d’étudiants en entreprises ou institutions, aide au recrutement des diplômés et échanges de vues avec les partenaires sur leurs activités et les recherches menées à l’UMR STL et en formation et exploitables par eux. Animation de séminaire de recherche et de formation doctorale S1 Constitution et exploration de corpus, séminaire UMR STL & École doctorale, Université Lille 3, 2006-2007 : L’objectif de ce séminaire annuel était de permettre à chaque participant d’utiliser des corpus existants, d’en constituer pour documenter une recherche en cours, d’explorer des données antérieurement collectées (ce qui peut éventuellement avoir été fait sans avoir préalablement réfléchi à leur structuration) ou encore d’aligner des données bilingues ou multilingues pour pouvoir analyser en parallèle un segment exprimé dans plusieurs langues, voire différentes versions d’un même texte dans une langue donnée, ou encore un signal sonore et/ou vidéo à sa transcription orthographique ou phonétique et à des annotations. [18 séances thématiques ; 57h30 de travail collectif ; 1 conférencier étranger invité (Hans Paulussen) ; animation des séances assurée par Nathalie Gasiglia avec Cyril Auran, Antonio Balvet et Ilse Depraetere)] XLII Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Mémoires dirigés La liste des mémoires dirigés est arrêtée à ceux engagés en 2009-2010. Mdir1 DUHOUX V. (2000), Analyse du Dictionnaire Bordas. Le junior en vue de son informatisation, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie] Mdir2 BECQUET F. (2001), Méthodologie d’élaboration d’un dictionnaire de l’œuvre chantée de Georges Brassens, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie] Mdir3 CANNESSON E. (2001), Conception d’un dictionnaire bilingue français-anglais des expressions idiomatiques à caractère numérique, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie] Mdir4 EBERSBERG M. (2001), Participation à l’élaboration d’un ensemble de dictionnaires bilingues wayana (langue de Guyane)-français : conception d’une base de données, mémoire de DESS LT. [lexicographie] Mdir5 MOREL D. (2001), Contribution à un projet de développement d’un CD-ROM terminologique et notionnel sur La sémantique du prototype de Georges Kleiber : un parcours hypertextuel, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie] Mdir6 MOULART C. (2001), Participation à l’élaboration d’un ensemble de dictionnaires bilingues wayana (langue de Guyane)-français : conception d’une DTD en langage XML, mémoire de DESS LT. [lexicographie] Mdir7 WILHEM I. (2001), Contribution à un projet de développement d’un CD-ROM terminologique et notionnel sur La sémantique du prototype de Georges Kleiber : extraction automatique de contextes d’emploi des items traités, codirection : Pierre Corbin, mémoire de DESS LT. [constitution et/ou exploration de corpus & lexicographie] Mdir8 ANDREU J. (2002), Vers l’établissement d’une base de données terminologique multilingue des termes de l’ingénierie nucléaire, mémoire de DESS LT. [constitution et/ou exploration de corpus & lexicographie] Mdir9 DESCAMPS G. (2002), Éléments pour un dictionnaire biographique interactif des noms de rues de la ville de Lille, mémoire de DESS LT. [lexicographie] Mdir10 KARTAL E. (2002), Multimédia et didactique du Français Langue Étrangère, mémoire de DEA Théories et analyses linguistiques. [enseignement assisté par ordinateur ; étudiant turc] Mdir11 MARCINIAK A. (2002), Structurer un dictionnaire thématique polonais-français relatif au lexique des sentiments, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie ; étudiante polonaise] Mdir12 MORRUZZI É. (2002), Étude de faisabilité d’un dictionnaire de français destiné aux enfants marocains, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie] Mdir13 ROULEUX S. (2002), Dictionnaire de l’Ovalie ou le rugby dans tous ses sens, définition problématique des conditions pratiques de l’élaboration d’un dictionnaire de rugby, codirection : Pierre Corbin, mémoire de DESS LT. [lexicographie] Mdir14 YAIGRE F. (2002), Conception d’un dictionnaire informatisé du lexique des jeux de rôles, mémoire de DESS LT. [lexicographie] Inventaires XLIII Mdir15 BLOQUET G. (2003), Élaboration d’un lexique de l’éleveur porcin à partir d’explorations outillées de documents techniques réunis en un corpus spécialisé, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir16 BRABANT A.-C. (2003), Prolégomènes à un dictionnaire informatisé bilingue français-allemand des mathématiques, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir17 CAMPION E. (2003), Vers un lexique bilingue italien-français de la restauration, de l’hôtellerie et de la cuisine, codirection : Pierre Corbin, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante belge] Mdir18 FILIPCHUK T. (2003), Petit lexique des sigles des institutions européennes, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante ukrainienne] Mdir19 HOSTEKINT S. (2003), Extraction d’informations à partir de textes en langage naturel. Étude de plusieurs outils, codirection : Marc Tommasi, mémoire de maîtrise de sciences cognitives. [constitution et/ou exploration de corpus ; étudiant belge] Mdir20 KERDRAON A.-L. (2003), Recherches pour l’élaboration d’un dictionnaire des sigles de la vie étudiante, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir21 LAFFITE E. (2003), Le vocabulaire de la jonglerie, codirection : Pierre Corbin, mémoire de maîtrise de Lettres modernes. [constitution et/ou exploration de corpus & lexicographie] Mdir22 MARTINUCCI C. (2003), Conception d’un lexique bilingue anglais-français du dresseur de chevaux, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir23 MOSTROV V. (2003), Élaboration d’un dictionnaire des termes linguistiques en fonction des besoins des étudiants bulgares en lettres françaises, codirection : Pierre Corbin, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiant bulgare] Mdir24 NIKOLAOU G. (2003), Élaboration d’un dictionnaire bilingue français-grec du vocabulaire de la linguistique, codirection : Pierre Corbin, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante grecque] Mdir25 BOIAN V. (2004), Étude des spécificités d’un dictionnaire électronique trilingue anglais-français-roumain du vocabulaire de l’informatique, mémoire de DESS LTTAC. [lexicographie ; étudiante roumaine] Mdir26 BOURDEAU S. (2004), Conception d’une interface graphique de consultation internet ou intranet pour un lexique d’entreprise sur l’immobilier, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir27 BOURGEOIS É. (2004), Élaboration d’un projet de dictionnaire FLE du vocabulaire administratif pour primo-arrivants, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir28 CARPENTIER J. (2004 non soutenu), Extraction d’informations pour l’étude du parler footballistique : étude comparative de corpus oraux, codirection : Pierre Corbin, mémoire de DEA Théories et analyses linguistiques. [constitution et/ou exploration de corpus] XLIV Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Mdir29 JOUET L. (2004), Constitution et exploration d’un corpus journalistique en vue de l’élaboration d’un dictionnaire altermondialiste, mémoire de DESS LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir30 MARAS S. (2004), Analyse des besoins spécifiques aux enfants turcs nés en France en vue de l’élaboration d’un dictionnaire bilingue français-turc, mémoire de DESS LTTAC. [lexicographie] Mdir31 RICART C. (2004), Conception d’un dictionnaire électronique de la mode, mémoire de DESS LTTAC. [lexicographie] Mdir32 SERRANO CARRANZA O.R. (2004), Projet de dictionnaire bilingue espagnol-français de l’architecture colombienne, mémoire de DESS LTTAC. [lexicographie ; étudiante colombienne] Mdir33 TAQUECHEL RODRIGUEZ R. (2004), Recherches en vue d’un dictionnaire des hispanicismes d’Amérique Latine, codirection : Pierre Corbin, mémoire de DESS LTTAC. [lexicographie ; étudiante cubaine] Mdir34 BOGAERT G. (2005), Méthodologie de constitution de corpus de manuscrits d’ancien et/ou de moyen français, mémoire de M1 TAL. [constitution et/ou exploration de corpus] Mdir35 AROUMOUGAME V.D. (2006), Évaluation de la faisabilité d’un dictionnaire électronique des outils et projets du TAL, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante indienne] Mdir36 BÉRIL D. (2005), Évaluation de systèmes d’alignement de textes bilingues, mémoire de M1 TAL. [constitution et/ou exploration de corpus] Mdir37 BUSCHHAUS M. (2005), Élaboration d’un dictionnaire bilingue allemand-français des jeux de plateau, mémoire de M2 LTTAC. [lexicographie ; étudiante franco-allemande] Mdir38 DEGUERNEL O. (2005), Méthodologie d’élaboration d’un dictionnaire de l’enregistrement en studio et de l’autoproduction pour francophones, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir39 ECKER A. (2007), Retour sur une expérience professionnelle dans le cadre du projet Lëtzebuerger Online Dictionnaire ( LOD) du Ministère de la Culture, de l’Enseignement Supérieur et de la Recherche luxembourgeois, mémoire de M2 LTTAC. [métalexicographie ; étudiant luxembourgeois] Mdir40 JEUNOT N. (2005), Traduction automatique et nouvelles écritures : SMS et Communications Médiées par Ordinateur, mémoire de M1 TAL. [constitution et/ou exploration de corpus & linguistique] Mdir41 KIM M.J. (2005), Étude de la nomenclature musicale d’un dictionnaire coréenfrançais, mémoire de M1 Linguistique. [métalexicographie ; étudiante coréenne] Mdir42 LAVALLÉE J. (2005), Conception d’un dictionnaire des noms propres et de leurs référents mentionnés dans le Coran, mémoire de M2 LTTAC. [lexicographie] Mdir43 MAHIEU A.-M. (2005), Analyse méthodologique pour la création d’un dictionnaire terminologique et pratique bilingue anglais-français destiné aux professionnels de l’import-export, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir44 RAYMOND C. (2006), Étude des particularités lexicales du français en Guinée, mémoire de M2 LTTAC. [lexicographie] Mdir45 RIAH F. (2005), Vers un dictionnaire des vrais amis anglais-français pour francophones, mémoire de M2 LTTAC. [lexicographie] Inventaires XLV Mdir46 SHTEREVA G. (2006), Conception d’un répertoire lexical thématique visant à présenter la Bulgarie à des touristes français, mémoire de M2 LTTAC. [lexicographie ; étudiante bulgare] Mdir47 SICCARDI A. (2006), Conception d’un dictionnaire terminologique du chocolat, mémoire de M2 LTTAC. [lexicographie] Mdir48 ZOTTI V. (2005), Principes et méthodes d’un nouveau dictionnaire bilingue italienfrançais / français-italien, mémoire de M2 LTTAC. [lexicographie ; étudiante italienne] Mdir49 ANAGNOSTAKI E. (2007), Mots d’Alexandrie. Création d’un lexique de Constantin Cavafis à partir du corpus de ses écrits, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante grecque] Mdir50 CHEN H. (2006), Comparaison d’articles décrivant des verbes dans deux dictionnaires français-chinois : un bilingue de facture classique et un dictionnaire bilingualisé créé à partir d’un monolingue français, mémoire de M1 TAL. [métalexicographie ; étudiant chinois] Mdir51 COULOMBEL F. (2006), Étude des classes sémantiques constituables à partir d’un sous-ensemble des descriptions de noms proposées dans le Robert benjamin de 1997, mémoire de M1 TAL. [métalexicographie] Mdir52 DELOBEL C. (2006), Évaluation d’un système de synthèse vocale basé sur la concaténation de diphones pour la consultation d’articles du Petit Robert électronique de 2001, mémoire de M1 TAL. [synthèse de la parole & métalexicographie] Mdir53 JEAN M. (2007), Élaboration d’un dictionnaire spécialisé dans les termes de la rhétorique latine, mémoire de M2 LTTAC. [lexicographie] Mdir54 SOW M.K. (2008), Étude des modes de traitement de la polysémie dans trois dictionnaires : le Robert benjamin de 2005, le Hachette benjamin de 2004 et le Larousse des débutants de 2005, mémoire de M1 TAL. [métalexicographie ; étudiante sénégalaise] Mdir55 TROULLIEZ É. (2007), Projet de dictionnaire de régionalismes du Nord-Pas-deCalais, mémoire de M2 LTTAC. [lexicographie] Mdir56 ARNAUD-THUILLIER S. (2008), Éléments pour l’encodage des informations sémantiques d’un dictionnaire de grec ancien de référence : A Greek-English Lexicon, mémoire de M2 LTTAC. [métalexicographie & lexicographie] Mdir57 CHEN H. (2008), Projet de dictionnaire de Français Langue Étrangère destiné à des Chinois, mémoire de M2 LTTAC. [lexicographie ; étudiant chinois] Mdir58 CHIANDUSSO A. (2007), Dérivation des Robert & Collins Junior bilingue pour l’italien : Du First in English de 2003 vers le Primo in Italiano, mémoire de M1 TAL. [lexicographie] Mdir59 COULOMBEL F. (2008), Élaboration d’un dictionnaire électronique des synonymes, mémoire de M2 LTTAC. [lexicographie] Mdir60 DELOBEL C. (2008), Étude de faisabilité d’un dictionnaire des sciences de la vie et de la terre à partir de données pédagogiques, mémoire de M2 LTTAC. [lexicographie] Mdir61 DEMAZEUX L. (2007), Étude contrastive (anglais / français) des subordonnées adverbiales, codirection : Liliane Haegeman, mémoire de M1 TAL. [linguistique] Mdir62 DESPUJOS S. (2007), Conception d’un dictionnaire de FLE/FLS, mémoire de M1 TAL. [lexicographie] Mdir63 GLORIEUX F. (2007), Élaboration d’un dictionnaire de synonymes généré semiautomatiquement à partir des 1 350 nuances du Dictionnaire de la langue française de XLVI Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia 1863-1872 d’Émile Littré, codirection : Pierre Corbin, mémoire de M2 LTTAC. [lexicographie] Mdir64 JEAN M. (2008), Le Dictionnaire historique de la langue française de l’Académie française de 1858-1894 : présentation du projet lexicographique et analyse de l’organisation structurelle, codirection : Pierre Corbin, mémoire de M2 Linguistique. [métalexicographie] Mdir65 KALOMOIRI A. (2007), Conception d’un didacticiel de grec ancien pour élèves grecs de la première classe du gymnase, mémoire de M2 LTTAC. [lexicographie ; étudiante grecque] Mdir66 MÉRESSE C. (2007), Le vocabulaire de la gestion locative de biens immobiliers : études lexicales à partir d’occurrences extraites d’un corpus d’oral transcrit en vue de la structuration d’un répertoire terminologique, mémoire de M1 TAL. [constitution et/ou exploration de corpus & lexicographie] Mdir67 OUHBAD B. (2007), Méthodologies d’alignement de corpus parallèles français / anglais en vue de la réalisation d’un concordancier bilingue, codirection : Antonio Balvet, mémoire de M1 TAL. [constitution et/ou exploration de corpus] Mdir68 PETKOV Y. (2007), Conception d’un dictionnaire français-bulgare pour la traduction, mémoire de M2 LTTAC. [lexicographie ; étudiant bulgare] Mdir69 PIECHOTA S. (2007), Développement d’un concordancier dédié à l’exploration de corpus d’oral transcrit et aligné au son avec Transcriber, codirection : Antonio Balvet, mémoire de M1 TAL. [constitution et/ou exploration de corpus] Mdir70 SALAMANCA LAMOUROUX C. (2009), Encyclopédie des fruits exotiques cultivés en Colombie, mémoire de M2 LTTAC. [lexicographie ; étudiante colombienne] Mdir71 WANG Y.Y. (2008), Création d’un dictionnaire scolaire chinois-français, mémoire de M2 LTTAC. [lexicographie ; étudiante chinoise] Mdir72 ALEXIADOU C. (2008), Élaboration d’un dictionnaire de Grec Langue Étrangère, mémoire de M2 LTTAC. [lexicographie ; étudiante grecque] Mdir73 CEUCA DEVREESE A. (2009), Projet de dictionnaire des expressions et synonymes incluant des mots du corps, mémoire de M2 LTTAC. [lexicographie ; étudiante roumaine] Mdir74 CHIANDUSSO A. (2010), Rédaction d’une DTD pour livres de cuisine, mémoire de M2 LTTAC. [informatique éditoriale] Mdir75 CONDETTE M.-H. (2008), Étude du traitement étymologique des mots espagnols et d’Amérique du Sud dans le Robert junior de 2005 et son Cahier d’étymologie, mémoire de M1 TAL. [métalexicographie] Mdir76 DEMAZEUX L. (2010), Élaboration de la DTD des Topo-guides® de la Fédération Française de Randonnée, mémoire de M2 LTTAC. [informatique éditoriale] Mdir77 GALATI P. (2009), Création d’un dictionnaire morphologique, mémoire de M2 LTTAC. [lexicographie ; étudiante grecque] Mdir78 GUEVARA G. (2009), Conception d’un système de gestion terminologique en ligne, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante équatorienne] Mdir79 KATSIOTI N. (2009), Élaboration d’un dictionnaire de difficultés de prononciation pour des apprenants de Français Langue Étrangère (FLE), mémoire de M2 LTTAC. [lexicographie ; étudiante grecque] Inventaires XLVII Mdir80 MÉRESSE C. (prévu pour 2011), Recherches en vue de l’élaboration d’un dictionnaire du picard actuel, mémoire de M2 LTTAC. [lexicographie] Mdir81 MOINARD G. (2008), Traitement des informations étymologiques fournies pour les mots d’origine latine dans le Dictionnaire Hachette junior de 2007, mémoire de M1 TAL. [métalexicographie] Mdir82 OUHBAD B. (2009), Proposition d’une méthodologie pour la constitution d’une terminologie bilingue anglais-français de l’infographie 3D, mémoire de M2 LTTAC. [lexicographie & informatique éditoriale] Mdir83 RACHID B.A. (2008), Création du cahier des charges d’un dictionnaire françaisdari pour traducteurs, mémoire de M1 TAL. [lexicographie ; étudiant afghan] Mdir84 ZHANG C. (2009), Recherches en vue de l’élaboration d’un dictionnaire d’apprentissage chinois-français, mémoire de M2 LTTAC. [lexicographie ; étudiante chinoise] Mdir85 LEVEAU C. (2008), Analyse structurelle des articles “longs” du Grand dictionnaire bilingue français-espagnol / espagnol-français (Larousse, 2007), mémoire de M1 TAL. [métalexicographie] Mdir86 CONDETTE M.-H. (2010), Étude de la structure argumentale des nominalisations déverbales en -tion et -sion dans le corpus French Treebank : étude de l’héritage argumental entre les verbes sources et les nominalisations dérivées et codification de la réalisation syntaxique de surface de la structure argumentale de ces nominalisations dans le cadre du projet ANR JC NOMAGE, codirection : Rafael Marín, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & linguistique] Mdir87 CONTRERAS E. (2009), Étude comparative des procédés définitoires utilisés dans le Larousse des débutants éditions 2000 et 2005 : analyse de la réécriture définitionnelle de 2005, mémoire de M1 TAL. [métalexicographie ; étudiant vénézuélien] Mdir88 FALCONE H. (2009), La lexicographie française et espagnole à travers la comparaison du Grand Robert (2 e édition) et du Diccionario del español actual de Manuel Seco, mémoire de M1 TAL. [métalexicographie] Mdir89 LEVEAU C. (2010), Création du dictionnaire de spécialité de l’Assurance Maladie, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir90 MARKEZI S. (2010), Conception d’un dictionnaire grec-français de l’escrime, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiante grecque] Mdir91 MOINARD G. (2009), Vers un lexique terminologique actuel du vêtement : l’exemple des “pulls”, mémoire de M2 LTTAC. [lexicographie] Mdir92 NIOBEY L. (2009), Le Larousse des débutants face au Dictionnaire fondamental de la langue française : étude comparative de la lexicographie du français langue maternelle et du français langue étrangère à travers deux dictionnaires pour apprenants débutants, mémoire de M1 TAL. [métalexicographie] Mdir93 OPREA A.C. (2009), Conception du Dictionnaire des produits cosmétiques des adolescentes, mémoire de M2 LTTAC. [lexicographie ; étudiante roumaine] Mdir94 QIN N. (2009), Inventaire sélectif de problèmes linguistiques rencontrés dans le cadre de la traduction automatique en chinois de phrases rédigées en français, mémoire de M1 TAL. [linguistique] Mdir95 RENAULT A. (2009), Désambiguïsation de verbes homographes ou paronymes dans le cadre d’une correction grammaticale automatique, mémoire de M1 TAL. [linguistique] XLVIII Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Mdir96 VOLKOVA T. (2009), Utilisation des standards XML pour la mise en ligne de documents multilingues, mémoire de M1 TAL. [informatique éditoriale ; étudiante russe] Mdir97 ALLEMAN C. (2010), Étude du Robert & Collins junior bilingue français-espagnol, mémoire de M1 TAL. [métalexicographie] Mdir98 AUBINEAU C. (prévu pour 2011), Analyse contrastive de deux dictionnaires bilingues français-allemand destinés à des collégiens, mémoire de M1 LTTAC. [métalexicographie] Mdir99 BANICA D. (2010), Étude des modalités de description des formes phoniques des unités linguistiques décrites par le Nouveau Petit Robert et le Robert oral-écrit, mémoire de M1 TAL. [métalexicographie ; étudiante roumaine] Mdir100 DUTREY C. (2010), Décodage d’énoncés de problèmes de mathématiques avec l’aide d’un dictionnaire pour le cycle 3, mémoire de M1 TAL. [métalexicographie] Mdir101 GROS V. (2010), Étude des modalités de consultation des dictionnaires japonaisfrançais ou japonais-anglais : quelles fonctions complémentaires apportent les versions électroniques ?, mémoire de M1 TAL. [métalexicographie] Mdir102 NGUYEN NGOC D.V. (2010), Analyse métalexicographique de dictionnaires vietnamiens, mémoire de M1 TAL. [métalexicographie ; étudiante vietnamienne] Mdir103 TETTELIN L. (2010), Analyse comparée des équivalences traductionnelles proposées dans deux dictionnaires bilingues français-anglais et de ce qui serait utile pour la compréhension d’une sélection de phrases extraites d’un corpus d’articles de TAL, mémoire de M1 TAL. [constitution et/ou exploration de corpus & métalexicographie] Mdir104 CONTRERAS E. (2010), Vers un dictionnaire bilingue de langue familière espagnol (variante vénézuélienne)-français, mémoire de M2 LTTAC. [lexicographie] Mdir105 FALCONE H. (2010), Vers un dictionnaire de la Formule 1, codirection : Pierre Corbin, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir106 LECLERC H. (2010), Conception et réalisation d’un dictionnaire de cuisine indienne végétarienne, mémoire de M2 LTTAC. [lexicographie] Mdir107 NIOBEY L. (2010), Vers un dictionnaire alphabétique et thématique du football : le vocabulaire fondamental des commentaires de matchs, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie] Mdir108 QIN N. (2010), Conception d’un lexique bilingue chinois-français visant à présenter les fêtes traditionnelles de la Chine, mémoire de M2 LTTAC. [lexicographie ; étudiante chinoise] Mdir109 RENAULT A. (2010), Vers une description syntaxico-sémantique des prédicats pour une analyse sémantique automatique en correction orthographique et en aide à la rédaction : essai sur les verbes de changement d’état physique à alternance, codirection : Danièle Van de Velde, mémoire de M2 LTTAC. [linguistique & lexicographie] Mdir110 ROCHE O. (2010), Dictionnaire encyclopédique de la musique destiné aux enfants à partir de 10 ans, mémoire de M2 LTTAC. [lexicographie] Mdir111 SADOUKI F. (prévu pour 2011), Création d’un lexique bilingue arabe-français d’expressions journalistiques, mémoire de M2 LTTAC. [constitution et/ou exploration de corpus & lexicographie ; étudiant algérien] Document de synthèse 0. Introduction Élaborer cette synthèse relative aux activités de recherche qui ont été les miennes depuis la soutenance de ma thèse en 1998 et mon recrutement comme maître de conférences à l’université Lille 3 en 1999 constitue pour moi une tâche stimulante qui, en m’amenant à faire un point une décennie plus tard, me permet de prendre la mesure de l’importance de certains choix et de discerner les orientations stables et les évolutions de positionnement. Recherche et enseignement : deux activités intrinsèquement liées Ce retour sur mes travaux de recherche fait apparaître à quel point leur articulation avec ma pratique de formation professionnelle de lexicographes et de terminographes a été et est toujours déterminante pour les deux activités. Notre cursus, créé en 1991 par Danielle et Pierre Corbin, devenu DESS en 1999, l’année où j’ai commencé à l’animer aux côtés de ce dernier, associé à une maîtrise en 2001 et maintenant converti en spécialité de master dénommée “Lexicographie, Terminographie et Traitement Automatique des Corpus” (LTTAC) 1, qui attire des étudiants venus de tous les continents 2, fonctionne comme un laboratoire d’expérimentation, dont la matière se renouvelle continûment. Loin de distiller, sous couvert de professionnalisation, des recettes supposées éprouvées, nous faisons bénéficier nos étudiants en formation des problématisations de la recherche, qui se nourrit en retour de voir ses hypothèses tes1 La formation de niveau bac + 5 a évolué selon la chronologie suivante : 1991-1999 : “Diplôme Européen de Lexicographie” (DEL, diplôme d’université) ; • 1999-2000 : DESS “Lexicographie et Terminographie” (LT) ; • 2000-2004 : DESS “Lexicographie, Terminographie et Traitement Automatique des Corpus” (LTTAC) ; • 2004-2010 : M2 “Lexicographie, Terminographie et Traitement Automatique des Corpus” (LTTAC) de la spécialité “TAL, Dictionnaires, Terminologies, Corpus” de la mention “Sciences du langage” du master “Arts, Lettres, Langues et Communication” ; • 2010-20… : M2 de la spécialité “Lexicographie, Terminographie et Traitement Automatique des Corpus” (LTTAC) de la mention “Sciences du langage” du master “Arts, Lettres, Langues et Communication”. – La formation de niveau bac + 4 a pour sa part connu trois phases : • 2001-2004 : Maîtrise “Industries de la Langue” (IDL) ; • 2004-2010 : M1 “Traitement Automatique des Langues” (TAL) de la spécialité “TAL, Dictionnaires, Terminologies, Corpus” de la mention “Sciences du langage” du master “Arts, Lettres, Langues et Communication” ; • 2010-20… : M1 de la spécialité “Lexicographie, Terminographie et Traitement Automatique des Corpus” (LTTAC) de la mention “Sciences du langage” du master “Arts, Lettres, Langues et Communication”. – Le site http://stl.recherche.univ-lille3.fr/siteheberges/LTTAC/index.htm détaille la structure actuelle des M1 et M2 “Lexicographie, Terminographie et Traitement Automatique des Corpus”. Les étudiants qui ont suivi la formation proviennent, outre la France, de près d’une quarantaine de pays répartis sur les cinq continents, comme indiqué dans la liste ci-après (où les noms de pays écrits en gras sont ceux des étudiants inscrits et ceux en italiques ceux des auditeurs libres) : – EUROPE : Allemagne, Belgique, Bulgarie, Chypre, Espagne, Grèce, Italie, Luxembourg, Pays-Bas, Pologne, Portugal, Roumanie, Slovénie, Russie, Ukraine ; – AFRIQUE (MAGHREB) : Algérie, Tunisie ; – AFRIQUE NOIRE : Bénin, Cameroun, Gabon, R.D. du Congo, Sénégal ; – ASIE : Afghanistan, Arménie, Chine, Corée du Sud, Inde, Iran, Jordanie, Turquie, Viêtnam ; – AMÉRIQUE DU NORD : Canada (dont Québec) ; – AMÉRIQUE LATINE : Colombie, Cuba, Équateur. – • 2 6 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia tées de façon concrète. 3 Les partenaires de ce master 4, un nombre important d’entreprises et d’institutions principalement françaises et européennes parmi les plus représentatives des métiers auxquels il forme et des industries de la langue, et plus généralement des entreprises industrielles utilisatrices, pour leur communication interne et externe, des qualifications de nos étudiants (notamment en matière de constitution de thésaurus et de structuration de textes), nous transmettent leur expérience pratique lors de conférences 5, des rendez-vous de suivi de stages d’étudiants qu’ils encadrent et de contacts qu’ils prennent lors du recrutement de diplômés, qui donnent lieu à des échanges de vues stimulants pour chacun sur l’activité de ces professionnels et sur nos recherches. Dans le domaine de la lexicographie, l’articulation entre formation et recherche est actuellement particulièrement forte sur certains terrains, en raison de la mutation que constitue la généralisation de l’informatique dans tous les secteurs concernés par la production de dictionnaires, qui amène à repenser différents aspects de la conception de ceux-ci. Dans les mémoires qu’ils doivent rédiger, les étudiants du master sont amenés à imaginer des projets et des solutions dictionnairiques qui préfigurent la lexicographie du futur proche, ce qui explique et justifie que l’UMR STL soit aussi un partenaire de cette formation, à laquelle elle fournit une aide logistique significative. 6 Objets, méthodes et moyens d’une décénnie de recherches Dans le retour critique sur mon activité de chercheur qui va suivre, j’ai choisi d’adopter une présentation thématique, qui me permet de valoriser certaines des convergences existant entre mes thèmes de recherche, mais d’autres regroupements auraient été possibles, qui auraient mis en relief d’autres liens entre mes travaux. Le plan adopté reflète le regard que je porte aujourd’hui sur mes recherches anciennes et récentes. En complément des regroupements opérés, les lecteurs disposeront au fil des pages de multiples renvois vers 3 4 5 6 Les effets de cette conception en synergie de la recherche et de l’enseignement se traduisent dans l’ensemble de mes communications et publications individuelles ou en collaboration. Une manifestation récente et significative de cette fertilisation réciproque de la réflexion théorique et de l’expérience pratique est constituée par le numéro 19 de la revue Lexique, intitulé « Changer les dictionnaires ? » (D1 (§ 2.6.2.)), dont tous les contributeurs, qu’ils soient membres de l’UMR STL ou extérieurs, ont été ou sont actuellement acteurs de la formation professionnelle. Au fil des deux décennies de la formation, ces intervenants sont venus d’Allemagne, de Belgique, d’Espagne, de Grande-Bretagne, de Grèce, d’Israël, d’Italie, du Luxembourg, des Pays-Bas et de Russie, dans des proportions et pour des durées variables (cf. http://stl.recherche.univ-lille3.fr/siteheberges/LTTAC/Partenariats -professionnels.htm). Les animateurs de la formation assistent à toutes les interventions des professionnels invités ainsi qu’à une large part des cours des autres enseignants-chercheurs, de manière à aider les étudiants à articuler et à mettre en perspective ce qui a été dit par chacun. Il en résulte une forte synergie entre Pierre Corbin et moi, mais également, plus ponctuellement, entre certains intervenants et moi. Les nombreuses directions de mémoires (cent onze), que j’ai assumées seule (quatre-vingt huit) ou en collaboration avec Pierre Corbin (dix-sept), Antonio Balvet (deux), Liliane Haegeman (une), Rafael Marín (une), Marc Tommasi (une) ou Danièle Van de Velde (une), s’inscrivent dans cette logique et, qu’il s’agisse d’études théoriques ou applicatives, elles obéissent aux mêmes exigences intellectuelles, requièrent les mêmes transmissions de compétences métalexicographiques, linguistiques et informatiques et nécessitent le même suivi tout au long de l’année. Document de synthèse - 0. Introduction 7 – les publications (T1 à 24) et une sélection de textes non publiés (Tdr1 à 5) qui sont reproduits dans le dossier d’habilitation, – ainsi que vers les autres activités de recherche dont le détail est présenté supra (rubrique « Inventaires ») : • directions de publications collectives (D1 et 2), • communications (C1 à 24) et exposés (E1 à 24), • participations à des projets financés (P1 à 5), • constitutions de ressources documentaires réparties en trois sous-ensembles : corpus et outils de différentes natures qui leur sont associés (Rcorp1 à 16), bases de données qui documentent des études métalexicographiques (Rbd1 à 6) et prototypes de dictionnaires (Rdic1 à 6), • missions d’expertise ou de conseil (Exp1 à 5), • animation de séminaire (S1), • et directions de mémoires (Mdir1 à 111) 7. D’une manière ou d’une autre, mes activités de recherche s’ancrent dans des questions de description d’unités lexicales documentées à partir d’observations en corpus ou dans des dictionnaires, dans la continuité de ce qui avait été entrepris durant la rédaction de ma thèse de doctorat, mais en intégrant les contraintes particulières des milieux professionnels où ces descriptions sont produites à des fins commerciales (et en premier lieu les maisons d’édition de dictionnaires). Mon intérêt pour les unités linguistiques signifiantes (unités lexicales simples ou complexes et unités infralexicales) est orienté vers des descriptions finalisées, mobilisant savoirs introspectifs et ressources documentaires métalinguistiques et discursives, et pouvant permettre des exploitations par des humains (dans le cadre de consultations fonctionnelles ou culturelles) ou applicatives. Cette dernière perspective m’avait conduite, pour mon doctorat, 7 La grande majorité des mémoires encadrés ont des thèmes qui relèvent de mes domaines de recherche puisque – six traitent de constitution et/ou d’exploration de corpus (dont un qui a été préparé durant une année pleine mais n’a pas été soutenu faute que l’étudiant ait réussi à le rédiger alors que les analyses linguistiques étaient élaborées), – vingt-quatre de ce thème et de lexicographie conjointement, – un de synthèse de la parole et de lexicographie (le premier de ces domaines n’entrant pas dans mes spécialisations), – quarante-huit de lexicographie, – dix-neuf de métalexicographie, – un des deux derniers thèmes, – un de métalexicographie et de constitution et/ou exploration de corpus, – trois de linguistique, – deux de linguistique et de constitution et/ou exploration de corpus, – un de linguistique et de lexicographie, – deux d’informatique éditoriale, – un de lexicographie et d’informatique éditoriale. Un traite d’enseignement assisté par ordinateur (EAO). J’ai accepté de le diriger dans la mesure où le projet de cet étudiant pouvait bénéficier à la fois de mon expérience passée d’enseignante du primaire et de mes compétences informatiques (j’enseignais alors l’EAO en licence TAL et en maîtrise de FLE). 8 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – à imaginer un contexte applicatif d’extraction terminologique qui motivait l’élaboration d’un algorithme de calcul de valeurs sémantiques possibles d’unités polylexicales de structure N1 à N2 référant à des instruments (le corpus de test étant constitué d’un peu plus de neuf cents noms listés par Poncet-Montange (1991)) ; – et, afin de disposer des connaissances nécessaires pour tester les capacités de calcul de l’algorithme, à réunir les données syntaxiques et sémantiques relatives aux N1 et aux N2 hors des unités polylexicales traitées, en élaborant pour elles des méthodes d’extraction en corpus et un cadre de description formalisé, très largement inspiré du Lexique génératif de Pustejovsky (1995). Sans avoir d’ancrage professionnel réel, la finalité applicative de cette recherche traduisait une volonté de travailler en partenariat avec des industriels, que mon implication professionnelle actuelle a partiellement concrétisée. En effet, si les compétences linguistiques et informatiques mobilisées pour mon doctorat m’ont sensibilisée à leur interdépendance dans la production de descriptions lexicales, j’ai pu enrichir et faire fructifier mes savoir-faire par mon implication dans la formation de lexicographes, qui me permet d’acquérir une connaissance des tâches et contextes professionnels des partenaires et de nos diplômés. Mes travaux de recherche se sont ainsi naturellement nourris des enseignements que je dispense dans cette formation comme des conférences ou des cours qui y sont donnés et auxquels j’assiste afin de mettre en perspective les apports de chacun pour ma propre documentation mais aussi pour soutenir les étudiants dans leurs efforts d’appropriation de compétences nouvelles (cf. n. 5). Il résulte de ce qui précède que mes travaux ont toujours à voir avec la description d’unités linguistiques, qu’ils concernent : – la documentation des analystes et descripteurs (linguistes, lexicographes ou terminographes), – les modalités de rédaction des descriptions (qu’elles soient écrites en langue naturelle, mais de manière structurée et souvent codifiée, pour des destinataires humains ou formalisées pour des applications informatiques), – les contenus informationnels et leurs modes discursifs (dont l’appréciation qualitative implique l’étude de la lisibilité et de l’adéquation de ce qui est présenté dans les descriptions en fonction d’un projet éditorial et d’un public destinataire) ; – ou l’utilisation et la réexploitation de descriptions existantes (qui se fait en repérant les filiations textuelles et en évaluant la possibilité du réemploi de certains textes à d’autres fins). Ces recherches exploitent le plus souvent des compétences informatiques (notamment en XML 8 et bases de données SQL 9) à des fins linguistiques, métalexicogra8 Le XML (eXtensible Markup Language) est un métalangage qui permet de définir des langages de balisage et qui a fait l’objet en 1998 de spécifications officielles (version 1.0) émanant du World Wide Web Consortium (W3C). Il est dérivé du SGML (Standard Generalized Markup Language), dont il constitue une version dont la syntaxe est plus contrainte. Les documents XML sont des documents textuels au sein desquels des éléments (délimités par une balise ouvrante et une balise fermante) contiennent des segments de texte et fournissent des indications de natures variées à leur sujet. Ces dernières sont exprimées au moyen du nom de l’élément mais aussi de traits (des paires attributs / valeurs) qui peuvent être portés par chaque occurrence de chaque élément. Document de synthèse - 0. Introduction 9 phiques et lexicographiques, et elles le font généralement en adoptant des modes d’exposition aussi pédagogiques que possible (bien que souvent assez techniques), afin de transmettre les savoir-faire que j’ai acquis à ceux qui pourraient être intéressés par ces questions (lexicographes et terminographes, linguistes et talistes). Avant d’en venir à la présentation du plan de ce mémoire, un point terminologique semble utile. Dans ce document, une majorité des emplois de lexicographie réfère aussi bien à la lexicographie générale que spécialisée, voire à la terminographie. Cette option métalinguistique, qui pourrait être perçue comme une facilité d’écriture éventuellement source d’imprécisions, est en fait motivée par la conviction, appuyée sur l’expérience, que, si les modalités de rédaction de descriptions d’unités linguistiques diffèrent en fonction des projets éditoriaux des répertoires qu’elles doivent intégrer, elles ont en partage un objet, des méthodes de documentation et des principes de description, dont les rédacteurs usent sélectivement selon leur cadre de travail. Les emplois de lexicographie comme hyperonyme de lui-même et de terminographie sont donc assumés et s’accompagnent d’une extension sémantique comparable pour le nom d’agent lexicographe. Motivation du plan retenu Dans le cadre de la lecture thématique de mes activités de recherche adoptée dans ce document, je montre comment j’ai conçu celles-ci comme un long échange avec les lexicographes, partenaires professionnels qui me semblent à la fois être 9 Les documents XML doivent être respectueux des règles syntaxiques de base du métalangage : on dit alors qu’ils sont valides. Ils peuvent en outre se conformer à une description spécifique de leur structure, qui pourra être soit une DTD (Définition de Type de Document), si elle est codée pratiquement comme elle l’était déjà pour les documents SGML, soit un schéma, si elle est écrite en XML en employant des éléments prédéfinis pour déclarer les nouveaux éléments et attributs et leur grammaire. Les contenus textuels des documents balisés en XML peuvent être manipulés au moyen de langages dédiés, dont en particulier – XPath (XML Path Language), qui permet de localiser des éléments ou attributs en vue de différents traitements ; – XSLT (eXtensible Stylesheet Language Transformations), qui est un langage XML avec lequel on écrit des “feuilles de styles” de transformation qui permettent de créer de nouveaux documents XML, HTML ou TXT à partir d’un document XML ; – XSL-FO (eXtensible Stylesheet Language - Formatting Objects), qui est un langage XML avec lequel on écrit des “feuilles de styles” de formatage de versions imprimables qui permettent de générer un document PDF à partir d’un document XML. Des remodelages structurels de documents XML peuvent également être réalisés au moyen de scripts Perl (un langage de programmation polyvalent qui traite des chaînes de caractères et dont des bibliothèques offrent des modules spécialisés : XML::Parser, XML::Dom, etc.). Les bases de données dites “SQL” sont constituées de tables qui enregistrent les données stockées et dont le contenu est interrogeable au moyen d’un langage de requête, le SQL (Structured Query Language). Les tables sont composées de champs – les colonnes – et d’enregistrements – les lignes –, ces derniers étant généralement associés à des identificateurs appelés “clés primaires”. Quand les données de la base sont réparties dans différentes tables, les clés primaires jouent un rôle capital : en reportant la valeur de la clé primaire d’un enregistrement d’une table (T_1) dans une autre table (T_2), on crée un enregistrement lié et la copie de la valeur de cet identificateur est appelée “clé de jointure”. Un enregistrement d’une table (T_1) peut n’être lié qu’à un seul enregistrement d’une autre table (T_2), et on parle alors de “relation un à un”, mais il peut alternativement être lié à plusieurs enregistrements, et on parle alors de “relation un à plusieurs”. 10 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – les plus polyvalents, tant par leurs qualités d’analystes attentifs aux variations des usages linguistiques que par leur qualification technique en matière de documentation, de rédaction et de suivi éditorial, – et les plus centraux, du fait que ce qu’ils produisent est au moins partiellement exploitable par d’autres professionnels du monde de l’édition (en particulier les informaticiens éditoriaux qui contribuent directement à la réalisation et au réemploi des productions des premiers) et des industries de la langue (dont les développements applicatifs nécessitent des ressources lexicales). Le découpage adopté – les traitements de corpus d’une part (partie 1.), la métalexicographie analytique et de conception d’autre part (partie 2.) – reflète un cheminement allant des usages langagiers observables aux descriptions qui en sont faites (et aux tâches impliquées par l’élaboration de celles-ci). L’ordre de ces deux parties reflète aussi, bien qu’imparfaitement, le parcours qui a été le mien depuis un peu plus d’une décennie : – utilisatrice de dictionnaires comme ressources documentaires, j’ai commencé par étudier l’adéquation de leurs descriptions des usages en confrontant ce que certains d’entre eux présentent avec ce qui peut s’observer en corpus et en explorant comment ces derniers sont susceptibles de mieux documenter les analyses des lexicographes ; – percevant l’intérêt pressant des maisons d’édition pour la rétroconversion de textes et la conception de produits sur support électronique, je me suis mobilisée sur ces deux aspects de l’activité lexicographique, qui trouvent des échos dans d’autres secteurs de production talistes ; – disposant progressivement d’une meilleure connaissance des textes dictionnairiques, je me suis intéressée à la manière dont certaines informations y sont transmises aux utilisateurs, avec le projet ambitieux d’étendre l’étude à l’ensemble de celles qui sont fournies, • en observant les relations qui peuvent être repérées entre d’une part les éléments informationnels sélectionnés ainsi que les modes de présentation discursive et typographique qu’ils reçoivent et d’autre part les projets des répertoires qui les proposent, afin d’évaluer leur compréhensibilité par ceux à qui ils sont destinés ; • et en envisageant la réexploitabilité des segments de textes exprimant chaque élément informationnel dans d’autres contextes éditoriaux ou applicatifs. Lors du retour sur chaque production commentée dans ce mémoire, sa présentation est accompagnée d’éléments qui permettent de situer son contexte d’élaboration et les liens qu’elle entretient avec mes autres travaux, mais elle peut également appeler des développements complémentaires utiles pour la compréhension de l’objet traité ou des modalités de son traitement et dont la teneur connaît des variations d’un commentaire à l’autre de manière à diversifier autant que possible les modes de relecture de mes recherches. Enfin, j’ai adopté pour ce mémoire une option rédactionnelle plutôt descriptive, m’attachant à expliciter les fondements des réflexions développées durant un peu plus d’une décennie. Ce choix me semble de nature à faciliter la lecture de développements qui peuvent être en eux-mêmes assez complexes et à valoriser les articulations des logiques internes de chaque réflexion. 1. Traitements de corpus 1.1. Définir des manières d’envisager les traitements de corpus Mon implication dans la formation de lexicographes, dont j’ai déjà indiqué la forte incidence qu’elle a eue sur mes recherches, n’a cependant pas déterminé de manière exclusive mon investissement en matière d’utilisations de corpus, documenter les usages linguistiques à l’aide de ceux-ci n’étant pas spécifique aux lexicographes et ces ressources n’étant pas les seules utilisées à cette fin par ces derniers. Et s’il est vrai que mes travaux relatifs aux traitements de corpus, qui incluent des créations et des explorations ciblées, ont assez souvent été conçus dans des perspectives lexicographiques, d’une part ces traitements peuvent être abordés de manière comparable pour des études proprement linguistiques, et d’autre part j’y recours aussi, depuis quelque temps, pour documenter des problématiques de recherche épistémologiques. Objets, méthodes et moyens Mon activité de recherche concernant les traitements de corpus s’est développée dès le début des années 2000, en étant stimulée : – d’une part par les besoins des étudiants lillois en sciences du langage et en lexicographie en matière de formation en linguistique documentée par des corpus, et par des demandes de doctorants et de collègues linguistes désireux de voir leurs ressources documentaires structurées afin d’affiner leurs investigations, qui ont suscité plusieurs collaborations ; – d’autre part par la réflexion qui s’est développée ces dernières décennies dans le domaine lexicographique sur l’exploitation de corpus informatisés pour l’élaboration de dictionnaires, qui, après l’expérience novatrice mais particulière et finalement isolée du Trésor de la langue française, a connu un important renouvellement et un essor inégalé dans le monde anglo-saxon (cf. Béjoint (2009, §§ 3.3., 3.5. et 3.7. et 2010, chap. 9.)). Dans ce contexte, les corpus ont constitué un ancrage constant de mes recherches, dont les approches, les objets et les collaborations induites ont connu une large diversification. Au moment de la rédaction de ce mémoire, mes travaux les concernant comptent neuf articles publiés 10 et trois textes de diffusion restreinte rédigés 11, vingt-quatre 10 T1 ((2001), rédigé avec François Nemo & Pierre Cadiot), T2 (2002), T3 (2005b), T4 (2004a), T5 (2008b), T8 (2008c), T10 ((2008d), rédigé avec Hans Paulussen), T18 ((2009 a), rédigé avec Pierre Corbin et relevant également de la métalexicographie, cf. n. 182), T20 ((à paraître d), rédigé avec Stavroula Markezi et relevant également de la métalexicographie, cf. n. 182). 14 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia communications ou exposés prononcés 12, un séminaire de recherche (S1, intitulé « Constitution et exploration de corpus ») proposé et largement animé 13 et trois participations effectives à des projets de recherche 14, ainsi qu’une plus ponctuelle prévue pour 2010-2011 15. À ces prestations, il convient d’ajouter le développement autonome ou en collaboration de douze corpus et de quatre outils ou produits associés 16 et la 11 12 13 14 15 16 Tdr1 (2001), Tdr2 (2006) et Tdr4 (en préparation a). Quatorze n’ont pas donné lieu à publication : C2 (2001b), C3 (2001c), C4 (2001d) [cf. Tdr1], C5 (2002a), E9 (2006b) [cf. Tdr2], et, dans le cadre du séminaire « Constitution et exploration de corpus » (S1, cf. n. 13), E10 (2007a), E11 (2007b), E12 (2007c), E13 (2007d), E14 (2007e), E15 (2007f ), E16 (2007g), E17 (2007h) et E18 (2007i). Les données de dix autres ont été exploitées dans des articles : C6 (2002b) [cf. T2], C7 (2002c) [cf. T3], E5 (2003) [cf. T4], C8 (2003) [cf. T5], E6 et E7 (2004a et b) [cf. T4], C11 (2005b) [cf. T8], E8 ((2006a), avec Hans Paulussen) et C12 ((2006a), également avec Hans Paulussen) [cf. T10], et C21 ((2009a), avec Stavroula Markezi) [cf. T20]. L’idée de S1 est née en 2004 lors de ma participation à l’école thématique « Linguistique de corpus : constitution, archivage, évaluation », organisée avec le soutien du CNRS à l’université de Caen. Les doctorants lillois qui y participaient également (et qui parfois m’avaient déjà sollicitée à la suite d’un des exposés relatifs à des traitements de corpus que j’avais présentés à l’UMR (E6) ou à l’école doctorale (E5 et E7)) ont témoigné un tel intérêt que j’ai eu envie de les aider à poursuivre leur formation et de permettre à d’autres membres de l’UMR de s’initier à ce type de recours aux données attestées. Ce séminaire 2006-2007 de l’UMR STL et de l’École doctorale de l’université Lille 3 a comporté dix-huit séances thématiques (soit 57h30 de travail collectif ) que j’ai animées avec d’autres enseignants-chercheurs de l’UMR, Cyril Auran, Antonio Balvet, Ilse Depraetere, et la participation d’un conférencier étranger invité (Hans Paulussen, cf. n. 26). Son objectif était de permettre aux participants d’utiliser des corpus existants, d’en constituer de nouveaux pour documenter des recherches en cours, d’explorer des données antérieurement collectées (ce qui peut éventuellement avoir été fait sans avoir préalablement réfléchi à leur structuration), d’aligner des données bilingues ou multilingues pour pouvoir analyser en parallèle un segment exprimé dans plusieurs langues, voire différentes versions d’un même texte dans une langue donnée, ou encore d’aligner un signal sonore et/ou vidéo à sa transcription orthographique ou phonétique et à des annotations. Ces trois projets (présentés dans la rubrique « Inventaires ») ont des ancrages très différents les uns des autres : – le projet OURAL (P2, échelonné de 2003 à 2005 et porté par Claude de Loupy dans le cadre de la campagne Technolangue), qui a induit deux articles relatifs aux travaux faits sous ma direction à l’UMR SILEX/STL (T8 (§ 1.4.1.) et Mostrov (2008)), visait la production de ressources et d’outils pour le TAL, dont des corpus d’oral transcrit étiquetés morphoflexionnellement pour lesquels j’ai été mobilisée (Rcorp5 et Rcorp6 (§ 1.4.1.)) ; – le projet multicomposantes “Constitution du corpus parallèle français-serbe” (P3, débuté en 2008, porté par Dejan Stosic et financé par différentes sources) doit permettre le développement de deux corpus bilingues ou trilingues serbe / français et optionnellement anglais, dédiés à des études linguistiques : un corpus de commentaires footballistiques oraux transcrits (Rcorp16 (§ 1.3.4.)) et un autre de textes littéraires alignés pour lequel je contribue à leur traitement informatique et à l’élaboration de l’interface de consultation (Rcorp15 (§ 1.5.2.)) ; – et le projet ANR “blanc” Algo (P4, débuté en 2009 et porté par Fabio Acerbi et Bernard Vitrac), consacré à l’étude de textes de mathématiques de l’époque prémoderne rédigés dans différentes langues et dans le cadre duquel je suis sollicitée pour l’annotation et l’exploration outillée d’un corpus de démonstrations mathématiques en grec ancien (Rcorp14 (§ 1.5.4.). Le projet ANR-DFG Eurolab (P5, débuté en 2010 et porté par Elsa Kammerer et Jan-Dirk Müller), dont l’objet est l’étude de textes de la Renaissance et pour lequel j’ai été sollicitée pour mon expertise technique en vue de la réunion en un corpus aligné structuré en XML des différentes versions des textes pris en compte. Ces seize ressources peuvent être regroupées thématiquement comme suit : – trois corpus footballistiques, créés entre 2002 et 2005, le premier réunissant des transcriptions de multiplex (Rcorp1, conçu avec Pierre Corbin), le second des articles du journal L’Équipe (Rcorp2) et le troisième des pages Web consacrées au football (Rcorp4), accompagnés d’une ontologie des actions de jeu (Rcorp3, conçue avec Pierre et François Corbin) (cf. T3, T4 et T5 (§§ 1.3.1., 1.3.2. et 1.3.3.)) ; – un corpus d’émissions juridiques radiodiffusées (Rcorp5) et un d’entretiens relatifs à la gestion locative de biens immobiliers (Rcorp6), constitués dans le cadre du projet OURAL (P2, cf. n. 14 et T8 (§ 1.4.1.)) ; Document de synthèse – 1.1. Définir des manières d’envisager les traitements de corpus 15 direction de trente-cinq mémoires relatifs à des constitutions et/ou explorations de corpus 17. Motivation du plan retenu Le retour sur mes différents travaux relatifs à des traitements de corpus s’organise en cinq temps, qui correspondent à des modes d’approche que j’ai progressivement pris en compte. La première étape (§ 1.2.) a été celle de la prise de repères, de la définition de ce que pourrait être ma manière d’employer des corpus et donc des finalités de leur exploitation et, en fonction de celles-ci, du ou des référent(s) à associer au nom corpus. Le choix de me concentrer sur la documentation des lexicographes a suscité une réflexion relative aux corpus à haut rendement exploratoire (§ 1.3.), les seuls qui me paraissent constituables par des éditeurs éventuellement enclins à consentir des efforts financiers pour des projets ponctuels mais qui ne sont pas en mesure de s’engager dans des investissements de grande envergure. Les travaux faits dans ce contexte ont concerné un espace discursif particulier – les commentaires de matchs de football – envisagé à la fois du point de vue de la sélection des documents primaires à réunir en corpus et des méthodologies d’exploration mêlant connaissances empiriques des événements narrés et approches outillées informatiquement. Bénéficiant des acquis de cette première expérience, d’autres corpus thématiques – pas toujours à haut rendement du fait de certaines contraintes – ont été élaborés (§ 1.4.). Il s’est agi successivement : – dans le cadre du projet OURAL (P2), de transcriptions de sources orales pour deux corpus : l’un d’émissions juridiques radiodiffusées, inachevé faute d’obtention des droits d’exploitation des sources sonores, et l’autre d’entretiens relatifs à la gestion locative de biens immobiliers, conçu pour ne pas rencontrer l’écueil précédent mais qui s’est révélé d’une moins bonne rentabilité ; 17 – un corpus bilingue du tourisme (Rcorp7, élaboré avec Hans Paulussen) en 2005-2007 (cf. T10 (§ 1.4.2.)) ; – un corpus des écrits de Danielle Corbin (Rcorp8, conçu avec Pierre Corbin) depuis 2006, qui est dédié à des études épistémologiques, linguistiques et terminologiques, qui a motivé la constitution de trois ressources dérivées – les bases de données des références bibliographiques de la morphologue (Rcorp9), des unités lexicales et infralexicales traitées (Rcorp10) et des termes employés (Rcorp11) – et qui est présenté dans un article en préparation (Tdr4 (§ 1.6.2.)) ; – un corpus de textes de présentation d’ouvrages lexicographiques (préfaces, textes de présentation sur les sites des éditeurs, etc.) (Rcorp12) depuis 2007 (cf. T18 (§ 1.4.3.)) ; – un corpus de textes de lecture proposés dans des manuels de français (Rcorp13) depuis 2009, qui est destiné à des études métalexicographiques relatives aux nomenclatures de dictionnaires scolaires (cf. T20 (§ 1.6.1.) et Tdr5 (§ 2.3.6.)) ; – un corpus de textes de mathématiques en grec ancien (Rcorp14 (§ 1.5.4.)) élaboré dans le cadre du projet Algo (P4, cf. n. 14) ; – un corpus trilingue aligné de textes littéraires serbes, français et anglais – la troisième langue étant optionnelle et sa présence régie par la disponibilité des textes – (cf. Rcorp15 et § 1.5.2.) et un corpus footballistique bilingue serbe / français (Rcorp16 et § 1.3.4.) constitués dans le cadre du projet arrageois P3 (cf. n. 14). Vingt-six ont également un objectif lexicographique ou métalexicographique : Mdir8, 15, 16, 18, 20, 22, 26, 27, 29, 35, 38, 43, 49, 66, 78, 89, 90, 103, 107 et 111, et, codirigés avec Pierre Corbin, Mdir7, 17, 21, 23, 24 et 105. Huit autres traitements de corpus sont effectués dans une perspective taliste ou linguistique : Mdir34, 36, 40, et, codirigé avec Marc Tommasi, Mdir19, codirigé avec Pierre Corbin Mdir28, codirigés avec Antonio Balvet, Mdir67 et 69, et, codirigé avec Rafael Marín, Mdir86. 16 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – du fait d’interactions avec un intervenant de la formation de lexicographes 18, de la création, à partir de documents issus du Web, d’un corpus bilingue aligné français / anglais du tourisme, pour lequel la contrainte du bilinguisme a joué négativement en imposant d’exclure des documents riches mais sans traduction disponible ; – et, plus récemment, pour étudier le mode d’expression des lexicographes français, de la compilation de paratextes de dictionnaires en un corpus qui peut, lui, être considéré comme à haut rendement. Les exposés faits à Lille relativement à ces premières constitutions de corpus (dans le cadre du séminaire de l’UMR ou de l’un de ceux de l’école doctorale : E5, E6, E7 et E8) ont créé une émulation chez différents collègues et doctorants (§ 1.5.) qui m’a incitée à proposer et à animer un séminaire de recherche spécifiquement centré sur les corpus (S1), à représenter notre UMR lors d’une réflexion relative aux possibles évolutions de la base Frantext (cf. Tdr2), puis à m’engager avec des collègues intéressés par des questions de linguistique comparative dans le projet arrageois, financé de différentes manières, de développement de corpus bilingues ou trilingues serbe / français / anglais (P3). Pour l’un des corpus de ce projet comme pour d’autres collaborations qui m’ont été proposées ensuite, ce sont mes compétences en structuration de documents (affinées par les traitements de corpus antérieurs mais aussi par les balisages de textes dictionnairiques (cf. § 2.2.)) qui ont motivé que des chercheurs ou enseignants-chercheurs me demandent de m’impliquer à leurs côtés. Ces projets renouvellent assez largement les types de corpus auxquels je suis confrontée comme l’identité de mes partenaires (cf. nn. 14 et 15) : textes littéraires modernes serbes, français et anglais pour le corpus arrageois, démonstrations mathématiques en grec ancien pour le projet Algo (P4), textes littéraires de la Renaissance pour le projet Eurolab (P5), auquel ma participation a été sollicitée consécutivement au suivi technique d’un doctorant médiéviste, Matthieu Marchal, pour l’exploration du texte qu’il étudiait et dont il constituait un glossaire structuré en XML. Enfin (§ 1.6.), j’ai conçu récemment deux autres corpus, seule ou avec Pierre Corbin, en vue d’études pas exclusivement linguistiques, puisque celui qui nous réunit de nouveau relève également de l’épistémologie et que l’autre est à visée métalexicographique. Les textes de ces derniers corpus ont en partage avec une large partie des précédents d’être annotés en XML. Leurs balisages contrastent avec ceux mis en œuvre jusqu’ici par le nombre d’objets balisés et la précision des annotations introduites à leur sujet en prévision des explorations ciblées à venir. Ils prolongent ainsi en quelque sorte l’objectif qui sous-tendait déjà la structuration du corpus de multiplex de football (Rcorp1), mais en amplifiant le procédé. Ces travaux n’impliquent, du moins pour l’heure, que des collaborations connexes à la formation de lexicographes : avec une étudiante en lexicographie 19 pour un corpus de textes de lectures scolaires (Rcorp13 (cf. T10)) qui doit documenter des études métalexicographiques (cf. § 2.3.6.), et avec Pierre Corbin pour un corpus des écrits de Danielle Corbin (Rcorp8) duquel doit dériver une édition critique de l’œuvre de cette morphologue. 18 19 Il s’agit de Hans Paulussen, chercheur belge spécialisé en développement de corpus (cf. n. 26). Il s’agit de Stavroula Markezi, étudiante de la promotion 2008-2009, qui a effectué son stage de fin de formation à l’UMR STL sous ma direction et qui a travaillé sur ce projet dans ce cadre. Document de synthèse – 1.1. Définir des manières d’envisager les traitements de corpus 17 Les §§ 1.2 à 1.6. reviennent sur les travaux réalisés en abordant la plupart d’entre eux sous l’angle des textes rédigés à leur sujet. Ces points de vue particuliers ont parfois nécessité de compléter la présentation d’un corpus ou de ses modalités d’exploration afin de ne pas revenir seulement sur les publications ou textes en préparation mais de bien prendre en compte globalement le travail de recherche qui a trait aux traitements des ressources développées. Dans une minorité de cas cependant le travail présenté ne s’appuie pas sur un texte rédigé, mais les corpus concernés sont constitués dans le cadre de projets de recherche qui méritent d’être évoqués et auxquels sont donc consacrés des développements spécifiques. 20 20 Les constitutions de corpus entreprises dans le cadre des projets P3 et P4 ou envisagées dans P5 sont évoquées respectivement aux §§ 1.3.4. et 1.5.2. pour P3, au § 1.5.4. pour P4 et au § 1.5.3. pour P5. 1.2. Définir un objet de recherche qui motive de recourir à des corpus Mes premières interactions, au tournant des années 2000, avec des collègues et doctorants lillois et dans le cadre d’un séminaire de sémantique indexicale fondé par Pierre Cadiot auquel j’ai participé pendant quatre ans 21 mobilisaient régulièrement des “corpus électroniques” dont la nature comme les modes d’exploration dépendaient des besoins et des compétences de mes partenaires de recherche du moment : – les archives de presse électroniques étaient souvent mobilisées ainsi qu’on peut l’observer dans T1, élaboré dans ce contexte et publié en 2001 (cf. § 1.2.1.), mais la base Frantext occupait également une place de choix dans ces travaux (cf. Tdr2, largement basé sur ces expériences) ; – les explorations des données extraites se faisaient souvent en utilisant la fonction recherche des logiciels de traitement de texte ou, mieux, le concordancier Unitex ; – les finalités de ces explorations touchaient différents domaines de la linguistique (morphologie, syntaxe et sémantique en particulier). Ce n’est qu’à partir de T2, paru en 2002, que s’est affirmé mon intérêt pour des corpus destinés à la documentation des usages lexicaux pour la lexicographie, ce qui m’a amenée à réfléchir sur les conditions spécifiques de leur élaboration et de leur exploration dans le contexte français. 1.2.1. Explorer un corpus de presse pour observer des unités lexicales liées morphosémantiquement [T1 (2001)] Le premier article rédigé après mon recrutement comme maître de conférences est également le premier à être commenté ici. Il ne porte pas centralement sur des questions de constitution ou d’exploration de corpus, mais l’étude linguistique développée mobilise des données discursives attestées, ce qui correspond à une manière classique mais que j’ai peu employée d’intégrer des exploitations de corpus dans des travaux métalinguistiques. T1 est inclus dans le volume des actes du colloque sur le Lexique génératif qui s’est déroulé à Genève en 2001 (cf. C1). Il présente, concernant deux unités lexicales liées morphosémantiquement – le verbe balayer et le nom balayage –, une étude sémantique 21 Le séminaire « Indexicalité du sens et formes sémantiques » s’est déroulé à Montrouge et à Aubeterre-surDronne, et j’y ai participé de 1999 à 2002. Il réunissait une quinzaine de chercheurs autour de Pierre Cadiot, François Nemo, Bernard Victorri et Yves-Marie Visetti. 20 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia dont les développements sont étroitement articulés aux recherches que Pierre Cadiot et François Nemo 22, coauteurs de ce texte, ont élaborées dans le cadre de la sémantique indexicale et dont les formalisations sont inspirées du Lexique génératif, comme l’étaient celles des descriptions lexicales de ma thèse de 1998. Après une tentative de rapprochement théorique des deux cadres que nous cherchions à concilier, qui fait l’objet du § 1., débute au § 2. une analyse d’énoncés extraits des archives des années 1997-1998 du journal Le Monde et 1998-2000 du journal Libération contenant le verbe balayer (446 occurrences) ou le nom balayage (36 occurrences). Rien n’y est dit concernant les méthodes d’exploration, qui ont mobilisé un outil que j’utilisais déjà régulièrement – Unitex – et dont il ne m’a pas paru utile d’expliciter l’emploi (ses fonctionnalités seront exposées au § 1.3.2.). En effet, cet outil permettant de générer des concordances à partir des lemmes des mots cherchés, il m’a simplement fallu demander les contextes du verbe et ceux du nom, puis sélectionner dans les lignes des concordances ce qui correspondait à un segment d’énoncé interprétable et donc à un contexte d’analyse suffisant à retenir pour notre étude. La diffusion des concordanciers m’a semblé suffisante chez les linguistes réunis au colloque où ce texte a été présenté pour qu’il ne soit pas nécessaire d’entrer dans le détail des manipulations. Le § 3. se base sur les emplois observés et décrits précédemment pour proposer des structures de traits pour chaque item analysé et discuter des difficultés induites par certains emplois abstraits comme balayer d’un revers de main ou du regard. Les concernant, nous avions du mal à définir des typages acceptables à déclarer dans les structures argumentales : un revers de main et le regard peuvent être analysés comme étant ce avec quoi est fait le balayage, mais pas comme des objets manufacturés contrairement aux autres “outils” utilisés pour balayer. Sur la base des observations précédentes, nous avons conclu que les unités lexicales morphosémantiquement liées étudiées présentent des caractéristiques communes, mais que chacune a des spécificités qui s’actualisent de manière différente en contexte, ce qui à la fois fait écho, dans une certaine mesure, à des options défendues par James Pustejovsky sur la compositionnalité du sens tout en prenant en compte les variations sémantiques en contextes d’emploi qui sous-tendent le cadre de la sémantique indexicale. Place de T1 dans mes recherches J’ai pris trop de distances aujourd’hui avec la sémantique indexicale pour être capable d’évaluer la qualité des analyses produites dans notre article par rapport à celles que ses coauteurs ont pu élaborer dans d’autres contextes, mais, en relisant cette contribution, il me semble que nous y avons adopté des positions mesurées, peu susceptibles de susciter de francs désaccords, mais néanmoins de nature à contribuer à la description lexicographique des items étudiés. Dès la rédaction de T1, j’ai craint que nous ne nous soyons pas suffisamment donné les moyens de confronter les principes d’analyse de la sémantique indexicale et du Lexique génératif. Au cours d’échanges préalables à cette rédaction avec des partici22 En particulier Cadiot & Nemo (1997a, 1997b et 1997c). Document de synthèse – 1.2. Définir un objet de recherche 21 pants au séminaire animé par Pierre Cadiot, j’avais cru percevoir la possibilité de rapprochements entre les observations de comportements d’unités lexicales en contextes formulées dans les travaux des deux cadres et j’avais invité mes collègues à y réfléchir. Mais tenter de transposer dans un autre cadre des résultats produits en sémantique indexicale n’était peut-être pas la meilleure démarche pour évaluer s’il y a effectivement des convergences dans les manières de décrire les emplois observés, et le projet lui-même était probablement en partie illusoire, dans la mesure où j’étais la seule à m’être intéressée aux travaux de James Pustejovsky et où moi-même je ne travaillais pas exactement dans son cadre, puisque j’en avais dérivé des principes de description adaptés aux recherches réalisées pour mon doctorat sur la construction du sens des N1 à N2 désignant des instruments. Je crois par contre que ce travail était intéressant pour la sémantique indexicale, pour laquelle nous expérimentions un mode d’expression plus formel des produits de ses analyses, et à laquelle nous donnions une visibilité dans le champ des études lexicales. Sur ce dernier point, il me semble que ce cadre sémantique était tout à fait susceptible de trouver sa place à côté de travaux comme ceux sur les prototypes développés par Hanks (1994) en articulation explicite avec des descriptions lexicographiques, et j’espérais susciter des recherches dans cette direction afin de donner plus de sens à la poursuite de mon implication dans les activités de ce séminaire de sémantique, à une époque où la formation de lexicographes me mobilisait de plus en plus. Seule publication que j’aie cosignée avec Pierre Cadiot, avec qui j’avais fructueusement dialogué à la fin de ma thèse, et avec François Nemo, qui travaillait beaucoup avec lui durant la même période, T1 est le premier témoignage concret d’une préoccupation toujours actuelle dans mes recherches, qui est de donner aux descriptions proposées par des linguistes une réalisation discursive compatible avec celles en usage dans les dictionnaires (ou aisément transcodable) et, simultanément, une codification formelle susceptible d’être exploitable par des applications informatiques à composante lexicale (outils d’aide à la rédaction, de recherche d’information, etc.) 23. De ce point de vue, l’analyse de balayer et balayage me semble être probante : les items choisis sont d’une complexité raisonnable, les emplois observés relèvent de la langue la plus courante mais aussi de domaines techniques relativement spécialisés, les contextes étudiés sont extraits de compilations d’articles de presse qui ont toute légitimité à être exploitées compte tenu des spécificités d’emploi qu’il était pertinent de prendre en compte, et les éléments d’analyse fournis textuellement ou sous forme codifiée seraient exploitables pour élaborer des descriptions dictionnairiques de ces items, ce qui valide l’exploitation de corpus comme ressources documentaires pour la lexicographie. C’est peut-être du côté de l’explicitation des perspectives et des choix opérés que T1 risque de manquer de fermeté, ce qui peut être un effet de la dynamique de coécriture ou, plus vraisemblablement, lié au fait qu’il ait été destiné à un colloque consacré au Lexique génératif et non à des travaux lexicographiques ou linguistiques émanant de cadres théoriques variés. 23 T17 § 3.2. explicite cette articulation entre lexicographie destinée à des lecteurs et descriptions dédiées à des applications informatiques, mais d’autres analyses d’usages lexicaux en corpus ont donné lieu à des descriptions textuelles et formalisées, en particulier celles élaborées à partir des commentaires radiodiffusés de matchs de football, cf. T4 et T5 (§§ 1.3.2. et 1.3.3.). 22 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Un projet de recherche peut en appeler un autre (lexicographique celui-ci) Après la rédaction de T1, ma participation au séminaire de sémantique indexicale s’est faite plus irrégulière, avant de s’interrompre en 2002. Indirectement, ces quelques années de compagnonnage intellectuel furent à l’origine d’inflexions ultérieures de mes activités de recherche. François Nemo m’avait en effet proposé dès 2000 de venir assurer des charges de cours à Orléans et ces déplacements me mirent en contact avec deux anthropologues, Françoise et Pierre Grenand, qui, à l’Institut de Recherche pour le Développement (IRD) d’Orléans, en Guyane française et au Brésil, étudient les évolutions linguistiques et relatives aux savoirs traditionnels (en particulier botaniques et médicaux) observables au sein de petits groupes d’amérindiens en phase d’acculturation. Ils collaboraient déjà avec François Nemo et Pierre Cadiot pour des études linguistiques impliquant trois langues de Guyane (le wayana, le wayampi et le palikur), mais Françoise Grenand et François Nemo avaient l’ambition d’adjoindre aux recherches déjà engagées le développement, dans le cadre du projet Matoutou (P1), d’un dictionnaire multilingue, auquel ils m’ont invitée à collaborer pour l’élaboration de son cahier des charges et d’un environnement de saisie structuré, qui ont donné lieu à des séances de travail suivies à Orléans et à Paris, avant de susciter, en 2001, deux stages d’étudiantes de la formation lilloise (Marianne Ebersberg et Caroline Moulart) et un séjour à Cayenne avec les stagiaires et François Nemo. La conception de la structure de ce dictionnaire (Rdic1, cf. également § 2.7.3.) s’est fondée sur des descriptions antérieurement réalisées par Françoise Grenand et qui mêlaient, pour chaque unité lexicale du wayana (la première des langues traitées), des indications linguistiques et des connaissances sur les référents des objets nommés rédigées en français et des équivalences traductionnelles en français et éventuellement dans les autres langues étudiées. Le travail sur ces premières données a permis de régulariser les principes de traitement de chaque unité et de densifier le programme d’information retenu. À la suite de ces réflexions, le développement de la structure de rédaction a pris deux voies concurrentes : la création d’une base de données SQL 24 et de règles de balisage en XML. J’ai évalué ces deux options techniques avec les étudiantes qui devaient effectuer leur stage en Guyane 25, puis nous sommes partis à Cayenne – où nous avons rencontré certains des informateurs avec lesquels les collègues anthropologues et linguistes travaillaient – pour développer la base SQL, que nos partenaires ont finalement préférée à la solution XML parce qu’elle leur a paru de nature à moins contraindre les rédacteurs dans leurs saisies. Ce projet, qui présentait la particularité de fédérer des collaborations de personnes ayant des langues, des centres d’intérêt et des compétences informatiques et métalinguistiques très diverses, a été très stimulant dans la mesure où il a impliqué de résoudre des problèmes liés à la définition du projet dictionnairique, à la coprésence des différentes langues traitées et à l’environnement de développement retenu. 24 25 Cf. n. 9. Celle-ci a été développée sous 4D afin qu’elle soit utilisable sur des ordinateurs Mac et qu’elle soit plus conviviale qu’une base MySQL associée à des formulaires PHP. 4D est un système de gestion de bases de données comparable à Microsoft Access, mais il ne dispose pas d’une interface graphique pour effectuer toutes les actions et implique donc d’en programmer certaines dans un langage qui lui est propre. Ceci a été réalisé dans le cadre des mémoires de DESS rédigés par chacune sous ma direction : cf. Mdir4 (Ebersberg (2001)) et Mdir6 (Moulart (2001)). La base SQL était alors développée sous Access. Document de synthèse – 1.2. Définir un objet de recherche 23 Ma collaboration à ce projet s’est interrompue comme prévu après le développement de la base, qui a constitué une parenthèse lexicographique originale dans mes recherches personnelles, dont en particulier celles portant sur les traitements de corpus, qui sont les seules à avoir donné lieu à publication à cette époque de ma carrière. 1.2.2. Problématiser le recours aux corpus en lexicographie [T2 (2002) ; Tdr1] Mon premier article publié à être strictement focalisé sur l’exploration de corpus (T2) est paru dans les préactes du dixième congrès de l’association européenne de lexicographie, EURALEX, où j’ai prononcé C6 en août 2002. S’il s’agit de ma première publication importante dans ce domaine, T2 n’est pas la seule contribution préparée durant ma troisième année lilloise, qui m’a également vue, entre septembre 2001 et février 2002, prononcer cinq communications (C1, C2, C3, C4 et C5) et rédiger une contribution écrite non publiée (Tdr1). Ces cinq prestations orales et Tdr1 partagent avec C6 et T2 le centrage sur les corpus et leur exploration pour l’étude d’emplois attestés d’unités linguistiques dans un cadre lexicographique. Elles se distinguent par contre par leurs publics : – C3 et C6 ont été prononcées devant des professionnels directement impliqués dans des gestions de ressources lexicales : C3 à l’occasion d’un symposium de linguistique organisé à l’université Dalhousie d’Halifax (Canada) pour des traducteurs peu connaisseurs en matière de corpus et C6 devant les lexicographes et métalexicographes réunis au congrès EURALEX de Copenhague ; – C1, C2, C4 et C5 ont été présentées à des chercheurs mobilisés par des manipulations de corpus : C1, C2 et C5 à des linguistes, dans le cadre de rassemblements consacrés aux corpus (les premières journées de linguistique de corpus de Lorient (université de Bretagne-Sud) et une journée d’étude du département de français de l’université de Bristol (Grande-Bretagne)), et C4 durant un colloque de TAL (Computational Linguistics In the Netherlands (CLIN) organisé à l’université de Twente (Pays-Bas)). En fonction des publics et des contextes de chaque manifestation, j’ai décliné des thèmes communs et proposé des variations, afin de susciter l’intérêt ou des retours critiques en fonction des investissements et des compétences de chacun. Les commentaires formulés ci-après sur Tdr1 (qui correspond à C4) puis sur T2 (version publiée de C6) ne permettent cependant pas de comparer l’incidence des types d’auditeurs sur leur substance dans la mesure où la présentation de Tdr1, qui précède celle de T2 conformément à l’ordre chronologique de leur rédaction, est très succincte, en proportion de l’importance respective de ces textes dans mes recherches. Une première contribution qui peine à trouver son public : Tdr1 Tdr1 a été soumis pour publication dans le volume d’actes du colloque CLIN où j’ai présenté C4, mais ce recueil ne devait retenir qu’une petite sélection des productions des orateurs et mon texte n’y a pas été inclus. Ensuite, mobilisée par la préparation de ma contribution à EURALEX 2002, je n’ai pas pris le temps de le soumettre à des 24 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia revues anglophones. Tdr1 est resté non publié et n’a donc eu que peu de lecteurs, ce qui était certainement prévisible et qui a été principalement induit par mon manque d’expérience d’alors. Pour ma première participation à un colloque de cette importance, j’avais préparé une contribution articulée en cinq parties qui développait des propositions fondées sur les besoins spéculés des lexicographes français et appuyées sur des travaux de linguistique qui ne connaissaient peut-être pas la diffusion que je leur prêtais auprès du public qui m’écoutait. L’accueil fait à mon exposé a conséquemment été réservé. Mais outre les défauts de jeunesse de ma contribution, il me paraît normal qu’elle n’ait pas joui d’une audience proportionnée à mon investissement et que Tdr1 n’ait pas été publié dans les actes. Cette tentative était en fait vouée à l’échec en raison des motifs mêmes qui l’avaient suscitée. Sur les conseils de Philip Miller, alors directeur de l’UMR SILEX, qui s’inquiétait que je n’aie pas encore publié en TAL alors que j’allais animer la maîtrise “Industries de la langue” (ouverte en 2001-2002), j’ai envoyé une soumission pour le colloque CLIN. Elle a été sélectionnée et j’ai participé à cette manifestation, mais, à écouter les autres contributions, j’ai très vite réalisé que C4 était trop peu technique par rapport à elles et trop centré sur des questions qui ne mobilisent que ceux qui travaillent sur le français. Je ne soumettais pas à la conférence TALN alors que j’étais à cette époque secrétaire de l’ATALA au motif que je pensais que mes travaux n’étaient pas assez talistes pour y avoir leur place. Je n’aurais pas dû croire qu’il en irait autrement pour CLIN. Cette mauvaise orientation a néanmoins été profitable à double titre : elle a stimulé mon souhait d’acquérir un meilleur bagage informatique afin de mieux outiller les traitements linguistiques que je défendais et, surtout, elle a contribué à me faire situer mon mode d’approche des corpus (et aussi de la métalexicographie) en deçà des modalités de traitement les plus informatisées. Du point de vue de son contenu, Tdr1 reprend des notions relativement basiques en traitement de corpus et leur adjoint des propositions plus innovantes. Les deux premiers paragraphes situent le contexte de réflexion, le § 1. se focalisant sur les besoins des lexicographes et le § 2. évoquant une sélection de ressources en langue française, qu’il s’agisse de compilations de textes ou d’une base textuelle notoire et assez largement accessible (Frantext), et, plus originalement, un corpus trilingue constitué par Hans Paulussen 26 dans le cadre de son doctorat (1999) 27. Pour les corpus 26 27 J’ai connu Hans Paulussen par l’intermédiaire d’un intervenant professionnel de la formation de lexicographes, Thierry Fontenelle, qui y assurait une initiation à des manipulations de corpus programmées principalement en AWK et qui, devant interrompre sa collaboration du fait de son recrutement chez Microsoft à Redmond, m’a suggéré de proposer à ce linguiste-informaticien de lui succéder, ce qui fut fait et qui permet à ce dernier de nous faire profiter de son expérience depuis 2002. Les corpus qu’il traite avec les étudiants lillois ont évolué, puisque, après avoir été constitués de textes bruts, ils sont désormais structurés en XML et que, si quelques scripts AWK sont encore utilisés, leurs manipulations se font maintenant principalement en Perl, ce qui reflète les évolutions des procédures de traitement de corpus que ce chercheur met en œuvre dans le laboratoire ALT Research on CALL dans lequel il travaille au campus de Courtrai de la K.U.Leuven. Les interventions lilloises de Hans Paulussen ont été à l’origine d’un travail commun présenté dans T10, qui a aussi fait l’objet de la communication C12 et de l’exposé E8 (§ 1.4.2.). Ce corpus, le Namur trilingual aligned corpus, n’est pas librement accessible, mais Hans Paulussen m’en a fourni quelques extractions. Document de synthèse – 1.2. Définir un objet de recherche 25 qui ne sont pas livrés avec une interface de consultation, le § 3. évoque différents prétraitements basiques (la lemmatisation, l’étiquetage morphosyntaxique des mots et leur indexation) et envisage des analyses syntaxico-sémantiques aussi automatisées que possible. Les deux derniers paragraphes engagent les traitements vers l’exploitation de ressources susceptibles d’introduire une composante plus sémantique : le § 4. présente un exemple d’intégration des relations synonymiques répertoriées dans le dictionnaire des synonymes du CRISCO 28 et le § 5. introduit un court développement relatif à l’utilisation des “classes d’objets” 29. Ces deux derniers points étaient très spéculatifs et l’espace consacré à leur exposé était trop contraint pour que je parvienne à expliciter comment je concevais ces entreprises. Leur reprise dans T2, si elle témoigne de la persistance du projet, n’a pas permis d’augmenter sensiblement la richesse des explications, mais le commentaire que j’en fais en présentant le second texte dans ce mémoire apporte quelques éclairages. Première participation au congrès EURALEX : T2 T2, qui a été préparé pour des lexicographes et métalexicographes, développe en quatre paragraphes une synthèse sur l’utilisation des corpus en lexicographie dans le contexte éditorial français telle que je la pensais utile pour certains de nos partenaires, en essayant de ne pas tenir un discours trop technique et de repérer ce qui pourrait être véritablement intéressant dans un cadre professionnel. Observant un usage peu répandu des corpus électroniques dans l’édition lexicographique commerciale française, le § 1. envisage cinq facteurs – linguistiques, documentaires, techniques, éditoriaux et économiques – considérés comme susceptibles de contribuer à cette situation. 30 Suivent, aux §§ 2. et 3., des développements sur ce dont les lexicographes pourraient souhaiter disposer en matière de ressources textuelles et de modes d’exploitation de celles-ci. Pour ce qui concerne les ressources, le § 2., dans l’esprit de l’époque, souligne l’absence de corpus électroniques “de référence” intégrant des documents provenant de sources variées et équilibrant ce qui, dans la langue “commune” entendue extensivement, ressortit à des usages non spécialisés et ce qui immigre depuis des langues de spécialités via des discours vulgarisateurs 31. Cette carence est décrite comme vouant les lexicographes à la consultation de sources éventuellement riches mais aléatoires, dépareillées et déséquilibrées, et elle est appréhendée comme susceptible de pénaliser davantage la description du lexique le moins spécialisé dans la mesure où celle du plus spécialisé peut prendre appui sur des sous-corpus dont l’élaboration est moins coûteuse que celle de corpus “de référence”. Dans la communication C5, prononcée en 2002 à Bristol sur une thématique comparable et qui a été présentée supra, le contraste de 28 29 30 31 Cf. Ploux & Victorri (1998). Cette ressource est consultable sur le site du CRISCO (http://www.crisco. unicaen.fr/cgi-bin/cherches.cgi) et sur celui du CNRTL (http://www.cnrtl.fr/synonymie/). Telles qu’elles sont envisagées dans G. Gross (1994) et Le Pesant (1994). Revenant, sept ans plus tard, sur cette question, j’ai constaté une certaine stabilité de la situation, source de questionnements en partie renouvelés en fonction de l’évolution du contexte (cf. T17 § 1.1.). Le propos se concentre sur les souhaits ou besoins des lexicographes des maisons d’édition privées et ne prend donc pas en compte les ressources exploitées pour la rédaction du Trésor de la langue française, dont la nature et l’usage qui en a été fait ont donné lieu à une assez abondante littérature qui ne sera pas détaillée ici. 26 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia contextes du mot bus extraits respectivement du quotidien généraliste Le Monde et du périodique spécialisé 01 Informatique (cf. figures 1 et 2), qui n’a pas pu être intégré dans T2, montre avec une netteté particulière dans quelle mesure le choix d’une source textuelle détermine les observations, ce qui illustre tout à la fois l’intérêt de la coprésence des deux types de ressources dans un corpus “de référence” et la capacité de la seconde à documenter spécifiquement un lexique spécialisé. Figure 1. Occurrences du nom bus dans le CD-ROM Le Monde 1997-1998 TRANSPORTS : La grève des le patron de la compagnie des , ont repris la route, en camions et en les chauffeurs. Lundi, un seul des 108 quotidien. A travers la vitre teintée d’un si on vient de décider l’achat de vingt quartier de la Reynerie, la carcasse d’un proposition et confirmait la commande de de ses amis, stationne dans le couloir de peu de conséquences sur le trafic des depuis trois quarts d’heure et qui voit le multiples. Les conducteurs de agressions subies par les chauffeurs de qu’on peut craindre d’un tel sujet. " Je bus bus bus bus bus bus bus bus bus bus bus bus bus bus a été reconduite pour la journée du mercredi 30 de Nancy. " C’est une rencontre, pas encore la , pour rentrer chez eux, le calme étant revenu dans de la compagnie a circulé. Les grévistes ont fait , on voit, " dans le gris ouaté aux effilochures floc au gaz de ville. La tradition des voitures en flammes for me une barricade. Vers 19 heures, diesel. Et il faudra bien attendre 1999 pour voir 11 . L’un d’eux part acheter des cigarettes dans un . La direction prévoit de faire circuler deux métros filer sous son nez, n’ait pas du ressentiment contre n’ont rien fait. Sinon leur travail, conduire leur en ont décidé autrement. Le duel impromptu entre à en mourir ", cinq mots simples et une ambiance Figure 2. Occurrences du nom bus dans 01 Informatique (http://www.01net.com) Intel prépare la succession du PC et serveurs seront équipés du nouveau la norme Infiniband vise à remplacer les Intel va doper le Celeron avec un pourrait atteindre 800 MHz. Parallèlement, le Celeron 800: Intel généralise le pour les PC de bureau d’entrée de gamme. Le Carte graphique Voodoo5 5500 disponible sur attentes des utilisateurs qui ne disposent pas de Association d’un EC est évolutif en biprocesseur. Il exploite un en comparant leur fréquence et la vitesse de Le modèle M20 bénéficie d’un La carte DGE-500SXPCI fonctionne en Ce serveur exploite deux PIII à 866 MHz sur AGP 8X: Intel double la vitesse de son prévoit de porter à 2 Go le taux de transfert du Mémoire DDR contre mémoire Ram DR. De son côté, Intel défend toujours la Ram La technologie de exploite deux Pentium III à 800 MHz sur bus bus bus bus bus bus bus bus bus bus bus bus bus bus bus bus bus bus bus bus bus PCI de données Arapahoe. Développé par Intel, PCI par une technologie à base de à 100 MHz de données du processeur devrait passer de système à 100 MHz système passe de 66 à 100 MHz. PCI AGP dans leur micro et qui souhaitent tout à 133 MHz et d’un contrôleur Ultra 160 sur système basé sur un jeu de composants . système à 133 MHz et d’un contrôleur Ultra Master (32 ou 64 bits), c’est-à-dire sans système à 133 MHz, deux disques durs Graphique graphique AGP. : la bataille commence . entrée-sortie à haut débit, Infiniband, servir système 133 MHz. Son rapport Document de synthèse – 1.2. Définir un objet de recherche 27 S’agissant des interfaces de consultation de corpus, le § 3., nourri d’échanges avec des partenaires professionnels de la formation, passe en revue un ensemble de fonctionnalités de recherche (paramétrage des documents explorés et des contextes extraits, utilisation de caractères génériques, calculs de fréquence absolus ou en cooccurrence) et de prétraitements des ressources (lemmatisation et étiquetage) qui en facilitent l’exploration et tendent à en optimiser le rendement (notamment, pour ces derniers, en permettant d’opérer sur des objets linguistiques identifiés et non plus seulement sur des chaînes de caractères), et qui, quoique communs en linguistique de corpus, n’avaient guère jusqu’alors pénétré le monde de la lexicographie privée française. T2 s’achève, au § 4., sur un développement consacré à des fonctionnalités plus poussées mais aussi plus difficiles à mettre en œuvre, qui me paraissaient, dans leur principe, être de nature à améliorer encore les performances des explorations de corpus électroniques : – des analyses syntaxiques (§ 4.1.) présentées comme assez largement automatisables, du type de celles envisagées en 2001 dans C3 concernant les contextes du nom correspondance, qui avaient pour objet de distinguer parmi eux ceux qui relèvent de chaque acception (cf. figure 3) : Figure 3. Analyse des phrases & extraction de constructions incluant le nom correspondance (contextes extraits de la revue Air France de septembre 2001 et du CD-ROM Le Monde 1997-1998) Dans la colonne de gauche, les occurrences du nom correspondance sont en gras et soulignées, les verbes qui régissent ces noms en gras, les noms qui les régissent en italiques et leurs modifieurs ou compléments en petites capitales. Dans la colonne de droite, N = correspondance, N ’ = autre nom, NΔ = N associé à un modifieur, et les éléments régis par les verbes ou les noms sont mentionnés entre parenthèses et encadrés par des crochets associés à leur droite (en indice) à la mention COD pour les constructions directes ou à celle de la préposition introductrice (avec, de, en, par, sur). PHRASES ANALYSÉES Mais il faut distinguer les correspondances COURTES des correspondances LONGUES. S’appuyant sur la correspondance AVEC INÈS ARMAND, sa maîtresse, […]. Pour les correspondances LONGUES, le passager et son bagage dispose de plus de 1h15 entre les deux avions. La croissance du trafic et l’augmentation des correspondances ont été déterminante pour la construction […]. […], les bagages en correspondance COURTE se trouvent dans un conteneur. Les clients en correspondance espèrent un suivi ponctuel de leurs effets personnels. […] dès qu’il s’agit de passagers en correspondance. Certains appartiennent à des groupes de presse […] et à des sociétés de vente par correspondance, […]. Les passagers devant emprunter une correspondance […]. Calligraphie chinoise, typographie, correspondance ÉLECTRONIQUE, mais aussi Oulipo et lettres anonymes. CONSTRUCTIONS OBSERVÉES distinguer ([NΔ]COD [NΔ]de) N (courte + longue) s’appuyer ([N]sur) N ([N’]avec) N longue augmentation ([N]de) bagage ([N]en) N courte client ([N]en) passager ([N]en) vente ([N]par) emprunter ([N]COD) N électronique 28 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – des analyses sémantiques (§ 4.2.), pour lesquelles est simplement évoquée, sans plus de détails, la possibilité de prendre appui sur deux sortes de sources d’inspiration qui m’étaient relativement familières : • des travaux linguistiques émanant de différents cadres théoriques : “classes d’objets” (auxquelles j’avais repris les prédicats de la classe des <moyens de transport terrestre – à moteur – en commun> de G. Gross (1994) pour l’étude du nom bus), sémantique du prototype et sémantique indexicale ; • et les cliques développées à partir d’une compilation de dictionnaires de synonymes (le dictionnaire du CRISCO, cf. Ploux & Victorri (1998) et n. 28), dont j’avais testé les apports lors d’explorations de corpus conduites non pas à partir de mots mais de notions verbalisables au moyen de différents synonymes, ce qu’illustrent l’exemple ci-après (figure 4, également présentée dans le cadre de C3) et celui qui est proposé pour l’item bus en Figure 4 de Tdr1. Figure 4. Regroupement des constructions et des phrases incluant le nom correspondance (extraites de la revue Air France de septembre 2001 et du CD-ROM Le Monde 1997-1998) en fonction d’informations synonymiques fournies par les cliques du dictionnaire du CRISCO Les codes employés sont les mêmes que ceux de la figure précédente, mais des typages sémantiques ont été ajoutés dans certaines constructions (NHUMAIN, NLIEU). Les constructions présentées dans la colonne centrale tout à la fois ne couvrent pas toute la diversité observée dans la figure précédente (puisque seules celles qui sont typiques des emplois appariables aux cliques sont listées) et ne se limitent pas à celles observables dans les exemples figurant dans la colonne de droite. CLIQUES Clique 18 : billet, correspondance, dépêche, lettre, message et Clique 34 : correspondance, courrier, dépêche, lettre Clique 19 : changement, correspondance CONSTRUCTIONS • (avoir + échanger + entretenir) ([N]COD, [N’HUMAIN]avec) • N ([N’HUMAIN]avec) • N électronique • (vente + cours) ([N]par) EXEMPLES DE CONTEXTES SOURCES ANALYSÉS S’appuyant sur la correspondance AVEC INÈS ARMAND, sa maîtresse, […]. Certains appartiennent à des groupes de presse […] et à des sociétés de vente par correspondance, […]. Calligraphie chinoise, typographie, correspondance ÉLECTRONIQUE, mais aussi Oulipo et lettres anonymes. Mais il faut distinguer les correspondances COURTES des correspondances LONGUES. passagers) ([N]en) […], les bagages en correspondance COURTE se trou• N ([N’LIEU]pour) vent dans un conteneur. • assurer ([N]COD, entre Les clients en correspondance espèrent un suivi ponc([N’LIEU1], [N’LIEU2])) tuel de leurs effets personnels. […] dès qu’il s’agit de passagers en correspondance. Clique 40 : • (emprunter + prendre Les passagers devant emprunter une correspondance. correspondance, + rater) ([N]COD) moyen de transport • N (courte + longue) • (bagages + clients + – et, concernant la lexicographie bilingue, l’utilisation des analyses syntaxiques et sémantiques évoquées pour l’alignement de corpus multilingues (§ 4.3., cf. aussi l’illustration qui est proposée en Figure 3 de Tdr1), en écho à des besoins exprimés Document de synthèse – 1.2. Définir un objet de recherche 29 par la lexicographe britannique Valerie Grundy lors de ses interventions en formation professionnelle 32 et dans son article de 1996. Retour sur les positions défendues dans T2 T2 est un texte court et dense, ce qui est induit à la fois par le format de publication d’EURALEX et par la couverture relativement large de mon propos, qui donne à l’ensemble un caractère programmatique susceptible de rencontrer deux écueils : être à la fois trop abstrait pour les lexicographes français destinataires potentiels et pas assez technique sur le terrain de l’informatique linguistique 33. Sans vouloir à toute force soutenir aujourd’hui toutes les propositions de T2, qui reflètent leur époque et dont certaines me paraissent moins pertinentes qu’alors (par exemple s’agissant du recours à tel ou tel cadre théorique pour documenter l’analyse linguistique de corpus), je vois dans le positionnement adopté le reflet précis de ce qu’était ma situation de jeune formatrice de lexicographes de diverses nationalités particulièrement attentive aux pratiques et aux besoins de ceux des maisons d’édition françaises. S’il était perceptible, au colloque EURALEX de Copenhague où fut prononcée la communication C6 dont T2 est le corrélat publié, que les chercheurs et lexicographes britanniques semblaient particulièrement avancés en matière d’outillage informatique de la lexicographie 34, je savais aussi, notamment par les Journées d’étude de lexicographie bilingue de l’INALCO organisées entre 1998 et 2003 35 et très ouvertes aux langues à diffusion réduite, quelles pouvaient être la diversité des conditions pratiques d’élaboration de dictionnaires selon les idiomes et l’inégalité de l’accès aux technologies de pointe. De là résulte la tonalité plus vulgarisatrice que concrète de T2, qui peut paraître un peu en porte-à-faux à certains égards et n’est pas exempt d’une part de volontarisme 36. Dans les limites qui sont les siennes, T2 est la première manifestation écrite de mon souci d’ancrer mes réflexions sur l’outillage de la lexicographie du domaine français dans les besoins pratiques des rédacteurs ou des utilisateurs, qui s’est exprimée à la même époque dans l’ensemble des communications apparentées à cet article déjà évoquées et qui, à une tout autre échelle, a trouvé son développement le plus récent en 2009 dans T17. Aujourd’hui comme hier, deux facteurs qui sont mentionnés au § 1. 32 33 34 35 36 Coresponsable éditoriale du premier dictionnaire bilingue anglais / français exploitant des corpus électroniques, le Dictionnaire Hachette-Oxford français-anglais / anglais-français publié en 1994, elle a assuré une partie des enseignements de lexicographie bilingue de la formation lilloise de lexicographes de 1993 à 2002. Ce type de compromis incertain est caractéristique d’écrits vulgarisant de nouvelles approches. À cet égard, T2 peut être rapproché, par exemple, de Willems (2000), qui, à la même époque et en aussi peu de pages, s’est livrée à un exercice comparable concernant la place à faire aux corpus dans la recherche linguistique. Ce dont témoigne toujours, à date récente, l’imposant manuel de lexicographie d’Atkins & Rundell (2008). Cf. aussi le chapitre fouillé que Béjoint (2010 : 348-380) consacre aux « Computers and corpora in lexicography ». Cf. Szende dir. (2000a, 2000b, 2003 et 2006). Pour ne prendre qu’un exemple, le point de vue développé au § 4.1. au sujet de l’automatisation d’analyses syntaxiques en corpus peut apparaître comme trop optimiste, à en juger notamment par les limites actuelles des analyseurs syntaxiques qui sont intégrés dans les outils de correction orthographique, auxquels, entre autres, l’interprétation du rôle syntaxique des compléments prépositionnels pose encore des problèmes. Par ailleurs, le rapport entre le coût des enrichissements de corpus préconisés au § 4.2. et les bénéfices escomptés des analyses qu’ils ont vocation à permettre mériterait d’être sérieusement évalué, dans la mesure où celles-ci, si elles peuvent contribuer efficacement à la recherche d’attestations de propriétés d’items lexicaux déjà connues, n’apportent en revanche pas d’aide significative à la découverte d’usages non encore décrits. 30 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia de T2 déterminent fortement les modalités de l’aide documentaire dont peuvent bénéficier les lexicographes de l’édition privée française : – d’une part un contexte socio-économique défavorable, dans lequel la logique gestionnaire des grands groupes éditoriaux depuis un quart de siècle 37 et l’effritement durable du marché des dictionnaires convergent pour réduire l’essentiel de l’activité lexicographique à l’entretien des titres installés et dissuader les éditeurs d’investir dans la constitution de ressources nouvelles et l’expérimentation technologique ; 38 – et d’autre part l’existence chez certains éditeurs de ressources documentaires traditionnelles dont la richesse est importante, qu’il s’agisse de prélèvements textuels stockés, qui sont toujours pratiqués et pour lesquels des bases de données remplacent les fiches, ou de répertoires déjà publiés dont l’informatisation permet de réutiliser commodément la matière pour alimenter différents segments des catalogues, ce qui crée des habitudes de travail susceptibles de susciter des réflexes conservateurs 39. Face à cette situation, les voies de renouvellement documentaire empruntées par les maisons d’édition de dictionnaires qui ne laissent pas aux rédacteurs la charge de collecter leurs données par eux-mêmes se discernent mieux maintenant que lors de la rédaction de T2 (en dépit de la discrétion des responsables éditoriaux sur ce sujet), priorité étant donnée à la disponibilité et au contrôle des dépenses par l’usage de compilations de presse et du Web, selon des modes d’exploration difficiles à connaître. Les éditeurs français ne sont donc pas en passe de se doter de corpus dûment échantillonnés et structurés ressemblant aux corpus “de référence” prônés dans T2, dont le concept avait été popularisé dans la décennie précédente 40 et dont le British National Corpus, constitué entre 1991 et 1994 41, apparaissait comme le fleuron. Les corpus “de référence”, qui ont contre eux le coût de leur maintenance, peuvent d’ailleurs apparaître aujourd’hui comme menacés, même en terre britannique, par des explorations outillées menées sur le Web 42 comme celles que permet le Sketch Engine développé par Adam Kilgarriff (cf. T17 § 1.1.), qui semblent jouir d’une faveur croissante dans la communauté concernée 43. 37 38 39 40 41 42 43 Cf. Rouet (2007, chap. 1). Absorbés au milieu des années 1980 dans le Groupe de la Cité puis partenaires au sein de Vivendi Universal Publishing jusqu’en 2003, Larousse et Le Robert appartiennent aujourd’hui respectivement à Hachette et au groupe espagnol Planeta. Cf. P. Corbin (1991, §§ 1.1. et 1.2.1. ; 1998, § 1.1.1. ; 2002, § 1.2.1. ; 2006, vol. 1 : 173, 176, 233, 236, 250 ; 2008b : 1230) et F. & P. Corbin (2008 : 49). Les maîtres d’œuvre les plus notoires des dictionnaires Robert se sont signalés à tour de rôle par leurs sorties contre l’utilisation à l’anglaise des corpus électroniques en lexicographie (cf. Rey-Debove (1991 : 155-156) et Rey (1995 : 105 et 2005 : XVII)). Cf. notamment Sinclair (1996), Habert, Nazarenko & Salem (1997 : 143-148), Habert, Fabre & Issac (1998 : 36-37), Blanche-Benveniste (2000 : 13-14). Cf. http://www.natcorp.ox.ac.uk/corpus/, consulté le 12 septembre 2010. Cf. Kilgarriff & Grefenstette (2003) et, en 2006, le workshop « Web as Corpus » organisé en marge du onzième congrès EACL (European Chapter of the Association for Computational Linguistics) par Adam Kilgarriff & Marco Baroni (cf. http://www.aclweb.org/anthology/W/W06/W06-1700.pdf ). De nouveaux développements réalisés autour du Sketch Engine, tels qu’ils ont été présentés en 2009 à Louvain-la-Neuve lors du colloque « eLexicography in the 21st century: New challenges, new applications » d’une part par Adam Kilgarriff, Kovár Vojtĕch, & Rychlý Pavel (cf. http://www.kilgarriff.co.uk/Publications/ 2009-KilgKovarRychly-Elex-TBL.doc) et d’autre part par Michael Rundell (cf. http://www.uclouvain.be/en271028.html), permettent à cet outil non seulement d’extraire des contextes où figure un item, mais aussi de manipuler automatiquement ce qui est extrait afin de sélectionner certaines occurrences, dont la pertinence Document de synthèse – 1.2. Définir un objet de recherche 31 Ceci étant, un outil de ce type, conçu dans le contexte éditorial de la production britannique de dictionnaires de langue anglaise pour allophones (les “learner’s dictionaries”), apparaît particulièrement adapté à l’identification des emplois les plus usuels des items les plus fréquents que ces répertoires ambitionnent de décrire en priorité. La perception des services rendus pourrait ne pas être la même dans un contexte éditorial différent, qui s’intéresserait aussi ou de façon privilégiée à des emplois soit rarement attestés, soit usuels seulement dans des productions langagières particulières à un titre ou à un autre et probablement peu représentées dans un large corpus issu du Web (qu’il soit aussi représentatif que possible de la variété des usages ou constitué sans leur prêter une attention spécifique). Recadrage des perspectives de recherche relatives aux traitements de corpus Ma découverte du Sketch Engine peu de temps après la rédaction de T2 m’a incitée à prendre du recul pour apprécier ce que cet outil permettrait véritablement de faire avant d’envisager de nouvelles recherches sur l’exploration de corpus généraux de grande envergure et à déplacer mes investigations sur d’autres terrains. C’est dans ces conditions qu’a été conçue la notion de corpus “à haut rendement” fédérables en corpus “plurithématiques” qui est défendue dans T3, T4 et T5 et qui va être revisitée au § 1.3. Comme précédemment, les travaux entrepris dans cette voie nouvelle devaient permettre de valoriser l’intérêt d’un recours bien conçu aux corpus auprès des lexicographes en activité 44 et de ceux qui se formaient à Lille, mais en ayant cette fois vocation à leur offrir des preuves tangibles de la pertinence et du rendement de ces ressources, pour certains travaux lexicographiques au moins. 44 est évaluée relativement à leur fréquence d’attestation (donc leur usualité), réunies en sous-ensembles constitués selon leurs proximités combinatoires (postulées syntaxiques et sémantiques). Le but de ce traitement est de pousser l’aide apportée aux lexicographes dans la rédaction des articles jusqu’à suggérer le plan de ceux-ci, que les rédacteurs n’auraient qu’à réviser à partir des propositions de regroupements générées par l’analyse des occurrences en corpus. Je souhaitais mettre en place sur cette problématique des relations de partenariat avec des maisons d’édition dictionnairique, ce qui se concrétisa en 2002, peu après EURALEX, par l’élaboration d’un projet de constitution de corpus thématique avec Larousse et Le Robert, qui ne put finalement pas aboutir du fait du démantèlement de Vivendi Universal Publishing et du retour consécutif des deux éditeurs à une situation de concurrence (cf. n. 37 et la conclusion du § 1.3.1.). 1.3. Préconiser le haut rendement par une sélection stricte des documents primaires : les commentaires de matchs de football Deux ans après mon recrutement à Lille, ma collaboration avec Pierre Corbin au sein du DESS “Lexicographie et Terminographie” se densifiant 45, nous voulions partager un terrain d’expérimentation de traitements de corpus consistant, susceptible de permettre de tester des hypothèses linguistiques et de donner lieu à des explorations informatisées formatrices. Convaincus de la nécessité de montrer aux étudiants qu’il n’existe pas un clivage entre d’une part la langue générale (dont le lexique est décrit en lexicographie) et d’autre part les langues de spécialité (dont les lexiques font l’objet d’études terminologiques), mais des interpénétrations se traduisant à la fois par des usages de termes spécialisés partagés par un grand nombre de locuteurs d’une langue et par des emplois spécialisés d’unités lexicales relevant de la langue la plus commune incluses dans des constructions qui peuvent être ou non remarquables, nous cherchions des espaces d’échanges langagiers 46 propices à la mise en évidence de ces transferts. Par exemple, les commentateurs de matchs de football disent couramment qu’un joueur donne pour un autre joueur (cf. n. 70), ce qui constitue une construction originale du verbe donner. Ces emplois ni généraux ni terminologiques semblaient susceptibles de n’être traités de manière systématique ni par la lexicographie, ni par la terminographie, ce que la confrontation (dans T3, cf. § 1.3.1.) de ce qui est observable en corpus et de ce qui est inventorié dans différents répertoires généraux et spécialisés devait confirmer. 45 46 À l’été 2001, après deux années de collaboration pédagogique, la nécessité d’obtenir une nouvelle habilitation pour le DESS (cf. n. 1) nous fit pousser plus avant notre réflexion commune sur les besoins de la formation et ce que pouvaient être nos perspectives de collaboration pédagogique et scientifique dans la durée. Il en résulta une forte dynamique interactive, constituant pour nos enseignements le ciment de leur cohérence tout en leur insufflant un état d’esprit qui contribue à leur originalité, et la création, pour l’un comme pour l’autre, de nouveaux espaces de recherche inconcevables sans cette collaboration, ce dont témoignent particulièrement certaines de nos publications métalexicographiques communes (T6, T9, T18 et T19) et celles que nous avons rédigées indépendamment l’un de l’autre mais à partir d’une ressource conçue et exploitée conjointement, le corpus footballistique de multiplex Rcorp1 (cf. T3, T4 et T5 et P. Corbin (2005 et 2008a)). Afin de sensibiliser les étudiants du DESS à la particularité des productions (écrites ou orales) d’une certaine technicité destinées à un large public, nous avions déjà engagé en 2000 des travaux de relevés lexicaux dans des journaux féminins, en concevant avec eux des bases de données SQL pour le stockage des données lexicales extraites accompagnées de commentaires relatifs à leur exploitabilité dans une perspective lexicographique, dont la structuration s’est ultérieurement révélée très proche de celle de la base néologique d’un éditeur partenaire. 34 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia C’est dans ce contexte que nous avons engagé une réflexion sur la constitution de corpus, à exploiter en formation professionnelle et pour nos recherches, qui seraient conçus pour l’étude d’emplois relevant d’activités spécifiques et d’une certaine technicité mais connaissant une diffusion massive, et dont les documents primaires qui les constitueraient, sélectionnés de manière précise, conjoindraient deux caractéristiques : – être de taille modeste, afin de garantir leur bonne tenue qualitative et la relative rapidité de constitution de chaque corpus ; – et être riches et cohérents d’un point de vue lexical, afin que les explorations fournissent des données consistantes réellement utiles pour l’élaboration de descriptions minutieuses des particularités linguistiques des emplois spécialisés. Le premier terrain d’expérimentation choisi a été celui des commentaires de matchs de football, écoutés ou lus 47 par un large ensemble d’amateurs fidèles ou plus occasionnels et probablement connus au moins de manière indirecte par un plus grand nombre de locuteurs 48. Caractérisation d’espaces discursifs dans lesquels se manifestent les interpénétrations à étudier L’étude des interpénétrations lexicales et des variations d’emplois en fonction des types d’énoncés dans lesquels elles s’observent m’intéressait par ailleurs dans une perspective de typage des discours qui pourrait être effectué, afin, d’une part, de définir des sélections des documents primaires de corpus en fonction de ce que chacun a vocation à représenter, mais aussi, d’autre part, de voir s’il serait possible de l’exploiter pour le marquage des emplois spécialisés décrits dans les dictionnaires généraux (cf. § 2.4., p. 270), ce qui présupposerait que ces emplois aient été observés dans un corpus dont les métadonnées des documents constituants intègrent ce typage. Intéressée par les travaux de typologie des textes de Biber (1988, 1995) découverts dans l’introduction aux linguistiques exploitant des corpus de Habert, Nazarenko & Salem (1997) 49, je m’interrogeais sur l’exploitabilité des cinq dimensions qui y sont définies à partir d’études statistiques de traits linguistiques 50 – (i) « production impliquée » ou « informationnelle » 51, (ii) « orientation narrative » ou « non narrative » 52, (iii) « référence dépendante ou non de la situation d’énonciation », (iv) « visée persuasive 47 48 49 50 51 52 Ils le sont respectivement soit à la radio ou à la télévision, soit dans la presse généraliste ou spécialisée, ou sur des sites Web spécialisés ou encore dans les matchs en direct sur le Web (accessibles aussi maintenant sur les smartphones et sur l’iPad). Ce qui peut être le fait de conversations captées sans y participer ou dont on est l’un des interlocuteurs, ou d’évocations dans des films par exemple. Ils présentent ces travaux aux pp. 29-30 et les discutent aux pp. 30-31. Il « examine les cooccurrences entre 67 traits linguistiques dans les 1 000 premiers mots de 481 textes d’anglais contemporain écrit et oral » (Habert, Nazarenko & Salem (1997 : 29)). Les productions impliquées sont caractérisées « par l’usage de do comme pro-verbe, celui de be comme verbe principal, le présent, les démonstratifs, les contractions de type don’t, la première et la deuxième personne du singulier, le pronom it » (ibid.). Les productions impersonnelles le sont par le fait qu’elles « favorisent les noms, les mots longs, des adjectifs attributs, les prépositions » (ibid.). Les productions narratives sont caractérisées « par le passé, la 3e personne, la négation synthétique, les participes présents » (ibid.). Document de synthèse – 1.3. Préconiser le haut rendement 35 apparente ou non » 53, et (v) « style impersonnel ou non » 54 – pour caractériser, dans une autre langue (le français au lieu de l’anglais) et dans un autre contexte de travail, les sources textuelles ou les emplois qui nous occupaient. Je me demandais par ailleurs si d’autres caractérisations devraient utilement être prises en compte et comment les identifier. Les réponses à ces questions étant dépendantes des données réunies dans chaque corpus, elles ont été passablement différentes concernant les corpus footballistiques, qui partagent leur thème et quelques autres caractéristiques tout en se distinguant nettement les uns des autres, et les autres corpus thématiques constitués ensuite (cf. § 1.4.). Les commentaires de matchs de football se caractérisent par le fait que ce sont des narrations qui sont : – relatives à des moments choisis des matchs : ceux où il se passe quelque chose de remarquable à un titre ou à un autre sur le terrain ; – fractionnées dans leur expression, puisqu’elles sont au moins rythmées par les arrêts de jeu en direct et qu’elles sont coupées par les successions de prises de parole dans le cadre des multiplex 55 : [reporter n° 1] – la Ligue 2 avec un deuxième but grenoblois face à Clermont Robert Malm qui récupère un ballon suite à un corner qui traînait dans la surface et le ballon est propulsé dans la cage clermontoise Grenoble deux et Clermont zéro [animateur studio] – merci Serge Pueyo Montpellier Lens à La Mosson Jean-Louis Pacull [reporter n° 2] – oui avec là une bonne incursion une bonne incursion montpelliéraine dans la défense lensoise le ballon qui revient toujours zéro à zéro bien sûr un ballon perdu attention au contre là-bas il y a euh Pedro il y a Moreira Utaka euh devant euh devant le gardien la frappe lointaine elle est contrée le ballon n’est pas perdu il est toujours dans les pieds lensois sur le côté droit là-bas la tentative de débordement et la touche toujours zéro à zéro au stade de La Mosson entre Montpellier et Lens après euh huit minutes de jeu ou par les besoins propres aux résumés au sein desquels les mentions des minutes de jeu qui ont vu la réalisation des événements décrits joue un rôle important : Plaisant, alerte, ce derby crut s’enflammer sur un but de Thomert après une combinaison Pédron-Sibierski, mais M. Duhamel indiqua justement une position de hors-jeu (25e). Lens insistait, multipliait les offensives sur les ailes ou plein axe en relais avec Bakari. Insuffisant cependant pour ouvrir la marque, et le LOSC, toujours aussi affûté physiquement, restait plutôt menaçant. Warmuz devait ainsi sortir par deux fois dans les pieds de Brunel (30e) puis Landrin (34e) pour éloigner le danger, et fut même tout heureux de voir Brunel rater d’un rien sa reprise dans le temps additionnel, après avoir devancé Coly à la réception d’un centre de Pichot (45e + 2). Et le LOSC persévérait dès la reprise, conscient des hésitations de la défense 53 54 55 Les productions à visée persuasive apparente sont caractérisées par « les infinitifs, les modaux, les subordonnées conditionnelles » (ibid.). Les productions de style impersonnel sont caractérisées par « les passifs sans agent et les passifs avec by » (ibid.). Un multiplex est une émission de radio durant laquelle la parole est distribuée par un ou deux animateurs en studio à des reporters qui commentent les matchs qui se déroulent simultanément dans les différents stades où ils se trouvent. Les commentaires sont donc principalement faits en temps réel et les prises de parole rythmées par une rotation de stade en stade que perturbent occasionnellement des actions particulièrement remarquables (buts ou fautes graves) sur les terrains. 36 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia lensoise. Coulibaly était d’abord obligé de se jeter devant Landrin (51e), mais le danger revenait vite avec un centre côté gauche de Tafforeau, repris dans la surface par Brunel, dont la frappe trouvait le montant gauche (52e). (« Lille a tenu bon », L’Équipe 29/09/2002) mais articulant néanmoins des événements en séquences qui correspondent à des phases de jeu décrites en direct ou reconstituées en léger différé afin de construire un récit cohérent ; – et empreintes d’émotion quand le jeu s’anime, ce qui est très perceptible à l’oral par les intonations et le rythme des paroles mais aussi par des choix lexicaux typiques de ces moments de tension (attention, en catastrophe, mettre le feu, semer la panique, etc. [en gras dans les extraits ci-dessous]) : attention peut-être une balle là pour les Strasbourgeois non un défenseur troyen qui peut repousser la balle jusqu’à Heurtebis toujours un but partout (multiplex) pour l’instant les Niçois tentent de se porter à l’attaque on va suivre avec Pamarot Pamarot qui trouve qui tente de trouver Diawara à l’entrée dans la surface de réparation il y a une sortie de Viviani et finalement les Montpelliérains qui se dégagent en catastrophe le lob de Pitau waou juste au-dessus de trente-cinq mètres Viviani était sorti en dehors de sa surface Pitau a tenté le lob le ballon est passé vingt centimètres au-dessus de la barre transversale trois minutes de jeu zéro zéro entre Nice et Montpellier (multiplex) deux minutes plus tard c’est cette fois-ci Becas et Rodriguez ces deux joueurs ont vraiment mis le feu dans la surface de réparation sedanaise et euh les défenseurs sedanais et euh là ça tape encore finalement ça va sortir en six mètres les défenseurs sedanais qui tiennent très bien la baraque ce soir (multiplex) toujours un partout entre Nice et Montpellier on joue depuis 9 minutes en seconde période et depuis la reprise une domination plutôt montpelliéraine on a vu tout à l’heure à la cinquantedeuxième minute un superbe débordement côté gauche de Barbosa son centre en retrait a semé la panique dans la défense niçoise (multiplex) Ces éléments de caractérisation, qui peuvent avoir des liens avec ceux définis par Douglas Biber sans toutefois avoir été déterminés au moyen de calculs de fréquences de cooccurrences tels que ceux auxquels il recourt, n’épuisent pas la question du typage de ces commentaires footballistiques. La caractérisation des commentaires footballistiques doit en outre prendre en compte les paramètres de la temporalité et de la médialité : – le rapport temporel existant entre le moment où l’événement se déroule et celui de sa description, qui peuvent être les mêmes pour les commentaires en direct ou être en différé (de quelques minutes pour les matchs en direct du Web ou des résumés d’actions précédentes lors des prises de parole des multiplex, de quelques heures pour la presse du lendemain ou davantage pour les évocations a posteriori) ; – et la variation de l’expression selon les médias, avec une première opposition entre l’oral et l’écrit, mais aussi, en affinant le typage, une distinction entre l’oral radiodiffusé et celui qui accompagne des images télévisées. Alors que la temporalité n’est qu’un critère relatif, puisque les commentaires en direct peuvent inclure des récits de faits antérieurs survenus durant le match en cours de déroulement ou plus anciennement dans la saison ou remontant plus loin encore, la médialité constitue un paramètre de différenciation tout à fait net puisque les commentaires sont écoutés ou lus. Dans le premier cas, l’écoute peut se faire à la radio, donc sans support visuel, impliquant des reporters une description des actions de jeu Document de synthèse – 1.3. Préconiser le haut rendement 37 et plus globalement de l’ambiance des stades et donc un rythme énonciatif soutenu et un propos fécond. Pour la télévision, les paroles énoncées sont indexées sur ce que les téléspectateurs voient, ce qui façonne souvent le commentaire en permettant que celui-ci fasse une large place à la mention des noms de joueurs (qui sont éventuellement mal identifiables sur un écran) mais décrive peu le détail des actions, puisque ceux qui l’écoutent les voient aussi. 56 Un dernier critère qui serait à retenir pour caractériser les commentaires de matchs est la qualification de leurs énonciateurs. Mais même en s’en tenant aux médias classiques, et donc en éliminant les sites contributifs où s’exprime qui veut sans décliner son identité, ce critère n’est pas aisé à employer, puisque, si tous les commentateurs sont des professionnels, ils peuvent avoir des profils variés et pas toujours connus du public. Les deux médias d’expression orale se différencient des médias écrits par le fait que les commentateurs y sont nécessairement identifiés, et ils diffèrent entre eux par le fait qu’à la radio, certains de ceux qui assurent les retransmissions depuis les stades de province sont des reporters locaux polyvalents alors qu’à la télévision les commentateurs sont spécialisés et souvent accompagnés de consultants (anciens joueurs ou entraîneurs). Sans épuiser tous les paramètres de caractérisation envisageables ni se réclamer d’une typologie des discours généraliste, les quelques observations qui précèdent donnent des indications précises sur les facteurs de différenciation des énoncés qui peuvent être rencontrés dans un ensemble pourtant cohérent par sa nature – le commentaire d’événement sportif – comme par sa thématique – le football. Elles montrent aussi en quoi les recherches engagées dans ce domaine en vue de la constitution d’un corpus thématique à haut rendement se distinguent de diverses autres approches universitaires de caractéristiques linguistiques de discours afférents au football, qui poursuivent chacune des visées spécifiques et dont certaines exploitent également des matériaux journalistiques 57. Point sur les ressources footballistiques développées et les publications qui leur sont afférentes Les commentaires télévisuels, qui impliquent de prendre en compte conjointement les images et les propos énoncés et qui fournissent des énoncés moins denses que ceux entendus à la radio, étant dans un premier temps laissés de côté, la première ressource constituée a été le corpus de multiplex (Rcorp1), qui réunit des transcriptions de commentaires de matchs de football radiodiffusés lors de soirées pendant lesquelles plusieurs matchs se jouent et sont commentés simultanément. Cette ressource, confrontée aux contenus de deux corpus écrits réunissant des commentaires – une sélection d’articles du journal L’Équipe (Rcorp2) et une compilation de textes issus de pages Web de sites footballistiques (Rcorp4) – et explorée de manière méthodique, 56 57 Pour une problématisation plus biberienne de la spécificité discursive des commentaires sportifs télévisés appuyée sur une analyse du commentaire d’un match de football, cf. Deulofeu (2000). Outre la problématique typologique de Deulofeu (2000) évoquée dans la n. 56, on peut mentionner, sans prétention à l’exhaustivité, le recensement lexicologique précurseur de Galisson (1978), les dictionnaires de prédicats et d’arguments destinés à une exploitation électronique de Gross & Guenthner (2002), l’analyse sémiotique de Song (2003) et les recherches de lexicographie fonctionnelle de Leroyer & Møller (2004). 38 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia en prenant appui sur une analyse référentielle des actions observées sur le terrain et décrites (l’ontologie des actions de jeu, Rcorp3) pour élaborer des descriptions lexicographiques (réunies dans le dictionnaire Rdic3), a vocation à permettre d’apprécier dans quelle mesure les pratiques langagières orales, bien repérées pour leurs particularités syntagmatiques, présentent des spécificités lexicales. Les enjeux de cette confrontation sont importants, puisque, dans la mesure où la lexicographie de l’oral élaborée en France 58 puise communément dans les ressources écrites, mettre en question cette méthode en disposant d’éléments d’évaluation de l’intérêt qu’offrirait pour l’étude du lexique la constitution de corpus oraux d’une certaine portée est de nature à modifier la perception que les analystes peuvent avoir des descriptions élaborées à partir de ressources écrites seulement et peut-être à renouveler les pratiques lexicographiques elles-mêmes. Un travail engagé depuis deux ans à l’initiative d’un collègue arrageois (Dejan Stosic) qui m’a sollicitée pour participer à un projet qu’il montait (P3) prolonge les précédents avec la constitution du corpus footballistique bilingue serbe / français (Rcorp16) à partir de retransmissions radiophoniques mais aussi télévisuelles. Cette nouvelle ressource a vocation à permettre d’élargir le champ d’analyse concernant les descriptions d’expressions orales relatives à des narrations d’événements sportifs, pour lesquelles le rapport existant entre ce qui est décrit et la verbalisation peut certainement être éclairé par la coprésence des images et des énoncés. En disposant, pour un match, des énoncés entendus dans les deux langues par les téléspectateurs et les auditeurs, il sera loisible d’étudier précisément pour chacune le rapport existant entre les commentaires et les images diffusés conjointement à la télévision, mais aussi entre les commentaires radiodiffusés et les images synchronisées a posteriori en fonction des temps de jeu dans chaque mi-temps. La disponibilité de versions dans deux langues permettra également d’évaluer si les commentaires serbes et français exprimés sur un même canal sont d’une consistance comparable, ce qui constituerait un argument en faveur de la distinction entre des variétés différentes d’énoncés oraux, selon qu’il s’agit d’oral isolé ou accompagné d’informations visuelles. Le travail sur le corpus de multiplex (Rcorp1) et les corpus écrits (Rcorp2 et Rcorp4) constitués pour comparer les qualités de chacun m’a beaucoup occupée entre 2002 et 2005. Alors que le projet du corpus Rcorp1 avait été conçu avec Pierre Corbin, le travail a été nettement distribué entre nous puisque, si nous avons abondamment exploré ce premier corpus et étudié les emplois observés ensemble, nous n’avons pas coécrit à son sujet. Pierre Corbin s’est principalement consacré à l’exposé des analyses linguistiques qui en motivaient la création (cf. P. Corbin (2005 et 2008a)), alors que je n’ai pas encore publié à leur sujet, préférant dédier mes premières rédactions aux aspects techniques de ce projet, que j’avais naturellement pris en charge du fait de mes compétences informatiques. Durant la phase de développement du corpus de multiplex, j’ai ainsi conçu les modalités de transcription des commentaires enregistrés, géré les 58 Cf. Cellard & Rey (1980), Bernet & Rézeau (1989 et 2008 (cf. T24 § 2.4.)), Bernet & Rézeau dir. (1995), Colin, Mével & Leclère (1990). Document de synthèse – 1.3. Préconiser le haut rendement 39 saisies et relectures 59, réuni les énoncés transcrits et balisés dans Rcorp1 et défini des modalités d’exploration de ce corpus exploité en version “texte brut” avec deux outils (Cordial Analyseur et Unitex) et en version balisée au moyen de transformations XSLT 60. Ce sont ces tâches et plus largement tout le travail de conception et de développement du corpus de multiplex, des autres corpus footballistiques (celui constitué des articles de L’Équipe, Rcorp2, et celui issu du Web, Rcorp4) et de la représentation ontologisée des actions de jeu utilisée pour guider les explorations de corpus (Rcorp3) qui font l’objet des trois premiers textes commentés ci-après : T3 (§ 1.3.1.), T4 (§ 1.3.2.) et T5 (§ 1.3.3.). Présenté aux Journées de linguistique de corpus de Lorient de 2002, quelques semaines après la tenue d’EURALEX (cf. § 1.2.2.), T3 (cf. C7) constitue le premier travail de défense d’un corpus à haut rendement relatif au football perçu à travers les commentaires de matchs. Mais alors que T3 montre, à partir d’une étude métalexicographique, l’utilité du recours à des corpus de cette nature pour y observer des usages particuliers et compare la rentabilité d’exploitation de documents issus des journaux Le Monde et L’Équipe et des multiplex, le travail d’évaluation contrastive des qualités des documents primaires est plus développé dans T4, où le Web est également mobilisé. Une fois démontré que les multiplex présentent un meilleur rendement que les sources écrites étudiées (cf. T4 § 2.), les modalités de transcription ont été présentées de manière critique dans T5 (au §§ 2.2. et 2.3.), où la structuration XML des données conforme à une DTD 61 personnelle (strictement conditionnée par la nature des énoncés et l’usage à venir des transcriptions) est comparée à celle générée par la DTD de Transcriber, qui est un outil d’alignement des sources sonores avec leur transcription graphique 62. Les développements de T3, T4 et T5 témoignent ainsi de la naissance du corpus de commentaires de matchs de football, mais, la réflexion engagée ne se limitant pas à la constitution de ce corpus et abordant les modes d’exploration de ses données, aussi denses que peu accessibles à ceux qui n’ont pas été bercés dès leur enfance par une écoute assidue des retransmissions considérées, deux méthodes d’exploration et d’exploitation lexicographique des énoncés attestés ont été exposées respectivement dans T4 §§ 3. et 4. et T5 §§ 3. et 4. Alors que T4 traite des aspects techniques de l’exploration du corpus, T5 se concentre sur l’exploitation des énoncés extraits en les référant à une analyse ontologique des actions de jeu afin d’élaborer des descriptions lexicographiques de bonne tenue linguistique. Contextes de rédaction et de publication de T3, T4 et T5 La rédaction de T4, comme celle de T5, a débuté en 2003, alors que T3 avait été livré à son éditeur mais non encore publié, et c’est paradoxalement T4, inclus dans 59 60 61 62 J’ai transcrit le premier multiplex. Ensuite, une large partie des transcriptions et des premières relectures a été effectuée par les étudiants de la promotion 2002-2003 de notre formation de lexicographes. J’ai enfin fait des relectures et corrections de toutes les transcriptions avec Pierre Corbin. eXtensible Stylesheet Language Transformations (cf. n. 8). Définition de Type de Document (cf. n. 8). Transcriber a également été utilisé dans le cadre du projet OURAL (P2), cf. T8 (§ 1.4.1.). 40 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia un numéro de la Revue française de linguistique appliquée (RFLA) dirigé par Benoît Habert, qui a été édité le premier, en 2004, alors même que les articles du volume ont bénéficié de deux phases de relectures puis corrections qui ont permis à la rédaction de T4 de profiter de plus de retours critiques sur des versions préliminaires que celle des deux autres textes. T3 a finalement été publié en 2005. La publication de T5 dans le volume d’actes des Journées de linguistique de corpus de Lorient de 2003 a connu des retards induits par des changements d’éditeur et donc de mise en page jusqu’à ce que Geoffrey Williams, responsable du volume, décide d’une publication électronique 63, qui a été effective en 2008, en même temps que celle des actes des Journées de linguistique de corpus de 2005, qui incluent T8. Le fait de rédiger les premières versions de T4 et T5 en même temps et dans un laps de temps assez court m’a incitée à distinguer strictement les objets des deux textes, par ailleurs proches et complémentaires, ce qui m’amènera, après les avoir évoqués conjointement ci-dessus, à les commenter séparément à la suite du retour sur T3. 1.3.1. Introduction de la notion de corpus à haut rendement [T3 (2005b) ; Rcorp1 ; Rcorp2] T3 évalue ce que des corpus constitués de documents primaires de natures différentes peuvent apporter à une sélection de dictionnaires variés sur la base d’une comparaison des contenus – de trois corpus : • des articles de presse générale, extraits d’un CD-ROM d’archives du journal Le Monde ; • des articles de presse spécialisée téléchargés depuis le site du journal L’Équipe (Rcorp2) ; • des multiplex radiodiffusés transcrits (Rcorp1) ; 64 – et de trois dictionnaires : un répertoire généraliste, le Petit Robert électronique de 2001 ; • un thématique multisport, le Robert des sports (Petiot (1982)) ; • et un autre spécialisé dans le football, le Dico du foot (Montvalon (1998) 65. • 63 64 65 Bien que j’aie relu et corrigé une version de mon article dont la mise en page avait été modifiée par rapport à ce que préconisaient les consignes initialement appliquées, le texte qui a finalement été mis en ligne n’est pas conforme à mon manuscrit : un paragraphe a été tronqué et des notes redistribuées, ce qui est décrit dans une note éditoriale ajoutée dans la présente édition (cf. T5 n. B). Au moment de la rédaction de T3, le corpus Rcorp1 n’était pas encore intégralement transcrit et relu, ce qui fait que j’ai conservé les données mobilisées au moment de la préparation de C7, extraites des premiers constituants de Rcorp1 comme de Rcorp2 – une soirée de multiplex et les articles de L’Équipe relatifs aux premières journées du championnat de France de 2002-2003 – plutôt que d’induire un biais en considérant Rcorp2 dans sa totalité. Les dictionnaires de football font volontiers une large part aux expressions susceptibles d’amuser les lecteurs. Le Dico du foot, bien qu’assez bien documenté, s’inscrit dans cette ligne éditoriale. Un autre répertoire, Les mots du football (Lesay (2006)), publié quatre ans après la rédaction de T3, se caractérise au contraire par son sérieux et la qualité linguistique de ses descriptions. Documenté à partir de données trouvées sur le Document de synthèse – 1.3. Préconiser le haut rendement 41 Besoins documentaires en fonction des types de dictionnaires à élaborer Les besoins documentaires des lexicographes, modélisés au § 1.1. à partir de l’étude de ces trois dictionnaires de types distincts, sont définis de manière à discriminer les différences de contextes de travail en fonction de la finalité des ouvrages, ce qui, à l’échelle de rédaction de T3, n’a pas laissé d’espace pour des nuances : – Pour un dictionnaire général, l’objectif est de décrire ce qui a une certaine idiomaticité en langue “commune”. Les lexicographes doivent donc pouvoir exploiter leurs acquis personnels et n’utiliser un corpus que pour y contrôler leurs intuitions, y trouver de quoi combler leurs lacunes ou hiérarchiser les usages décrits. – Pour un dictionnaire multisport, les rédacteurs doivent repérer ce qui est transversal à différents sports et, dans certaines limites, ce qui est particulier à certains d’entre eux, ce qui implique un choix d’items et des principes de description fondés sur l’usualité. Un corpus réunissant des énoncés que le public à qui est destiné le dictionnaire est susceptible de rencontrer peut (i) informer sur la fréquence de chaque item ou emploi spécialisé dans ce corpus (et par inférence sur leur diffusion dans d’autres énoncés comparables) et (ii) suppléer aux méconnaissances des rédacteurs, qui peuvent ne pas avoir les mêmes investissements personnels dans tous les sports. – Enfin, pour un dictionnaire du football qui n’aurait pas une visée distractive mais métalinguistique de bonne facture, les lexicographes doivent fournir une information aussi exhaustive et précise que possible, qui s’attache à décrire les expressions non pas les plus imagées mais les plus remarquables d’un point de vue linguistique, comme score de parité, ou l’emploi de constructions verbales inattendues des néophytes, comme claquer un but ou capter un ballon, ce qui implique plus nécessairement encore de recourir à un corpus de qualité. Cet état des besoins étant posé, le § 1.2. compare le mode de recueil de données traditionnel en lexicographie (par lectures et relevés) et l’exploration de corpus électroniques, en envisageant d’une part l’inventaire lexical et combinatoire (sélection de la nomenclature 66 et des emplois à décrire pour chaque item retenu) et d’autre part la recherche d’illustrations des emplois (la sélection des exemples à associer aux descriptions, qu’ils soient forgés, attestés ou retravaillés, c’est-à-dire ajustés discursivement afin qu’ils restent informatifs une fois sortis de leur contexte). Cette comparaison des données des trois corpus à celles des trois dictionnaires étudiés, menée sur un petit échantillon lexical, permet d’observer, par exemple, – que, parmi les dix-sept lemmes (correspondant à vingt-six formes) extraits en corpus, le verbe concéder attesté dans le corpus de L’Équipe (Rcorp2) et cinq items du corpus de multiplex (Rcorp1), dont le verbe capter, d’usage fréquent dans les commentaires, 66 Web (dont en particulier les commentaires en temps réel, les “matchs en direct”), son contenu mérite, mieux que celui du Dico du foot, d’être comparé à des descriptions élaborées à partir du corpus de multiplex, ce qui sera esquissé infra au § 1.3.5. à propos des verbes utilisés pour exprimer la transmission du ballon. La nomenclature est la liste des unités linguistiques traitées dans un dictionnaire. Le plus souvent les formes canoniques de celles-ci sont mentionnées dans les composants d’adressage des articles (adresses principales ou subordonnées), mais il peut également s’agir d’adressage microstructurel (que celui-ci donne lieu à matérialisation ou non) (cf. Hausmann & Wiegand (1989, § 8.)). 42 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia ne figurent pas à la nomenclature du Dico du foot 67, ce qui témoigne de la richesse lexicale relative des corpus et en particulier de celui d’oral transcrit ; – que le nom avantage a dans le corpus de multiplex des cooccurrents bien plus nombreux que ceux qui sont présentés dans les trois dictionnaires, qui ne répertorient que ( prendre + avoir) l’avantage et règle de l’avantage, ce qui montre le bon rendement combinatoire de cette ressource ; – et que, pour ce qui concerne les contextualisations proposées par le dictionnaire spécialisé, le bénéfice d’une documentation en corpus pourrait être plus réduit que concernant les sélections lexicales et les emplois relevés, puisque ceux de certains items sont déjà illustrés par des exemples tout à fait typiques. De ces observations découle, au § 2., la spécification d’options pour la constitution de corpus utiles aux lexicographes pour la description d’usages spécialisés de large diffusion. Le § 2.1. prône, comme alternative pratique aux corpus de référence, l’élaboration de corpus plurithématiques réunissant, pour chaque domaine pris en compte, des énoncés d’une technicité mesurée (sélectionnés sur la base de leur représentativité des usages et de leur rendement documentaire) et composés de modules combinables de manière progressive afin de permettre aux éditeurs d’échelonner le coût de constitution de cette ressource en élaborant (ou acquérant) progressivement les modules thématiques jugés les plus utiles. Concernant le rendement de cette ressource, le § 2.2. développe des spéculations à propos de l’utilité d’intégrer des documents oraux transcrits dans des corpus à haut rendement, sur la base notamment des observations faites dans les commentaires radiodiffusés de matchs de football. L’hypothèse de spécificités lexicales de l’oral paraît confortée par le fait que s’y rencontrent d’une part des constructions qui ne semblent pas employées à l’écrit et d’autre part des descriptions des phases de jeu dans leur déroulement au moyen de verbes processifs plus nombreuses et plus riches que celles qu’on trouve dans les commentaires de matchs rédigés, qui ne mentionnent, pour l’essentiel et de manière assez sommaire, que les actions qui se concluent par un but ou une sanction. Utilité de sources radiodiffusées transcrites pour le haut rendement Pour la constitution de corpus d’oral, le § 2.3., qui clôt l’article, souligne les avantages de sources radiodiffusées : accessibilité, bonne qualité énonciative en général, expression spontanée mais canalisée. Les transcriptions de multiplex en ont apporté un témoignage, et il est raisonnable de penser que ces sources seraient aussi susceptibles de fournir des documents primaires de qualité pour constituer des corpus relatifs à d’autres thématiques. Un accent particulier est mis sur les émissions de services, dans lesquelles des auditeurs profanes dialoguent avec des spécialistes sur des questions de droit, de psychologie, de santé, etc. Au sujet de ces dernières en particulier, l’utilisation d’énoncés diffusés sur les ondes et produits par des personnes anonymes, qui s’expriment de leur plein gré et en assumant leur acte, présente par ailleurs l’avantage d’éviter les problèmes de confidentialité que peuvent susciter d’autres approches (cf. infra § 1.4.1.). 67 Les verbes concéder et capter ne figurent pas non plus à la nomenclature de Les mots du football (cf. n. 65). Document de synthèse – 1.3. Préconiser le haut rendement 43 Les arguments développés en faveur des corpus à haut rendement (footballistique dans la démonstration principale, mais également médical dans les développements de la dernière partie) valorisent l’aide qu’ils peuvent apporter aux lexicographes sur des terrains où ceux-ci sont susceptibles d’être moins à l’aise pour mobiliser des données, et ils soutiennent l’idée que ces ressources sont réalistement constituables puisque de portée limitée. Rédigée alors que des échanges étaient engagés avec Larousse et Le Robert dans la perspective de monter un projet tripartite (qui n’a pas vu le jour du fait de la reconfiguration des relations entre ces éditeurs (cf. n. 44)), c’est à la conception d’un autre projet de constitution de ressources, P2, inclus dans le projet OURAL monté en partenariat avec le laboratoire de recherche et développement d’une entreprise d’informatique et des laboratoires universitaires, que cette étude s’est révélée utile (cf. supra n. 14, et T8, commenté infra au § 1.4.1.). 1.3.2. Maturité du corpus de commentaires footballistiques radiodiffusés [T4 (2004a) ; Rcorp1 ; Rcorp2 ; Rcorp4] Le travail sur le football a été abondamment exploité en recherche et dans la formation de lexicographes, et aussi auprès de linguistes et de jeunes doctorants en sciences humaines que je devais sensibiliser aux linguistiques de corpus (dans le cadre d’un enseignement semestriel ou de séminaires de l’école doctorale, cf. E5, E6 et E7), ce qui m’a incitée à présenter T4 comme une réflexion qui n’était pas seulement orientée vers les lexicographes, mais qui ciblait plus largement tous ceux qui souhaitent étudier des faits linguistiques 68, conformément à l’orientation générale du numéro de la revue RFLA qui l’accueille. Le § 1. présente l’objet de la contribution en développant trois points : – la définition de la “langue commune”, conçue comme précédemment dans T3 comme intégrant des éléments relevant de différentes sphères spécialisées que j’ai appelées “langues de spécialité de large diffusion”, avant de revenir dans T8 sur cette dénomination imparfaite puisque semblant reprendre à mauvais escient la notion de “langue de spécialité” ; – la présentation des deux verbes de transmission de balle employés dans les commentaires de football et utilisés pour illustrer mon propos dans cet exposé, les verbes donner et passer, choisis parce que le premier est un verbe en usage et l’archilexème de la classe des verbes de transmission et que le second est un bon candidat à la confusion pour les outils d’exploration de corpus, sa forme de 3e personne de l’indicatif présent étant homographe du nom singulier morphosémantiquement lié au verbe et le verbe comme le nom étant communément employés dans les commentaires ; – et la description de l’objectif de l’étude linguistique qui motive l’exploration de corpus avec deux outils (Cordial Analyseur et Unitex) opérant coopérativement et qui consiste en l’élaboration aussi automatisée que possible des patrons de construction de chaque énoncé intégrant les verbes donner ou passer. 68 C’est ainsi que ce travail a été reçu, comme en témoigne par exemple Laporte (2009, n. 5), qui le cite comme contre-exemple du manque d’esprit critique qu’il déplore observer chez les linguistes utilisateurs de concordanciers. 44 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Par exemple pour l’énoncé Celestini qui peut donner à Dos Santos sur le côté gauche l’objectif est d’obtenir le patron NJOUEUR-SOURCE donner à NJOUEUR-DESTINATAIRE-EFFECTIF sur NLIEU-DESTINATION Le § 2. donne lieu à une étude comparative de différents types de documents à intégrer dans les corpus documentaires. L’objet est comparable à ce qui a été fait dans T3, mais les données, présentées plus en détail, fournissent des explications plus complètes et des éléments plus consistants pour étayer la démonstration. Il est observé que sur les 3 586 articles liés au thème du football du CD-ROM d’archives de 1997-1998 du journal Le Monde, une très large majorité relate des transferts, des problèmes financiers ou de dopage, etc., ce qui m’a conduite à en sélectionner manuellement 737 (soit 20%) relatifs à des matchs 69. Par ailleurs, dans cette sélection a priori aussi bien ciblée que possible pour l’étude des verbes de transmission de balle, le rendement de consultation est faible, tant au niveau de la diversité des unités lexicales employées que de celle des constructions syntaxiques. Ces observations justifient la constitution de corpus thématiques en cherchant celui qui aurait le plus haut rendement : – des transcriptions de commentaires formulés durant les multiplex pour Rcorp1, dont le volume avait sensiblement augmenté depuis la rédaction de T3 pour atteindre environ 200 000 mots-occurrences ; – des documents issus de la presse spécialisée pour Rcorp2 : des articles sélectionnés dans le journal L’Équipe (comme indiqué déjà dans T3) pour un total de 60 000 mots-occurrences ; – des pages de sites Web sélectionnées minutieusement plutôt qu’explorées sans ciblage ou filtrage (ma position sur ce point est justifiée en n. 14) pour Rcorp4 : des sites de clubs de football, de joueurs ou de commentaires de matchs pour un total de 60 000 mots-occurrences (ce qui constituait une ressource nouvelle, non exploitée lors de la rédaction de T3). Le § 2. se termine par une présentation rapide de la structuration XML des transcriptions (plus détaillée dans T5 § 2.2.) et par des remarques méthodologiques sur de possibles réemplois de ce corpus pour d’autres études, ce qui ne correspondait pas à des perspectives précises à l’époque, mais qui aurait pu se réaliser depuis : nous avons en effet envisagé avec un collègue phonéticien membre de l’UMR STL, Cyril Auran, d’étudier s’il y a des corrélations observables, dans les commentaires radiodiffusés, entre différents paramètres d’évaluation qualitative de la prononciation, l’intensité des actions décrites et les choix lexicaux opérés pour décrire celles-ci, mais le temps nous a manqué jusqu’ici pour engager cette nouvelle analyse. Modalités d’exploration : deux concordanciers employés isolément ou coopérant Le § 3. présente les trois modes d’exploration de corpus envisagés : avec Cordial Analyseur employé seul (en exploitant sa fonction de concordancier) puis Unitex explo69 Ce corpus n’ayant pas demandé un travail de même ampleur que les autres corpus footballistiques puisque tous les articles et leurs métadonnées étaient enregistrées sur un CD-ROM d’où ils étaient exportables en texte intégral, il n’est pas listé dans les ressources, à la différence de Rcorp1, 2 et 4. Document de synthèse – 1.3. Préconiser le haut rendement 45 rant le texte brut des transcriptions, et avec ces deux outils en exploitant la fonction d’étiqueteur morphosyntaxique du premier pour prétraiter les transcriptions explorées ensuite avec Unitex. Dans le retour sur ces développements, la place plus importante accordée à la description d’Unitex est induite par le fait d’une part que cet outil est plus complexe d’emploi que le premier et d’autre part qu’il a été exploité à plusieurs reprises dans mes recherches (cf. T10 (§ 1.4.2.), T12 (§ 2.5.1.) et des travaux qui n’ont pas donné lieu à publication relatifs à des traitements de corpus (§ 1.5.2.) ou à des analyses métalexicographiques (§ 2.2.1.2.)) et que le commentaire de ceux-ci implique d’avoir minimalement présenté ce qu’il permet de faire. – Cordial Analyseur Le premier mode d’exploration de corpus consiste à utiliser la fonction d’extraction de phrases de Cordial Analyseur, qui peut sélectionner celles où figurent un à deux items spécifiques et éventuellement un troisième dont il est seulement possible d’indiquer la catégorie : La recherche des mots-occurrences correspondant au verbe donner accompagnés de ceux correspondant au nom côté et d’une préposition permet d’extraire les transmissions de balles réalisées latéralement comme Celestini qui peut donner à Dos Santos sur le côté gauche ou Lilian Laslandes qui donnait là-bas sur le côté droit à hauteur des six mètres pour le défenseur bastiais ce qui est utile pour faire l’inventaire des prépositions possibles dans une construction verbale comme donner (à + pour) NJOUEUR 70. – Unitex Le second mode d’exploration de corpus exploite Unitex comme concordancier. Cet outil permet d’exprimer le motif de recherche au moyen soit d’une expression régulière : Par exemple, l’expression <donner> <MOT>* sur le côté (droit + gauche) sera mise en correspondance avec une séquence constituée du verbe donner, de zéro un ou plusieurs mots (l’étoile de Kleene code conjointement l’optionalité et la répétabilité) et de l’expression d’une localisation sur le côté 71 : Celestini qui peut donner à Dos Santos sur le côté gauche Lilian Laslandes qui donnait là-bas sur le côté droit à hauteur des six mètres pour le défenseur bastiais soit d’un graphe appelant au besoin des sous-graphes, si le motif à exprimer est complexe. 70 71 Le verbe donner a des emplois footballistiques caractérisés par l’utilisation fréquente de la préposition pour comme introducteur de la mention du destinataire, en particulier quand il n’est pas certain, au moment de l’énonciation, que celui-ci réceptionnera bien la balle qui lui est adressée. Ces extractions sont intéressantes linguistiquement à l’intérieur et au-delà de ce qui est mis en correspondance avec le motif de recherche (ce qui est souligné ci-dessus) : – dans les deux extraits, la mention de l’agent (le nom du joueur qui donne le ballon) se trouve à gauche de ce segment ; – dans le second extrait, la mention du destinataire (le défenseur nantais) est à sa droite ; – dans le premier extrait, la mention du destinataire (à Dos Santos) correspond à la séquence de mots figurant entre le verbe et la localisation. 46 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia La lecture des graphes, comme celui présenté en figure 5, se fait de gauche à droite, de la flèche vers le carré inclus dans un cercle, en passant par l’un des chemins constitués de nœuds et d’arcs les reliant. Les nœuds (comme celui contenant <MOT>) ou séquences de nœuds dont le contenu est optionnellement présent peuvent être contourné(e)s par un arc liant directement le nœud précédent au nœud suivant, et les nœuds (comme celui contenant <MOT> également) ou séquences de nœuds dont les contenus peuvent être répétés portent un arc qui part de leur extrémité droite (ou de celle du nœud le plus à droite dans la séquence) et qui revient vers son extrémité gauche (ou celle du nœud le plus à gauche dans la séquence). Les sous-graphes sont des graphes appelés par un autre graphe, ce qui se matérialise, dans le graphe appelant, par la mention du nom du graphe appelé dans un nœud grisé, comme EXPRLIEU ci-dessous, et dans cette représentation imprimée par le décalage à droite du graphe appelé. Quand un graphe appelle un sous-graphe, c’est comme si les cheminements du second étaient inclus dans l’expression du premier là où figure son nom. Figure 5. Graphe et sous-graphe utilisés dans Unitex pour extraire les énoncés contenant le verbe donner et l’expression d’une localisation sur le côté (droit + gauche) Les éléments constituants des expressions régulières et des graphes peuvent être : – des chaînes de caractères qui ont leur valeur littérale ; – des codes spéciaux ou grammaticaux (cf. figure 6) 72 ; Figure 6. Codes spéciaux et grammaticaux utilisables dans les motifs de recherche soumis à Unitex (d’après Paumier (2008 : 26 et 39)) CODES SPÉCIAUX <E> <MOT> <MIN> <MAJ> <PRE> <DIC> <NB> <PNC> 72 séquence vide <A> séquence de n’importe quelles lettres <ADV> séquence de n’importe quelles lettres <CONJC> minuscules <CONJS> séquence de n’importe quelles lettres <DET> majuscules <INTJ> séquence de n’importe quelles lettres <N> débutant par une majuscule <PREP> mot des dictionnaires <PRO> séquence de n’importe quels chiffres <V> signe de ponctuation [;,!?:] CODES GRAMMATICAUX adjectif adverbe conjonction de coordination conjonction de subordination déterminant interjection nom préposition pronom verbe D’autres codes dit « sémantiques » sont exploitables dans Unitex (cf. Paumier (2008 : 39)). Document de synthèse – 1.3. Préconiser le haut rendement 47 – des items enregistrés dans les dictionnaires livrés avec l’outil – les DELA, dictionnaires électroniques du LADL 73 : Les entrées des DELA sont des formes associées au lemme correspondant si elles n’en sont pas homographes et à une ou plusieurs indication(s) morphosyntaxique(s) et sémantique(s). Le prétraitement du corpus à explorer par Unitex consiste pour lui à apparier chaque entrée dictionnairique aux mots-occurrences qui en sont homographes afin de permettre ensuite d’exprimer que l’on souhaite extraire tous les segments de textes où sont trouvées – toutes les formes d’un mot, ce qui se fait par la mention du lemme écrit entre chevrons : <donner> ; – uniquement la ou les forme(s) qui correspond(ent) à une flexion particulière d’un mot, ce qui motive la mention du lemme écrit entre chevrons et accompagné des indications flexionnelles utiles : <donner:W>, où W code l’infinitif ; – la ou les forme(s) qui correspond(ent) à tous les mots d’une catégorie grammaticale qui ont une flexion particulière, ce qui se demande par la mention du code grammatical écrit entre chevrons et accompagné des indications flexionnelles utiles : <V:W> pour un verbe infinitif. – ou encore des items déclarés dans l’un des dictionnaires personnels ajoutés : Par exemple celui des noms de joueurs enregistre Celestini et Dos Santos évoqués supra comme étant des footballeurs (+JOUEUR) qui ont joué sous les couleurs de l’Olympique de Marseille en 2002-2003 (+OM02) : Celestini,.N+JOUEUR+OM02. 74 Au sein des dictionnaires, chaque entrée est enregistrée associée à des codes morphosyntaxiques prédéfinis (cf. figure 7) et à des codes sémantiques, dont un sousensemble est mis en œuvre dans les DELA mais qui peuvent être créés en fonction des besoins dans les dictionnaires personnels (comme cela est fait ci-dessus concernant les noms de joueurs). Figure 7. Codes flexionnels utilisables dans les motifs de recherche soumis à Unitex (d’après Paumier (2008 : 40)) CODES FLEXIONNELS m f s p 1 2 3 P I masculin féminin singulier pluriel première personne deuxième personne troisième personne présent de l’indicatif imparfait de l’indicatif CODES FLEXIONNELS (SUITE) J F S T Y C G K W passé simple futur présent du subjonctif imparfait du subjonctif présent de l’impératif présent du conditionnel participe présent participe passé infinitif Unitex est donc doté d’un concordancier capable de gérer des expressions de motifs de recherche très complexes et qui peut retourner soit une simple “KWIC list” (Key Word In Context list), soit les mêmes contextes extraits enrichis d’annotations (ou 73 74 Le Laboratoire d’Automatique Documentaire et Linguistique était un laboratoire du CNRS créé et dirigé par Maurice Gross (cf. http://infolingu.univ-mlv.fr/LADL/Historique.html). Les dictionnaires personnels sont également utilisés dans T4 pour les noms de lieux. 48 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia encore les annotations seules, mais ce n’est pas pertinent dans les explorations évoquées). L’insertion d’annotations dans les contextes retournés implique que les graphes précédents aient été transformés en transducteurs (cf. figure 8), c’est-à-dire qu’ils contiennent, dans les chemins qui relient les nœuds initiaux et terminaux, des nœuds porteurs de segments de texte souscrits qui seront insérés dans le contexte. Figure 8. Transducteur utilisé dans Unitex pour baliser les énoncés contenant le verbe donner et l’expression d’une localisation sur le côté (droit + gauche) Le graphe principal présenté en figure 5 pourrait être transformé en transducteur pour coder le même motif que précédemment et permettre, au sein des contextes listés dans la concordance, le balisage du verbe de transmission et du syntagme prépositionnel exprimant la localisation (délimités par des balises comparables à celles qu’auraient des éléments XML). Dans le transducteur, les nœuds contenant le verbe donner et l’appel du sous-graphe EXPR-LIEU sont précédés et suivis d’un nœud vide. Celui qui précède chacun porte une balise ouvrante comme texte souscrit, celui qui suit chacun porte une balise fermante, les deux types de balises se différenciant par la présence d’une barre oblique entre le chevron gauche et le nom de l’élément dans les fermantes. Quand ce transducteur sert à extraire les contextes et à les annoter, le premier des contextes précédents figure dans la concordance sous la forme : Celestini qui peut <V-transmission>donner</V-transmission> à Dos Santos <SP-localisation>sur le côté gauche</SP-localisation> 75 Unitex présente cependant une lacune importante : il n’est pas fait pour gérer les homographes, qu’il analyse avec toutes leurs valeurs possibles même dans les contextes non ambigus, ce qui est très handicapant quand on cherche à étudier le verbe passer mais pas le nom passe dans un corpus footballistique. Ce problème, qui peut en partie être contourné par l’écriture de grammaires locales qui spécifient par exemple quels items peuvent contenir les contextes du nom afin de tenter de les éliminer des concordances des verbes, a motivé que j’envisage de faire prétraiter les transcriptions explorées par un outil d’annotation morphoflexionnelle qui n’attribue qu’un code à chaque mot-occurrence. – Coopération de Cordial Analyseur et d’Unitex Faire coopérer Cordial Analyseur et Unitex consiste à utiliser le premier comme outil d’étiquetage préalable du corpus à explorer, et le second comme concordancier travaillant non plus sur les énoncés transcrits mais sur les transcriptions étiquetées morphoflexionnellement où chaque mot est remplacé par un triplet constitué de la forme originale du mot-occurrence, du lemme et du code morphosyntaxique correspondants : 75 Dans T4, les graphes et transducteurs proposés sont plus complexes que ceux présentés ici, et conséquemment les motifs de recherche et les annotations introduites dans les concordances y sont plus riches. Au § 3.2.3., l’exemple de balisage des extractions est le suivant : <N-JOUEUR-SOURCE>Celestini</N-JOUEUR-SOURCE> qui peut donner à <N-JOUEUR-DESTINATAIRE-EFFECTIF>Dos Santos</N-JOUEUR-DESTINATAIRE-EFFECTIF> sur <N-LIEU-DESTINATION>le côté gauche</N-LIEU-DESTINATION> Il ne comporte pas de balisage du verbe ou du syntagme prépositionnel locatif comme celui de la figure 8, mais il permet de délimiter les mentions des protagonistes et de la localisation de la balle en fin de transmission. Document de synthèse – 1.3. Préconiser le haut rendement 49 Par exemple : Celestini Celestini NPMS qui qui PRI peut pouvoir VINDP3S donner donner VINF à à PREP Dos Santos Dos Santos NPMS sur sur PREP le le DETDMS côté côté NCMS gauche gauche ADJSIG où ADJSIG code un adjectif singulier indéfini en genre, DETDMS un déterminant défini masculin singulier, NCMS et NPMS respectivement un nom commun ou propre masculin singulier, PREP une préposition, PRI un pronom relatif et VINDP3S et VINF respectivement des verbes à l’indicatif présent troisième personne du singulier et à l’infinitif. 76 Cette procédure augmente sensiblement la complexité des graphes exprimant les motifs de recherche (cf. figure 9) : Figure 9. Transducteur et sous-graphe utilisés dans Unitex pour baliser les énoncés (préétiquetés par Cordial Analyseur) contenant le verbe donner et l’expression d’une localisation sur le côté (droit + gauche) Le transducteur et le sous-graphe présentés respectivement en figures 8 et 5 doivent se voir ajouter des nœuds pour chaque constituant des triplets produits par Cordial Analyseur. Dans le transducteur, trois nœuds représentent le verbe donner et l’appel du sous-graphe EXPR-LIEU a été actualisé (EXPR-LIEU-postcordialisation). Dans le sous-graphe, tous les items sont remplacés par les triplets leur correspondant. 77 Quand ce transducteur sert à extraire et à annoter les contextes prétraités par Cordial Analyseur, le premier des contextes précédents figure dans la concordance sous la forme : Celestini Celestini NPMS qui qui PRI peut pouvoir VINDP3S <V-transmission>donner donner VINF</V-transmission> à à PREP Dos Santos Dos Santos NPMS <SP-localisation>sur sur PREP le le DETDMS côté côté NCMS gauche gauche ADJSIG</SP-localisation> Mais ces derniers graphes permettent d’extraire des données de bonne qualité, pour lesquelles je propose ensuite une conversion en XML afin de faire figurer les lemmes et codes morphosyntaxiques de chaque mot comme attributs (@lemme et @cat) de l’élément <item> qui enchâsse chaque forme originale de mot : 76 77 Les textes étiquetés par Cordial Analyseur sont présentés à raison d’un triplet mot-occurrence, lemme, code morphoflexionnel par ligne, les trois objets étant séparés par des tabulations. Pour les traiter dans Unitex, les marques de fin de ligne comme les tabulations ajoutées par Cordial Analyseur doivent être remplacées par des espaces. Pour que les graphes ou transducteurs puissent bien manipuler ces catégorisations, il faut que <MOT>, qui code une séquence de lettres, puisse être mis en correspondance avec les codes flexionnels. Pour le premier nœud <MOT>, il s’agit du code du verbe donner, dont la valeur peut être par exemple VINF comme dans l’exemple considéré ou VINDP3S pour Celestini qui donne […]. Pour que VINDP3S et <MOT> puissent être mis en relation, il convient de convertir les constituants numériques du code flexionnel en lettres (VINDPTROISS ), lors du même traitement intermédiaire que celui visant à remplacer les marques de fin de ligne par des espaces évoqué dans la note précédente. 50 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia <item lemme="Celestini" cat="NPMS">Celestini</item> <item lemme="qui" cat="PRI">qui</item> <item lemme="pouvoir" cat="VINDP3S">peut</item> <V-transmission> <item lemme="donner" cat="VINF">donner</item> </V-transmission> <item lemme="à" cat="PREP">à</item> <item lemme="Dos Santos" cat="NPMS">Dos Santos</item> <SP-localisation> <item lemme="sur" cat="PREP">sur</item> <item lemme="le" cat="DETDMS">le</item> <item lemme="côté" cat="NCMS">côté</item> <item lemme="gauche" cat="ADJSIG">gauche</item> </SP-localisation> Ceci donne la possibilité de présenter un texte lisible plutôt que les séquences de triplets produites par Cordial Analyseur, pour peu qu’il soit lu dans un éditeur dédié à ce type de texte et capable de prendre en compte les instructions de mise en forme spécifiées par ailleurs dans un fichier annexe appelé “feuille de styles”. D’un point de vue méthodologique, la coopération des deux outils, telle qu’elle est envisagée dans T4, bien qu’expérimentée avec un certain succès avec deux promotions d’étudiants de M2 LTTAC, implique d’écrire des graphes complexes afin qu’Unitex puisse explorer les énoncés enrichis par Cordial Analyseur avec les lemmes et les codes morphoflexionnels de chaque mot. Les expérimentations faites depuis m’incitent à modifier le protocole en faisant une place plus importante au XML et au XSLT. Les étiquetages produits par Cordial Analyseur peuvent être convertis en XML : les triplets forme attestée, lemme et code morphosyntaxique étant convertis en éléments <item> ou plutôt <w> (l’initiale de word comme le préconise la TEI 78, dont l’usage s’est assez largement diffusé) porteurs de deux attributs, un pour le lemme et un pour le code (respectivement @lemme et @cat utilisé dans T4, ou plutôt @lemma et @ana toujours par respect des recommandations de la TEI). Les énoncés xmlisés peuvent ensuite être sélectionnés par une transformation XSLT qui ne retient que ceux au sein desquels un élément <w> contient la forme et le lemme cherchés (pour reprendre le verbe homographe du nom pris en compte dans T4 : la forme passe et l’attribut @lemma de valeur égale à passer). Cette sélection d’énoncés peut ensuite être convertie en texte brut (dépourvu des lemmes et codes à présent inutiles) pour être soumise à Unitex, dont les graphes peuvent se concentrer sur le repérage des patrons de construction, complexes en eux-mêmes si les constructions syntaxiques décrites le sont, mais non compliqués par la prise en compte des annotations de Cordial Analyseur. Ceci implique cependant de procéder à des manipulations de texte intrusives afin de différencier graphiquement les homographes, comme passe, qui peuvent figurer conjointement dans les mêmes énoncés (par exemple en ajoutant un caractère identificateur aux occurrences nominales comme N – Npasse – et en le supprimant après traitement des 78 La Text Encoding Initiative (http://www.tei-c.org/Guidelines/P5/) formule des recommandations pour la structuration en XML de textes de diverses natures, dont les corpus (et les textes de dictionnaires, cf. § 2.2.1.). Document de synthèse – 1.3. Préconiser le haut rendement 51 contextes) 79, puisque si ceux-ci ont été retenus du fait de la présence du verbe, il sera souhaitable que le nom coprésent ne soit pas de nouveau pris pour le verbe par Unitex. Exploiter Unitex au-delà de ses limites Le § 5. conclut cette contribution en précisant que les manipulations exposées présentent des solutions envisageables afin de réaliser ce qui est perçu comme pertinent dans le cadre d’une étude alors que les outils à disposition ne semblent pas pouvoir aisément rendre les services attendus, ce qui s’appuie implicitement sur le fait qu’Unitex a besoin de grammaires locales complexes à élaborer pour être en mesure de différencier les homographes. Il m’intéressait de trouver un moyen de pallier la surgénération de résultats induite par le mode de prétraitement d’Unitex, qui associe à chaque forme graphique l’ensemble des lemmes qui sont susceptibles de lui correspondre, afin d’être mieux en mesure de profiter du fait que son concordancier sait exploiter des motifs de recherche complexes exprimés sous forme de graphes et qu’il est possible de faire évoluer ces derniers en transducteurs pour l’annotation des contextes extraits. Le mode de représentation graphique des motifs de recherche présente l’intérêt d’être assez directement réemployable pour décrire ce qui est observé. En effet, si les graphes utilisés pour l’extraction des contextes sont précis (que l’on ne cherche pas toutes les occurrences de <donner> mais seulement celles qui sont accompagnées de noms de joueurs voire de la mention de l’entité transmise (le ballon) et éventuellement de localisations sur l’espace du terrain), bien que susceptibles de générer plus de combinaisons lexicales que ce qui est attesté en corpus (puisqu’on ne cherche pas ce qui correspond à une expression exacte mais aux différentes manières d’exprimer quelque chose qui ici correspond à une transmission de balle entre deux joueurs), ils finissent par fournir une description déjà assez poussée des données à analyser. Lors du travail préparatoire à T4, tous les verbes de transmission de balle identifiés ont ainsi donné lieu à des explorations ciblées et montré la régularité relative des constructions qu’ils régissent, ce dont témoigne le graphe présenté en figure 10. Figure 10. Graphe des constructions d’énoncés exprimant des transmissions de balle dans Rcorp1 Dans ce graphe : – les nœuds grisés N-JOUEUR-trans et N-JOUEUR-dest (où trans abrège transmetteur et dest destinataire), LOCALISATION, N-PARTIE-CORPS et BALLON sont des appels à des sous-graphes décrivant les expressions susceptible d’être employées pour référer aux joueurs, aux lieux du terrain, aux parties du corps des joueurs et au ballon ; – les nœuds grisés V-TRANS-… appellent les sous-graphes décrivant les verbes et expressions verbales exprimant une transmission de balle, comme chercher pour ceux traités par V-TRANS-1, servir pour V-TRANS-1-passif, ouvrir pour V-TRANS-2, centrer pour V-TRANS-3 ou adresser pour V-TRANS-3passif. 79 Si, alternativement, les énoncés du corpus ne sont pas étiquetés par Cordial Analyseur, mais que cet outil est utilisé pour extraire ceux contenant le verbe passer, il convient de repérer en leur sein les occurrences conjointes du nom passe, de les discriminer graphiquement des occurrences verbales et de ne traiter que ces dernières. 52 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Document de synthèse – 1.3. Préconiser le haut rendement 53 Au sein des cheminements représentés, la présence des sous-graphes LOCALISATION et N-JOUEUR et le jeu des optionnalisations de nœuds font qu’ils ne représentent pas strictement ce qui est observé et qu’une analyse linguistique de chaque verbe doit affiner la description des localisations privilégiées pour certains types de transmissions de balle, préciser s’il existe des régularités d’usage des alternances observables entre l’emploi de noms de joueurs et la mention de caractérisations de leur fonction (le défenseur lillois), établir si tous les verbes sont bien employables dans une relative (N-JOUEUR qui V […]), etc. Mais cette schématisation fournit déjà des indications très précieuses concernant la régularité des patrons d’expression, l’omniprésence des indications de localisation 80 et l’économie verbale des descriptions. Retour aux commentaires des textes relatifs au corpus de multiplex La place occupée par Unitex dans les manipulations de corpus que je réalise est importante et T4 était le premier texte à en témoigner en évoquant (au § 3.) les explorations opérées dans une ressource qui a également beaucoup compté dans mes recherches. Mais la fonction de T4 n’est pas seulement d’examiner des solutions techniques destinées à améliorer les potentialités des outils mobilisés. C’est le premier article qui présente précisément la notion de corpus à haut rendement et en défend la réalisation à travers celui constitué de commentaires de matchs de football radiodiffusés et transcrits (cf. § 2.). Parmi les articles rédigés à cette époque, c’est celui qui s’attache le mieux à objectiver la valeur du choix de ces documents primaires plutôt que des sources écrites (de presse généraliste ou spécialisée ou de sites Web footballistiques) pour leur rendement linguistique, T3 ayant plutôt valorisé l’intérêt lexicographique et T5, sur lequel je reviens ci-après, se concentrant sur la structuration des transcriptions et sur un mode d’exploration systématique conçu spécifiquement pour le corpus de multiplex. 1.3.3. Le haut rendement valorisé par des explorations méthodiques [T5 (2008b) ; Rcorp1 ; Rcorp3 ; Rdic3] Si T3 et T4 ont présenté le corpus de multiplex (Rcorp1) et montré ses qualités, aucun ne l’a précisément décrit. T5 revient sur la constitution du corpus de multiplex transcrits en reprenant succinctement (§ 1.) la présentation de la notion de corpus à haut rendement et son intérêt lexicographique quand l’objectif est « la description d’un large spectre d’emplois des items présents à la nomenclature », illustré par une sélection de ceux de l’adjectif dangereux, dont l’interprétation diffère sensiblement selon les contextes : Par exemple : – une chute dangereuse présente un danger physique apprécié négativement pour celui qui chute ; 80 Le corpus des quatre commentaires télévisuels et radiophoniques serbes et français (Rcorp16) relatifs au même match permettra d’évaluer si les localisations sont exprimées de manière comparable quand les descriptions sont entendues en voyant les images ou s’il y a une spécificité des commentaires qui sont associés à celles-ci. 54 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – un tacle dangereux présente un danger physique apprécié négativement pour le joueur victime du tacle (il s’agit d’une irrégularité commise par un joueur faisant ainsi courir un risque à l’intégrité physique d’un joueur de l’équipe adverse) ; – une action dangereuse présente un danger tactique apprécié positivement pour une des deux équipes (il s’agit d’une phase de jeu dans laquelle cette équipe se trouve en situation de marquer un but contre l’équipe adverse). Structuration informatique des transcriptions de multiplex Le § 2. présente différents aspects informatiques des modalités de constitution de Rcorp1. Ce sont d’abord les principes de transcription adoptés qui sont exposés, avec l’indication des différences de codification existant entre Rcorp1 et ceux élaborés et utilisés par l’équipe DELIC 81 (héritière du GARS, notoire pour ses corpus d’oral transcrit), qui sont motivées par la spécificité de leur tradition et par les objectifs propres à notre projet (§ 2.1.). La DTD 82 présentée au § 2.2. en figure 1 expose les règles de structuration des transcriptions et contient des commentaires associés aux éléments XML déclarés qui expliquent quelle est la nature de leur contenu. Celles-ci sont – pour partie inspirées des recommandations de la TEI et du CES 83 ; – et pour partie aussi conçues en fonction • de la nature particulière des données transcrites (ce qui a conduit par exemple à repérer des variations remarquables de prononciation qui n’ont usuellement pas leur place dans une transcription orthographique), • et des besoins spécifiques des explorations à venir, comme le repérage des noms de joueurs avec indexation de leur équipe de rattachement au moment de chaque match (afin de ne pas faussement interpréter plusieurs contextes du corpus où un même joueur est mentionné mais où il doit être perçu comme n’étant pas le même puisqu’il n’appartient pas dans chacun à la même équipe) et celui des types d’orateurs (qui permet d’étudier s’il y a des corrélations entre les manières de s’exprimer et le statut des locuteurs – reporters sur le terrain, animateurs en studio ou présidents de clubs interviewés par exemple). 81 82 83 L’équipe DELIC (Description Linguistique Informatisée sur Corpus) était une équipe d’accueil (EA 3779) de l’université de Provence. Elle a fusionné avec l’équipe CALN (Compréhension Automatique du Langage Naturel) le 1er janvier 2008 afin de constituer l’équipe TALEP (Traitement Automatique du Langage Écrit et Parlé), une composante du LIF (Laboratoire d’Informatique Fondamentale de Marseille, UMR 6166 du CNRS). Les notations adoptées pour les noms des constituants des balisages déclarés dans les DTD de mes premiers articles – les noms d’attributs dans T5, mais aussi ceux d’éléments dans T6 coécrit avec Pierre Corbin et T7 – ne sont pas conformes à l’usage devenu le plus commun, qui consiste à utiliser des chevrons pour encadrer les noms d’éléments (à la manière des balises ouvrantes sans attribut) et une arobase pour les noms d’attributs (à la manière de leur notation dans le code des transformations XSLT) – comme je le fais dans ce mémoire – alors que, dans mes premiers textes, les noms d’éléments sont encadrés par des « E » et les noms d’attributs par des « A ». Le choix fait à l’époque me semblait offrir un meilleur confort de lecture à des lecteurs non habitués aux codifications en XML, mais l’usage de ce métalangage s’est diffusé et je crois que l’adoption de l’emploi conventionnel des chevrons et de l’arobase s’avère maintenant préférable afin de ne pas multiplier les conventions d’écriture. Corpus Encoding Standard (cf. Ide & Véronis (1996)). Document de synthèse – 1.3. Préconiser le haut rendement 55 Les principes décrits et mis en œuvre pour Rcorp1 présentaient l’avantage de fournir la possibilité d’annoter très précisément, dans les textes des commentaires transcrits, des indications utiles pour les analyses linguistiques qui seraient effectuées ultérieurement (cf. figure 11, qui reproduit un extrait de la figure 2). Figure 11. Balisage d’un extrait de transcription conforme à la DTD définie pour Rcorp1 <!-- [réduction] --> du score ici au stade <ENTITY TYPE-OF-ENTITY="stade">Jean Laville</ENTITY> <ACCIDENTAL-PRONUNCIATION> <TRANSCRIPTION-OF-ACCIDENTAL-PRONUNCIATION>por</TRANSCRIPTION-OF-ACCIDENTALPRONUNCIATION> <SPELLING-OF-ACCIDENTAL-PRONUNCIATION>pour</SPELLING-OF-ACCIDENTAL-PRONUNCIATION> </ACCIDENTAL-PRONUNCIATION> <ENTITY TYPE-OF-ENTITY="equipe">Créteil</ENTITY> c’est <!-- […] --> oui ballon bordelais avec <REMARKABLE-UTTERANCE> <TRANSCRIPTION-OF-REMARKABLE-UTTERANCE>affolo</TRANSCRIPTION-OF-REMARKABLE-UTTERANCE> <SPELLING-OF-REMARKABLE-UTTERANCE>affolo</SPELLING-OF-REMARKABLE-UTTERANCE> <ANALYSIS-OF-REMARKABLE-UTTERANCE>apocope supposée de "affolement"</ANALYSIS-OF-REMARKABLEUTTERANCE> </REMARKABLE-UTTERANCE> de la défense troyenne <!-- […] --> Mais l’emploi d’un éditeur XML non dédié à la transcription de corpus oraux ne permettait pas de synchroniser les sources sonores transcrites aux textes des transcriptions, ce qui a motivé que je tente, pour ce faire, de recourir à un outil spécialisé. Le § 2. évoque ainsi les premières transcriptions alignées avec la source sonore effectuées en utilisant le logiciel Transcriber, qui présente l’avantage de permettre de revenir aisément au commentaire enregistré à tout moment, mais qui utilise une DTD prédéfinie peu paramétrable. La latitude qu’elle offre ne permettant pas d’intégrer tout ce qui était ajouté aux transcriptions orthographiques de Rcorp1 via le balisage, ces indications ont été enregistrées sous forme de “commentaires” (selon la terminologie de cet outil) – cf. figure 12 qui présence le même extrait que la figure 11 –, ce qui a compliqué aussi bien la reprise des transcriptions antérieurement saisies pour leur alignement avec leurs sources sonores sous Transcriber (puisqu’une partie des anciens éléments ont dû être convertis en commentaires) que le reformatage des transcriptions réalisées avec cet outil afin qu’elles se conforment à la DTD de Rcorp1 et soient ainsi manipulables selon les mêmes procédures d’exploration que celles qui constituent ce corpus. Figure 12. Balisage d’un extrait de transcription conforme à la DTD de Transcriber <!-- [réduction] --> du score ici au stade <Comment desc="STADE"/> Jean Laville <Comment desc="/STADE"/> 56 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia <Comment desc="ACCIDENTAL-PRONUNCIATION"/> <Comment desc="TRANSCRIPTION"/> por <Comment desc="/TRANSCRIPTION"/> <Comment desc="SPELLING"/> pour <Comment desc="/SPELLING"/> <Comment desc="/ACCIDENTAL-PRONUNCIATION"/> <Comment desc="EQUIPE"/> Créteil <Comment desc="/EQUIPE"/> c’est <!-- […] --> oui ballon bordelais avec <Comment desc="REMARKABLE-UTTERANCE"/> <Comment desc="TRANSCRIPTION"/> affolo <Comment desc="/TRANSCRIPTION"/> <Comment desc="SPELLING"/> affolo <Comment desc="/SPELLING"/> <Comment desc="ANALYSIS"/> apocope supposée de "affolement" <Comment desc="/ANALYSIS"/> <Comment desc="/REMARKABLE-UTTERANCE"/> de la défense troyenne <!-- […] --> Au moment de la rédaction de T5 la situation était insatisfaisante et seule une amélioration des transformations convertissant les transcriptions et/ou une simplification des indications ajoutées aurait pu permettre de continuer à employer Transcriber. Si aucun développement complémentaire n’a été engagé depuis pour convertir dans le format de cet outil les transcriptions de Rcorp1 qui ne l’étaient pas encore, il a récemment été mobilisé de nouveau pour celles des commentaires serbes et français de Rcorp16, dont les annotations introduites sont moins riches que celles du premier corpus (ce qui ne préjuge pas de leurs évolutions au fil des analyses). Modes d’exploration des commentaires radiodiffusés Une fois constitué, le corpus a naturellement vocation à être exploré. Au § 3., la comparaison des types de données repérées en exploitant trois modes de relevés – l’écoute, la lecture et l’exploration outillée avec Cordial Analyseur et Unitex travaillant en coopération (ce qui fait l’objet d’un renvoi à T4 en n. 18) – me conduit à valoriser l’utilité des explorations outillées, mais aussi à envisager que le rendement de ces dernières pourrait être assez largement conditionné par la capacité de l’analyste qui procède aux explorations à comprendre les énoncés extraits et à bien distinguer ce qu’il a rendu visible et qui est utile pour une description lexicale de ce qui est marginal (en tant que lié à un contexte particulier). Dans l’exposé de l’exploration outillée qui fait l’objet du § 3.3. figure toutefois un implicite qui mérite d’être relevé ici : le corpus de multiplex étant structuré en XML, son texte intègre donc un certain nombre de balises (cf. figure 2), or, quand j’évoque Document de synthèse – 1.3. Préconiser le haut rendement 57 l’étiquetage par Cordial Analyseur, je ne parle que du texte de la transcription orthographique 84, sans expliciter comment les transcriptions structurées sont converties en texte brut 85 ni comment, lors de cette conversion, certaines informations intégrées au balisage et jugées utiles pour les explorations à faire réaliser ensuite par Unitex sont introduites dans le texte principal. En l’occurrence, le seul élément évoqué, celui qui permet le repérage des noms de joueurs, n’est en outre pas celui qui s’avère le plus utile à conserver, dans la mesure où le dictionnaire de noms de joueurs qui a été élaboré pour Unitex (cf. § 1.3.2.) associe à chaque nom répertorié le ou les club(s) d’appartenance de chaque joueur et la période pertinente (dans les limites temporelles couvertes par le corpus). Cet implicite, dommageable pour la pleine compréhension des manipulations subies par les transcriptions en vue de leur exploitation documentaire, est perceptible dans ce retour sur mes textes où j’évoque T4, T5 et leurs articulations, mais il n’a pas d’incidence pour le développement particulier à T5, dont le propos se concentre sur des questions non pas informatiques mais de protocole exploratoire. Le § 4.1. débute par l’évocation de faiblesses de traitement observées à propos de différents concordanciers et volontiers jugées peu problématiques dans la mesure où les gros volumes de données dans les corpus explorés doivent rendre imperceptibles les approximations ou erreurs commises par ces outils et ne faire émerger que les analyses valides. N’explorant pas de gros corpus (Rcorp1 ne compte que 200 000 motsoccurrences), je n’ai pas expérimenté cette capacité des outils à masquer des sélections non pertinentes dans la masse des phénomènes pertinents observés, mais j’ai une défiance de principe vis-à-vis des traitements statistiques qui occultent des données de bonne qualité et utiles pour l’élaboration de descriptions lexicales précises au motif qu’elles sont peu fréquemment attestées en corpus. L’adéquation descriptive visée par le linguiste n’est pas à mon sens directement indexée sur l’usualité des phénomènes décrits et si les lexicographes ne retiennent parfois que les comportements les plus saillants des unités qu’ils décrivent, c’est en adéquation avec le projet du répertoire qu’ils élaborent. Or, justement, ce qui motive le développement des corpus footballistiques, tel qu’il est exposé dans T3, c’est de fournir le matériau utile pour la rédaction de descriptions précises du type de celles qui sont réunies dans le dictionnaire du football (Rdic3) que j’ai mis en chantier avec Pierre Corbin et les étudiants de la formation lilloise de lexicographes, dont le canevas d’article présenté en figure 13 donne une représentation provisoire 86 (je reviendrai infra sur la structure et le mode d’élaboration de ce répertoire) : 84 85 86 En n. 20, où je mentionne toutefois le balisage des noms de joueurs et l’attribut enregistrant l’appartenance de chacun à un club. Ce point est en partie expliqué dans T8 (§ 4.3.) à propos d’un autre corpus, celui qui a été livré dans le cadre du projet OURAL (P2). La n. 21 évoque comme exemple d’aboutissement dictionnairique déjà remarquable réalisé dans ce contexte la description du verbe décaler proposée par Gaël Gauvin (étudiant de la promotion 2002-2003 du DESS LTTAC). 58 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Figure 13. Article du verbe (se) dégager élaboré pour le dictionnaire des actions de jeu du football (Rdic3) DÉGAGER ou SE DÉGAGER (verbe) I. Pour les joueurs de champ d’une équipe, frapper le ballon de manière à se libérer de la pression qu’exerce l’équipe adverse et éventuellement à inverser le cours du jeu. Les deux verbes utilisés pour la description de cette action (“frapper” et “se libérer”) expriment la dualité de celle-ci : à proprement parler, se dégager c’est, pour une équipe, se libérer de l’emprise adverse et dégager (le ballon) c’est, pour un joueur, frapper le ballon pour parvenir à cette fin, mais il arrive que les commentateurs utilisent aussi la forme non pronominale pour référer à une action collective et la forme pronominale pour référer à un geste individuel, ce qui motive de conjoindre ces deux emplois verbaux dans la même description. 1. Pour les défenseurs d’une équipe, il s’agit d’une action concertée consistant à faire sortir le ballon de la zone proche du but qu’ils défendent. Une action de jeu individuelle (comme une interception de balle) peut être à l’origine de cette construction collective. ([équipe X] ou [composante de équipe X]) (se)? dégager [ballon]? • ballon toujours contrôlé finalement par la défense lilloise qui va pouvoir se dégager • une tête qui permet aux Grenoblois de se dégager • Bastia parvient à dégager • la défense nantaise parvient à dégager la balle 2. Pour un joueur agissant individuellement, cette action peut consister à éloigner le ballon du but de son équipe. [ joueur de champ x] dégager [ballon]? c’est Soumah le libéro de l’équipe bastiaise qui a pu intervenir au point de penalty et dégager on a cru que Saveljic le défenseur sochalien allait pouvoir dégager ce ballon 3. Pour un joueur agissant individuellement, cette action peut consister à envoyer le ballon hors du terrain (en touche ou derrière la ligne de but de son équipe) faute d’avoir trouvé un autre moyen de réduire la pression exercée par l’équipe adverse. La sortie du ballon induit une interruption de jeu. • • [ joueur de champ x] dégager [ballon]? (en [lieu externe])? • • • Ferreira pour euh Bastia parvient à dégager en touche Mexès qui était revenu […] dégager ce ballon qui est allé bien entendu en sortie de corner Ferreira sur la ligne qui dégage en catastrophe en corner II. Pour un gardien de but, frapper le ballon de manière à l’éloigner du but de son équipe et à libérer ainsi celle-ci de la pression qu’exerce l’équipe adverse, en inversant éventuellement le cours du jeu. 1. Cette action peut consister pour un gardien à se substituer à un défenseur pour envoyer la balle loin de son but, ce qu’il peut faire comme les autres joueurs ou en usant de ses mains. [gardien de but x] dégager [ballon]? (en [lieu externe])? Malicki le gardien lillois a dû sortir et dégager au pied au-devant de Mansare superbe détente du gardien marseillais pour dégager d’une claquette ce ballon en corner 2. Cette action peut consister pour un gardien à renvoyer vers le camp adverse le ballon qu’il vient de bloquer de ses mains. • • [gardien de but x] (se)? dégager (pour [équipe X bénéficiaire])? (pour [ joueur de champ x’ destinataire])? il peut tirer mais dans les bras de Fabien Cool qui va pouvoir dégager pour Auxerre ce ballon qui navigue dans la surface et qui finalement atterrit dans les bras de Penneteau qui va pouvoir se dégager 3. Après un arrêt de jeu induit par la sortie du ballon au-delà de la ligne des six mètres, cette action peut consister pour un gardien à relancer le ballon au pied d’un angle de la zone de but vers le camp adverse. Dans ce contexte, le gardien peut éventuellement être nommé métonymiquement par le nom de son équipe ([gardien de but x] ou [équipe X]) (se)? dégager aux six mètres • Grégorini peut tranquillement dégager aux six mètres • il frappe finalement son ballon est beaucoup trop enlevé passe à deux trois mètres de la lucarne de Teddy Richert qui va pouvoir se dégager • Nice peut se dégager aux six mètres • • Document de synthèse – 1.3. Préconiser le haut rendement 59 Deux finalités lexicographiques de l’exploration de corpus sont par ailleurs abordées au § 4.1. – le repérage des unités linguistiques qu’il est utile de décrire du fait de leur usage effectif et l’extraction de contextes typiques utilisables directement ou reformulables en contextualisations informatives et autosuffisantes à intégrer aux descriptions des items figurant à la nomenclature –, avant que ne soit présenté au § 4.2. ce qui constitue certainement l’apport le plus original des travaux relatifs au corpus de multiplex : l’articulation des descriptions lexicales sur une “ontologie des actions de jeu”. Rcorp3 : une “ontologie des actions de jeu du football” Pour permettre d’explorer le corpus de multiplex sans passer à côté de données linguistiques intéressantes alors que mon expérience d’auditrice de retransmissions de matchs de football se limitait à peu près à l’écoute des commentaires transcrits et que celle des étudiants de DESS LTTAC était variable mais souvent pas supérieure à la mienne, ce qui laissait présager une certaine faiblesse de notre capacité à capter les emplois remarquables et suffisamment installés dans l’usage pour être à repérer, une méthode de recherche guidée par l’analyse préalable de ce qui pouvait être trouvé a été mise au point. Prenant la forme d’un inventaire systématique des actions de jeu à exploiter pour associer à chacune les diverses modalités de ses descriptions attestées dans les commentaires de matchs, ce protocole, élaboré avec Pierre et François Corbin 87 et le concours des étudiants du DESS LTTAC, a été nommé “ontologie des actions de jeu” parce qu’il type chaque type d’action en fonction de quatre critères : (i) son caractère offensif, défensif ou neutre ; (ii) le fait que les gestes qu’elle implique soient accomplis avec ou sans le ballon ; (iii) le fait qu’elle se déroule dans le cours du jeu, pendant un arrêt de jeu ou lors d’une remise en jeu ; et (iv) le fait qu’elle implique un joueur individuellement (joueur de champ ou gardien de but) ou en interaction avec un ou plusieurs autres. Un extrait en est fourni dans T5 en figure 3 (cf. ci-dessous figure 14) 88. Les exemples lexicaux lemmatisés présentés en troisième colonne intègrent des étiquettes comme N-JOUEUR-DE-CHAMP-ÉQUIPEi qui explicitent bien la nature du référent qui doit être désigné, alors que d’autres comme A-ETHNIQUEi ou ÉVÉNEMENT pourraient être renommées afin de présenter une meilleure adéquation descriptive. Par ailleurs, le dernier exemple n’est pas analysé de manière tout à fait appropriée, puisque, quand un gardien dégage pour une équipe, elle bénéficie de l’action en ayant l’occasion d’attaquer, mais que, si un joueur de l’équipe adverse est à la réception, le gardien n’a pas “donné la balle” à son équipe comme l’indique le type d’action de jeu en deuxième colonne. 87 88 François Corbin, qui préparait alors une thèse sur les iconographies dans les dictionnaires et avec qui j’ai travaillé sur la base iconographique (Rbd2) présentée au § 2.3.3., nous a fait profiter de son expertise footballistique. Cf. aussi P. Corbin (2005, § 5.). 60 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Figure 14. Vue d’un fragment de l’ontologie des actions de jeu [cf. T5 figure 3] COMBINAISONS PERTINENTES DES VALEURS DES PARAMÈTRES D’ANALYSE DES TYPES D’ACTIONS TYPES D’ACTIONS DE JEU EXEMPLES LEXICAUX LEMMATISÉS ÉNONCÉS N-JOUEUR-DE-CHAMP-ÉQUIPEi tacler DET ballon défensif individuel sans ballon dans le déroulement du jeu défensif individuel sans ballon induisant une interruption de jeu intercepter la balle faire une faute (avec le pied) N-JOUEUR-DE-CHAMP-ÉQUIPEi tacler N-JOUEUR-DE-CHAMP- défensif collectif avec ballon dans le déroulement du jeu faire sortir la balle du terrain se dégager de l’emprise adverse N-JOUEUR-DE-CHAMP-ÉQUIPEi tacler dans les pieds de NJOUEUR-DE-CHAMP-ÉQUIPEj (c) tacle glissé (d) tacle dangereux (e) tacle (relativement + Ø) appuyé (f ) tacle (absolument + Ø) assassin (g) tacle par derrière (h), (i) tacle sur N-JOUEUR-DE-CHAMP- donner la balle (h), (i) (très + Ø) vilain tacle (i) N-JOUEUR-ÉQUIPEi dégager en corner (j) N-JOUEUR-ÉQUIPEi dégager en touche (k) la défense A-ETHNIQUEi s’être dégagée (l) ÉVÉNEMENT permettre à la défense A-ETHNIQUEi de se dégager (m) ÉVÉNEMENT permettre aux GENTILÉi de se dégager offensif individuel avec ballon dans le déroulement du jeu (b) ÉQUIPEj ÉQUIPEi défensif individuel avec ballon induisant une interruption de jeu (a) N- (n) N-GARDIEN-DE-BUT-ÉQUIPEi dégager pour N-JOUEUR-DECHAMP-ÉQUIPEi (o) N-GARDIEN-DE-BUT-ÉQUIPEi dégager pour N-ÉQUIPEi (p) Cette ontologie et les modalités d’exploration du corpus indexées sur elle sont présentées en veillant à montrer comment, à partir d’une sélection d’énoncés extraits, le recours à cet inventaire typé des actions de jeu améliore la perception et donc l’adéquation descriptive par rapport aux actions commentées et conjointement aux propriétés linguistiques des expressions relevées. Au moment de la constitution de cette ontologie des actions de jeu, notre ambition était de réaliser un dictionnaire de celles-ci (Rdic3) avec les étudiants du DESS LTTAC, pour qui cela constituait un travail pratique correspondant à une tâche possible de leur avenir professionnel. Document de synthèse – 1.3. Préconiser le haut rendement 61 Rdic3 : un dictionnaire des actions de jeu du football Ce dictionnaire a été conçu pour être consulté sur support électronique, sa structure XML et son mode discursif ayant été définis de manière à ce qu’il soit possible de proposer la consultation de deux versions à partir du même texte rédigé 89 : – un accès thématique reprenant les quatre caractérisations de l’ontologie des actions de jeu (Rcorp3) pour donner accès aux descriptions des modes d’expression de chacune ; – et un classement alphabétique, les têtes lexicales verbales ou nominales des syntagmes qui expriment chaque action constituant les adresses principales des articles (comme « DÉGAGER ou SE DÉGAGER (verbe) » supra, en figure 13). Le balisage XML intègre des éléments dont le contenu textuel est caractérisé par un jeu d’attributs qui permet de redéployer les textes dans d’autres contextes : chaque description de sens figurant dans l’explication placée avant les exemples d’emploi dans un article de la version alphabétique comme celui présenté supra se trouve ainsi réinsérable à la demande, accompagnée de son patron de construction syntaxico-sémantique et de la ou des contextualisation(s) qui l’illustre(nt), dans le regroupement thématique correspondant, une transformation XSLT assurant ces manipulations. La DTD présentée en figure 15 articule des enchâssements d’éléments (matérialisés par les retraits à droite des sous-éléments) et des attributs portés par un élément, son élément parent ou un élément collatéral de même rang, qui permettent de caractériser de manière distincte la description du sens des principales acceptions de l’item décrit et des descriptions des emplois particuliers relevant de chacune. Figure 15. DTD du dictionnaire des actions de jeu du football (Rdic3) <dictionnaire-des-actions-de-jeu> <description-lexicale>+ <adressage-principal> <forme-graphique-item-decrit>+ @categorisation-grammaticale <description-acception>+ <!-- subdivision introduite par un ordonnateur en chiffres romains dans l’article de la figure 13 --> <definition> @id-definition @def-OU-off-OU-neutre <!-- valeurs : “défensive” ou “offensive” ou “neutre” --> @ind-OU-gardien-OU-coll <!-- valeurs : “individuelle” ou “individuelle propre au gardien” ou “collective” --> @avec-OU-sans <!-- valeurs : “avec” ou “sans” ballon --> @deroul-OU-arret-OU-remise <!-- valeurs : “déroulement” du jeu ou “arrêt” (quand l’action induit une interruption de jeu) ou “remise” (quand l’action se situe au moment de la remise en jeu) --> ( <texte-definitionnel-obligatoire> OU <texte-definitionnel-specifique> 89 Le principe de rédaction de descriptions qui peuvent donner lieu à des regroupements thématiques ou à un ordonnancement alphabétique a été repris lors de la conception d’un dictionnaire scolaire innovant présenté dans T17 § 3.2.2.1. (cf. § 2.7.2.), où les modalités de rédaction et de présentation d’un texte affichable par segments en fonction des besoins des utilisateurs sont mieux explicitées qu’il n’est possible de le faire ici. 62 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia @type-article <!-- l’attribut @type-article sert à préciser si le texte optionnel doit être affiché dans les articles “alphabétiques” ou “thématiques” --> )+ <description-d-emploi>* <!-- subdivision introduite par un ordonnateur en chiffres arabes dans l’article de la figure 13 --> @id-description-emploi @id-ref-definition 90 <definition-emploi>? @id-definition-emploi <!-- les attributs suivants sont optionnels et employés seulement si leur valeur doit différer de celle déclarée pour le même attribut dans l’élément <definition> --> @def-OU-off-OU-neutre <!-- valeurs : “défensive” ou “offensive” ou “neutre” --> @ind-OU-coll <!-- valeurs : “individuelle” ou “individuelle propre au gardien” ou “collective” --> @avec-OU-sans <!-- valeurs : “avec” ou “sans” ballon --> @deroul-OU-arret-OU-remise <!-- valeurs : “déroulement” du jeu ou “arrêt” (quand l’action induit une interruption de jeu) ou “remise” (quand l’action se situe au moment de la remise en jeu) --> ( <texte-definitionnel-obligatoire> OU <texte-definitionnel-specifique> @type-article <!-- l’attribut @type-article sert à préciser si le texte optionnel doit être affiché dans les articles “alphabétiques” ou “thématiques” --> )+ ( <patron> @id-patron @id-ref-definition-emploi ( <V-tete-lexicale> OU <N-tete-lexicale> OU <actant> @id-actant @id-ref-actant <!-- en cas de disjonction entre les actants “gardien de but” ou “équipe”, chacun réfère à l’autre --> @typage-syntaxique @typage-referentiel OU <ballon> OU <localisation-spatiale> OU <localisation-temporelle> )+ 90 Alors que les attributs @id-… sont des identificateurs qui ont une valeur distincte pour chaque élément qui les porte puisqu’elle sert à les identifier, les attributs @id-ref-… permettent de référer aux éléments qui portent les valeurs d’identificateur correspondantes, plusieurs éléments différents pouvant référer au même porteur d’identificateur unique. Dans la DTD, chaque élément <definition> est identifié de manière unique et les éléments <description-d-emploi> qui lui correspondent enregistrent la valeur de son @id-definition comme valeur de leur @id-ref-definition. Document de synthèse – 1.3. Préconiser le haut rendement 63 <contexte-cite>+ @id-contexte @id-ref-definition-emploi )+ Dans l’article dégager ou se dégager en figure 13, la première acception du verbe est codée dans le balisage comme désignant une action défensive réalisée avec le ballon : <definition @id-definition="dégager_I" @def-OU-off-OU-neutre="def" @avec-OU-sans="avec"> <texte-definitionnel-obligatoire> Pour les joueurs de champ d’une équipe, frapper le ballon de manière à se libérer de la pression qu’exerce l’équipe adverse et éventuellement à inverser le cours du jeu. </texte-definitionnel-obligatoire>. <texte-definitionnel-specifique type-article="alphabetique"> Les deux verbes utilisés pour la description de cette action (“frapper” et “se libérer”) expriment la dualité de celle-ci : à proprement parler, se dégager c’est, pour une équipe, se libérer de l’emprise adverse, et dégager (le ballon) c’est, pour un joueur, frapper le ballon pour parvenir à cette fin, mais il arrive que les commentateurs utilisent aussi la forme non pronominale pour référer à une action collective et la forme pronominale pour référer à un geste individuel, ce qui motive de conjoindre ces deux emplois verbaux dans la même description. </texte-definitionnel-specifique> </definition> Mais, selon les emplois de ce verbe, d’autres caractéristiques sont ajoutées, pour indiquer, pour le premier emploi, que c’est l’équipe collectivement qui se dégage et qu’elle le fait dans le cours du jeu ou, pour le troisième emploi, que c’est un joueur qui le fait individuellement, provoquant ainsi un arrêt de jeu : <definition-emploi @id-definition-emploi="dégager_I_1" @ind-OU-coll="coll" @deroul-OU-arret-OU-remise="deroul"> <texte-definitionnel-obligatoire> Pour les défenseurs d’une équipe, il s’agit d’une action concertée consistant à faire sortir le ballon de la zone proche du but qu’ils défendent. Une action de jeu individuelle (comme une interception de balle) peut être à l’origine de cette construction collective. </texte-definitionnel-obligatoire> </definition-emploi> <definition-emploi @id-definition-emploi="dégager_I_3" @ind-OU-coll="ind" @deroul-OU-arret-OU-remise="arret"> <texte-definitionnel-obligatoire> Pour un joueur agissant individuellement, cette action peut consister à envoyer le ballon hors du terrain (en touche ou derrière la ligne de but de son équipe) faute d’avoir trouvé un autre moyen de réduire la pression exercée par l’équipe adverse. </texte-definitionnel-obligatoire> <texte-definitionnel-specifique type-article="alphabetique"> La sortie du ballon induit une interruption de jeu. </texte-definitionnel-specifique> </definition-emploi> Les déclarations d’attributs de valeurs différentes pour les définitions d’emplois permettent de les redistribuer dans des regroupements thématiques, comme c’est le cas pour l’action individuelle provoquant une interruption de jeu en figure 16 (où il est par ailleurs loisible d’observer que la dernière phrase de la définition présentée 64 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia dans l’article alphabétique (cf. figure 13) n’est pas affichée, puisqu’elle serait redondante avec le fait que la description figure dans ce regroupement thématique). Figure 16. Article du verbe (se) dégager reformaté pour le regroupement thématique « Actions défensives, individuelles, réalisées avec le ballon, et provoquant une interruption de jeu » du dictionnaire des actions de jeu du football (Rdic3) ACTIONS DÉFENSIVES, INDIVIDUELLES, RÉALISÉES AVEC LE BALLON, ET PROVOQUANT UNE INTERRUPTION DE JEU […] DÉGAGER ou SE DÉGAGER (verbe) Pour un joueur agissant individuellement, cette action peut consister à envoyer le ballon hors du terrain (en touche ou derrière la ligne de but de son équipe) faute d’avoir trouvé un autre moyen de réduire la pression exercée par l’équipe adverse. [ joueur de champ x] dégager [ballon]? (en [lieu externe])? • • • Ferreira pour euh Bastia parvient à dégager en touche Mexès qui était revenu […] dégager ce ballon qui est allé bien entendu en sortie de corner Ferreira sur la ligne qui dégage en catastrophe en corner Plus généralement, dégager ou se dégager signifie : Pour les joueurs de champ d’une équipe, frapper le ballon de manière à se libérer de la pression qu’exerce l’équipe adverse et éventuellement à inverser le cours du jeu. § des ACTIONS DÉFENSIVES, COLLECTIVES, RÉALISÉES AVEC LE BALLON, DANS LE COURS DU JEU : ([équipe X] ou [composante de équipe X]) (se)? dégager [ballon]? § des ACTIONS DÉFENSIVES, INDIVIDUELLES, RÉALISÉES AVEC LE BALLON, DANS LE COURS DU JEU : [ joueur de champ x] dégager [ballon]? Par ailleurs, dégager ou se dégager signifie : Pour un gardien de but, frapper le ballon de manière à l’éloigner du but de son équipe et à libérer ainsi celle-ci de la pression qu’exerce l’équipe adverse, en inversant éventuellement le cours du jeu. § des ACTIONS DÉFENSIVES, PROPRES AUX GARDIENS, RÉALISÉES AVEC LE BALLON, DANS LE COURS DU JEU : [gardien de but x] dégager [ballon]? (en [lieu externe])? § des ACTIONS DÉFENSIVES, PROPRES AUX GARDIENS, RÉALISÉES AVEC LE BALLON, DANS LE COURS DU JEU : [gardien de but x] (se)? dégager (pour [équipe X bénéficiaire])? (pour [ joueur de champ x’ destinataire])? § des ACTIONS OFFENSIVES, PROPRES AUX GARDIENS, RÉALISÉES AVEC LE BALLON, LORS D’UNE REMISE EN JEU : ([gardien de but x] ou [équipe X]) (se)? dégager aux six mètres La rédaction des articles a été engagée avec la promotion 2002-2003 de la formation de lexicographes. Les productions étudiantes étaient souvent intéressantes, mais toutes n’étaient pas assez abouties pour être intégrables à Rdic3, même en les retravaillant, et je n’ai pas encore réussi à consacrer le temps nécessaire à l’élaboration de ce dictionnaire thématique et alphabétique électronique, qui n’est pour l’heure qu’un prototype (comme mes autres productions dictionnairiques, cf. § 2.7.3.). Il est cependant patent qu’il a joué un rôle important dans mes recherches – en stimulant les explorations de corpus et en m’amenant à concevoir une double présentation du texte dictionnairique – mais aussi en formation, comme en témoigne en particulier la structure XML, très directement inspirée d’une première version de celle de Rdic3, conçue pour un dictionnaire de Grec Langue Étrangère que Georgia Nikolaou et Chaïdo Alexiadou, deux étudiantes de la formation lilloise (respectivement des promotions 2002-2003 et 20062007 (2008 pour le mémoire Mdir72)), élaborent à l’université de Thessalonique sous la direction d’Anna Anastassiadis. Document de synthèse – 1.3. Préconiser le haut rendement 65 1.3.4. Expérience bilingue : le corpus serbe / français [P3 ; Rcorp16] Du point de vue de la recherche, le dictionnaire des actions de jeu n’a pas connu de diffusion et n’a donc pas suscité de collaborations, mais les travaux sur le corpus de multiplex et les corpus d’écrits qui lui ont été comparés ont fait que j’ai été identifiée comme travaillant sur des corpus footballistiques. Le corpus de multiplex (Rcorp1), qui a été conçu pour nous donner les moyens de mener des explorations ciblées et de bon rendement, a joué son rôle tant, pour moi, dans le cadre de l’expérimentation de techniques de constitution et d’exploration de corpus efficaces que dans celui de la formation lilloise de lexicographes (qu’il s’agisse des travaux menés sur ce corpus et qui ont été présentés supra ou de ceux inspirés des premiers et réalisés pour les mémoires sur Rcorp1 ou sur d’autres corpus compilant des énoncés d’une technicité mesurée afférents à différents domaines : divers sports – le cyclisme, l’escrime et la Formule 1 –, mais également des thématiques variées donnant lieu à des productions orales ou textuelles spécifiques 91 ). 92 Laissé quelque temps de côté au profit d’autres travaux, le corpus de multiplex attendait d’être repris afin que soit poussée plus loin l’étude linguistique des énoncés transcrits, que ce soit – pour faire avancer le dictionnaire alphabétique et thématique des actions de jeu qui vient d’être évoqué ; – pour cibler des modes d’expression plus particuliers, comme celui des localisations dans l’espace du terrain (les joueurs peuvent être là-bas, sur le côté droit ou gauche, etc., ce qui correspond à des localisations relatives et approximatives complémentaires de celles qui, comme le rond central ou la surface de réparation, matérialisent sur le terrain des repères objectifs fixes) ; 91 92 L’ensemble des mémoires est listé en n. 17 et présenté dans la rubrique « Inventaires ». Concernant les divers sports, il s’agit de football (Mdir107 (Niobey (2010))), d’escrime (Mdir90 (Markezi (2010))) et de Formule 1 (Mdir105 (Falcone (2010))). Les autres mémoires ayant donné lieu à des élaborations de corpus pour lesquels le haut rendement était visé étaient relatifs à : – des activités professionnelles : l’élevage porcin (Mdir15 (Bloquet (2003))) et le dressage de chevaux (Mdir22 (Martinucci (2003))), la restauration et l’hôtellerie (Mdir17 (Campion (2003))), l’immobilier (Mdir26 (Bourdeau (2004))), l’automobile (Mdir78 (Guevara (2009))) ; – des questions administratives ou juridiques : les administrations (Mdir27 (Bourgeois (2004))), l’importexport (Mdir43 (Mahieu (2005))) et l’Assurance Maladie (Mdir89 (Leveau (2010))) ; – un courant d’opinion : l’altermondialisme (Mdir29 (Jouet (2004))) ; – des activités de loisir : les jeux de rôles (Mdir14 (Yaigre (2002))) et de plateau (Mdir37 (Buschhaus (2005))) et l’enregistrement en studio et l’autoproduction (Mdir38 (Deguernel (2005))) ; – et des sciences et techniques : les mathématiques (Mdir16 (Brabant (2003))), la linguistique (Mdir23 (Mostrov (2003)) et Mdir24 (Nikolaou (2003))), l’informatique (Mdir25 (Boian (2004))) et le TAL (Mdir35 (Aroumougame (2006))). Des indices annonciateurs de l’intérêt pour les lexiques thématiques qui s’est cristallisé à partir de Rcorp1 peuvent être trouvés dès 2002 dans des mémoires consacrés à des sports – comme le rugby (Mdir13 (Rouleux (2002))) – ou à d’autres domaines – comme l’ingénierie nucléaire (Mdir8 (Andreu (2002))). Après son DESS, Sophie Rouleux, devenue épouse Lavignasse, a élaboré son dictionnaire avec le soutien de Jean Pruvost. Le rôle de la formation lilloise dans la genèse de cet ouvrage est indiqué dans sa préface (Lavignasse (2010 : 17)). 66 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – ou encore pour reprendre l’étude des variations de forme des entités nommées que le balisage fonctionnel des noms de joueurs, d’équipes, de stades, etc. 93 rend possible. Par exemple, pour dénommer les joueurs de l’équipe d’Auxerre, on trouve dans Rcorp1 des occurrences de Auxerre, l’AJ Auxerre, l’équipe d’Auxerre, l’équipe de Guy Roux, les Auxerrois, les Auxerrois de Guy Roux, les Bourguignons, les hommes de Guy Roux, les joueurs d’Auxerre, les joueurs de Guy Roux. On pourrait encore, dans un corpus plus riche, rencontrer formation ou sélection pour nommer génériquement le groupe des joueurs et icaunais comme identifiant localisateur combiné avec les différents noms communs ou employé seul comme nom propre, ou encore l’AJA comme dénomination synthétique. La réactivation de la thématique footballistique s’est faite récemment dans le cadre d’un projet – P3 (cf. n. 14 et §§ 1.3. (introduction), 1.3.4. et 1.5.2.) – porté depuis 2008 par Dejan Stosic, linguiste serbophone en poste à l’université d’Arras, qui a participé au séminaire “Constitution et exploration de corpus” (S1) que j’avais proposé et animé en 2006-2007 (cf. § 1.5.1.). Parmi d’autres travaux (cf. rubrique « Inventaires »), le projet arrageois consiste à élaborer un corpus footballistique serbe / français de commentaires radiodiffusés et télévisuels de deux matchs de qualification pour la Coupe du Monde 2010 opposant les équipes de France et de Serbie (Rcorp16), qui doit nous permettre de confronter les expressions des descriptions des mêmes actions, des placements sur le terrain, etc. dans les deux langues, ce qui pourra être l’occasion de revenir à l’étude des commentaires de football via la collaboration avec Dejan Stosic, dont le bilinguisme enrichira notre expérience par la comparaison de ce qui sera observé en français avec ce qui pourra l’être en serbe. Au moment de la rédaction de ce document de synthèse, les droits d’exploitation sont acquis auprès des radios et télévisions et les transcriptions orthographiques des commentaires footballistiques (réalisées avec Transcriber afin d’aligner les sources sonores avec elles (cf. § 1.3.3.)) sont en cours d’achèvement. L’objectif étant de pouvoir confronter les expressions dans les deux langues et sur les deux médias, il convient de pouvoir repérer dans les quatre transcriptions les énoncés qui correspondent les uns aux autres quand ils existent. Dans la mesure où les quatre narrations sont relatives aux mêmes événements, un premier alignement doit être fait sur la base du temps de match écoulé. Il ne garantira pas un alignement des énoncés (ceux-ci peuvent d’ailleurs ne pas être coprésents dans les deux langues et sur les deux médias, leur codisponibilité dépendant de ce qui a focalisé l’attention des différents commentateurs), mais il permettra de trouver, quand elles existent dans les transcriptions, les descriptions en temps réel de ce qui se déroule sur le terrain. Pour ce qui concerne les faits relatés avec un décalage dans le temps (lors de synthèses – en particulier après la mi-temps – ou de rappels d’événements précédents), le repérage de leur récit pourra être fait durant les relectures et des pointeurs mis en place dans le balisage du corpus. 93 Le balisage de ces noms permet de savoir à quoi réfère chacun sans avoir besoin de mémoriser les constitutions des équipes de la saison 2002-2003 ou de connaître les variantes de noms de stades ou les surnoms de certains acteurs du football français par exemple. Document de synthèse – 1.3. Préconiser le haut rendement 67 Outre ses spécificités déjà évoquées ici ou précédemment (en introduction du § 1.3. en particulier), le fait que ce corpus bilingue ne soit constitué que de commentaires intégraux des deux mêmes matchs doit permettre d’y trouver une représentation des différentes sortes d’actions de jeu plus équilibrée que dans les multiplex et (plus encore) dans les commentaires écrits synthétiques de matchs en direct sur Internet ou de la presse spécialisée ou généraliste, dans lesquels la focalisation sur les événements les plus marquants tend à induire une surreprésentation des actions qui se déroulent à proximité des buts des équipes. 1.3.5. Conclusion : aborder le rendement exploratoire des corpus par le typage discursif des documents qui les constituent Conçu comme devant fournir un terrain d’expérimentation, le corpus footballistique Rcorp1 a permis de préconiser de manière argumentée le recours à des corpus de taille modeste dont les documents primaires sont sélectionnés minutieusement en fonction de leur rendement pour la documentation d’usages linguistiques particuliers. Les constitutions et explorations de ce corpus et de ceux créés afin d’évaluer contrastivement le premier (le corpus de presse écrite spécialisée, Rcorp2, et celui de documents issus du Web, Rcorp4) ont donné lieu à trois publications (qui traitent assez largement des manipulations informatiques subies par les commentaires compilés) et ont induit l’élaboration de deux ressources complémentaires (l’ontologie et le dictionnaire des actions de jeu, Rcorp3 et Rdic3). L’axage plutôt technique des premiers travaux était nécessaire, puisqu’il donnait les moyens de présenter ce qui motivait la conception de Rcorp1, et était en cohérence avec mes premières préoccupations dans le cadre de ce projet puisque j’en ai assuré la conception et la gestion informatique. Une fois les transcriptions de Rcorp1 et les documents de Rcorp2 et 4 réunis en corpus et les modalités exploratoires définies, les analyses linguistiques pouvaient prendre leur juste place. Les travaux rédactionnels effectués pour Rdic3, entrepris d’abord avec les étudiants, n’ont pas encore donné lieu à publication, mais ils m’ont permis de mieux percevoir les particularités des modes discursifs des différents types de commentaires. En effet, partant de ceux explorés de manière systématique dans Rcorp1 et prêtant depuis une attention particulière à ceux rencontrables sur les autres médias comme à ceux qui continuent à être formulés dans le cadre des multiplex, j’ai conforté ma conviction que les différences de médium d’expression et de positionnement dans le temps de la narration par rapport aux événements rapportés ont une influence forte sur les choix d’expression. Par exemple, les commentaires oraux en direct recourent beaucoup à des pronoms relatifs pour articuler les procès et comportent plus de verbes processifs que résultatifs alors que les commentaires écrits appelés “matchs en direct” sur Internet, qui correspondent en fait à de très légers différés, comptent moins de relatives et moins de verbes processifs : ainsi, lorsqu’un reporter radio dit « Bugnet qui essaye de trouver Roudet sur la droite », un commentateur Web pourra écrire simplement « Roudet est trouvé sur la droite », ce qui est un type de formulation absent de Rcorp1. 68 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Par ailleurs, si Rcorp1 semble avoir un bon rendement exploratoire selon les tests que j’ai réalisés, il a également ses limites, induites pour partie par la modestie de sa taille et pour partie par le fait que, dans le cadre des multiplex, les événements les plus remarquables occupent une place de choix dans les prises de parole au détriment d’actions moins spectaculaires qui, étant plus rarement racontées, peuvent induire des vides lexicaux. P. Corbin (2008a) a cependant montré, concernant les verbes de transmission de balle, que ce corpus procure un matériau beaucoup plus riche que la plupart des répertoires spécialisés, ce qui confirme mes observations de T3, et que seul le dictionnaire de Lesay (2006) soutient la comparaison. Ce dictionnaire offre des descriptions de qualité, sérieuses et précisément documentées 94, notamment par un recours important à des sources Web, et en particulier les matchs en direct, qui sont les textes écrits les plus proches des commentaires oraux en temps réel : « Pour attester de l’emploi – souvent volatil – d’un vocabulaire aussi imagé que celui du football, notre ouvrage s’appuie en partie sur un phénomène nouveau : le commentaire de match en direct sur Internet, créateur d’une véritable oralité écrite. Les web-reporters mettent en effet noir sur blanc les mots et expressions des reporters radio ou télé, ce que la presse écrite traditionnelle, parce qu’elle ne commente pas l’événement à chaud, n’avait jamais su faire. » (Lesay (2006 : 9)) L’appui de ce dictionnaire sur cette ressource documentaire récente offre des perspectives de comparaison intéressantes avec les commentaires radiodiffusés, qui permettent de repérer – ce qui est décrit en son sein mais qui ne s’entend pas usuellement et ne figure pas dans Rcorp1 : C’est le cas par exemple des noms cuir ou courge donnés au ballon à l’écrit mais moins ou pas à l’oral (le premier est attesté une fois dans Rcorp1, le second pas du tout). C’est également le cas d’expressions figurées référant à un mode de défense hermétique comme fermer la boutique, à une défaite sévère comme dégelée, etc., qui peuvent ne pas être absentes à l’oral mais y ont une place moindre. – ce qui y est décrit et qui diffère au moins partiellement de ce qui a été relevé dans Rcorp1, en particulier concernant la délimitation pertinente des unités linguistiques à traiter : Quand Lesay (2006) retient dégager en touche et dégagement aux six mètres s.v. dégager, il opère deux choix consistant, le premier, à suggérer que les localisateurs en touche et aux six mètres sont employables avec le verbe comme avec le nom, ce que Rcorp1 confirme, et le second, à valoriser ces deux localisations, ce qui est motivé par la valeur particulière des six mètres (la limite de la surface de but) et par le fait que le ballon sort souvent en touche quand il est dégagé, mais qui semble clore la combinatoire lexicale alors que le ballon peut également être dégagé en corner, comme en témoigne Rcorp1. 94 Concernant le rugby, une appréciation comparable pourrait être portée sur le dictionnaire de Lavignasse (2010). Document de synthèse – 1.3. Préconiser le haut rendement 69 ou les rections verbales : Lesay (2006) décrit par exemple centrer comme signifiant « Frapper la balle vers le centre du terrain » (ce qui n’est valide qu’en prenant comme repère l’axe longitudinal de celui-ci), mais ne relève pas centrer ( pour + sur) la tête de Njoueur, attesté dans Rcorp1. – et ce qui n’y est pas décrit bien qu’attesté dans le corpus : Quelques verbes de transmission de balle sont attestés dans Rcorp1 mais absents de la nomenclature de Lesay (2006) : adresser, glisser, mettre (le ballon) ; chercher, lancer (un joueur) ; etc. Ce dictionnaire cependant, s’il indique les sources des textes qu’il cite, ne fournit en revanche pas d’indications de portée générale sur les types de textes où s’observent les items décrits, ce qui, pour rester sur l’exemple des verbes de transmission de balle décrits, ne permet pas de distinguer s’ils peuvent être employés dans les commentaires en direct ou seulement dans ceux en différé : S.v. distiller, Lesay (2006) glose le verbe par « faire des passes justes à ses partenaires » et l’illustre par « [Pedretti] a distillé des ballons au millimètre faisant marquer par 3 fois ses coéquipiers. Maxifoot.fr, 14/01/04. ». ni même s’ils sont attestés dans les commentaires ou seulement dans d’autres productions discursives : S.v. alerter, Lesay (2006) glose le verbe par « Passer le ballon à un partenaire en position d’attaque » et l’illustre par « Je lui livrai un combat sans merci, le déroutant souvent par mes feintes et mes dribbles pour alerter dans les meilleures conditions possibles Ujlaki qui jouait à l’aile droite et Cisowski à qui était dévolu le rôle de puncheur. Raymond Kopa, Mes matchs et ma vie, 1958. ». Le travail d’analyse linguistique entrepris à partir de Rcorp1 et des autres commentaires compilés dans Rcorp2, 4 et 16 en typant mieux les discours et en affinant les descriptions lexicales pourra venir compléter les descriptions de Lesay (2006) en proposant, peut-être, une version aboutie de Rdic3, ou les travaux les plus lexicaux de linguistes qui ont déjà étudié certaines productions discursives relatives au football (cf. n. 57). 1.4. Créer d’autres corpus thématiques pour étudier l’incidence de chaque variation domaniale Depuis qu’a été engagée la réflexion sur la constitution de corpus à haut rendement pour la description d’usages langagiers en français qui soient à la fois spécialisés et de large diffusion, les thèmes abordés se sont diversifiés sur la base de l’expérience acquise concernant les commentaires de football. L’invitation à participer au projet OURAL (P2, cf. n. 14) semblait être une première occasion de transposer dans d’autres domaines, comme l’évoquait T3, le travail réalisé pour le football. Un corpus de transcriptions d’émissions juridiques radiodiffusées (Rcorp5) a été débuté selon les principes qui avaient gouverné la création du corpus de multiplex, mais le fait de ne pas disposer des droits d’exploitation des sources radiodiffusées interdisait de le livrer dans le cadre du projet qui avait permis de financer les premières transcriptions. Un autre corpus a donc été mis en chantier (Rcorp6). Composé d’entretiens relatifs à de la gestion locative de biens immobiliers mobilisant des locuteurs volontaires, il permettait de maintenir le principe d’une source orale mais pas celui de la large diffusion à la radio des énoncés transcrits. Le travail réalisé dans le cadre de ce projet a été relaté dans T8 (§ 1.4.1.). Les travaux engagés ensuite, sans financement mais avec la collaboration de certains des étudiants de la formation de lexicographes, se sont révélés plus intéressants que les premiers. Parmi les thèmes abordés, il y a eu : – divers sports et domaines variés (ingénierie nucléaire, altermondialisme, etc.), • au sujet desquels les étudiants ont conçu des répertoires métalinguistiques dans le cadre de mémoires dont j’ai assuré la direction (cf. nn. 91 et 92) ; • et dont l’étude lexicale a appelé des constitutions de corpus spécifiques pour lesquels j’ai contribué à définir la sélection des documents primaires à retenir parce que susceptibles de fournir un bon rendement d’exploration ; – et le tourisme, qui a motivé la création du corpus Rcorp7 (§ 1.4.2.), • conçu pour être le premier élément constitutif d’un projet plus ambitieux de corpus modulaire plurithématique et multilingue auquel j’ai travaillé avec l’un des intervenants de M2 LTTAC, Hans Paulussen (cf. n. 26) ; • qui a impliqué les étudiants de la promotion 2005-2006 du M2 LTTAC, chargés de sélectionner, capturer et nettoyer une partie des documents bilingues en suivant les préconisations que nous avions définies, puis de les explorer ; • mais qui, selon les évaluations réalisées et présentées dans T10, n’a pas un rendement d’exploration comparable à ceux qui viennent d’être évoqués. 72 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Plus récemment, un nouveau corpus (Rcorp12) a été conçu avec Pierre Corbin pour documenter l’étude des usages lexicaux des lexicographes qui présentent des dictionnaires ou parlent d’eux (§ 1.4.3.). Les relations très intimes de cette étude lexicale et de mes travaux métalexicographiques font qu’elle est présentée ici au titre des corpus, via un retour sur la première publication qui lui a été consacrée (T18), mais que les analyses lexicales entreprises avec Rcorp12 seront de nouveau évoquées dans la seconde partie de ce mémoire, puisqu’il documente également l’état du marché dictionnairique enregistré dans la base de données Rbd1 (§ 2.1.2.). Ce corpus, engagé en 2007, a vocation à être à haut rendement, mais, dans la mesure où les lexicographes s’expriment relativement peu sur les ondes, son mode d’élaboration ne privilégie pas, comme Rcorp1, les sources orales mais les paratextes de présentation internes ou externes des produits éditoriaux (préfaces, modes d’emploi, etc., mais aussi descriptifs sur les sites Web des éditeurs). 1.4.1. Les corpus de transcriptions du projet OURAL [P2 ; T8 (2008c) ; Rcorp5 ; Rcorp6] Si le développement final de T3 envisage seulement dans son principe général la constitution de corpus à haut rendement pour documenter d’autres descriptions lexicales relevant d’autres espaces discursifs que les commentaires de football, la conclusion de T5 se fait plus précise en posant des liens entre le corpus de multiplex et les corpus qui devaient être élaborés dans le cadre du projet OURAL (P2, cf. n. 14) entre novembre 2003 et juin 2005, et qui avaient vocation à être aussi des corpus thématiques à haut rendement. Le travail réalisé dans le cadre de ce projet a été relaté dans un article (T8) rédigé après que j’en ai eu exposé la teneur à Lorient, aux Journées de linguistique de corpus de 2005 (C11). Publier un bilan de la contribution lilloise au projet OURAL Dans la mesure où T8 constitue un bilan de ma première expérience de collaboration dans le cadre d’un projet financé réunissant de multiples partenaires aux intérêts variés, le propos valorise, dans un esprit constructif, le travail fait et les objectifs initiaux qui ont pu être maintenus, sans s’étendre sur le détail des infléchissements de projets ou des reconfigurations de collaborations qui sont survenus durant ces deux années et ont influé sur ce qui a pu être réalisé. Les §§ 1. et 2. situent le travail accompli à l’UMR SILEX (devenue STL en 2006) sous ma direction dans le cadre du projet OURAL et en particulier ses relations avec ce qui était fait par un autre partenaire, le laboratoire VALORIA, alors impliqué dans des développements de corpus destinés à l’ingénierie des langues appliquée au monde du handicap. En fonction de ce contexte, notre projet a consisté à sélectionner des émissions juridiques radiodiffusées 95 abordant des thèmes relatifs à des situations de handicap, 95 Toutes les émissions retenues sont organisées de manière comparable : un juriste et un animateur répondent en direct à des questions d’auditeurs en leur expliquant les démarches qu’ils doivent accomplir pour résoudre leurs problèmes. Document de synthèse – 1.4. Créer d’autres corpus thématiques 73 ce qui m’a amenée à enregistrer 9 heures d’antenne représentant 3 heures environ d’échanges exploitables (hors jingles, publicités, flashs d’informations, bavardages hors sujets, etc.), soit 55 000 mots transcrits avec l’aide de deux stagiaires 96. L’élaboration de ce corpus ayant été interrompue, du fait de la non-obtention des droits d’exploitation de ces sources dans ce contexte contractuel 97, avant que les relectures orthographiques aient été faites, les transcriptions sont mal exploitables et restées non exploitées à ce jour, mais il pourrait être intéressant de les réviser et de les explorer afin de voir dans quelle mesure ces données constitueraient bien un corpus à haut rendement. Afin que le nouveau corpus soit livrable dans les conditions requises, j’ai engagé, avec Vassil Mostrov 98 et quelques stagiaires, des entretiens dirigés 99 – quatorze de 30 à 60 minutes enregistrés et transcrits, ce qui correspond à 99 000 mots – relatifs à la gestion locative de biens immobiliers, domaine dont les acteurs maîtrisent plus ou moins le vocabulaire qu’ils doivent employer, ce qui présente l’intérêt de permettre à la fois d’observer sur quoi butent les plus novices et de faire expliciter les termes par les plus experts. La réorientation du projet a été conçue à la fois en fonction des besoins des outils linguistiques dédiés aux personnes handicapées auxquelles le VALORIA consacrait ses travaux et d’un intérêt personnel pour les composantes de la gestion des biens immobiliers que la récente publication du Dictionnaire de la copropriété (Papadopoulos (2002)) avait ravivé et qui aurait pu me faire envisager de mettre en chantier un dictionnaire de la gestion locative si le corpus constitué avait fourni une documentation assez consistante. Le § 3. expose les principes de sélection des locuteurs (en fonction de leur expérience de bailleur ou de locataire, de leur profil socioprofessionnel et de leur situation familiale) et revient sur les transcriptions faites avec Transcriber (dont l’emploi pour le corpus de multiplex a déjà été évoqué dans T5), relues deux fois mais contenant encore des fautes que des contraintes de calendrier du projet nous ont imposé de ne pas rechercher mieux avant de débuter l’étiquetage morphosyntaxique, qui nous a permis d’en identifier encore un bon nombre, mais qui aurait été de meilleure qualité si le texte avait été lui-même mieux nettoyé. 96 97 98 99 Il s’agit de Bichara Assoumani et de Sibel Maras, étudiantes de maîtrise “Industries de la langue” de la promotion 2002-2003. Dans le cadre du projet OURAL, nous nous étions engagés à livrer les transcriptions et les sources sonores auxquelles elles étaient alignées afin qu’elles soient librement accessibles à tous les acteurs des industries de la langue et aux chercheurs en linguistique et informatique, et je n’imaginais pas alors que cet engagement puisse être révisé. La manière dont ont été gérés les produits livrés dans le cadre de ce projet me laisse aujourd’hui penser qu’il aurait été envisageable de poursuivre le travail engagé sur ce corpus et de ne donner un accès libre qu’aux transcriptions, comme cela a finalement été décidé concernant les entretiens du second corpus élaboré. Vassil Mostrov est un ancien étudiant du DESS LTTAC, recruté durant un an pour travailler sur le projet OURAL, quand il était inscrit en DEA de linguistique à Lille 3, avant qu’il y engage, à l’UMR STL, une thèse de sémantique sous la direction de Danièle Van de Velde. Le travail qu’il a effectué dans le cadre du projet P2 a motivé qu’il rédige un article relatif aux annotations morphoflexionnelles réalisées dans le corpus (Mostrov (2008)). Les participants étaient des volontaires recrutés au moyen de petites annonces et qui ont eu l’obligeance de consacrer de leur temps à ce projet. 74 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia L’enrichissement (consistant en la lemmatisation et l’étiquetage morphoflexionnel des mots-occurrences), réalisé avec Cordial Analyseur, relu et converti en XML, est présenté d’un point de vue méthodologique dans T8, mais il a donné lieu, dans l’article de (Mostrov (2008)) évoqué dans la n. 98, à une appréciation de la qualité linguistique de l’étiquetage et à des propositions de corrections qui pourraient y être apportées afin de rendre les catégorisations d’items plus conformes aux analyses faites lors des relectures de certains contextes. Dans mon propre article, je développe ce qui nous a conduits à utiliser Cordial Analyseur (comme le faisait le VALORIA) et nos craintes à son égard, relatives au fait que les énoncés de nos transcriptions étaient non ponctués et parfois longs, avec des recouvrements de paroles. Je reviens également sur deux problèmes prévisibles et effectivement rencontrés : – d’une part, si le VALORIA et nous utilisions Cordial Analyseur, Sinequa et les autres partenaires qui développaient des corpus écrits employaient d’autres étiqueteurs, ce qui m’a conduite à élaborer, avec les deux premières stagiaires, une étude de conversion des jeux d’étiquettes utilisés par chacun vers un format commun ; mais les principes d’analyse des étiqueteurs employés divergeaient trop pour que des conversions aient raisonnablement pu être mises en œuvre sans impliquer de nouvelles relectures et sans que les étiquetages les plus fins ne soient dénaturés en ne conservant que les codes les mieux attribuables automatiquement ; – d’autre part, Cordial Analyseur ne sait pas bien enjamber les balises lors de l’étiquetage d’un texte structuré, ce qui a impliqué de convertir les transcriptions balisées en texte brut puis de convertir de nouveau en XML les produits de l’étiquetage (cf. figures 3 et 4). Ce compte rendu se termine par trois évocations : – celle des difficultés éprouvées lors des relectures d’étiquetages, dont celles qui ont motivé l’étude de Vassil Mostrov ; – celle de deux révisions méthodologiques mineures, l’une portant sur l’absence de balisage des noms de rues et de villes, l’autre sur la suppression des noms de personnes et le changement des numéros dans les adresses à des fins d’anonymisation ; – et surtout celle de la décision de ne pas rendre les sources sonores librement accessibles, en assumant que ce choix interdirait le réemploi du corpus pour des études sur l’oral, et en le justifiant par le fait que nous n’avions pas transcrit des prises de paroles publiques (comme celles qui sont radiodiffusées), mais des entretiens ayant mobilisé des personnes qui pourraient, malgré l’anonymisation du corpus, être identifiables grâce à leur voix ou à certaines de leurs expressions idiomatiques. La conclusion de T8 revient sur le fait que mon investissement dans le projet OURAL avait été motivé par le souhait de tester la reproductibilité de la notion de corpus à haut rendement dans un domaine autre que les commentaires de football, ce qui ne semblait pas se concrétiser concernant le corpus d’entretiens relatifs à la gestion locative de biens immobiliers qui a été livré. Cette appréciation réservée prend appui sur l’observation du fait que certaines prises de parole des locuteurs enregistrés sont très courtes et sur l’impression d’une certaine modestie de la richesse lexicale comme de celle des constructions employées Document de synthèse – 1.4. Créer d’autres corpus thématiques 75 qui s’est dégagée lors des relectures. Cependant, si T8 relate la genèse du corpus d’entretiens que nous venions d’élaborer et débouche sur l’expression de doutes quant à sa rentabilité d’exploitation, je ne disposais pas encore, au moment de sa rédaction, d’étude qui me permette de formuler un avis documenté. Une étudiante de M1 TAL a par la suite exploré ce corpus avec le projet d’élaborer un dictionnaire terminologique de la gestion locative (Mdir66 (Méresse (2007))). Le travail qu’elle a réalisé a confirmé les intuitions exprimées dans T8, en montrant bien les qualités mais aussi les limites du corpus considéré, qui ne peut pas être qualifié de corpus à haut rendement, mais qui présente néanmoins un certain intérêt linguistique. Quels enseignements tirer de cette première expérience de collaboration encadrée ? Un autre bilan, plus personnel et donc non publiable dans les circonstances où l’a été T8, porte un regard plus positif sur le travail accompli. Le projet OURAL a bénéficié d’une campagne de financement exceptionnelle, qui a à la fois dynamisé et un peu perturbé le déroulement des travaux financés. En effet, cette campagne nationale ambitionnait de soutenir les entreprises du TAL, qui traversaient une période de crise, et de stimuler des coopérations entre les laboratoires de recherche et développement privés et publics, ce qui a suscité un grand nombre de demandes de financement mais aussi beaucoup de réponses positives. La gestion des projets par les instances impliquées dans leurs financements a imposé des regroupements dont certains ont été assez tardifs et éventuellement peu perceptibles par l’ensemble des partenaires des projets initiaux, mais qui ont induit quelques lenteurs dans les prises de décisions collectives. Claude de Loupy, qui portait le projet OURAL devenu composante du projet AGILE, a géré toutes les relations avec les autres porteurs de projets réunis et a fait tout son possible pour harmoniser les travaux des partenaires d’OURAL : nous lui devons la réussite de notre entreprise. Le travail d’organisation des tâches réalisées à l’UMR SILEX m’a fortement mobilisée dans la mesure où il m’imposait de participer aux prises de décision collectives 100, d’animer le travail fait à l’UMR par Vassil Mostrov et les stagiaires 101, et de superviser la gestion effectuée par la responsable administrative de l’UMR SILEX 102, le service de valorisation de la recherche de Lille 3 et son service du personnel 103. 104 Mon manque d’expérience dans ces types de tâches est probablement en grande partie responsable des difficultés que j’ai éprouvées à être à la fois relativement exté100 Nous avons eu pour cela quelques séances de concertation réunissant tous les partenaires et des interac101 102 103 104 tions plus ciblées, chacune avec le porteur de projet ou une sélection de partenaires, qui ont toutes constitué des moments d’échanges stimulants. Ceci consistait à définir les tâches à réaliser, leur ordre de traitement, la manière dont chacune devait être conduite et par qui, puis à contrôler chaque production élaborée, le tout en veillant à effectuer moi-même une part consistante du travail que j’allais ensuite déléguer, de manière à bien savoir quelles seraient les difficultés que mes collaborateurs allaient rencontrer et à anticiper leurs demandes pour améliorer la qualité de la production collective et respecter nos engagements calendaires. Je tiens à remercier Danièle Monseur pour le temps qu’elle a consacré à cette tâche. Merci à Fabienne Giard, Ingrid Fournier et Ulrich Beuter pour la gestion de ce projet et à Ludovic Deniau pour ses conseils relatifs aux contrats de travail de Vassil Mostrov et des stagiaires. Il s’agissait en particulier de veiller au recrutement puis à la bonne gestion des contrats de stage ou d’embauche des étudiants. 76 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia rieure, puisque supervisant notre travail, et impliquée intellectuellement autant que les étudiants qui, durant des périodes plus courtes il est vrai, consacraient leurs journées à ce projet. Bien que j’aie l’impression qu’il aurait été souhaitable de faire plus, et en particulier de mieux exploiter les corpus élaborés – ce que des changements survenus au sein de l’équipe du VALORIA (en fonction de laquelle les corpus avaient étés définis) n’ont pas rendu possible –, je retire différentes satisfactions de ma participation à ce projet : – il m’a donné l’occasion de travailler en collaboration avec des personnes dont j’estime le travail, et en premier lieu Claude de Loupy ; – il a permis à un ancien étudiant du DESS LTTAC, Vassil Mostrov, de financer l’année de son DEA et de débuter une thèse qu’il soutiendra le 12 novembre 2010 ; – il a fourni des sujets de stage motivants à des étudiants des formations que j’animais ; – et il a induit deux publications (T8 et Mostrov (2008)) et suscité quelques mémoires de maîtrise ou de DESS puis de master durant la période de financement et ensuite (cf. n. 17). Quels enseignements retirer des constitutions de Rcorp5 et Rcorp6 ? Le retour sur ce projet mérite enfin un mot de conclusion concernant les corpus proprement dits. La qualité du corpus juridique d’oral radiodiffusé transcrit est peu aisément évaluable puisque que son élaboration est incomplète, mais les écoutes préliminaires d’émissions et les premières relectures des transcriptions laissent présager que, s’il devait être parachevé, les énoncés qu’il recèlerait auraient une bonne valeur informative. Néanmoins, la diversité des questions juridiques traitées à la radio, qui avait conduit à n’en retenir qu’un sous-ensemble aussi cohérent que possible, mériterait d’être mieux analysée afin de caractériser au sein des émissions chaque séquence de questions d’un auditeur et de réponses du juriste et de l’animateur en fonction d’un typage des problèmes exposés, des démarches à engager, des instances juridiques auprès desquelles demander réparation, voire d’une évaluation métalinguistique de la densité du vocabulaire spécialisé et des reformulations ou des éclairages (sémantiques et référentiels) apportés par le juriste ou l’animateur concernant chaque terme susceptible de ne pas être aisément interprétable par un auditeur (celui qui est en ligne ou un autre). Dans l’hypothèse où des études linguistiques relatives à des questions de vocabulaire juridique devaient me mobiliser de nouveau, je n’exclurais pas de poursuivre le travail engagé avec Rcorp5, en l’amendant comme je viens de l’exposer. À la différence du précédent, si le thème de la gestion locative devait retrouver une actualité dans mes travaux, les explorations accomplies par Charlotte Méresse dans le cadre de son mémoire (Mdir66) m’inciteraient à revoir complètement le mode d’approche et à concevoir un nouveau corpus plutôt que de reprendre Rcorp6. La constitution de cette nouvelle ressource ne se ferait pas sur la base d’entretiens comme cela a été conjoncturellement décidé dans le cadre du projet, mais peut-être plutôt en enregistrant des émissions radiodiffusées sur ce thème, afin de conserver de l’oralité, et surtout en prenant en compte des documents issus de sites Web spécialisés, dont les contenus connaissent une large diffusion (puisque chacun peut être amené à les Document de synthèse – 1.4. Créer d’autres corpus thématiques 77 consulter) et qui semblent refléter assez bien la teneur de l’ensemble des échanges entretenus par les bailleurs ou leurs représentants et les locataires, puisque ce qu’ils se disent peut également être échangé électroniquement maintenant que beaucoup de démarches (y compris une partie des visites de logements) sont dématérialisées. Mais pour l’heure les deux thèmes impliqués dans la participation au projet OURAL n’ont pas été repris, et c’est de tourisme puis de lexicographie qu’il va être question dans les prochains développements. 1.4.2. Le corpus bilingue du tourisme [T10 (2008d) ; Rcorp7] Les recherches menées sur le lexique du football avaient intéressé Hans Paulussen, chercheur de l’ALT Research Center on CALL qui intervient régulièrement dans le master LTTAC (cf. n. 26) pour présenter ses travaux de constitution de corpus multilingues passés ou présents, et avec qui nous avons vainement cherché comment monter un projet de corpus français / néerlandais / anglais de commentaires de matchs qui puisse rejoindre les préoccupations de son laboratoire (qui travaille principalement sur des questions d’enseignement de langues vivantes assisté par ordinateur). À défaut de trouver l’occasion de ce projet, nous avons décidé de réfléchir à d’autres collaborations et, pour ce faire, de reprendre la notion de corpus modulaire constitué de sous-corpus thématiques que j’avais décrite dans T3 (cf. § 1.3.1.) et d’en développer une variante multilingue. Vers un corpus plurithématique multilingue ? Alors que nous réfléchissions à la conception de ce corpus plurithématique multilingue en cherchant autant que possible à rendre compatibles les exigences de haut rendement pour chaque module thématique dans chaque langue et de disponibilité de textes traduits dans une sélection de langues et alignables, nous avons convenu d’expérimenter le recours aux traductions mises en ligne sur le Web afin d’évaluer (i) comment elles sont détectables parmi les autres documents disponibles en ligne, (ii) comment identifier celles qui sont effectivement alignables semi-automatiquement une fois leurs textes captés depuis le Web 105, et (iii) quel est leur rendement. La première expérimentation, qui a permis la création du premier module thématique (Rcorp7), a été faite en nous limitant – à deux langues (le français et l’anglais) du fait de leur bonne diffusion et donc de l’abondance relative des documents disponibles conjointement pour elles 106, – et au thème du tourisme, pour lequel il existe un marché bien identifié de lexicographie bilingue spécialisée (productrice de guides de conversation pour le grand public et de dictionnaires à visée plus professionnelle comme celui de Hourcade (1995)), et 105 Même si ces traductions ont été rédigées avec l’aide de mémoires de traduction et qu’elles ont été alignées, une fois mises en ligne elles ne le sont pas. 106 C’est également la seule paire de langues que les étudiants de la promotion 2005-2006 du M2 LTTAC, qui ont participé à ce projet, avaient en partage (cf. infra). 78 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia qui est pris en compte dans des productions moins ciblées (les dictionnaires généraux de toutes les gammes). T10, corédigé avec Hans Paulussen pour les actes d’un colloque organisé à l’université Lyon 2 par le Centre de Recherche en Terminologie et Traduction (CRTT) et intitulé « Corpus et dictionnaires de langues de spécialité » (cf. C12), retrace les choix et les étapes de la constitution et de l’évaluation de ce corpus bilingue aligné de 645 978 mots-occurrences (330 009 pour les documents en français et 315 969 pour ceux en anglais) : – après avoir situé au § 1. le contexte de cette réalisation, nous justifions au § 2. le fait de puiser dans le Web les documents bilingues à aligner (en choisissant ceux au format HTML qui sont à la fois adéquats thématiquement, de bonne tenue linguistique dans les deux langues, effectivement parallèles et constitués de textes plutôt que de tableaux) ; – le § 3. présente la partie technique de la méthodologie mise en œuvre : recherche des indices de parallélisme dans les URL 107, rapatriement et stockage des contenus de chaque page (cf. figure 2), élimination du balisage et harmonisation des codages de caractères, alignement au niveau des paragraphes, et divers contrôles ; – l’exposé de la méthode d’exploration est développé au § 4. avec celle d’une évaluation du corpus impliquant la coopération de deux outils : • ParaSearch, concordancier multilingue développé par Hans Paulussen pour les besoins de sa thèse soutenue en 1999, servant ici à l’extraction des contextes alignés contenant un motif exprimé dans une des deux langues ; • et Unitex pour évaluer si ces contextes apportent des informations actuellement absentes des guides de conversation, dont les données ont été intégrées à des graphes d’exploration qui, convertis en transducteurs 108, permettent de baliser les contextes du corpus déjà pris en compte par ces guides (cf. figures f et 9, reproduites cidessous en figures 17 et 19). Figure 17. Transducteur repérant musée(s) suivi de l’un des syntagmes prépositionnels listés et insérant les balises <musee-de-art-ADJ> et </musee-de-art-ADJ> autour des segments correspondants [figure f de T10] Une recherche dans la lignée des précédentes Comme T2, T3 et T5, T10 aborde la question de la documentation des lexicographes au moyen de corpus dans lesquels observer les unités linguistiques traitées, 107 Les “Uniform Resource Locators”, c’est-à-dire les adresses des documents en ligne (http://[…]). 108 Cf. § 1.3.2., figure 8. Document de synthèse – 1.4. Créer d’autres corpus thématiques 79 mais en s’intéressant cette fois (cf. T2 § 4.3.) aux mises en équivalences traductionnelles susceptibles d’être proposées dans les dictionnaires bilingues, et, comme pour T4, des étudiants (cf. n. 106) évaluent la faisabilité des manipulations envisagées par des non-spécialistes des traitements de corpus. T10 reprend aussi l’élaboration d’un corpus à partir de documents sélectionnés sur le Web (comme pour Rcorp4, l’un des corpus footballistiques présentés dans T4), la coopération d’outils (ParaSearch et Unitex, après Cordial Analyseur et Unitex dans T4), et la comparaison de ce qui est dans le corpus avec ce qui se trouve dans des productions lexicographiques (comme dans T3, mais en outillant la comparaison cette fois). Ce texte présente par ailleurs des principes et des méthodes de traitement comme le rapatriement semi-automatique de gros volumes de données, auquel Hans Paulussen initiait les étudiants de notre formation depuis quelques années, et la structuration des données en texte brut (en jouant sur les marques de fin de ligne 109 et la répartition des textes dans différents fichiers) plutôt qu’en insérant du balisage XML, ce qui constitue une manière de procéder imposée par l’emploi de ParaSearch (développé avant l’essor du XML). Un travail à quatre mains très formateur D’un point de vue méthodologique, ce travail a présenté un grand intérêt pour chacun de nous dans la mesure où il nous a permis de confronter nos expériences techniques. Hans Paulussen, qui est très bon connaisseur de l’environnement Linux et de la programmation dans le Shell, en AWK ou en Perl, prenait ses marques dans les technologies XML, dont il avait par ailleurs besoin pour d’autres projets de constitution de corpus dans lesquels son laboratoire s’engageait. Le corpus du tourisme nous a donné l’occasion de procéder à un développement tel qu’il l’aurait antérieurement organisé, ce qui était formateur pour moi 110, tout en cherchant (ce dont ne témoigne pas T10) comment il serait efficace de travailler avec une structuration XML, ce pour quoi je commençais à avoir une certaine expérience, mais qui m’a demandé de pousser plus loin mes connaissances en XSLT et concernant les recommandations de la TEI. Depuis quatre ans que Hans Paulussen intervenait dans la formation de lexicographes, j’entretenais avec lui des échanges réguliers au début de ses sessions afin de l’aider à cadrer ses prestations en articulation avec mes cours et celles des autres professionnels invités, et pendant le déroulement même de ses interventions afin de réfléchir avec lui aux solutions qu’il mettait en œuvre et aux alternatives envisageables. Nous avions donc déjà des habitudes de réflexion communes. Le travail effectué pour concevoir et constituer la ressource Rcorp7 puis préparer nos exposés (E8 et C12) et notre article (T10) a induit une intensification de nos échanges de 2005 à 2007. 109 Une marque de fin de ligne informatique correspond à une marque de fin de paragraphe dans un éditeur de texte, où les lignes ne sont pas des objets délimités mais des sous-chaînes de caractères incluses dans celle du paragraphe et dont le nombre d’éléments constituants est déterminé en fonction de la taille de chaque caractère et de la largeur de la zone d’affichage. 110 Je tiens à remercier Hans Paulussen pour ce qu’il m’a transmis. 80 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Quid du corpus plurithématique multilingue ? Si l’expérience du développement du corpus du tourisme, qui devait être le premier module thématique d’un corpus beaucoup plus consistant, a été particulièrement stimulante sur le plan informatique, le rendement exploratoire des données collectées s’est avéré plus décevant. Nous avions décidé de nous concentrer non pas sur des documents multilingues mais seulement bilingues (français / anglais) pour tenir compte du fait que les étudiants de M2 LTTAC qui ont travaillé à la constitution du corpus n’avaient que ces langues en partage. Cette contrainte était a priori de peu de poids puisque la diffusion du français, bien qu’inférieure à celle de l’anglais, garantissait de trouver assez de documents pour qu’il soit possible de faire un choix parmi eux, mais il s’est avéré que beaucoup des documents repérés étaient de qualité linguistique relativement médiocre et que la compétence des étudiants dans les deux langues n’a pas suffi à ne retenir que ceux dont l’expression est la plus idiomatique. Ce problème étant strictement dépendant des compétences linguistiques de ceux qui sélectionnent les documents, il révélait une difficulté à laquelle il faudrait veiller si le projet devait prendre une autre ampleur. Nous avions par ailleurs convenu de travailler en exploitant des documents primaires issus du Web, comme Hans Paulussen le faisait pour les projets de développement de corpus auxquels il contribuait par ailleurs, afin d’évaluer comment des critères de sélection des sources pouvaient être mis en œuvre quand les moteurs de recherche fournissent de très importantes quantités de documents potentiellement utilisables et si ces critères, une fois définis, apporteraient une garantie réelle de qualité. Le principe d’extraire des documents du Web a stimulé une réflexion fructueuse concernant les indices portés par les URL qui permettent de repérer que des versions du même contenu textuel sont disponibles dans des langues différentes. Celle-ci s’est appuyée sur les travaux de Resnik (1999) et Resnik & Smith (2003) et sur une description enregistrée dans une base de données pour chaque site trouvé (au moyen du formulaire présenté ci-dessous en figure 18). La recherche de critères de sélection des documents s’est avérée moins productive. Une première difficulté consistait à ne pas toujours savoir caractériser ni les mobiles de la mise en ligne des documents ni leurs énonciateurs et leurs destinataires (quand leur objet ne paraissait pas être une information promotionnelle ou culturelle destinée à tous mais semblait ne concerner qu’un public ciblé). Mais même dans le cas favorable où les sites présentaient une manifestation et des informations touristiques destinées à ceux qui y participent, la diversité des textes réunis en leur sein (notices historiques ou biographiques, recettes de spécialités locales, etc.) impliquait une caractérisation de chacun débordant des critères de typage que nous avions prédéfinis sans que nous réussissions à en produire une version amendée suffisamment aboutie pour qu’elle soit efficacement exploitable. Cette difficulté a largement contribué à ce que Rcorp7, qui devait être le premier module d’un corpus plurithématique, reste un corpus autonome. Document de synthèse – 1.4. Créer d’autres corpus thématiques 81 Figure 18. Formulaire de saisie des descriptions de chaque site retenu proposant des textes bilingues Des graphes métalexicographiques pour explorer le corpus… Malgré ces difficultés, du point de vue de la méthodologie exploratoire mise en œuvre, le travail accompli pour Rcorp7 est novateur à double titre : 1) Le fait de manipuler un corpus aligné a impliqué une procédure d’extraction des énoncés adaptée, qui a certes profité du développement antérieur du concordancier multilingue ParaSearch par Hans Paulussen, mais qui a aussi impliqué la conception de modalités de posttraitement des contextes alignés spécifiques et de nouvelles programmations de scripts (les algorithmes de deux d’entre eux sont schématisés en figures 6 et 13). 2) L’ambition de confronter les données du corpus et ce qui est déjà attesté dans les guides et dictionnaires a motivé que j’élabore des graphes et des transducteurs décrivant le contenu de ces derniers pour explorer les versions française et anglaise du corpus. Une solution alternative aurait consisté à procéder comme je l’ai fait pour les verbes de transmission de balle dans T4 par exemple, c’est-à-dire à élaborer progressivement des graphes intégrant les éléments contextuels jugés importants pour la description des items étudiés et observés dans le corpus. Cette méthode, pertinente pour découvrir le contenu du corpus considéré, n’est pas adaptée quand il s’agit de simuler le travail que seraient susceptibles d’effectuer des lexicographes qui pourraient aisément disposer des données déjà présentes dans les guides et les répertoires ré- 82 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia cents 111 et auraient donc prioritairement besoin de ce qui n’est pas présenté en leur sein (cf. T2 § 1. et § 1.2.2.). Concernant le dernier point, le transducteur qui décrit les contextes d’emplois du nom musée présentés dans l’un des guides de conversation (cf. figure 9 reproduite ci-dessous en figure 19) ne leur est pas strictement fidèle dans la mesure où il autorise des variations de formulations. Conçu pour permettre de différencier, parmi les contextes extraits du corpus, ceux qui ne présentent pas de nouveauté remarquable par rapport au guide de ceux dont les constructions n’y sont pas décrites, il doit baliser ceux du premier ensemble en y intégrant tous les contextes trop proches de ce qui est déjà connu pour être intéressant à observer pour les lexicographes. Figure 19. Graphe de recherche et d’annotation basé sur les données du Guide de conversation du routard (anglais) 2005, s.v. musée [Figure 9 de T10] … aux graphes pour explorer les contenus dictionnairiques comme des corpus Le retour sur ce travail exploratoire fournit une première occasion d’évoquer mes analyses de textes dictionnairiques qui ont également mobilisé Unitex et, comme je l’ai expliqué au § 1.3.2., les graphes au moyen desquels cet outil d’exploration de corpus permet d’exprimer des motifs de recherche complexes. De l’expression de ce qui est cherché dans un corpus exploré pour l’étude de données discursives à la description de ce qui y est observé, il n’y a finalement qu’un pas, que j’ai déjà franchi au § 1.3.3. en présentant une schématisation synthétique d’énoncés exprimant la transmission du ballon dans les matchs de football (cf. figure 10). 111 Des problèmes de gestion des archives font que les lexicographes ne peuvent pas toujours aisément accéder aux anciens ouvrages imprimés, que ce soit ceux du fonds éditorial de la maison qui les emploie ou ceux des concurrents acquis à titre documentaire. Mais les ouvrages récents sont potentiellement mieux mobilisables puisqu’ils sont souvent disponibles dans les archives numériques ou éventuellement encore achetables. Document de synthèse – 1.4. Créer d’autres corpus thématiques 83 Dans d’autres travaux, la nature du corpus a également connu des variations : les données textuelles explorées et/ou décrites ont été limitées aux contenus des articles ou des composants d’articles des dictionnaires étudiés. Que les visées aient été strictement analytiques ou qu’elles aient conjoint des balisages de ces textes au moyen de transducteurs, elles ont mobilisé le même outil et les mêmes principes de représentation graphique de combinaisons de segments de textes. Unitex et son éditeur de graphes seront donc de nouveau évoqués au § 2.2.1.2. concernant des analyses structurelles du Larousse pratique, au § 2.3.5. pour représenter les constructions du verbe permettre décrites dans le Dictionnaire du français au collège, et au § 2.5.1. à propos des informations étymologiques fournies pour des mots d’origine étrangère dans les dictionnaires destinés aux enfants. 1.4.3. Le corpus de lexicographie [T18 (2009a) ; Rcorp12 ; Rdic2] Renoncer à constituer le corpus plurithématique multilingue dont Rcorp7 devait être le premier constituant n’a pas induit l’abandon des recherches relatives à ce que peuvent être des corpus à haut rendement, mais a motivé un recentrage de celles-ci sur des espaces discursifs avec lesquels j’entretiens une relation privilégiée, et en premier lieu certains de ceux où se produisent des énoncés relatifs aux dictionnaires. L’écoute des intervenants professionnels invités dans le cadre de la formation de lexicographes ou des éditeurs interrogés en diverses occasions (colloques, campagnes de promotion d’ouvrages, interviews) et la lecture des paratextes de présentation des répertoires et de textes métalexicographiques permettent d’observer des variations d’expression en fonction des situations et des énonciateurs (lexicographes, éditeurs, métalexicographes), mais aussi des déficits de rigueur et d’homogénéité terminologique. Ces derniers peuvent en partie au moins être liés à l’histoire et à la diffusion massive des objets culturels particuliers que sont les dictionnaires et aux représentations de ceux-ci que les locuteurs spécialisés qui en parlent ont eux-mêmes et imaginent être celles des destinataires de leurs propos. Afin de mieux appréhender le lexique afférent à la lexicographie, nécessaire pour développer une activité métalexicographique et choisir le plus adéquatement possible les dénominations à utiliser 112, je n’ai pas tout de suite conçu le projet de me doter d’un corpus thématique. Durant plusieurs années, j’ai collecté au vol les emplois lexicaux lus ou entendus, élaborant progressivement un répertoire (Rdic2) dont j’ai amplifié le contenu avec trois promotions d’étudiants invités à compléter mes relevés à partir de ce qu’ils entendaient et lisaient dans le cadre de leur formation 113. Ce n’est que plus récemment (en 2007) que j’ai entrepris de constituer un corpus de textes de présentation de dictionnaires et d’études métalexicographiques (Rcorp12), qui a pour vocation de permettre d’observer les usages attestés de certaines unités lexicales employées par les lexicographes ou les éditeurs pour leur communication à destination du public et de les comparer aux emplois observables dans leurs échanges professionnels ou en métalexicographie. 112 Cette recherche d’adéquation de l’expression est de nouveau évoquée infra au § 2.2.1. 113 Il s’agit des promotions de DESS LTTAC de 2003-2004 et de M2 LTTAC de 2004-2005 et 2005-2006. 84 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia De Rdic2 à Rcorp12 : des données saisies au vol à celles attestées pérennement L’élaboration de descriptions des mots et expressions captés en diverses occasions a constitué un exercice utile pour apprécier la diversité des usages lexicaux et affiner la caractérisation, d’une part, des domaines dont ils relèvent qui sont impliqués dans l’élaboration des répertoires et, d’autre part, des espaces discursifs dans lesquels chacun est attesté. La structure XML du répertoire Rdic2 rend compte de ces descripteurs en fournissant des jeux d’éléments et d’attributs utiles pour marquer chaque description de sens et référencer et typer chaque contexte d’attestation. Leur présence dans le texte des articles rédigés permet de présenter ces derniers dans deux affichages : – soit en intégralité et dans l’ordre alphabétique des items qui constituent leurs adresses (comme dans la compilation des documents de rédaction) ; – soit par descriptions de sens, toujours précédées de l’adresse lexicale qui les introduit dans le texte des articles complets, mais séparées les unes des autres pour celles des items polysémiques et regroupées • par domaines de l’activité lexicographique (codés par l’attribut @domaine dans le document XML source) ; • ou en fonction des propriétés étymologiques des emplois décrits (en affichant d’une part les influences étrangères, en particulier anglaise et allemande – codées par l’attribut @emprunt –, et d’autre part l’ancienneté relative des usages – codée par @datation (pour “première datation”)) ; • ou encore par type d’énonciateur ou de médium d’expression (codés par les attributs @enonciateur et @medium), ces critères étant éventuellement affinables encore par les typages de source textuelle (en exploitant les descripteurs portés par les références des citations qui peuvent illustrer les emplois lexicaux décrits). Par exemple, le nom éditeur, dans les limites domaniales de la lexicographie, peut être employé pour référer à une maison d’édition, à un responsable de projet éditorial ou à un logiciel au moyen duquel les rédacteurs saisissent les textes des articles. Cet item est d’usage courant et ancien avec le premier de ces sens : il est daté de la fin du XVIIIe siècle dans le Dictionnaire historique de la langue française, qui indique que sa forme est empruntée au latin impérial editor mais que son acception la plus usuelle pourrait être dérivée de celle d’édition. Les deux autres acceptions sont le fruit de calques récents (XXe siècle) de l’anglais editor, celle référant à un humain étant employée oralement dans le milieu éditorial alors que celle dans laquelle il désigne une classe d’outils informatiques s’est diffusée partout où des ordinateurs sont employés pour traiter des textes. Il résulte de ce qui précède que les trois éléments contenant les descriptions de sens rédigées pour ce nom dans Rdic2 portent – un attribut @domaine auquel sont respectivement affectées les valeurs commerce lexicographique, acteurs de l’édition et informatique éditoriale ; – des attributs @enonciateur et @médium dont la valeur est respectivement lexicographes et oral pour le nom de responsable éditorial et tous et tous pour les deux autres emplois ; – un attribut @datation dont la valeur correspond à un siècle pour les noms d’entités commerciales et d’humains (respectivement XVIII e et XX e) et à une année pour celui de l’outil (1960 ), le choix du type de valeur dépendant des informations trouvées pour chacun ; – et, pour les deux anglicismes, @emprunt de valeur égale à anglais. Document de synthèse – 1.4. Créer d’autres corpus thématiques 85 Comparablement à ce qui est fait pour le dictionnaire des actions de jeu du football Rdic3 (cf. § 1.3.3.), des transformations XSLT assurent la manipulation du document original afin de présenter son contenu remodelé selon toutes les configurations envisagées. Ce répertoire du lexique afférent à la lexicographie a vocation à décrire le vocabulaire de ce domaine étendu à tous ceux qui sont impliqués dans l’édition dictionnairique au titre de l’élaboration des répertoires 114. Cependant, dans la mesure où les données contenues par Rdic2 ont fait l’objet d’une sélection préalable et où les descriptions des unités linguistiques décrites n’y sont pas toutes aussi exhaustives, il ne peut pas documenter toutes les analyses lexicales et méritait d’être complété par un corpus de documents primaires. Depuis que j’ai entrepris la création du corpus lexicographique Rcorp12, il a été étendu puis exploré avec Pierre Corbin et deux promotions d’étudiants du M2 LTTAC, notre attention se focalisant une année sur les dénominations de composants d’articles employées dans les paratextes internes de présentation des dictionnaires monolingues français de tous les segments du marché 115, et la suivante sur tous les noms d’entités associés à des quantifications dans les descriptifs de dictionnaires mis en ligne sur les sites des trois éditeurs majeurs. Pédagogiquement, ce travail a vocation à permettre aux étudiants d’effectuer simultanément trois apprentissages : – se former au traitement des corpus électroniques (constitution, structuration, exploration, classification informatisée des données collectées) ; – être sensibilisés aux variations d’expression observables dans le milieu professionnel que beaucoup d’entre eux ambitionnent d’intégrer ; 116 – et découvrir le marché des dictionnaires de France 117 et la diversité des gammes de produits qui le constituent. Pour mes recherches, il est corrélé, comme pour la formation des étudiants, à l’enregistrement des répertoires en vente à chaque rentrée dans la base des références éditoriales et des descriptions de dictionnaires monolingues français (Rbd1, présentée au § 2.1.2.), dont des versions partielles sont constituées avec les mêmes étudiants dans le cadre de mes enseignements de conception et de gestion de bases de données SQL. Au moment de la définition des principes de sélection des documents primaires du corpus de lexicographie Rcorp12, l’intégration des paratextes internes 118 s’est faite 114 Ceci s’entend donc hors fabrication matérielle (impression et reliure pour les éditions imprimées, et pres115 116 117 118 sage de disques pour les produits électroniques disponibles sur ce support) et commercialisation (diffusion et vente des produits imprimés comme électroniques). Pour une présentation de ceux définis à partir des produits en vente à la rentrée 2006, cf. n. 205. Quelques-unes des désignations employées par les éditeurs sur leurs sites Web en 2009-2010 sont présentées en n. 202. Les étudiants étrangers repèrent à cette occasion et nous indiquent les différences qu’ils perçoivent entre le marché français et celui de leur pays, ce qui fournit l’occasion d’échanges culturels stimulants. Certaines éditions électroniques proposent les mêmes textes de présentation que les éditions imprimées, ce qui facilite la tâche de leur collecte. Les répertoires seulement imprimés voient leurs paratextes numérisés ou saisis. Ce choix dépend des polices de caractères employées par l’éditeur et de la complexité de la mise 86 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia naturellement puisqu’ils étaient dépouillés manuellement pour documenter Rbd1 depuis la création de cette base en 2001 et que leur richesse lexicale m’était bien connue. L’évolution des politiques de communication des éditeurs majeurs dans le domaine de la référence (dictionnaires et encyclopédies) faisant qu’actuellement tous les produits dans leurs différentes versions donnent lieu à des descriptions en ligne et qu’il est particulièrement intéressant d’observer où et comment est fournie chaque indication et si ce qui est indiqué en un lieu est bien compatible avec ce qui est mentionné dans un autre, la sélection de ces textes de présentation a également été décidée. Les paratextes internes et externes les plus sérieux 119 sont ainsi réunis. Pour ce corpus, d’autres sources, principalement écrites elles aussi puisque c’est le médium privilégié pour les communications quels que soient les destinataires 120, ont été retenues afin de diversifier les énonciateurs et les objets des développements. Il s’agit de productions métalexicographiques, peu nombreuses encore au sein du corpus mais auxquelles je prévois d’accorder une place croissante. D’autres documents pourront utilement rejoindre le corpus lexicographique Rcorp12 ou constituer une ressource comparable à celui-ci : il s’agit de textes de présentation ou d’analyse rédigés en anglais, dont la mise à disposition permettrait d’étudier les emplois qui sont faits dans cette langue de termes que le français a empruntés (comme entry) et au sujet desquels l’étude de la documentation en français peut ne pas suffire pour expliquer ce qui motive les polysémies observées. Cette extension à des sources comparables en langues autres que le français semble devoir être limitée à l’anglais et, dans une moindre mesure peut-être, à l’allemand, deux langues dont le vocabulaire lexicographique est fourni et susceptible d’avoir offert au français des unités lexicales empruntées ou traduites. Quoique Rcorp12 soit une ressource récemment mise en chantier et ouverte, puisqu’elle doit annuellement s’enrichir de paratextes, elle a déjà contribué à documenter une première étude publiée relative au lexique afférent à la lexicographie, sur laquelle je vais maintenant revenir. Premières analyses lexicales publiées À l’occasion d’un colloque sur la métaphore organisé à l’université Lyon 2 par le CRTT en 2008 (cf. C20 et T18), Pierre Corbin et moi avons examiné la part des figures, et en particulier de la métaphore, dans le lexique de la lexicographie. Au-delà d’une visée proprement analytique, l’accent est mis dans cette étude sur les bénéfices conceptuels et terminologiques que pourrait présenter la prise à la lettre de certaines des métaphores observées, qu’un figement stérile réduit aujourd’hui au rang de synoen page qu’il a choisie, qui influent sur la capacité du système de reconnaissance de caractères à transformer l’image de la page scannée en texte, et consiste à évaluer si le produit de la numérisation sera assez peu fautif pour être corrigible ou s’il est moins coûteux de recopier intégralement le texte source. 119 Les paratextes de présentation proposés sur les sites Web sont plus fautifs que ceux qui introduisent les répertoires, mais ils partagent avec eux l’esprit de sérieux qui les distingue conjointement des textes à vocation publicitaire, souvent moins informatifs et plus accrocheurs. 120 Les lexicographes comme les métalexicographes prennent rarement la parole sur les ondes ou à la télévision, mis à part Alain Rey (notoire rédacteur en chef de dictionnaires Robert) et, dans une moindre mesure, Jean Pruvost (métalexicographe et lexicographe, directeur du laboratoire MÉTADIF de Cergy-Pontoise jusqu’à la récente intégration de celui-ci dans l’UMR 7187 du CNRS, le LDI (Lexiques, Dictionnaires, Informatique)). Document de synthèse – 1.4. Créer d’autres corpus thématiques 87 nymes approximatifs dont la concurrence molle est sans bénéfice, voire nocive. T18, qui prend en compte des données de Rcorp12 mais aussi de nombreuses sources dictionnairiques et métalexicographiques externes, ne fait pas explicitement cas du corpus, sauf en introduction du § 1., où il est question de lui pour documenter un dictionnaire où serait décrit l’ensemble des acceptions et des conditions d’emploi de chaque unité lexicale (c’est-à-dire Rdic2, évoqué implicitement pour ne pas particulariser le propos). Afin de montrer ce qui pourrait être trouvé dans un corpus de bon rendement, nous avons dressé, au § 1., un inventaire d’exemples caractéristiques et référencés qui inclut : – des mots partagés mais d’acceptions variables (comme dictionnaire, définition ou encore sens) ; – des apocopes “familières” inégalement distribuées (comme dico vs dictionnaire ou déf vs définition) ; – des dénominations palliatives ancrées dans le milieu éditorial (comme nom commun ou mot de la langue, qui doivent nommer tout ce qui n’est pas nom propre et qui fait l’objet d’un article dans les dictionnaires) ; – des spécialisations métalexicographiques de mots ordinaires (comme celles de niche et de nid proposées par Hausmann & Wiegand (1989) ou celles d’adresse, entrée et vedette, d’usage assez large) ; – des influences étrangères (et en particulier de l’anglais, comme celles que l’on peut observer ou spéculer pour adresse, entrée, lemme, compiler / compilateur / compilation ou encore éditeur) ; – des termes forgés par des métalexicographes (comme macrostructure et microstructure, définis par Rey-Debove (1971 : 21), ou le « diasystem » de Weinreich (1954), systématisé dans les onze items allemands porteurs du préfixe dia- de la grille de marques d’usage de Hausmann (1989) 121) ; – des termes de normes qui ne semblent pas être en usage ailleurs (comme élément compositionnel et ses hyponymes bloc, conteneur et groupe, dans la norme NF ISO 1951 Avril 2007 122). Ce recensement montre l’existence – de concurrences dénominatives (entrée, selon l’acception choisie, peut être synonyme d’adresse ou d’article), – mais aussi de lacunes (les composants qui accueillent les informations catégorielles, les prononciations ou encore les étymologies n’ont pas de nom), – et d’intersections avec les lexiques d’autres domaines (dont la linguistique, la traduction, l’édition et l’informatique). Il permet par ailleurs d’observer la polysémie de certains items et le rôle non négligeable des figures de style : métonymies (pour définition, sens et nom commun) et méta121 Cf. § 2.4. pour une présentation critique des onze ensembles de marques que nomment ces mots en dia-. 122 Cf. nn. 33 à 36 : un élément compositionnel est une « unité d’information composée d’éléments » (§ 3.2., p. 1) et un bloc, par exemple, un « élément compositionnel […] utilisé pour factoriser les éléments […] partagés comme affineurs par de nombreuses instances d’un élément particulier » (§ 3.2.1., p. 2). 88 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia phores, étudiées au § 2. en commençant par un exposé des problèmes que pose la délimitation de l’ensemble lexical qui doit être pris en compte. Celui-ci est conditionné en particulier par le choix d’une approche synchronique ou diachronique des polysémies observées et par l’importance accordée au caractère inhérent ou non des figures au domaine de la lexicographie (plutôt que de la traduction, de la sémiotique, etc.). Dans la dernière partie du développement précédent, les noms trésor et thésaurus font l’objet d’un commentaire typique de ce qu’une étude documentée par un corpus comme Rcorp12 doit rendre perceptible. Il s’agit du décalage observé entre les valeurs linguistiques et les emplois de ces deux items : le premier, trésor, est bien métaphorique quand il est employé dans le nom d’un répertoire notoire – le Trésor de la langue française – et serait un bon candidat pour désigner un sous-ensemble d’objets particuliers au sein des répertoires métalinguistiques, ce pour quoi il n’est pas utilisé ; le second, thésaurus, est bien un nom catégorisant (avec des extensions différentes en français et en anglais), mais il n’est pas le produit d’une métaphore en français (elle s’observait déjà en latin). Le § 2.2., consacré à l’exposé des caractéristiques de la vingtaine de métaphores repérées et étudiées, montre que si le lexique de la lexicographie est peu imagé 123, il présente néanmoins quelques métaphores fonctionnelles, en particulier : – pour nommer des ensembles de répertoires (mais en tenant compte des décalages qui viennent d’être exposés pour trésor et thésaurus) ; – pour exprimer la mise en relation de deux idiomes (encoder, encodage / décoder, décodage, en assimilant les langues à des codes 124) ou pour les nommer (grâce aux couples langue source / langue cible, et langue de départ / langue d’arrivée) ; – pour référer aux unités linguistiques sur lesquelles portent les articles (entrée, si on pose comme première l’acception en tant que nom de la sous-partie introduisant l’article et par laquelle un lecteur entre dans ce dernier et comme seconde l’acception en tant que dénomination de l’article 125 ; adresse, s’il s’agit bien d’un calque de l’anglais address) ; – ou encore pour nommer certaines organisations de la structure d’adressage des dictionnaires (niche / nid). Les métaphores qui sont relevées dans les discours lexicographiques sont généralement assez banales, puisqu’on les trouve aussi le plus souvent en langue commune ou dans d’autres espaces d’expression spécialisés. Les seules qui présentent une originalité sont celles construites sur niche et nid et employées pour référer à des types de structures d’adressage, même si la première est comparable à ce qui s’observe en économie où il est question de niches de marché ou d’économie de niches. L’étude lexicologique présentée dans T18 ne relève pas strictement de l’exploration de corpus, puisqu’aucun des aspects techniques de celle-ci n’est évoqué, mais plutôt de ce qui est documenté par celui-ci. Alors que les corpus sont constitués afin de 123 L’emploi figuré de dictionnaire pour désigner une personne érudite est cependant signalé en n. 40. 124 La n. 45 localise certaines réserves concernant cette assimilation. 125 Cette approche synchronique et fondée sur la fréquence des emplois est la seule qui permet d’observer une métaphore, puisque, selon l’approche étymologique, le nom entry emprunté à l’anglais réfère à l’article tout entier. Document de synthèse – 1.4. Créer d’autres corpus thématiques 89 servir comme ressources pour ce type d’analyses comme pour des travaux lexicographiques tels que Rdic2 (ou Rdic3 concernant le football), T18 est pour l’heure la seule publication uniquement linguistique corrélée au développement d’un corpus. Cette originalité est probablement pour partie induite par l’importance particulière dans ma pratique professionnelle de l’observation des spécificités d’expression que recèlent les divers discours lexicographiques en fonction de leurs modalités d’énonciation, mais ce n’en est pas l’unique motif (cf. infra). 1.4.4. Conclusion : la thématisation des corpus ne garantit pas leur rendement Quand, dès T2 et T3, des corpus thématiques ont été envisagés comme pouvant être féconds pour les lexicographes qui recourraient ponctuellement à eux pour décrire des emplois qui leurs étaient peu familiers, j’envisageais implicitement que ces ressources devaient avoir un bon rendement exploratoire. Les travaux entrepris concernant les commentaires de matchs de football (cf. T4 en particulier) ont cependant concrétisé exemplairement que des documents qui relèvent d’un même domaine n’ont pas tous la même qualité informative et que la sélection de chacun doit dépendre de celle-ci. Les procédures de choix des discours représentés dans les corpus thématiques élaborés ont suscité des questionnements relatifs à leur caractérisation dont témoigne l’évocation (en introduction du § 1.3.) des travaux de Douglas Biber et de paramètres de typage complémentaires que l’étude des commentaires footballistiques invite à prendre en compte. T18 fait écho à ces questions : – son introduction situe la pluralité des discours lexicographiques pris en compte par rapport à ceux observables concernant le football dans le cadre global de recherches sur « la variation des lexiques thématiques en fonction des modalités d’énonciation » ; – et le § 1. va plus loin en exposant des regroupements d’observations qui reflètent deux ordres de traits associables à chacun des discours considérés : • le premier est relatif à la diffusion des emplois (« partagés » (§ 1.1.), « inégalement distribués » (§ 1.2.), « ancrés dans le milieu éditorial » (§ 1.3.), relevant de « spécialisations métalexicographiques » (§ 1.4.)) et subsume des typages non linguistiques des énonciateurs et des destinataires des énoncés comme de la teneur de ces derniers ; • le second révèle les influences lexicales étrangères dont témoignent les emprunts et calques (§ 1.5.) et ne peut être fait qu’à l’issue d’une analyse linguistique. Si T18 s’appuie sur ces types de caractérisations sans détailler leur importance dans le cadre du développement d’un corpus comme Rcorp12, le présent mémoire fournit l’occasion d’expliciter ce point et d’augmenter leur inventaire en rappelant que d’autres critères de différenciation des discours où sont observées les unités lexicales afférentes à la lexicographie sont encore pris en compte, à savoir ceux dont témoignent les descriptions de Rdic2 et qui sont exprimés en leur sein par les attributs domaniaux ou typant les attestations (de sources orales ou écrites) évoqués au § 1.4.3. 90 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Décalage entre les objets de recherche et de publication La rédaction de cette synthèse fait ressortir un apparent paradoxe qui appelle une analyse de ses causes : les corpus thématiques que j’ai entrepris de développer ont suscité des questionnements relatifs au typage des discours relevant des domaines considérés et ont vocation à documenter des études linguistiques – que leur forme soit celle de développements lexicologiques comme dans T18 ou de productions lexicographiques comme dans Rdic2 –, mais la majorité des publications qui leur sont consacrées à ce jour accorde une plus large place aux aspects informatiques des traitements de corpus qu’à l’analyse de leurs contenus. Il existe donc un décalage entre le travail de recherche effectué et la visibilité qui en est donnée, puisque s’il inclut nécessairement des manipulations informatiques et les réflexions qui leur sont corrélées, il fait une large place aux études linguistiques préalables, dont en particulier celles relatives aux typologies de discours, et à celles rendues possibles par la disponibilité des données collectées à des fins d’observation. Quatre motifs au moins semblent avoir pu infléchir ainsi l’axage des publications : – le souhait de valoriser la formation de lexicographes que j’anime en promouvant sa composante technique, ce qui n’est peut-être pas étranger au fait qu’aujourd’hui nos étudiants soient bien accueillis dans les industries de la langue et dans les services d’informatique éditoriale de maisons d’édition ou les entreprises de prépresse, pour lesquelles la compétence en structuration de textes de différentes natures est primordiale ; 126 – les thématiques des volumes qui accueillent chaque contribution (T18, s’insérant dans un ensemble de travaux sur la métaphore, valorise plus naturellement son ancrage linguistique que T10, par exemple, qui trouve sa place parmi des exposés plus techniques relatifs à des traitements de corpus en lexicographie spécialisée) ; – les influences des collaborations : T8 a été conçu dans le cadre d’une participation à un projet taliste (OURAL, P2) dont les objectifs étaient plus applicatifs 127 que linguistiques et T10 a été rédigé avec Hans Paulussen, spécialiste du développement de corpus plus impliqué actuellement dans des traitements informatiques que dans les analyses linguistiques 128 ; • en revanche, à la différence des deux articles précédents, T18 a été coécrit avec Pierre Corbin – avec qui j’avais déjà conçu et exploré le corpus footballistique de multiplex (Rcorp1) au sujet duquel nous avons élaboré séparément des premières rédactions thématiquement complémentaires (cf. supra § 1.3.) – et il a naturellement • 126 Il est difficile d’évaluer la diffusion des textes scientifiques chez nos partenaires professionnels, mais je sais par contre qu’un petit nombre d’entre eux a assisté à certains de mes exposés. Par ailleurs les échanges avec eux ne se limitent pas aux contributions scientifiques, mais suscitent aussi des présentations informelles des travaux en cours au moment où nous dialoguons ou des recherches qui ont motivé des contributions étudiantes dont ils ont entendu parler ou dont ils ont observé les effets formateurs (chez un stagiaire par exemple). 127 Comme je l’ai indiqué au § 1.4.1., les corpus constitués devaient en premier lieu être exploités par le VALORIA pour des développements d’outils linguistiques conçus pour pallier les handicaps physiques de ceux qui devaient les utiliser. 128 Sa thèse (Paulussen (1999)) fondait une analyse relevant de la linguistique cognitive sur des données observées en corpus. Document de synthèse – 1.4. Créer d’autres corpus thématiques 91 trouvé sa matière dans les questions lexicales qui font notre quotidien de formateurs soucieux de l’adéquation de leurs propres usages aux besoins dénominatifs rencontrés comme à la qualité des descriptions lexicales élaborées aussi bien à titre d’exercices avec les étudiants que dans le cadre de nos productions de recherche ; – et le fait que, par essence, le choix d’une méthodologie et d’un outillage précède les analyses qui le présupposent, dont le développement s’inscrit dans une durée plus longue qui tend à différer la publication de résultats maîtrisés et consistants. 1.5. Fournir une expertise technique pour des corpus variés Les travaux du début des années 2000, en particulier ceux relatifs au corpus de multiplex transcrits (Rcorp1) et ceux du projet OURAL (P2 : Rcorp5 et Rcorp6), ont enrichi mon expérience, et les exposés faits à Lille au sujet du premier corpus ont contribué à rendre mon travail plus visible pour mes collègues locaux. De nouveaux échanges se sont noués et de nouvelles collaborations ont vu le jour, qu’elles aient donné lieu à des projets financés ou non. Sans entrer dans le détail des plus ponctuelles, il est nécessaire d’évoquer (§ 1.5.1.) le séminaire de recherche “Constitution et exploration de corpus” (S1, cf. n. 13) mis en place à mon initiative. Institutionnalisés durant l’année universitaire 2006-2007, les travaux de ce séminaire de l’UMR STL (proposé plus largement aux étudiants lillois de l’école doctorale en SHS) ont débuté au printemps précédent afin de recenser les besoins des futurs participants auxquels les interventions devaient chercher à répondre et de préparer la contribution de l’UMR au comité d’orientation de Frantext, où je l’ai représentée lors de la réunion à l’ATILF de novembre 2006, ce qui a motivé la rédaction de Tdr2 (destiné aux membres dudit comité), puis l’exposé E9. Un des objectifs du séminaire était de rendre accessible à chacun des participants les manipulations informatiques utiles pour les exploitations de corpus qu’il ambitionnait de réaliser en proposant des séances de traitements de données en plus des exposés théoriques et en espaçant nos réunions de manière à ce que chacun ait la possibilité de réemployer ses nouveaux acquis entre celles-ci. Il est difficile d’évaluer l’impact de formation réel de ce travail collectif, même si son exploitation dans certaines thèses soutenues ensuite est avéré. Par contre, il est patent que le séminaire a joué un rôle d’incubateur de projets, puisque, pour ce qui me concerne seulement, il a induit, directement ou par relais, que j’apporte une expertise technique à trois recherches qui vont être présentées ci-après : – la structuration et la création d’une interface de consultation pour le corpus de textes littéraires serbes / français / anglais (Rcorp15) réalisé dans le cadre du projet arrageois P3 à l’initiative de Dejan Stosic (§ 1.5.2.) ; – l’exploration de l’œuvre étudiée par un doctorant littéraire (Matthieu Marchal) et la structuration en XML du lexique constitué dans le cadre de cette analyse (§ 1.5.3.) ; – l’annotation et la valorisation électronique d’un corpus de textes de mathématiques en grec ancien (Rcorp14) qu’étudie Fabio Acerbi dans le cadre du projet Algo P4 (§ 1.5.4.). 94 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia 1.5.1. Élargir les perspectives de collaborations [S1 ; Tdr2 (2006)] J’ai proposé le séminaire S1 après avoir participé à une école thématique du CNRS organisée à Caen en 2004 et constaté son effet stimulant sur les doctorants lillois qui y participaient également. Animer avec trois autres enseignants-chercheurs de l’UMR STL (Cyril Auran, Antonio Balvet et Ilse Depraetere) ces séances de travail qui avaient vocation à réunir des linguistes, mais aussi des philosophes, des philologues et tous ceux, membres de l’UMR ou de l’école doctorale, qui souhaitaient mieux connaître ce qu’il est possible de faire avec des corpus, constituait pour moi un enrichissement : ayant jusqu’ici travaillé en fonction des besoins exprimés par quelques linguistes ou perçus chez les lexicographes, j’étais confrontée à d’autres attentes et aux contraintes particulières d’autres contextes de recherche. Réfléchir ensemble à des corpus d’oral ou d’écrits, mono-, bi- ou multilingues… J’ai donc profité de cette occasion pour élargir mes compétences techniques et confronter d’autres méthodes de travail à celles que j’avais déjà expérimentées concernant les trois thèmes retenus : – les corpus oraux, que nous avons manipulés (en nous appuyant sur l’expérience de Cyril Auran) avec l’outil de transcription Praat, mieux adapté que Transcriber pour des études de phonétique et dont l’utilisation serait préférable pour une analyse du corpus de multiplex footballistiques Rcorp1 comme celle envisagée avec ce collègue (cf. § 1.3.2.) et articulant appréciation de la qualité de la voix, choix lexicaux effectués et intensité des actions de jeu décrites pour relater celles-ci ; – les corpus de sources écrites bilingues, au sujet desquels Hans Paulussen nous a exposé les développements de corpus entrepris à l’époque à l’ALT Research Center on CALL et pour lesquels nous avons réfléchi avec Ilse Depraetere aux modalités de conversion en corpus alignés de textes traduits en utilisant des mémoires de traduction 129 ; 130 – et les corpus de sources écrites monolingues, • qui m’ont donné l’occasion de manipuler de nouveau des ressources que j’avais exploitées antérieurement pour mes enseignements et parfois pour mes publications : les CDROM de presse, dont en particulier les archives du journal Le Monde, utilisées pour T1, T3 et T4, et la base Frantext, jamais mobilisée pour l’un de mes articles mais à laquelle est consacré le rapport Tdr2 ; 129 Ces échanges ont par ailleurs confirmé l’utilité d’une ouverture aux traitements de corpus bilingues pour une forme de lexicographie consistant à élaborer des lexiques utilisables par les mémoires de traduction (ce qui a motivé une direction de mémoire : Mdir78 (Guevara (2009)) et plus largement par des applications informatiques multilingues. 130 Près de la moitié des étudiants de la formation professionnelle de lexicographes viennent de l’étranger (cf. n. 2) et une large part d’entre eux et des étudiants bilingues ou trilingues de langue maternelle française souhaitent ensuite travailler en lexicographie bilingue. Pour les initier à la constitution et à l’exploitation de corpus bilingues ou multilingues, il est donc utile que j’aie réfléchi à différentes méthodes de collecte et d’alignement des textes et que je guide chacun d’entre eux vers les choix les mieux adaptés en fonction de leurs projets et des langues qu’ils souhaitent traiter. Document de synthèse – 1.5. Fournir une expertise technique 95 • au sujet desquels des expériences d’annotation morphosyntaxique réalisées avec l’étiqueteur TreeTagger 131, relatées par Antonio Balvet, ont amélioré ma connaissance de cet outil et m’ont permis de mieux le situer par rapport à Cordial Analyseur que j’utilise ordinairement ; • et pour lesquels j’ai souhaité valoriser ce que des structurations de corpus en XML peuvent apporter en permettant d’intégrer des annotations aux données balisées et de garantir un accès conjoint à ces annotations et au texte source par des requêtes dont l’expression est incluse dans des transformations XSLT qui manipulent le document structuré. Sans couvrir l’ensemble des questions traitées ou des outils mobilisés dans le cadre du séminaire, les points qui viennent d’être évoqués représentent pour moi, selon les cas, – des prises de repères sans réemploi immédiat mais mobilisables pour un futur projet ou une direction d’étudiant ; – de nouvelles manipulations de ressources en fonction des problématiques de recherche de participants au séminaire, ce qui a contribué par exemple à enrichir le propos de Tdr2 concernant la base Frantext ; – des invitations à concevoir et à exploiter des corpus enrichis d’annotations dédiées aux explorations visées, qui ont motivé mon implication dans les travaux présentés aux §§ 1.5.2. à 1.5.4. … comme à une ressource existante – Frantext – susceptible d’évolutions Le séminaire S1 m’a permis de constater que la base Frantext était toujours régulièrement mobilisée par les linguistes de l’UMR STL et qu’il était donc légitime que nous répondions à l’invitation à participer au comité d’orientation pour Frantext de novembre 2006 que nous avait adressée Jean-Marie Pierrel, directeur du laboratoire ATILF. Le texte Tdr2 que j’ai rédigé après consultation des participants du séminaire préfigure l’exposé E9 fait en réunion. Son plan en cinq points a vocation à couvrir tous les aspects pratiques de l’utilisation de cette base textuelle et des questions plus fondamentales concernant son contenu. Y sont successivement passées en revue la limitation de son accès, l’ergonomie de son interface graphique et des pages d’aide, la sélection des textes rendus consultables, les modalités d’exploration proposées et la présentation des résultats des requêtes (en particulier lors de leur rapatriement). Si les questions d’accessibilité et d’ergonomie (§§ 1. et 2.), en dépit de leur incidence sur l’image de la base Frantext, peuvent néanmoins être considérées comme relativement secondaires, les observations formulées concernant les enrichissements 131 Cet outil présente le double intérêt d’être gratuit et d’offrir des versions pour différentes langues, ce qui est appréciable pour ceux qui ont besoin d’exploiter des corpus multilingues, dont toutes les composantes peuvent ainsi être traitées avec le même outil, mais il présente aussi la double caractéristique d’être paramétrable – et donc le plus souvent à entraîner avant emploi effectif – et de ne pas lemmatiser les items étiquetés – cette lacune pouvant être contournée en le faisant coopérer avec le lemmatiseur Flemm développé en 2000 par Fiammetta Namer (http://www.univ-nancy2.fr/pers/namer/Telecharger_Flemm.html), afin que le second traite les données annotées par le premier et produise des triplets mot-occurrence original, code morphosyntaxique et lemme. 96 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia textuels souhaités sont, elles, centrales, puisqu’elles concernent ce qui motive l’existence même de cette base textuelle. Selon l’exposé qui en est fait (§ 3. points a) et b)), elles sont révélatrices des indéterminations qui prévalent chez beaucoup de ceux qui souhaitent exploiter des corpus mais qui n’ont pas une représentation précise de leurs besoins et/ou qui ambitionnent de disposer d’une ressource polyvalente (ce qu’est ou que doit être Frantext selon certains). Parmi les élargissements suggérés pour l’intégration de nouveaux documents, des sources écrites semblent devoir être privilégiées (l’oral étant supposé trop coûteux à traiter), mais sans exclure l’oral préécrit provenant de scénarios de films ou de commentaires de documentaires, dans la mesure où cette ouverture à d’autres types de textes permet de faire une place à une expression plus actuelle et diversifiée. La position adoptée témoigne ainsi de réalisme (en n’envisageant rien de coûteux), de pragmatisme (en suggérant de consulter les utilisateurs), mais aussi d’exigence (en réclamant que la typologie des textes ne se limite plus à dix genres mais soit amplement remaniée en fonction de différents paramètres de caractérisation applicables à ceux déjà présents comme à ceux qui seraient intégrés). Les linguistes qui documentent leur réflexion en consultant Frantext utilisent éventuellement conjointement d’autres corpus. Dans ce cas et en l’état actuel des choses (§ 3. points c) et d)), les textes de Frantext étant explorables via l’interface de consultation dédiée et ceux de Frantext catégorisé étant de surcroît enrichis de codes morphosyntaxiques qui lui sont propres, ces utilisateurs sont obligés de manipuler plusieurs outils d’exploration et de mémoriser plusieurs jeux de codes d’annotation (dont les différences correspondent parfois à des divergences d’analyse importantes). L’adjonction d’une possibilité de traitement d’un corpus personnel par l’outil d’exploration de la base faciliterait naturellement leur travail, mais, à défaut, un étiquetage des textes de Frantext catégorisé compatible avec ceux produits par au moins un des outils mobilisables pour les autres corpus éviterait de devoir composer avec la diversité des prétraitements 132. Concernant les modalités d’exploration (§ 4.), outre la formulation de suggestions de simplifications de codages dans les expressions de motifs de recherche, qui peuvent être faites sans créer de problème particulier, ce sont des questions d’interfaçage du Trésor de la langue française informatisé et de la base textuelle qui sont posées, puisque, – d’une part, certaines requêtes formulées depuis le dictionnaire fournissent les mêmes extractions textuelles de la base que quand elles sont formulées dans l’interface de consultation de celle-ci, mais que ce n’est pas le cas pour toutes ; – et que, d’autre part, le dictionnaire permet de créer des listes de mots répondant à des critères énonçables plus précisément que ne le fait l’interface de consultation de la base, ce qui motive le souhait que les listes issues du répertoire soient importables comme motif de recherche 133. Le dernier développement (§ 5.) est consacré à des remarques sur la présentation des extraits retournés en réponse aux motifs de recherche exprimés. Outre la limitation 132 Il serait toutefois nécessaire de bien expliciter quel est l’outil qui a été mobilisé et, le cas échéant, quels en sont les paramétrages. 133 En préparant Tdr2, je n’avais pas réussi à faire cette manipulation, mais un membre du comité d’orientation de Frantext m’a dit que c’était possible (sans toutefois savoir m’expliquer comment procéder). Document de synthèse – 1.5. Fournir une expertise technique 97 de la taille des contextes, qui, bien que motivée par de légitimes questions de prévention des piratages de textes, entrave trop souvent les études qui ont motivé la consultation de la base, ce sont la pauvreté des types de tri des résultats, mais aussi les absences de formatages des textes rapatriés et la perte des codes morphosyntaxiques pour les extraits issus de Frantext catégorisé qui sont déplorés. Un ultime point est abordé (§ 5. e)) : le calcul des cooccurrences lexicales, qui ne différencie pas les cooccurrents gauches et droits. Il n’est évoqué que rapidement, ce qui ne reflète pas l’importance du problème soulevé mais le fait que la fonction de consultation incriminée n’est pratiquement pas employée par les membres de l’UMR STL qui m’ont fait part de leurs utilisations de Frantext. Que retenir des réflexions collectives relatives aux corpus et à la base Frantext ? Depuis la tenue du comité d’orientation pour Frantext, la base textuelle a fait peau neuve, sans toutefois évoluer dans les proportions envisagées par les différents membres du comité. Depuis la fin du séminaire S1, des évolutions sont également observables dans les pratiques de certains participants, mais le rapport des linguistes aux corpus est complexe et, bien que les animateurs de ce séminaire aient été attentifs aux besoins exprimés, ils n’ont ni répondu à toutes les questions – ce qui est certainement normal dans le cadre de travaux collectifs –, ni peut-être su assez suggérer des démarches de réflexion préalables à la consultation d’une ressource permettant aux linguistes de choisir celle-ci et de l’aborder en ayant conscience de ce qu’ils attendent d’elle – ce qui est induit par l’axage technique des thèmes choisis à la demande des participants et par le fait que les séances s’adressaient à des chercheurs qui avaient des besoins différents 134. D’autres échanges, plus informels et ponctuels, offrent l’occasion de compléter ceux du séminaire et de prolonger certaines des réflexions engagées. Depuis 2008, d’autres modes de collaboration m’impliquant se sont mis en place pour des entreprises de natures variées mais qui ont en partage de m’inviter à apporter une expertise technique pour le traitement de textes que d’autres chercheurs étudient. 1.5.2. D’un corpus littéraire à une base textuelle en ligne [P3 ; Rcorp15] Durant le séminaire S1, j’ai mieux fait connaissance avec Dejan Stosic (cf. § 1.3.4.), qui ambitionne de constituer un corpus trilingue serbe / français / anglais pour soutenir ses études linguistiques comme celles d’autres chercheurs ayant les mêmes langues en partage. Dejan Stosic étant un utilisateur régulier de la base Frantext, son projet en est inspiré. Ce corpus de textes littéraires alignés a vocation à être consultable en ligne. Il est réalisé en partenariat avec des doctorants et chercheurs de l’université de Belgrade réunis autour de Duško Vitas, un mathématicien qui constitue déjà des corpus multi134 Ceux qui, comme les chercheurs évoqués aux §§ 1.5.3 et 1.5.4., étudient un texte ou un ensemble de textes particulier ne sont pas concernés par le choix des sources de la même manière que les linguistes qui analysent des énoncés variés. 98 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia lingues alignés xmlisés et qui exploite à cette fin différentes fonctionnalités d’Unitex 135. De ce fait, collaborer à ce projet implique pour moi la prise en compte d’une nouvelle méthode de constitution de corpus multilingue et enrichit ma connaissance d’Unitex, déjà exploité pour d’autres besoins 136. Dejan Stosic ayant constitué la liste des textes disponibles en serbe, en français et si possible en anglais à rendre consultables en ligne par extraits intégrant un motif de recherche exprimé dans une ou plusieurs des ces langues 137 – ce qui a impliqué de repérer ceux qui sont librement utilisables et d’acquérir les droits d’exploitation des autres –, la tâche des participants au projet consiste à numériser si besoin, nettoyer et aligner les différentes versions de chacun de ces textes. Pour ma part, je collabore avec Dejan Stosic à la définition de l’interface de consultation qui doit à la fois offrir les fonctionnalités les plus abouties et la meilleure ergonomie pour des non-spécialistes. Les orientations que nous avons définies en mai 2010 devant encore être discutées avec les partenaires serbes du projet, l’exposé présenté infra reste donc programmatique. Nous nous orientons vers la mise en place d’une base de données SQL dont les tables sont générées par transformation des données textuelles alignées structurées en XML avec Unitex par l’équipe de Duško Vitas et dont le contenu doit être interrogé au moyen de scripts PHP. Les premiers documents XML reçus de Belgrade – les versions serbe et française d’un des textes – ont une structure simple, respectueuse de la TEI et conforme à la DTD présentée en figure 20, dans laquelle les attributs @xml:id portés par les éléments <div> et <s> et @id porté par le dernier seulement permettent d’identifier de manière unique chaque segment de texte et de gérer les appariements d’éléments <s> des fichiers des deux langues qui contiennent les segments de texte à aligner. Figure 20. DTD des textes littéraires alignés du corpus Rcorp15 <tei> <teiHeader> <text> <body> <div>+ @xml:id <p>+ <s>+ @xml:id @id Le contenu de ces fichiers est enregistré dans une base de données (cf. figure 21), dans laquelle 135 Dont la fonction d’alignement de textes qui y est intégrée depuis sa version 2.0 (cf. Paumier (2008, § 9.)). 136 Cf. T4 et T10 pour ce qui concerne des traitements de corpus (§§ 1.3.2. et 1.4.2.). 137 Ce qui est envisagé est inspiré de l’interface de consultation de la base Frantext, mais, dans la mesure où il s’agit d’une compilation de textes bilingues ou trilingues, on peut également le comparer, dans une certaine mesure, à ce qui est proposé par exemple dans TransSearch pour l’exploration des bases du Hansard réunissant les débats de la Chambre des communes et du Sénat canadiens (http://www.tsrali.com/). Document de synthèse – 1.5. Fournir une expertise technique 99 – la table T_References et les tables qui lui sont liées (T_References_fr, T_References_sr et T_References_en), qui contiennent les références des textes (issues des éléments <teiHeader> des documents XML) réparties entre • la première table pour les noms du ou des auteur(s) de la version originale, la langue et la date de publication de celle-ci, ainsi que son genre textuel (cf. les champs Auteurs_VO, Langue_VO, Date_publication_VO et Genres), • et les tables liées dédiées aux versions d’une langue particulière pour les mentions de titres, du ou des éventuel(s) traducteur(s), de l’éditeur, de la date de parution et, si besoin, d’autres indications de référenciation (cf. les champs Titres_V…, Traducteurs, Editeurs, Dates_publication_V…, Autres_references_V…, où le code de chaque langue figure à la place des “…”) ; – la table T_Alignements, qui contient les identificateurs des segments de texte à aligner (les attributs @id et @xml:id des éléments <s> et @xml:id des éléments <div> les enchâssant dans les fichiers XML) 138 et un lien vers la table des références T_References pour identifier les textes auxquels appartiennent les segments ; – les tables T_s_fr, T_s_sr et T_s_en, qui enregistrent les segments de texte (les contenus des éléments <s> des fichiers XML de chaque langue) et leurs identificateurs (les attributs @id et @xml:id des éléments <s> et @xml:id des éléments <div> les enchâssant). Figure 21. Schéma de relations de la base de données des textes littéraires alignés du corpus Rcorp15 Dans le cadre des premiers développements, l’interface de consultation doit permettre – de définir le sous-corpus de travail, à la manière de ce qui est proposé pour Frantext, en sélectionnant des auteurs et/ou des titres et/ou des genres et/ou une période de publication ; 138 Il n’est pas certain que les trois identificateurs soient réellement utiles, mais par sécurité ils sont tous con- servés. 100 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – d’affiner la définition du sous-corpus en choisissant la ou les langue(s) à prendre en compte ; – puis d’exprimer dans les champs d’interrogation dédiés à chaque langue sélectionnée une forme lexicale à chercher dans les segments de ladite langue. En fonction de la requête, l’interface doit retourner les segments pertinents alignés, selon la demande, à ceux de la ou des autre(s) langue(s) sélectionnée(s). La limitation aux formes des mots-occurrences est induite par le fait que les textes du corpus Rcorp15 alignés et structurés en XML avec Unitex par l’équipe de Duško Vitas ne sont ni lemmatisés, ni étiquetés morphosyntaxiquement, le traitement réalisé pour eux étant le même que celui fait pour d’autres textes que Duško Vitas aligne et explore avec Unitex en exploitant la capacité de cet outil à projeter les lemmes et indications morphosyntaxiques de ses dictionnaires sur les mots-occurrences (cf. § 1.3.2.). Nous n’envisageons pas pour le moment d’étiqueter morphosyntaxiquement les textes du corpus, mais la conception de la chaîne de traitements précédemment exposée est conçue de manière à pouvoir également gérer les versions des textes alignés enrichies d’annotations (en ajoutant, dans les tables T_s_fr, T_s_sr et T_s_en, un champ stockant la version étiquetée de chaque segment à côté de celui-ci, et en enrichissant conjointement le formulaire d’interrogation du corpus). À la différence de ce que j’ai indiqué concernant la majorité des corpus précédents, et en particulier ceux relatifs au football et à la lexicographie, l’accent mis dans cet exposé sur les aspects techniques de l’élaboration du corpus littéraire trilingue reflète ce qui motive ma contribution à ce projet. Mobilisée pour mon savoir-faire informatique, je vais trouver dans cette collaboration l’occasion d’enrichir celui-ci, puisque les procédures de prétraitement des textes incluent la création et la mise en ligne de bases SQL, que je n’ai pas encore expérimentées pour de si gros volumes de données dans d’autres contextes. 1.5.3. D’un corpus des versions et traductions d’un texte à l’édition critique parallèle de celui-ci [P5] Depuis quelques années, des collègues lillois médiévistes et seiziémistes, membres de l’équipe de recherche ALITHILA 139, qui élaborent des éditions critiques de textes d’ancien ou de moyen français et de la Renaissance, témoignent d’un certain intérêt pour la structuration en XML, à laquelle par ailleurs un étudiant de M1 TAL a réfléchi il y a quelques années dans un mémoire que j’ai dirigé (Mdir34 (Bogaert (2005)). De l’encadrement technique d’une édition critique élaborée par un doctorant… Au moment où le séminaire S1 a pris son essor, ma collaboration avec ces collègues, qui s’était jusque là limitée à des échanges de vues et des soutiens techniques ponctuels, s’est intensifiée. Il s’est agi dans un premier temps d’une demande de la médiéviste Marie-Madeleine Castellani concernant Matthieu Marchal, un doctorant qu’Aimé 139 Analyses LITtéraires et HIstoire de la LAngue, EA 1061, http://alithila.recherche.univ-lille3.fr/. Document de synthèse – 1.5. Fournir une expertise technique 101 Petit avait, antérieurement à son départ en retraite, initié à l’édition de textes médiévaux, qu’elle encadrait seule depuis la cessation d’activité de ce collègue et qui a soutenu sa thèse le 5 décembre 2009. Matthieu Marchal, qui travaillait dans le cadre de celle-ci sur une édition critique d’un roman de chevalerie anonyme du XVe siècle actuellement connu sous le nom de Gérard de Nevers et résultant de la mise en prose du Roman de la violette écrit en octosyllabes deux siècles plus tôt par Gerbert de Montreuil, a participé aux séances du séminaire S1 pertinentes pour son étude et s’est inscrit en M2 LTTAC en 20062007 afin d’acquérir les compétences utiles à son projet de structuration en XML et d’exploration de sa transcription du roman étudié. Telle qu’elle avait été initialement envisagée, la structuration du texte, transcrit dans un éditeur classique (Microsoft Word), devait en particulier permettre de repérer toutes les occurrences de chaque unité lexicale, y compris en cas de graphie instable (ce qui impliquait d’associer une forme conventionnelle aux différentes formes attestées), afin de pouvoir les étudier plus efficacement. Nos séances de travail et les cours suivis en master LTTAC ont fait évoluer ce projet. D’une part, nous avons décidé de l’utilisation d’Unitex pour repérer les variantes graphiques à baliser en créant un dictionnaire personnel associant à chaque forme attestée une forme lemmatisée conventionnelle, ce qui a permis que cet outil suffise aux besoins d’exploration du texte et que le projet de son balisage soit reporté. D’autre part, le choix de structurer en XML un glossaire beaucoup plus riche que ne le sont ceux habituellement livrés dans ce type d’éditions, afin de pouvoir le manipuler pour procéder à des études lexicales développées comme pour en produire différentes versions présentant des sélections d’informations et des mises en forme variées, a suscité un important investissement et l’acquisition de compétences en XML, XSLT et XSL-FO 140 (cf. Marchal (2009, vol. III : 9-25)) qui n’ont plus laissé à cet étudiant la possibilité de revenir à la structuration du texte dans le temps dévolu à la préparation de son doctorat. Nous projetons de poursuivre ensemble le travail engagé en reprenant la structuration en XML de son corpus textuel à partir, d’une part, du repérage des variantes graphiques fait avec Unitex, à baliser en exploitant un transducteur (cf. § 1.3.2.), et, d’autre part, du balisage des constituants structurels du texte à partir des styles de paragraphes ou de caractères mis en place dans le document Word de la transcription (comme cela a été réalisé pour le second texte du corpus des écrits de Danielle Corbin, Rcorp8, cf. § 1.6.2.). … à des projets d’éditions incluant des variantes textuelles Cette première interaction avec des spécialistes de l’ancienne langue s’étant révélée très stimulante, nous avons réfléchi à d’autres collaborations de recherche 141 qui, outre Marie-Madeleine Castellani et Matthieu Marchal, impliquent également les seiziémistes Elsa Kammerer et Anne-Pascale Pouey-Mounou et qui portent en particulier 140 eXtensible Stylesheet Language - Formatting Objects (cf. n. 8). 141 Nous avons également entrepris une collaboration pédagogique qui nous conduit à proposer des enseigne- ments de structuration de corpus de textes anciens en master de Lettres à partir de la rentrée 2010. 102 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia sur des structurations et des éditions critiques de textes 142 pour lesquelles sont disponibles plusieurs manuscrits ou éditions présentant des variantes et/ou plusieurs traductions n’offrant ponctuellement pas les mêmes mises en équivalence. Pour ces textes, ces collègues souhaitent que nous réfléchissions aux modalités de structuration d’une version électronique compilant toutes les variantes (dans la langue originale et la ou les traduction(s)) et de laquelle pourront être dérivées des éditions intégrales imprimées ou électroniques matérialisant les divergences (en présentant par exemple les différents segments de texte en parallèle), afin que les lecteurs et analystes puissent aisément repérer ce qui relève spécifiquement de telle source ou de telle traduction. La première manifestation de cette collaboration est l’invitation que j’ai reçue à intervenir en mars 2011 dans le séminaire doctoral transfrontalier “Vie des mots, dynamique des langues : l’Europe, du Moyen Âge à l’époque moderne (langues, glossaires et bases de données informatiques)” organisé par Elsa Kammerer dans le cadre du projet ANR-DFG Eurolab “Dynamique des langues vernaculaires dans l’Europe de la Renaissance. Acteurs et lieux” 143 (P5). Les échanges avec ces quatre chercheurs au titre du projet Eurolab sont trop récents pour que nous ayons véritablement engagé des travaux communs, mais ils doivent me fournir l’occasion de réfléchir aux contraintes éditoriales de ces textes qui sont disponibles dans plusieurs versions à prendre conjointement en compte et qui peuvent donner lieu à une ou plusieurs traduction(s). À la jonction entre traitement de corpus et informatique éditoriale, les éditions entreprises dans ce contexte me mettront en situation d’expérimenter des solutions techniques dont un sous-ensemble est intersectif avec celles retenues pour l’édition critique des écrits de la morphologue Danielle Corbin (cf. § 1.6.2.), mais qui présenteront la particularité d’impliquer la gestion de segments de texte parallèles. Par ailleurs, travailler avec les collègues qui étudient ces textes pourra me donner l’occasion de m’initier à leur contact à d’autres manières d’observer les usages linguistiques et constituer un écho aux analyses de descriptions relatives à l’origine et à l’histoire des unités linguistiques fournies dans les dictionnaires auxquelles j’ai consacré les articles T12, T13, T15 et T16 (cf. § 2.5.). 1.5.4. De l’étude de la “densité déductive” de théorèmes mathématiques à leur publication électronique [P4 ; Rcorp14] Le troisième projet de création de corpus qui m’amène à faire profiter d’autres chercheurs de mes connaissances techniques concerne des textes de mathématiques écrits en grec ancien. En 2008, Fabio Acerbi, chercheur à l’UMR STL, m’a proposé de l’aider à produire ce qu’il a appelé un « logiciel d’analyse de la “densité déductive” d’un texte » dans le cadre du projet ANR “blanc” intitulé “Structures déductives algorithmiques dans les mathématiques pré-algébriques” (ou Algo, dans sa forme brève) qu’il porte avec Bernard Vitrac (directeur de recherche au CNRS) et qui a débuté en 2009. 142 Selon les besoins de ces chercheurs, les textes étudiés datent du Moyen Âge ou de la Renaissance. 143 Ce projet est porté par Elsa Kammerer (université Lille 3) et Jan-Dirk Müller (Ludwig-Maximilians- Universität Munich), cf. n. 15. Matthieu Marchal y participe en bénéficiant d’un contrat de postdoctorant. Document de synthèse – 1.5. Fournir une expertise technique 103 Le texte grec étudié est celui des Données d’Euclide. Il contient quatre-vingt quatorze théorèmes. La version prise en compte est celle que l’on trouve dans le Thesaurus Linguae Graecae® version E (cf. http://www.tlg.uci.edu/about/history.php), qui correspond au texte de l’édition critique de référence proposée par Henricus Menge en 1896. Ce texte comptant 124 225 signes, Fabio Acerbi considère qu’il constitue un échantillon de taille raisonnable d’un point de vue statistique pour le type d’étude envisagé. Pour ce texte dont les caractères ont été convertis en Unicode (Rcorp14), nous avons conçu une structuration XML (respectueuse des recommandations de la TEI, cf. figure 22) telle que soient balisés – les théorèmes et les subdivisions internes de chaque théorème (énoncé, ecthèse, construction, démonstration, etc.) ; – les ponctuations (virgules, points bas et points hauts) ajoutées postérieurement à la rédaction ; – et les items lexicaux simples et complexes qui marquent la progression déductive d’une preuve mathématique, auxquels nous affectons en attribut une forme canonique (permettant d’identifier les mots-occurrences quelle que soit leur forme graphique) et un indicateur de valeur sémantique. Figure 22. DTD du corpus des Données d’Euclide Rcorp14 <tei> <teiHeader> <!-- Le détail de cet en-tête n’éclairant pas la présentation du corpus, il n’est pas exposé. --> <text> <body> <div>+ @id <!-- Chaque élément <div> contient le texte d’un théorème (une proposition). --> <p>+ @type @id <!-- Chaque élément <p> contient le texte d’une subdivision de théorème et est typé de manière à ce que les énoncés, ecthèses, etc. soient sélectivement analysables. --> ( #PCDATA <!-- Les subdivisions des théorèmes contiennent des items autres que ceux sur lesquels porte l’analyse, ceux-ci ne sont pas balisés et constituent des “données” (DATA) de type caractères (C) analysables par un parseur (P) (le dièse indiquant que PCDATA est un mot-clé et non un nom de sous-élément). --> OU <w> @lemma @ana @id <!-- Chaque élément <w> contient un des items simples (constitués de PCDATA) ou complexes (constitués de sous-éléments <w>) qui jouent un rôle dans la progression du raisonnement. L’attribut @lemma enregistre sa forme canonique et @ana sa valeur. --> ( #PCDATA OU <w>+ @lemma @ana @id ) OU <c> @type @id <!-- Chaque élément <c> contient une ponctuation. L’attribut @type enregistre s’il s’agit d’une virgule, d’un point haut ou d’un point bas. --> )* <!-- Un élément dont le modèle de contenu est constitué de PCDATA et de sous-éléments réunis dans une disjonction optionnelle et répétable contient en fait le plus souvent du texte et zéro, une ou plusieurs occurrence(s) de chaque sous-élément placée(s) n’importe où dans celui-ci. --> 104 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Le premier de nos objectifs consiste en l’étude quantitative et qualitative des items jouant un rôle dans l’expression du raisonnement en prenant en compte leur répartition dans les différentes parties des théorèmes et leur placement par rapport à celui des ponctuations qui y figurent également. À cette fin, nous élaborons des procédures d’extraction sélective des données structurées qui doivent éclairer les analyses. Les transformations XSLT mises en œuvre doivent donc – permettre d’évaluer la “densité déductive” de ces théorèmes, qui ne comportent pas de notation symbolique mais seulement des expressions en langage naturel et qui sont caractérisés par leur richesse en items structurant le propos ; – et plus indirectement, faciliter l’étude de la ponctuation (qui a été insérée a posteriori) et ses liens avec l’expression de la progression des raisonnements exposés. Le second objectif est éditorial, le texte des Données d’Euclide devant à terme être publié électroniquement sur le site Web du projet Algo et y être présenté avec une sélection des extractions effectuées pour l’étude de sa “densité déductive” et des commentaires qu’elles appellent. 1.5.5. Conclusion : quand l’informatique éditoriale fait partie intégrante des traitements de corpus Les collaborations qui viennent d’être présentées ont trouvé naturellement leur place dans mes travaux du fait de la fécondation mutuelle de mes investissements dans deux domaines : les traitements de corpus, et en particulier ceux qui sont bilingues ou multilingues alignés, et l’informatique éditoriale (que motive mon implication dans la formation de lexicographes). Traiter des corpus alignés bilingues ou multilingues mais aussi monolingues Le travail concernant des corpus bilingues ou multilingues, réalisé depuis 2005 avec Hans Paulussen et les étudiants de la formation LTTAC (cf. Rcorp7 et T10 (§ 1.4.2.)) puis dans le cadre du séminaire “Constitution et exploration de corpus” (S1) et avec Dejan Stosic (cf. Rcorp15 (supra) et Rcorp16 (§ 1.3.4.)), m’a conduite – à envisager l’exploitation de documents oraux transcrits, ou écrits issus soit du Web, soit de mémoires de traduction, soit de procédures de numérisation des textes imprimés ; – à aligner leurs différentes versions au moyen de scripts ad hoc, de fonctionnalités disponibles dans Unitex ou en exploitant les mises en correspondance déjà créées dans les mémoires de traduction ; – à enregistrer leurs contenus • dans des fichiers en texte brut (en calculant de manière précise que les segments à aligner se trouvent dans des paragraphes de même rang dans les fichiers de chaque langue 144), 144 Cf. T10 § 3.4. concernant le corpus de tourisme (Rcorp7). Document de synthèse – 1.5. Fournir une expertise technique 105 • ou dans des bases de données SQL (les segments de texte alignés étant enregistrés à raison d’une langue par table et des clés primaires et de jointure assurant leurs mises en correspondance (cf. figure 21)), • ou encore dans des structures XML (respectueuses de recommandations comme la TEI 145 ou conformes à la DTD de Transcriber, l’outil d’alignement aux sources orales utilisé pour Rcorp16 146, les tours de parole étant dans ce dernier cas alignés non pas sur des bases linguistiques mais en fonction du temps écoulé depuis le début des enregistrements transcrits) ; – et à prévoir l’exploration des données en utilisant un concordancier (comme ParaSearch ou Unitex, cf. T10), des requêtes SQL ou des transformations XSLT. Ces expériences variées m’ont confortée dans l’idée de faire coopérer les balisages XML et les bases de données SQL dans les traitements de corpus que j’effectue, en privilégiant le XML pour les textes rédigés et le stockage dans des bases SQL pour les données à interroger sélectivement à partir d’une interface Web. 147 En diversifiant les langues traitées, elles m’ont également permis d’envisager plus en confiance d’apporter un soutien technique pour des travaux impliquant des langues ou états de langue que je n’étudie pas, comme le français du Moyen Âge ou de la Renaissance, concernant lesquels les éditions critiques de textes impliquent également des techniques d’alignement entre les différentes transcriptions ou éditions ou le cas échéant avec la ou les traduction(s). Mettre de l’informatique éditoriale au service de la valorisation des corpus Si la formation de lexicographes a motivé de réfléchir à des traitements de corpus pertinents pour la documentation des usages tels qu’ils s’observent dans les énoncés spontanés, elle a également impliqué de prendre en compte, voire, dans la mesure du possible, d’anticiper les évolutions relatives aux traitements dictionnairiques qui relèvent non plus des lexicographes mais des informaticiens éditoriaux. A priori indépendantes des problématiques d’informatique éditoriale, les collaborations qui viennent d’être évoquées ont fourni l’occasion d’apprécier la transférabilité des savoirs acquis dans le domaine éditorial au contact de nos partenaires professionnels. Depuis le début des années 2000, les éditeurs ont progressivement compris les bénéfices éditoriaux de la structuration en XML des contenus dictionnairiques et fait une part grandissante aux textes structurés et aux techniques de manipulation de ceuxci, dont en particulier l’élaboration de transformations XSLT 148. L’importance de ces manipulations devait encore prendre de l’ampleur avec l’essor de l’édition numérique 145 Avant leur conversion en base de données, les textes bilingues du corpus d’Arras (Rcorp15) sont structurés en XML respectueux des recommandations de la TEI (cf. figure 20). 146 Cf. § 1.3.4. (ou encore T5 § 2.3. et § 1.3.3., qui présentent l’utilisation de cet outil non pas pour Rcorp16 mais pour Rcorp1). 147 Ces expériences ont également alimenté mes cours, permettant à leur tour aux étudiants de diversifier les leurs et leur ouvrant de nouvelles perspectives de recherches (cf. en particulier Mdir29 (Jouet (2004)), Mdir36 (Béril (2005)), Mdir38 (Deguernel (2005)), Mdir67 (Ouhbad (2007)) et Mdir96 (Volkova (2009)), qui se sont centralement intéressés à des problèmes d’alignement et/ou d’exploration de corpus alignés). 148 Alternativement une minorité utilise le langage de programmation Perl, qui dispose de modules spécialisés pour le traitement de documents XML (cf. n. 8). 106 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia et il nous incombait de former de jeunes professionnels capables de s’insérer chez les éditeurs comme dans les entreprises de prépresse qui posttraitent les textes pour les mettre en forme (quand ce n’est pas fait en interne chez les premiers) avant leur publication imprimée ou électronique. En invitant en particulier Luc Audrain, responsable de développements informatiques pour les différents éditeurs du groupe Hachette, à intervenir régulièrement dans la formation, j’ai créé une dynamique de réflexion relative à l’emploi du XSLT et du XSL-FO puis du logiciel de PAO leader pour le traitement des textes xmlisés, InDesign, qui a trouvé un réemploi indirect en traitement de corpus 149 pour des extractions de données, l’édition de leurs produits et bien entendu la publication de leurs contenus dans le cadre d’éditions en ligne (le code HTML des pages étant généré et inséré par des transformations XSLT dans les contenus textuels à présenter) ou imprimées (les contenus structurés en XML étant prétraités en XSLT avant d’être importés et mis en page dans InDesign). 150 Par ailleurs, les traitements de corpus précédents ont tiré profit d’échanges avec Hans Paulussen et Serge Verlinde, enseignant chercheur à la K.U.Leuven, qui intervient dans le cadre des enseignements de lexicographie bilingue de la formation de lexicographes depuis 2000 151, et qui, maintenant qu’il a pris en charge la gestion de la base de données du DAFLES et son intégration dans une nouvelle interface de consultation en ligne, la BLF (Base lexicale du français), traite également des questions de gestion de bases de données lexicales et de leurs interrogations par le biais d’interfaces Web. La collaboration de ces deux collègues dans le cadre du projet DPC (Dutch Parallel Corpus) 152 et les évocations, par chacun, de leurs travaux communs pour la mise en ligne du corpus développé dans ce cadre ont influencé mon choix de travailler avec des bases de données dans celui du projet arrageois (Rcorp15, cf. § 1.5.2.), mais aussi, et antérieurement à cela, pour certains paratextes de l’édition critique électronique des écrits de Danielle Corbin (Rcorp8) dont il sera question au § 1.6.2. 149 Depuis 2003-2004, outre une présentation annuelle des tâches qu’il réalise chez Hachette (cf. § 2.2.1.3. et en particulier n. 264), Luc Audrain propose aux étudiants de la formation de lexicographes des manipulations de textes dictionnairiques. Nous avons travaillé avec lui sur les articles rédigés du dictionnaire de la lexicographie (Rdic2, cf. §§ 1.4.3. et 2.7.3.), puis sur ceux du Larousse des débutants scanné et structuré (Rdic4, cf. § 2.2.1.3.). J’introduis et prolonge ses enseignements par des manipulations de corpus structurés en XML : le corpus des écrits de Danielle Corbin (Rcorp8) et celui de textes de lecture (Rcorp13), présentés respectivement infra aux §§ 1.6.2. et 1.6.1. 150 Luc Audrain n’a jamais participé à proprement parler aux travaux de recherche en traitement de corpus ou en métalexicographie dans lesquels je me suis investie (les manipulations effectuées avec lui sur les contenus de Rdic2 et Rdic4 étant à visée pédagogique), mais il a régulièrement témoigné de l’intérêt pour eux et a formulé, les concernant, de précieuses observations ou suggestions qui ont très sensiblement amélioré mes compétences, ce pour quoi je tiens à lui témoigner ma reconnaissance. 151 Il intervenait alors en binôme avec Jean Binon, avec qui il a rédigé le DAFA (Dictionnaire d’apprentissage du français des affaires) puis le DAFLES (Dictionnaire d’apprentissage du français langue étrangère ou seconde), et plus occasionnellement avec Thierry Selva, qui a mis en œuvre la structure de la base de données qui contient le texte du DAFLES. Je souhaite remercier ces trois intervenants pour les échanges stimulants que nous avons entretenus, et en particulier Serge Verlinde pour les compétences techniques qu’il m’a transmises. 152 DPC est un projet de constitution de corpus trilingue néerlandais / français / anglais, coordonné par la K.U.Leuven Campus de Courtrai et la Hogeschool de Gand (cf. http://www.kuleuven-kortrijk.be/dpc) et financé par l’Union Linguistique Néerlandaise dans le cadre du projet STEVIN (http://taalunieversum. org/taal/technologie/stevin/). Document de synthèse – 1.5. Fournir une expertise technique 107 Le travail en collaboration pour les traitements de corpus qui viennent d’être évoqués a impliqué de répondre aux besoins exprimés par mes partenaires en leur proposant ou en définissant avec eux des solutions techniques. Les réflexions qu’elles ont suscitées ont contribué à me faire imaginer les recherches dont il va être question dans la section suivante, qui restent toujours en liaison avec l’interprétation humaine de données 153, mais qui ne reposent plus seulement sur l’observation des usages attestés dans les énoncés réunis en corpus, puisqu’elles ont aussi vocation à apporter à ceux-ci des enrichissements utiles pour des analyses textuelles dans le cadre d’études métalexicographiques d’une part, et linguistiques, terminologiques et épistémologiques d’autre part. 153 Les analyses statistiques, bien qu’ayant un réel intérêt pour certains types de travaux, n’ont pas trouvé leur place dans les recherches que j’ai accomplies jusqu’ici, ce qui ne préjuge de rien pour le futur. 1.6. Définir des principes de structuration déterminés par la nature des explorations prévues Les corpus constitués à mon initiative depuis mon recrutement à Lille 3 ont été principalement structurés en XML, ce qui a découlé du fait que je me suis initiée aux principes de balisage en SGML 154 et en XML des textes dictionnairiques dès ma prise de fonctions dans la formation de lexicographes et que, bien que néophyte en traitement de corpus xmlisés, je pressentais que baliser les données réunies en corpus les rendrait aisément enrichissables et mieux explorables, soit au moyen de “dispositifs expérimentaux” (selon la dénomination proposée par Habert (2005a : 2-3)) de mon cru ou élaborés par d’autres (des transformations XSLT 155 ou des scripts Perl), soit avec les outils qui ne manqueraient pas d’être développés. Ce choix était documenté – les recommandations de la TEI et du CES connaissaient une certaine diffusion –, mais il m’imposait une double adaptation technique : – d’une part faire évoluer mes méthodologies de manipulation de corpus, dans la mesure où les outils que j’utilisais régulièrement (en particulier Unitex et Cordial Analyseur) ne traitaient pas les textes balisés en tant que tels (ils agissaient sur les balises de la même manière que sur le texte qu’elles structuraient) ; – et d’autre part progresser dans ma capacité à concevoir des enrichissements adaptés à des besoins exploratoires particuliers. Les premiers enrichissements de données ont été intégrés à deux des corpus déjà évoqués : 1) le corpus de multiplex Rcorp1, le premier dont certains des éléments ont été conçus en fonction des besoins des explorations à venir puisqu’ils permettent de repérer les différents tours de parole et leurs éventuels recouvrements et d’étudier les entités nommées balisées dans les transcriptions et auxquelles sont associées des indications utiles à l’identification de leurs référents (cf. T5 § 2. et supra § 1.3.3.) ; 2) le corpus d’entretiens Rcorp6 développé dans le cadre du projet OURAL P2 (cf. § 1.4.1.), dont les étiquetages de chaque item avec lemme et code morphosyntaxique sont de facture plus classique afin de permettre d’envisager de les exploiter avec un 154 Standard Generalized Markup Language (cf. n. 8). 155 Je tiens à remercier Sylvain Loiseau, avec qui j’ai eu des échanges féconds lorsqu’il élaborait le corpus étudié dans sa thèse (2006) puis lors des cours et interventions qu’il a assurés dans notre formation de lexicographes en 2003-2004 puis en 2006-2007, et qui m’a donné une des premières versions d’un concordancier qu’il a développé en XSLT pour l’exploration de corpus respectueux des recommandations de la TEI. 110 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia nouvel outil – Xaira 156 – conçu pour l’exploration de corpus annotés conformes aux recommandations de la TEI 157. Dans un cas comme dans l’autre, les enrichissements pouvaient être manipulés avec des transformations XSLT assez basiques, mais ils sont néanmoins restés relativement sous-exploités dans le cadre des explorations qui ont déjà été réalisées, celles-ci se concentrant sur l’observation d’usages linguistiques que ces annotations ne documentent qu’indirectement (cf. T4 ou P. Corbin (2005 et 2008a) pour Rcorp1 et Mdir66 (Méresse (2007)) pour Rcorp6). Deux corpus dont la constitution a été entreprise plus récemment sont enrichis d’annotations nécessaires aux explorations envisagées. Il s’agit – d’une part d’un corpus de textes de lecture scolaires issus d’un manuel de français (Rcorp13), dont chacun des presque 20 000 mots-occurrences est balisé et porte en attribut des indications relatives aux traitements lexicographiques observés dans des dictionnaires scolaires pour l’unité linguistique à laquelle il correspond ; – et d’autre part d’un corpus compilant les écrits de la morphologue Danielle Corbin (Rcorp8), au sein duquel les unités linguistiques en mention et leurs éventuelles descriptions, les termes employés, et les références faites à d’autres travaux sont balisés et caractérisés de diverses manières au moyen de différents attributs. La présentation succincte de chacun de ces travaux va fournir l’occasion d’évoquer l’importance des balisages introduits pour les analyses que ces corpus doivent documenter, sans permettre cependant de pleinement expliciter les principes de leur mise en œuvre et les modalités de leurs exploitations comme le font les textes rédigés à leur sujet (respectivement T20 et Tdr4). 1.6.1. Le corpus de textes de lecture [T20 (à paraître d) ; Rcorp13] La rédaction de T17 (cf. § 2.7.) a réactualisé un projet plusieurs fois différé : documenter s’il existe une disparité (et, dans l’affirmative, quelle peut être son importance) entre les nomenclatures des dictionnaires destinés au public d’âge scolaire et la richesse lexicale des textes qu’il est susceptible de lire, en classe ou hors de l’école, afin d’évaluer dans quelle mesure ces répertoires constituent effectivement un outil efficace d’aide à la compréhension 158. Mon hypothèse est que les nomenclatures (autour de 156 Le nom de cet outil a varié : Sara, Xara puis Xaira, qui semble finalement avoir été préféré aux premiers (cf. http://www.oucs.ox.ac.uk/rts/xara/ ou http://www.oucs.ox.ac.uk/rts/xaira/). Il a été présenté par Lou Burnard aux Journées de linguistique de corpus de Lorient en 2003 (cf. Williams & Burnard (2005)). 157 Ceci impliquait cependant de convertir le balisage défini par les partenaires du projet et qui était en place dans Rcorp6, qui a des mots-occurrences balisés avec des éléments <item> porteurs d’attributs @lemme et @typegram (cf. T8 figure 4), alors que la TEI préconise des éléments <w> et des attributs @lemma et @ana. Ces conversions de balisage n’ont finalement pas été faites. 158 Parmi les dictionnaires destinés aux élèves du cycle 2, le plus explicite quant à la prise en charge de cette fonction est le Robert benjamin, dans son édition première de 1997 et jusqu’au tirage de 2005 de celle-ci, dont l’« Avant-propos » indique qu’il « permet […] à l’enfant de mieux comprendre, à l’oral comme à l’écrit, en apprenant dès le début de sa scolarité à chercher dans son dictionnaire les mots qu’il entend ou qu’il lit tant qu’il ne sait pas avec aisance en expliquer le sens. » (p. 6). Plus succinctement, la révision de 2008 puis la refonte de 2009 ne font que stipuler qu’il « permet […] une meilleure compréhension d’un lexique usuel ». Document de synthèse – 1.6. Définir des principes de structuration 111 6 000 à 6 500 mots pour le cycle 2 et de 20 000 pour le cycle 3) privilégient le vocabulaire fondamental que les élèves doivent acquérir mais qu’il faudrait une nomenclature plus importante pour couvrir le lexique auquel les élèves peuvent être confrontés dans leurs lectures scolaires ou périscolaires 159, et que, même pour les items figurant à la nomenclature, les explications souvent simples qui sont données sont parfois trop pauvres pour soutenir la compréhension des mots dans les contextes dans lesquels ils sont rencontrés. 160 La constitution d’un corpus de textes de lecture proposés dans des manuels de français (Rcorp13) a ainsi été engagé en 2009, à l’occasion d’un stage effectué sous ma direction par Stavroula Markezi, étudiante alors inscrite en M2 LTTAC. La rédaction de T20 pour les actes des Journées de linguistique de corpus de 2009 (où j’ai présenté C21 en nos deux noms) a fourni l’occasion de rendre compte de la teneur de cette collaboration et d’expliquer les objectifs et les contraintes d’élaboration du corpus, qui doit permettre, outre la validation ou l’infirmation de l’hypothèse précédente, de réfléchir à ce qu’il faudrait développer afin de mettre en place un hyperappel du dictionnaire à partir de textes lus en version électronique (dans un manuel d’un environnement numérique de travail scolaire par exemple) 161. 162 Ce double objectif nous a conduites à effectuer successivement quatre opérations articulées : – numériser les textes retenus (ceux des lectures – textes narratifs ou documentaires et poèmes – qui introduisent les séquences pédagogiques des éditions 2003 et 2009 du manuel À portée de mots pour le CE1) ; – en faire étiqueter les mots par Cordial Analyseur (et ainsi associer un lemme et un code morphoflexionnel à chaque mot-occurrence, cf. § 1.3.2.), puis corriger ces annotations ; – mettre en correspondance semi-automatiquement les mots-occurrences étiquetés et les adresses catégorisées des articles d’un dictionnaire scolaire de même niveau publié par le même éditeur (le Dictionnaire Hachette benjamin 163) ; – et enfin étudier (sans outillage), pour les mots-occurrences des textes présents à la nomenclature du dictionnaire, si les sens décrits dans ce dernier correspondent à ceux qui sont attestés dans chaque contexte. 159 Les éditeurs indiquent ceci clairement. Concernant les dictionnaires pour le cycle 2 : 160 161 162 163 – « […] les mots que l’enfant connaît (et qui lui permettent de lire le texte), tout comme ceux qu’il doit apprendre pour progresser. » (Dictionnaire Hachette benjamin de 2007, « Préface », p. 4) ; – « Le choix des mots définis (vocabulaire courant, mots-outils, mais aussi mots plus rares issus de contes) […] » (Larousse des débutants de 2005, « Avant-propos », p. 4) ; – « Il permet également une meilleure compréhension d’un lexique usuel, il enrichit le vocabulaire disponible » (Robert benjamin de 2009, « Avant-propos », p. 4). Cf. T17, et en particulier les notes 126 et 129 (concernant la coprésence de rédactions d’articles de complexité variable pouvant être choisies en fonction des compétences et des besoins du lecteur) et 136 et 137 (concernant les principes de sélection de nomenclature d’un dictionnaire électronique scolaire qui proposerait un hyperappel lors de lectures de textes sur support électronique). Cf. T17 § 3.2.1.1. L’introduction (§ 1.) évoque également le fait que le corpus pourra documenter des études métalexicographiques variées. Le Dictionnaire Hachette benjamin (édition de 1996 ou de 2002) est exploité dans le manuel À portée de mots pour le CE1 pour les exercices d’initiation à la manipulation des dictionnaires (pp. 114-119 en 2003 et 130-135 en 2009). 112 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Au moment de la rédaction de T20, le travail de numérisation et d’étiquetage des textes des deux premiers manuels retenus avait été terminé (cf. §§ 1. à 3.), mais pas tous les appariements des mots-occurrences du corpus et des adresses du dictionnaire (cf. § 4.), ni, surtout, ceux des mots des textes et des subdivisions de description des articles du répertoire qui en comportent plusieurs (cf. § 5.). À terme, l’objectif est d’annoter tout le corpus comme le sont le titre et les deux premières phrases du texte de la figure 2 présentés balisés en figure 11 (et ci-après en figure 23), où, pour chaque mot-occurrence contenu par un élément <w>, – les valeurs des attributs @lemma et @ana ont été produites par Cordial Analyseur (et revues manuellement) ; – et celle de l’attribut @lemmaRef, mentionnée pour les mots décrits dans le dictionnaire seulement, correspond à la concaténation • d’un code identifiant le dictionnaire (DHB96 ), d’un slash et de la forme graphique de l’item en adresse (comme, en 4e et 13e lignes, pour le nom sœur contenu par les éléments <w> porteurs des attributs @n de valeurs "2003p008ph1-2" et "2003p008ph2-2") ; • puis, pour les items dont des homographes non homocatégoriels sont décrits dans d’autres articles, un tiret bas et un code catégoriel abrégeant celui du dictionnaire (comme, en 5e et 14e lignes, pour le verbe être (est) contenu par les éléments <w> porteurs des attributs @n de valeurs "2003p008ph1-3" et "2003p008ph2-3") ; • et (i) pour les items décrits dans le dictionnaire comme étant polysémiques, un dièse et le numéro de la subdivision de description pertinente pour éclairer le mot en contexte (idem), ou (ii) pour les items dont les descriptions du dictionnaire n’aident pas la compréhension, un dièse suivi de ABS (comme, en 26e ligne, pour le verbe être (est) employé en tant qu’auxiliaire contenu par l’élément <w> porteur de l’attribut @n de valeur "2003p008ph3-7"). 164 Figure 23. Extrait de la page 8 du manuel À portée de mots CE1 de 2003 et 2009, numérisé et xmlisé [cf. T20 figure 11] Le balisage XML enregistre les appariements des lemmes des éléments <w> et des items en adresse dans le Dictionnaire Hachette benjamin de 1996, et l’indication des ordonnateurs des descriptions de ces derniers pertinentes pour éclairer la compréhension de chaque mot-occurrence du texte. Le <s> (<s n="2003p008ph01">), qui reprend la phrase introductive du texte (<s n="2003p008ph02">), est luimême contenu par un élément <head> pour marquer qu’il s’agit du titre. <head> <s n="2003p008ph01"> <w n="2003p008ph1-1" lemma="mon" ana="DETPOSS">Ma</w> <w n="2003p008ph1-2" lemma="sœur" ana="NCFS" lemmaRef="DHB96/sœur">sœur</w> <w n="2003p008ph1-3" lemma="être" ana="VINDP3S" lemmaRef="DHB96/être_V#1">est</w> <w n="2003p008ph1-4" lemma="un" ana="DETIFS">une</w> <w n="2003p008ph1-5" lemma="sorcier" ana="NCFS" lemmaRef="DHB96/sorcier">sorcière</w> <c n="2003p008ph1-6" type="punctuation" ana="PCTFORTE">!</c> </s> </head> 164 Il a été décidé, depuis la rédaction de T20, de mentionner également le nombre de descriptions de sens proposées dans le dictionnaire pour l’item en adresse mis en correspondance avec chaque mot-occurrence balisé (cf. Tdr5 et § 2.3.6.). Document de synthèse – 1.6. Définir des principes de structuration 113 <s n="2003p008ph02"> <w n="2003p008ph2-1" lemma="mon" ana="DETPOSS">Ma</w> <w n="2003p008ph2-2" lemma="sœur" ana="NCFS" lemmaRef="DHB96/sœur">sœur</w> <w n="2003p008ph2-3" lemma="être" ana="VINDP3S" lemmaRef="DHB96/être_V#1">est</w> <w n="2003p008ph2-4" lemma="un" ana="DETIFS">une</w> <w n="2003p008ph2-5" lemma="sorcier" ana="NCFS" lemmaRef="DHB96/sorcier">sorcière</w> <c n="2003p008ph2-6" type="punctuation" ana="PCTFORTE">.</c> </s> <s n="2003p008ph03"> <w n="2003p008ph3-1" lemma="on" ana="PPER3S" lemmaRef="DHB96/on_MINV">On</w> <w n="2003p008ph3-2" lemma="ne" ana="ADV">ne</w> <w n="2003p008ph3-3" lemma="savoir" ana="VINDP3S" lemmaRef="DHB96/savoir#2">sait</w> <w n="2003p008ph3-4" lemma="pas" ana="ADV" lemmaRef="DHB96/pas_MINV">pas</w> <w n="2003p008ph3-5" lemma="comment" ana="SUB" lemmaRef="DHB96/comment#1">comment</w> <w n="2003p008ph3-6" lemma="ce" ana="PDS">c’</w> <w n="2003p008ph3-7" lemma="être" ana="VINDP3S" lemmaRef="DHB96/être_V#ABS">est</w> <w n="2003p008ph3-8" lemma="arriver" ana="VPARPMS" lemmaRef="DHB96/arriver#2">arrivé</w> <c n="2003p008ph3-9" type="punctuation" ana="PCTFORTE">.</c> </s> Au-delà de ce que les appariements effectués montrent de la capacité du dictionnaire à éclairer les lectures, ce corpus documente deux études prospectives (cf. Tdr5 (§ 2.3.6.)) : – la première est orientée vers le développement d’une fonction de consultation d’une éventuelle version électronique du dictionnaire par hyperappel pour la conception de laquelle la comparaison systématique des formes des lemmes et codes morphoflexionnels attribués par Cordial Analyseur et des adresses et catégorisations du répertoire doit permettre d’évaluer si un outil comme celui employé serait susceptible de prétraiter les contextes sources ; – la seconde explore comment améliorer l’adéquation descriptive des articles du dictionnaire par l’évaluation de la capacité de leurs descriptions à aider les lecteurs à surmonter leurs éventuelles incompréhensions lexicales et, quand les textes sources proposent des gloses pour certains mots, par la comparaison de leur qualité informationnelle respective 165. 165 Les mots et expressions expliqués dans l’édition de 2003 du manuel sont tous absents du Dictionnaire Hachette benjamin. Quatre parmi ceux décrits dans l’édition de 2009 le sont aussi dans le dictionnaire : ITEMS CONTEXTES DU MANUEL avare « Les habitants ne manquaient pas d’argent mais comme ils étaient avares, ils n’avaient ni chiens ni chats. » (p. 88) ébréché « Ses dents sont pour la plupart ébréchées, […] » (p. 34) GLOSES DU MANUEL DESCRIPTIONS DU DICTIONNAIRE « avare : qui préfère garder son argent et ne pas le dépenser. » (ibid.) « ébréchées : abîmées ; il manque un petit morceau. » (ibid.) « Qui veut garder son argent et ne pas le dépenser ni le donner. Cette vielle dame est très riche, mais elle est quand même avare. (Le contraire d’avare est généreux.) » (s.v. avare) « Qui est cassé sur le bord. Ce vieux vase est tout ébréché. » (s.v. ébréché) hameau « Il n’avait rien à manger, ne « hameau : petit groupe « Groupe de maisons à l’écart d’un village. croisant ni villages, ni had’habitations isolées. » Plusieurs agriculteurs habitent dans ce hameaux. » (p. 22) (ibid.) meau. » (s.v. un hameau) pépite « Toutes sortes de choses ! Des pépites d’or, des plumes d’autruche, […] » (p. 40) « pépites : petits mor- « Petit morceau d’or. Dans le sable de la riceaux de métal. » (ibid.) vière, on a découvert quelques pépites. » (s.v. une pépite) 114 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Telles que les annotations du corpus sont conçues, elles documentent mes analyses avec précision et permettent de montrer le bénéfice qu’il y aurait, pour que ces ouvrages puissent jouer leur rôle d’aide à la compréhension des textes lus, à ce que la nomenclature des répertoires pour le cycle 2 comme le Dictionnaire Hachette benjamin soit augmentée : Plus de 800 unités lexicales sont présentes dans le corpus mais ne donnent pas lieu à description dans le Dictionnaire Hachette benjamin (cf. Tdr5, § 2.3.6.). Il s’agit de classes de mots exclues de la nomenclature comme les déterminants (cf. figure 23), d’items assez typiques des énoncés enfantins comme les adjectifs chouette ou marrant ou le nom abrégé récré, ou de mots de la langue courante comme les verbes parvenir ou se raviser, les noms assemblée ou tournée, etc. et/ou à ce que les explications qu’ils fournissent soient enrichies : Des unités lexicales comme par exemple les verbes être et prendre sont présentes à la nomenclature du Dictionnaire Hachette benjamin, mais les indications fournies pour elles n’éclairent pas ou éclairent mal la compréhension de leur sens dans le contexte de lecture : CONTEXTES DU MANUEL DESCRIPTIONS DU DICTIONNAIRE être (verbe) « On ne sait pas comment c’est arrivé » (éditions 2003 et 2009, p. 8, cf. figure 23, dernière phrase) prendre (verbe) « À la récré, elle va se maquiller dans les toilettes et après, elle se prend pour une star ! » (éditions 2003 et 2009, p. 30) « 1. Verbe qui sert à dire l’état de quelqu’un ou de quelque chose. Elle est grande. Quentin est mon frère. Ces livres sont à moi. 2. Se trouver à un endroit. La chatte est sur le divan. Regarde la conjugaison page 5. » (s.v. être) « 1. Saisir avec ses mains. Maman prend des verres sur l’étagère. 2. Faire un choix. Zoé a pris des tomates en entrée. 3. Attraper. Le pêcheur a pris un poisson énorme. 4. Se servir d’un moyen de transport. Maman prend l’autobus pour aller travailler. 5. Commencer à brûler. Si le feu ne prend pas, ajoute du petit bois. Regarde la conjugaison page 8. » (s.v. prendre) ITEMS Par rapport aux autres corpus constitués et évoqués précédemment, les types d’annotations ajoutés dans Rcorp13 ne sont pas très complexes, puisqu’il s’agit d’insérer un attribut (@lemmaRef ) dans le balisage des mots-occurrences (les contenus des éléments <w>) à côté de ceux qui enregistrent leurs lemmes et codes morphoflexionnels (@lemma et @ana) quand le Dictionnaire Hachette benjamin fournit une description pour l’unité lexicale correspondante. Si, du point de vue du balisage, le traitement Aucune des gloses du manuel n’est plus éclairante que la description proposée pour le même item dans le dictionnaire. Les gloses d’ébréché et de pépite sont moins précises que les définitions de ces items. Document de synthèse – 1.6. Définir des principes de structuration 115 mis en œuvre n’est pas compliqué, le calcul de la valeur de cet attribut présente en revanche deux difficultés qui ne peuvent pas être surmontées de manière comparable : – du fait des différences de choix de traitement de Cordial Analyseur et du répertoire, l’automatisation des appariements des lemmes et catégorisations produits par l’analyseur et de ceux qui sont enregistrés dans les composants d’adressage des articles implique de prévoir les désaccords possibles (cf. § 4.) ; – du fait de la diversité des sélections d’informations données dans les descriptions dictionnairiques et des manières dont elles sont exploitées par les lecteurs en situation de recherche d’indices utiles à la compréhension des textes, l’évaluation de la capacité des descriptions à éclairer le sens des mots en contexte ne semble pas pouvoir être automatisable au-delà de quelques détections de cooccurrents lexicaux ou éventuellement de constituants syntaxiques typables sémantiquement comme certains sujets ou compléments verbaux (cf. §§ 5. et 6., et également Tdr5 et § 2.3.6.). La majorité des annotations introduites dans le corpus dont il va être question ciaprès ne l’ont, elles non plus, pas été automatiquement, mais les documents qu’il rassemble, contrairement aux textes de lecture de Rcorp13, sont enrichis dans des proportions très importantes. 1.6.2. Le corpus des écrits de Danielle Corbin [Tdr4 (en préparation a) ; Rcorp8 ; Rcorp9 ; Rcorp10 ; Rcorp11] Depuis 2007, Pierre Corbin assure un séminaire de master 166 mettant en perspective les premiers écrits de morphologie de Danielle Corbin (décédée en 2000) et différentes études lexicologiques développées autour des années 1970. Dans ce cadre, il m’a proposé de réfléchir ensemble aux enrichissements qu’il pourrait être intéressant d’apporter aux textes de la morphologue afin de les rendre mieux exploitables à des fins linguistiques, terminologiques et épistémologiques, ce qui nous a amenés progressivement à concevoir le projet d’élaborer une édition critique électronique de ces travaux qui soit consultable sur le Web (et dont une version dérivée réduite pourrait éventuellement être publiée sous forme imprimée). Outre notre intérêt personnel pour cette lecture critique, la réédition des écrits d’une chercheuse qui a renouvelé la recherche morphologique dans les années 1980-1990 et qui a eu une forte influence sur les travaux élaborés dans ce domaine en France, serait de nature, dans une période et un contexte de recherche international qui voient les morphologues français réviser de nouveau leurs manières d’aborder les questions traitées et leurs perspectives d’études, à permettre aux chercheurs des nouvelles générations, qui n’ont jamais travaillé dans le cadre que Danielle Corbin a défini, de connaître la genèse de son œuvre et de situer leur propre démarche par rapport à la sienne. 166 Ce séminaire est destiné aux étudiants de master Sciences du langage spécialités Linguistique (M1 et M2) et LTTAC (M1). 116 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Définition du projet Une première liste d’objets intéressants à repérer et à annoter dans les textes réunis dans le corpus Rcorp8 a été établie : – les références à d’autres textes (auxquels sont attribués des identificateurs normalisés), qu’elles soient accompagnées ou non de citations et de positionnements de la morphologue par rapport aux points de vue qui y sont exprimées ; – les mots construits décrits par Danielle Corbin (incluant ou non des constituants repérés et/ou décrits) ainsi que les gloses (valides ou conformes à ce que devrait être le sens du mot s’il était construit d’une certaine manière) et les indications morphologiques qui sont fournies pour les unités lexicales ou infralexicales ; – les termes avec leurs variantes et la spécification de leurs ancrages (domaine et, quand c’est pertinent, auteur ou cadre théorique). Après avoir cherché quelles sont les recommandations de la TEI concernant chaque balisage souhaité et défini des compléments en fonction des besoins spécifiques de ce corpus, j’ai expérimenté leur mise en œuvre sur les deux premiers textes (D. Corbin (1973 et 1975)). Le produit de ces xmlisations constitue une nouvelle ressource (Rcorp8) 167, dont le balisage, enrichi et révisé à plusieurs reprises, se stabilise progressivement. Il est manipulé au moyen de transformations XSLT qui permettent d’en extraire notamment (i) tous les noms d’auteurs mentionnés ou tous les textes dont des extraits sont cités avec la localisation de ces références dans les textes de la morphologue, (ii) tous les mots construits à propos desquels Danielle Corbin fournit une décomposition en constituants, une indication constructionnelle et/ou une ou plusieurs glose(s), en les triant par ordre alphabétique, par ordre de mention dans le texte source ou par constituant inclus, ou (iii) tous les termes qu’elle emploie, associés le cas échéant à l’indication du fait qu’ils figurent aussi dans une source documentaire à laquelle elle se réfère. Définition d’une méthodologie de balisage des documents efficace La méthodologie de balisage adoptée pour les deux premiers textes traités a différé dans le but de pouvoir déterminer celle qui sera la plus efficace à mettre en œuvre pour les autres textes. – Première méthode envisagée, appliquée à DC1 Pour D. Corbin (1973), le balisage a intégralement été réalisé dans l’éditeur XML <oXygen/>, ce qui a permis de contrôler sa régularité et sa complétude au fur et à mesure de son élaboration, mais qui a présenté l’inconvénient de “noyer” le texte source au milieu des enrichissements et donc de rendre plus difficile la perception des segments textuels qui devaient encore être balisés (cf. figure 24). 167 Elle est régulièrement utilisée depuis 2007 pour des exercices relatifs aux corpus xmlisés proposés en M1 TAL et M2 LTTAC. Document de synthèse – 1.6. Définir des principes de structuration 117 Figure 24. D. Corbin (1973, § 1.2.1.) balisé selon la DTD de Rcorp8 L’extrait ci-dessous reproduit un commentaire postposé à des analyses de préfixes reprises de Grevisse (1964 : 95-102). Il est formulé dans un paragraphe (<p>) d’une subdivision de niveau 3 (<div3> associé à un identifiant dont la valeur combine celui du texte – DC1 – et celui de la subdivision – 1.2.1.) dont le titre (<head>) se limite à la numérotation. Il contient : – trois termes enchâssés dans des éléments (<term>) qui portent trois attributs 168 : (i) @type, qui type le référent du terme ( propriété d’unité linguistique pour sens ("Prop-U-Ling"), unité linguistique pour préfixe ("U-Ling"), et caractérisation constructionnelle pour préfixé ("Caract-Cons"), (ii) @subtype, qui code la valeur d’un hyperonyme lexical du terme (dénomination du sens d’items lexicaux pour sens ("Denomsens-It-Lex"), item infralexical pour préfixe ("It-Infralex"), et qualification d’item lexical construit pour préfixé ("Qualif-It-Lex-Cons"), et (iii) @resp, qui délimite l’ensemble des énonciateurs partageant la responsabilité d’un emploi terminologique donné (Danielle Corbin en sa qualité d’auteur de ce texte pour sens et préfixé ("DC1"), et Grevisse (1964 : 95) et Danielle Corbin conjointement pour préfixe ("Grevisse64:95+DC1") ; – des unités linguistiques en mention (<mentioned>), qui peuvent être des affixes (<m>), auxquels sont associés une forme canonique (@baseForm) et un typage (@type), ou des unités lexicales (<w>), caractérisées, elles, par leur forme de mention (@form), leur lemme (@lemma) et un typage (@type) ; – une référence à Grevisse (1964) par la seule mention du nom de l’auteur de ce texte (balisée au moyen d’un élément <rs> (referencing string) porteur du code de la référence du texte comme valeur de l’attribut @key et comme nom de personne (<name> avec @type de valeur "person") associé à la forme standardisée du nom (@reg) ; – des citations (<q>) dont les références sont codées (@key) et pour lesquelles il est spécifié que, dans ce contexte, ce ne sont pas véritablement des citations mais des reprises d’exemples de Grevisse (@type de valeur "thought"). Certains éléments (<mentioned>, <m> et <q>) peuvent enfin porter un attribut @rend si leur mise en forme originale présente une particularité, comme des capitales non italiques ("caps_non-italic") ou des soulignements ("underlined") là où on utiliserait plutôt actuellement des variations d’inclinaison ou de degré de graisse. <div3 id="DC1-1.2.1"> <p> <head>1.2.1. </head> Mise à part l’irrégularité dans l’attribution d’un <term type="Prop-U-Ling" subtype="Denom-sens-It-Lex" resp="DC1">sens</term> aux <term type="U-Ling" subtype="It-Infralex" resp="Grevisse-64:95+DC1">préfixes</term> (il n’en est pas donné pour <mentioned rend="caps_non-italic"> <m baseForm="mal-" type="prefix">mal-</m> </mentioned>, <mentioned rend="caps_non-italic"> <m baseForm="mé-" type="prefix">mé-</m> </mentioned>, 168 Les noms des deux premiers attributs (@type et @subtype) sont ceux que la TEI recommande d’utiliser pour les éléments <term>, mais les types de valeurs qui leur sont associés dans Rcorp8 créent un biais puisqu’il ne s’agit pas d’un typage et d’un sous-typage mais de deux typages, le premier étant relatif aux référents dénotés alors que le second est sémantique. 118 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia <mentioned rend="caps_non-italic"> <m baseForm="non-" type="prefix">non-</m> </mentioned> ), les exemples donnés par <rs key="Grevisse-64:95-102"> <name reg="GREVISSE_Maurice" type="person">Grevisse</name> </rs> mêlent les mots actuellement sentis comme <term type="Caract-Cons" subtype="Qualif-It-Lex-Cons" resp="DC1">préfixés</term> (ex. : <q key="Grevisse-64:96" rend="normal" type="thought"> <mentioned rend="underlined"> <w form="maladroit" lemma="maladroit" type="adjective"> <m baseForm="mal-" rend="caps_non-italic" type="prefix">mal</m> adroit </w> </mentioned> </q> ) et ceux qui ne le sont plus (ex. : <q key="Grevisse-64:96" rend="normal" type="thought"> <mentioned rend="underlined"> <w form="maussade" lemma="maussade" type="adjective"> <m baseForm="mal-" rend="caps_non-italic" type="prefix">mau</m> ssade </w> </mentioned> </q> ). </p> </div3> La difficulté qu’il y a à repérer les segments de texte qui doivent encore être traités parmi ceux qui le sont déjà m’a incitée à baliser préférentiellement les objets textuels selon leur ordre d’apparition plutôt que par sous-groupes (les termes, les mots construits, les références à des textes externes, etc.), au moins pour ce qui concerne leur inclusion dans des éléments 169. – Deuxième méthode envisagée, appliquée à DC2 Tenant compte du fait qu’il semble efficace d’enchâsser les objets à annoter dans des éléments puis d’enrichir les informations associées à chacun d’eux par l’adjonction d’attributs, j’ai suivi une procédure différente pour baliser D. Corbin (1975). Le texte source (dépourvu de toute mise en forme) a été stylé dans un traitement de texte (comme c’est fait en figure 25 pour l’extrait de D. Corbin (1973) déjà balisé cidessus), puis converti en XML (cf. figure 26), les noms de styles devenant des noms d’éléments. 169 Les ajouts d’attributs peuvent plus souplement se faire dans un second temps en sélectionnant les élé- ments qui doivent les porter au moyen d’expressions XPath. Document de synthèse – 1.6. Définir des principes de structuration 119 Figure 25. D. Corbin (1973, § 1.2.1.) stylé dans un traitement de texte L’extrait est découpé en cinq paragraphes auxquels sont attribués les styles div3-p (pour les premier, troisième et cinquième) et citation-dans-div3 (pour les deuxième et quatrième, présentés avec un retrait à gauche). Chaque paragraphe contient des segments de texte auxquels sont affectés des styles caractères : head (en police arial gras) pour la numérotation de subdivision, term (en gras souligné) pour les unités terminologiques, en-mention-M (en italique gras) et en-mention-W (en italique) pour les unités infralexicales et lexicales mentionnées, ref-publication-par-Npersonne (en petites capitales) pour la référence à Grevisse (1964) limitée au nom de l’auteur. 1.2.1. Mise à part l’irrégularité dans l’attribution d’un sens aux préfixes (il n’en est pas donné pour mal-, me-, non-), les exemples donnés par GREVISSE mêlent les mots actuellement sentis comme préfixés (ex. : MALadroit ) et ceux qui ne le sont plus (ex. : MAUssade ). Figure 26. D. Corbin (1973, § 1.2.1.) balisé par conversion des styles présentés en figure 25 La conversion des styles de paragraphes en éléments de premier niveau et des styles de caractères en éléments enchâssés dans les premiers fournit un texte structuré au sein duquel les anciens noms de styles constituent désormais des noms d’éléments. <div3-p> <head>1.2.1.</head> Mise à part l’irrégularité dans l’attribution d’un <term>sens</term> aux <term>préfixes</term> (il n’en est pas donné pour <en-mention-M>mal-</en-mention-M>, <en-mention-M>me-</en-mention-M>, <en-mention-M>non-</en-mention-M> ), les exemples donnés par <ref-publication-par-Npersonne>Grevisse</ref-publication-par-Npersonne> mêlent les mots actuellement sentis comme <term>préfixés</term> (ex. : </div3-p> <citation-dans-div3> <en-mention-W>MALadroit</en-mention-W> </citation-dans-div3> <div3-p> ) et ceux qui ne le sont plus (ex. : </div3-p> <citation-dans-div3> <en-mention-W>MAUssade</en-mention-W> </citation-dans-div3> <div3-p> ). </div3-p> 120 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Le balisage obtenu ne se conforme pas aux recommandations de la TEI et doit donc subir une transformation qui lui permet de se rapprocher d’elles (cf. figure 27). Figure 27. D. Corbin (1973, § 1.2.1.) balisé par transformation du balisage présenté en figure 26 Pour obtenir un balisage conforme aux recommandations de la TEI à partir du texte structuré précédent (au sein duquel les anciens noms de styles constituent des noms d’éléments), il convient ensuite de procéder à quelques manipulations : – les éléments <div3-p> et <citation-dans-div3> doivent être transformés en deux éléments imbriqués <div3> et <p>, le dernier ayant un contenu mixte (constitué de données textuelles et de sous-éléments) réunissant les contenus textuels des anciens éléments <div3-p> et, dans des sous-éléments <q>, ceux des deux <citation-dans-div3> ; – les contenus des éléments <en-mention-M> et <en-mention-W> doivent être placés dans des éléments <m> ou <w> enchâssés dans des éléments <mentioned> ; – et celui de l’élément <ref-publication-par-Npersonne> doit être transféré dans un élément <name>, porteur de l’attribut @type de valeur "person", lui-même enchâssé dans un élément <rs>. <div3> <p> <head>1.2.1. </head> Mise à part l’irrégularité dans l’attribution d’un <term>sens</term> aux <term>préfixes</term> (il n’en est pas donné pour <mentioned> <m>mal-</m> </mentioned>, <mentioned> <m>mé-</m> </mentioned>, <mentioned> <m>non-</m> </mentioned> ), les exemples donnés par <rs> <name type="person">Grevisse</name> </rs> mêlent les mots actuellement sentis comme <term>préfixés</term> (ex. : <q> <mentioned> <w>maladroit</w> </mentioned> </q> ) et ceux qui ne le sont plus (ex. : <q> <mentioned> <w>maussade</w> </mentioned> </q> ). </p> </div3> Document de synthèse – 1.6. Définir des principes de structuration 121 Ce mode de traitement ne permet pas de baliser convenablement tous les objets : Une citation peut contenir des mots construits en mention au sein desquels il est opportun de repérer un affixe et une base (comme maladroit et maussade dans l’extrait précédent). Mais la structuration obtenue peut être une première ébauche du balisage à venir, qu’il convient de réviser, d’une part pour augmenter la profondeur des enchâssements d’éléments dans des cas comparables à celui qui vient d’être évoqué, et d’autre part pour introduire les attributs pertinents dans les balises ouvrantes de ces éléments : Dans le cas précédent, il s’agit en particulier des attributs qui permettent d’identifier la source de chaque citation et, pour chaque mot construit ou affixe, sa “forme dénominative” (son lemme ou sa forme de base). Lors du traitement de DC2 à partir d’un balisage comparable à celui qui est présenté en figure 27 pour produire une version commensurable à ce que montre la figure 24 pour le même extrait textuel, le travail d’enrichissement a posteriori a lui aussi exigé beaucoup de minutie, mais le repérage des éléments majeurs principaux dans un document stylé non balisé est plus aisé que dans l’éditeur XML 170 et il est ensuite possible de cibler les structurations internes de ces éléments et les ajouts d’attributs en traitant tous les objets par sous-ensembles cohérents (toutes les citations, tous les termes, tous les mots construits en mention, etc.), comme j’avais commencé à le faire pour DC1 (avant d’opter pour un balisage au fil du texte, cf. supra). – Vers un moyen terme méthodologique ou un changement d’outillage Les deux méthodologies ne semblent finalement pas devoir être conçues comme concurrentes, puisque le balisage simple obtenu avec la seconde méthode préfigure celui qui ne peut être élaboré que dans un éditeur XML pour qu’il ait le degré de précision requis. Une solution alternative à la combinaison des deux méthodes précédentes pourrait cependant passer par un changement d’éditeur XML. Pour obtenir une lisibilité du texte source comparable à celle d’un traitement de texte dans un éditeur XML, il faudrait que celui-ci soit capable de ne pas présenter le balisage mais de fournir une visualisation du texte avec des mises en forme typographiques pour matérialiser l’appartenance de chaque segment à un élément. Dans ce cas, si les contenus des éléments <w> et <m> par exemple sont respectivement mis en italique et en gras, on verra « maladroit » comme dans un éditeur de bureautique plutôt que « <w form="maladroit" lemma="maladroit" type= "adjective"><m baseForm="mal-" rend="caps_non-italic" type="prefix">mal</m>adroit</w> », tout en ayant pu délimiter tous les éléments et associer des valeurs à leurs attributs. Différents éditeurs XML permettraient de travailler avec ce type de visualisations 171, 170 Ceci est lié au fait que, dans le document stylé, même si les futurs balisages de différents objets sont matéria- lisés par des mises en forme, le texte reste lisible de manière continue, alors qu’il faut enjamber les balises dans le document xmlisé. 171 Il en existe au moins trois, un que j’ai manipulé et deux dont j’ai une connaissance indirecte par le biais des partenaires professionnels de la formation de lexicographes : – XMetal, dont j’ai utilisé la version 1.0 – compatible Windows 95, 98 et 2000 –, puisqu’en 1999 l’université Lille 3 s’était dotée de licences pour la salle de cours que nous utilisions ; 122 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia mais ils ont un coût d’acquisition important, qui m’a conduite à privilégier d’abord la recherche de solutions moins onéreuses. Première présentation des travaux réalisés en vue de l’édition critique en projet Le corpus des écrits de Danielle Corbin étant celui qui présente le plus haut degré d’enrichissement des données sources et également celui qui bénéficie des procédures d’extraction d’informations les plus avancées, il y aurait plus à dire à son sujet qu’il n’est possible de le faire dans ce document de synthèse, où je m’en tiendrai à étoffer la trame de présentation du projet ébauchée dans Tdr4. Tdr4, en préparation 172, présente – d’abord la méthodologie d’établissement des textes (§ 1.) ; – puis les principes de balisage de quelques éléments et leur exploitation réalisée dans le but d’obtenir des modalités de présentation enrichie au sein de l’édition critique électronique qui doit être mise en ligne concernant • les analyses morphologiques de Danielle Corbin et leur confrontation d’un texte à l’autre ou vis-à-vis d’autres auteurs (§ 2.), • la manière dont la morphologue prend position par rapport aux travaux auxquels elle réfère (§ 3.), • et ses usages terminologiques (§ 4.). Mais il est également prévu que l’édition électronique complète les propos de Danielle Corbin en leur adjoignant (i) des paratextes qui explicitent ou synthétisent les points de doctrine développés pour eux-mêmes ou à l’occasion d’une critique formulée à l’encontre de travaux évoqués, (ii) des commentaires relatifs aux positions théoriques adoptées et à leurs évolutions, et (iii) des informations externes, principalement de nature encyclopédique – des notes biographiques ou bibliographiques associées aux auteurs mentionnés, et des informations historiques relatives à des institutions. Ces enrichissements textuels sont présentés au § 5. de Tdr4. Outre la présentation des choix de balisage effectués dans ce corpus pour l’exploitation de son contenu dans le cadre d’une édition critique électronique, Tdr4 fournit une première occasion d’évoquer l’usage qui est fait de certaines informations (extraites du corpus et enrichies manuellement) stockées dans des bases de données qui doivent constituer des paratextes des écrits de la morphologue. Cette articulation entre corpus structuré en XML et bases SQL enregistrant des extractions ciblées du corpus afin de les rendre disponibles selon des modalités de requête et de consultation aisées à fournir sur le Web résulte de la confrontation des expériences rapportées par différents partenaires, en particulier ceux de la formation professionnelle de lexicographes 173. – Arbortext Epic editor, utilisé en particulier chez Larousse ; – et Altova XMLSpy, utilisé en particulier chez Hachette. 172 Soumis mais non retenu, au Colloque international de morphologie “Décembrettes 7” de Toulouse (décembre 2010), à la thématique duquel il ne se rattache que marginalement, il présente une rédaction condensée qui appelle une amplification de ses développements dans la perspective d’une publication. 173 Je pense en premier lieu à trois intervenants, Luc Audrain, Hans Paulussen et Serge Verlinde, déjà évoqués à différentes occasions et que le § 1.5.5. mentionne conjointement. Document de synthèse – 1.6. Définir des principes de structuration 123 Le plan de rédaction de Tdr4 traduit cette articulation en subdivisant chacune des parties relatives aux analyses morphologiques, aux références bibliographiques et aux usages terminologiques (§§ 2. à 4.) en trois sous-parties : (i) balisage XML, (ii) extraction des données balisées pour les stocker dans une base SQL, (iii) présentation des paratextes que constituent ces bases dans le cadre de l’édition critique électronique en valorisant les visualisations différentes que chaque sélection d’informations permet d’offrir aux lecteurs. Trois bases de données extraites du corpus : Rcorp9, Rcorp10 et Rcorp11 Les bases Rcorp9, Rcorp10 et Rcorp11 contiennent respectivement les références bibliographiques des textes que Danielle Corbin mobilise, les unités lexicales et infralexicales qui y sont mentionnées (et, le plus souvent, analysées), et les termes qu’elle emploie. Elles ont été constituées par extraction des contenus des éléments utilisés pour baliser ces différents objets (et certaines des informations qui leur sont associées, comme les éventuelles gloses des unités linguistiques traitées) dans les deux textes structurés (DCI et DC2 ). – Rcorp9 : la base bibliographique La base SQL qui enregistre les références bibliographiques (Rcorp9) stocke, outre le détail des références structurées, des indications relatives aux lieux et aux manières dont Danielle Corbin évoque les textes référencés (mention, citation ou commentaire), et, pour une sélection de ceux qui semblent avoir joué un rôle important dans les études sur le lexique qui ont été développées à la même époque que les documents du corpus, la recopie de leur plan. Pour cette base les requêtes qui doivent être proposées en ligne permettent de repérer la concentration dans le temps des travaux auxquels se réfère la morphologue (cf. a) ci-après), mais également l’omniprésence de certains auteurs (comme Jean Dubois), la relative fréquence des citations et des commentaires, leur distribution dans chacune des sous-parties des textes (cf. b)), etc. a) Toutes les références de D. Corbin (1973) sauf une sont concentrées dans la décennie qui précède sa rédaction, dont une moitié publiée en 1970 et après. b) La nouvelle grammaire du français (Dubois & Lagane (1973)) par exemple est mobilisée dixsept fois dans D. Corbin (1973), principalement au § 3. Ce texte est (1) mentionné en n. 7, (2) cité au § 3.2., (3) cité au § 3.2. et en n. 10, (4) commenté au § 3.3., (5) cité en introduction du § 3.3., (6) cité au § 3.3.1., (7) mentionné au § 3.3.1.1., (8) mentionné au § 3.3.1.3., (9) cité au § 3.3.2., (10) cité au § 3.3.3., (11) cité au § 3.3.4., (12) commenté au § 3.4., (13) cité en introduction du § 3.4., (14) cité au § 3.4.1., (15) cité au § 3.4.2., (16) cité au § 3.4.3., et (17) commenté au § 3.5. Le bon usage (Grevisse (1964)) n’est, lui, convoqué que cinq fois et seulement au § 1. Il est (1) mentionné et cité au § 1.1., (2) commenté au § 1.2., (3) mentionné au § 1.2.1., (4) mentionné au § 1.2.2., et (5) mentionné au § 1.2.4. Les lecteurs désireux d’une part de mieux situer les travaux de Danielle Corbin dans son environnement intellectuel et d’autre part de suivre l’évolution de celui-ci au fil de ses publications devraient ainsi pouvoir trouver dans la base bibliographique Rcorp9 des éléments de réponse substantiels. 124 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – Rcorp10 : la base des unités lexicales et infralexicales La base de données qui enregistre les unités lexicales et infralexicales mentionnées par Danielle Corbin ou incluses dans des citations (Rcorp10) associe à chaque unité construite sa ou ses décomposition(s) morphologique(s), telle(s) qu’elle(s) figure(nt) dans le corpus, et à toutes les unités linguistiques en mention les indications constructionnelles et les gloses éventuellement proposées pour elles. La source de chaque élément informationnel est enregistrée. Cette dernière consiste en une localisation dans l’un des textes de Danielle Corbin et, le cas échéant, dans un texte cité par celleci, ce qui permet de repérer les convergences ou divergences existant entre les propositions d’analyses avancées par la morphologue et celles d’autres auteurs, voire les critiques formulées à l’égard des secondes, mais aussi les variations qui peuvent advenir entre différentes analyses de Danielle Corbin développées dans des contextes et à des moments différents. Par exemple, les items maladroit et maussade sont mentionnés une première fois par D. Corbin (1973 : 18, § 1.1.) dans une citation de Grevisse (1964 : 96) : puis repris dans le commentaire des analyses présentées dans celle-ci (p. 18, § 1.2.1., cf. supra figure 24). Ces deux extraits balisés dans le corpus et exploités par une transformation XSLT fournissent les indications suivantes (segmentées et enregistrées par champs informationnels distincts dans Rcorp10 et textualisées ci-après comme les réponses aux requêtes effectuées dans la base qui doivent être proposées aux internautes) : maladroit – Dans une citation de Grevisse (1964 : 96), cet item est mentionné sous la forme « MALadroit » et analysé comme [mal- [adroit]Adj.]Adj. (cf. D. Corbin (1973 : 18, § 1.1.) ; repris à Grevisse (1964 : 96) ; les unités linguistiques ne sont pas catégorisées dans le texte). – Dans le commentaire de la citation de Grevisse (1964 : 96) introduite au § 1.1., cet item est mentionné sous la forme « MALadroit » et analysé comme [mal- [adroit]Adj.]Adj. (cf. D. Corbin (1973 : 18, § 1.2.1.) ; les unités linguistiques ne sont pas catégorisées dans le texte). maussade – Dans une citation de Grevisse (1964 : 96), cet item est mentionné sous la forme « MAUssade » et analysé comme [mal- [ssade]Adj.]Adj. (cf. D. Corbin (1973 : 18, § 1.1.) ; repris à Grevisse (1964 : 96) ; les unités linguistiques ne sont pas catégorisées dans le texte). – Dans le commentaire de la citation de Grevisse (1964 : 96) introduite au § 1.1., cet item est mentionné sous la forme « MAUssade » et analysé comme [maussade]Adj. (cf. D. Corbin (1973 : 18, § 1.2.1.) ; l’unité linguistique n’est pas catégorisée dans le texte). Les données extraites du corpus et enregistrées dans la base Rcorp10 sont associées à des notes textuelles qui synthétisent les analyses développées dans le texte source. Ces notes peuvent être présentées liées à la ou les occurrence(s) de l’item décrit ou, comme ci-dessous, répertoriées sous les items qui en sont les objets. Document de synthèse – 1.6. Définir des principes de structuration 125 maladroit adj. 1. 1973, § 1.2.1. Maladroit est un mot qui est senti actuellement comme préfixé, contrairement à maussade (ce que ne spécifie pas Grevisse (1964 : 96)). maussade adj. 1. 1973, § 1.2.1. Maussade est un mot qui n’est plus senti actuellement comme préfixé, contrairement à maladroit (ce que ne spécifie pas Grevisse (1964 : 96)). Les données extraites et les textes qui leur sont adjoints doivent permettre de repérer les mots construits d’une manière particulière ou contenant un affixe donné dans le cadre de l’édition en ligne des écrits de Danielle Corbin, mais ils ont également vocation à documenter un travail lexicographique réalisé dans le prolongement du projet de “dictionnaire dérivationnel” entrepris par la morphologue (cf. D. Corbin (1990), D. & P. Corbin (1991), pour le projet original, et Rdic5 et infra § 2.7.3. pour celui qui a vocation à en être une nouvelle version élaborée à partir des données du corpus Rcorp8 et de la base Rcorp10). – Rcorp11 : la base terminologique La base des termes employés par Danielle Corbin (Rcorp11) constitue un inventaire lexical constitué par extraction des termes balisés et annotés dans le corpus des textes au moyen de trois attributs : – le premier fournit une information référentielle en codant si le terme balisé nomme une unité linguistique, une opération de construction ou autre chose ; – le second apporte une indication sémantique, sa valeur étant celle de l’hyperonyme du terme qui semble le mieux adapté au contexte d’emploi ; – le troisième, celui dont la valeur est la plus difficile à déterminer , spécifie si le terme est emprunté par la morphologue 174 ou s’il relève de son usage. La transformation XSLT qui extrait chaque terme balisé et sa localisation (dans le texte du corpus et, en cas de citation, dans le texte source) fournit les premiers éléments nécessaires à la description des termes employés : Le terme préfixe, par exemple, est employé trois fois par D. Corbin (1973 : 17-18) : § 1.1. en bas de la p. 17 : et p. 18 dans les deux contextes cités supra. Ces trois occurrences balisées dans le corpus et extraites par une transformation XSLT fournissent les indications suivantes (enregistrées par segments dans des champs distincts de Rcorp11 et textualisées ci-après comme les réponses aux requêtes que les internautes pourront formuler) : préfixe – Dans le texte, ce terme est employé comme hyponyme d’affixe, il réfère à une unité linguistique et il relève des usages de la morphologue (cf. D. Corbin (1973 : 17, § 1.1.)) ; – Dans le titre dominant une liste de citations extraites de Grevisse (1964 : 95-102), ce terme est employé comme hyponyme d’affixe, il réfère à une unité linguistique et il relève des usages de l’auteur cité ou de celui de la morphologue (cf. D. Corbin (1973 : 18, § 1.1.)) ; 174 S’il est facile de repérer les emplois terminologiques inclus dans les citations, ceux qui peuvent résulter d’influences textuelles non explicitées sont malaisément détectables. 126 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – Dans le commentaire de la liste de citations extraites de Grevisse (1964 : 95-102) introduite au § 1.1., ce terme est employé comme hyponyme d’affixe, il réfère à une unité linguistique et il relève des usages de la morphologue (cf. D. Corbin (1973 : 18, § 1.2.1.)). Mais les balisages actuellement présents dans le corpus ne permettent pas de documenter aussi bien toutes les analyses terminologiques qui pourraient s’avérer pertinentes et pour lesquelles il est opportun de prendre également en compte les notes textuelles ajoutées dans la base Rcorp11. Pour préfixe dans les contextes précédents, les notes ci-dessous indiquent d’une part, concernant la première occurrence de ce terme, qu’il est présenté dans le texte comme étant un hyponyme d’affixe et d’autre part, concernant les deux occurrences suivantes, que l’association d’une description sémantique aux préfixes mentionnés est irrégulière chez Grevisse (1964) : préfixe 1. 1973, § 1.1., p. 17 Les préfixes sont un sous-ensemble des affixes. 2. 1973, § 1.1. et § 1.2.1., p. 18 Les préfixes se voient irrégulièrement attribuer un sens dans Grevisse (1964 : 95-102). Ces informations sont présentes dans le texte balisé, mais ce n’est pas la manipulation du seul balisage qui permet de les extraire : – l’indication du fait que les préfixes sont définis par Danielle Corbin comme constituant un sous-ensemble des affixes n’est pas corrélée à l’attribut présent dans le balisage du terme, mais à la cooccurrence des trois termes affixe, préfixe et suffixe, les deux derniers figurant entre parenthèses après le premier ; – le commentaire portant sur la non-systématicité des indications sémantiques fournies par Grevisse (1964) est explicitement formulé par la morphologue au § 1.2.1., mais il n’est pas spécifiquement balisé et il est appuyé sur l’observation du fait que, dans la liste des préfixes figurant dans les citations de cet auteur présentes au § 1.1., certains sont associés à une glose (c’est le cas pour dé- : « indiquant séparation, division, négation » (cf. supra)), alors que d’autres (comme mal-) ne le sont pas. L’inclusion des préfixes dans l’ensemble des affixes telle qu’elle est exprimée p. 17 peut être repérée par une transformation qui chercherait spécifiquement à détecter ce type de définitions en extension et qui s’appuierait sur le fait que des termes sont listés entre parenthèses à la suite d’un premier terme. La présence irrégulière de gloses de préfixes dans les citations introduites par un titre contenant une occurrence de préfixe qualifié par l’adjectif négatif ne serait repérée, elle, qu’en cherchant à déterminer si en employant ce qualifiant la morphologue a synthétisé les informations sémantiques citées ensuite ou si elle les a complétées. Cette fois encore la recherche est techniquement possible – il suffirait de vérifier la coprésence des préfixes et de gloses portant sur chacun d’eux dans les citations –, mais il est probable que sans une certaine connaissance du texte elle n’aurait pas été envisagée, puisque ce qui la motive est l’observation d’une part de l’adjectif négatif qui qualifie la première occurrence de préfixe mais qui n’est pas balisé, et d’autre part du fait qu’une autre occurrence de ce terme est incluse, quelques paragraphes plus loin, dans le commentaire relatif à l’irrégularité observée. Le dernier point éclaire l’interdépendance des analyses outillées et manuelles. S’il est probable que le balisage des textes trouvera encore à s’enrichir pour mieux servir Document de synthèse – 1.6. Définir des principes de structuration 127 les besoins exploratoires, il semble également patent que la finesse des analyses formulées dans les paratextes de l’édition critique sera fortement dépendante de la qualité des lectures que les analystes feront conjointement des textes originaux et des extractions ciblées. Les enrichissements et les manipulations opérées jusqu’ici montrent le potentiel du corpus Rcorp8 (associé aux bases SQL Rcorp9, Rcorp10 et Rcorp11). La diffusion de Tdr4 doit permettre de présenter ce projet. S’il trouve un accueil positif auprès de morphologues, d’épistémologues ou d’historiens des sciences et qu’il fédère des collaborations, ce travail pourra faire l’objet d’un projet de recherche financé. Mais qu’il profite d’une dynamique collective 175 ou que son élaboration n’implique durablement que Pierre Corbin et moi, la valorisation de l’intégralité des travaux de Danielle Corbin au moyen de cette lecture originale de ses recherches rendue consultable en ligne constitue un projet auquel nous souhaitons nous consacrer. 1.6.3. Conclusion : Annoter un corpus en prévision des explorations à venir Les recherches qui ont motivé la création des corpus présentés dans le paragraphe qui se termine nécessitent d’exploiter intensivement les enrichissements intégrés dans le balisage des textes réunis et accroissent la part des manipulations informatiques de ces documents structurés dans les analyses de leurs contenus. Ces enrichissements des documents primaires ont un certain coût de mise en œuvre. Ils impliquent donc de définir avec une précision particulière les besoins qui les motivent et les méthodologies d’exploration qui permettront d’en tirer le meilleur profit, puis, une fois les objectifs clairement identifiés, de décider des modalités d’intégration dans les textes des annotations puis des procédures de leur contrôle. Concentrés sur un seul type d’objets, les enrichissements apportés aux textes de lecture (dans Rcorp13) ont mobilisé un petit nombre d’éléments différents et ont introduit peu de profondeur structurelle dans le document XML. La complexité de leur introduction dans les textes est progressive, puisqu’une partie du balisage est produit par conversion des analyses générées par un analyseur morphosyntaxique qui prétraite les textes, et que ce n’est qu’ensuite qu’il faut gérer les appariements des éléments <w> du corpus et des indications des composants d’adressage du dictionnaire, puis, surtout, des valeurs des mots-occurrences balisés avec les descriptions syntaxico-sémantiques proposées dans les articles. Les annotations des écrits de Danielle Corbin (dans Rcorp8) sont plus fournies que les précédentes. Ce sont également les plus complexes parmi celles que j’ai déjà mises en œuvre, du fait des trois dimensions (linguistique, terminologique et épistémologique) prises en compte pour l’étude des textes, de la diversité des objets qui sont balisés en 175 Les chercheurs volontaires pourraient être mobilisés pour des analyses terminologiques, linguistiques voire épistémologiques, mais ne pas devoir manipuler directement le corpus xmlisé s’ils ne sont pas familiers de ce type d’objet. Dans l’hypothèse d’un projet financé, si des contributeurs pouvaient être rétribués pour leur travail (par le biais de contrats postdoctoraux ou de vacations), l’intensification du rythme de travail conduirait à souhaiter les faire intervenir sur l’élaboration des balisages comme sur les analyses, en les encadrant très minutieusement afin de garantir la cohérence de l’ensemble des enrichissement du corpus. 128 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia leur sein, de la qualité de lecture qu’exige leur annotation et de la solidité des connaissances linguistiques qui doivent être mobilisées afin d’interpréter correctement les développements traités. Ce sont enfin celles pour lesquelles il a été le plus utile d’articuler leur élaboration et les développements des transformations qui procèdent aux extractions pertinentes pour les analyses, de manière à ajuster les modes d’expression des premières en fonction des contraintes manipulatoires des dernières. Les corpus présentés dans ce paragraphe sont par ailleurs ceux qui sont les plus éloignés des ressources qui ont motivé mon implication dans les traitements de corpus, puisque les lexicographes, à qui sont principalement dédiées mes recherches (cf. § 1.1.), n’ont ni les moyens ni en fait de raison d’entreprendre des travaux comparables à ceux qui viennent d’être évoqués. Même celui qui est le plus proche de leurs centres d’intérêt, le corpus dédié à des analyses métalexicographiques (Rcorp13), a peu de chances de trouver de corrélat dans les maisons d’édition, sauf éventuellement pour ce qui concerne la réflexion relative à une fonction d’hyperappel de dictionnaire. Il est cependant probable que pour développer celle-ci la méthodologie choisie ne passerait pas par l’annotation contrôlée d’un corpus mais plus simplement par des procédures de test effectuées sur des compilations de données textuelles éventuellement non structurées. Sans être directement liés aux pratiques des lexicographes, les corpus développés ont cependant des implications lexicographiques directes qui se matérialisent, pour Rcorp13, par le projet de rédaction de descriptions de sens mieux capables de soutenir les efforts de compréhension des textes lus par les écoliers (cf. § 2.3.6.) et, pour Rcorp8, par la mise en chantier d’une nouvelle version du “dictionnaire dérivationnel” (Rdic5, cf. supra et § 2.7.3.). 1.7. Conclusion : place des traitements de corpus La documentation des usages linguistiques en corpus constitue une pratique à laquelle je suis durablement sensible, non du fait de réserves à l’égard des approches introspectives, mais par intérêt pour des usages extérieurs à ma compétence de locutrice, ce qui était le cas pour les emplois d’une partie non négligeable des noms d’instruments pris en compte dans ma thèse, et qui l’est aujourd’hui des modes d’expression des commentaires de matchs de football ou d’autres espaces thématiques étudiés. Mon rapport aux corpus est pratique plus que théorique. Je ne cherche pas à affirmer des positions de principe, ambitionnant seulement de défendre la pertinence des choix faits en fonction des besoins documentaires à visée linguistique, lexicographique ou métalexicographique auxquels répondent les ressources constituées et explorées. En conséquence, s’il peut m’arriver de formuler des réserves vis-à-vis d’autres travaux, elles se fondent sur la non-pertinence d’une transposition de leur méthodologie dans le cadre de mes recherches, sans préjudice de ce qui les rend intéressants en eux-mêmes. Témoigner de cette attitude dans ce mémoire impliquait de revisiter une sélection des lectures documentaires que j’ai effectuées et des textes auxquels je me suis référée pour définir mes propres choix, afin d’évaluer comment se positionnent leurs auteurs. C’est la rédaction de ce retour sur mes travaux qui m’a permis de prendre conscience que, lorsqu’il est question de traitements de corpus, mon propos n’est pas de proposer un cadre plus adéquat qu’un autre pour résoudre une question théorique, mais bien de répondre à des besoins pratiques en expérimentant des procédures, en transmettant des compétences techniques ou en présentant des outillages que j’ai contribué à développer ou simplement utilisés. Parmi les sources documentaires référencées dans mes publications, trois sousensembles thématiques sont repérables et présentés ci-après. Une partie des publications exploitées sont de portée générale, tant pour ce qui concerne les types d’explorations que les corpus doivent documenter que pour les aspects plus techniques qu’elles abordent (cf. Habert, Nazarenko & Salem (1997), Habert, Fabre & Issac (1998), et Habert (2005a et 2005b), et, spécifiquement centrés sur la TEI, la courte contribution de Ide & Véronis (1996) ou, dans le même volume, le texte plus didactique de Burnard & Sperberg-McQueen (1996) et plus récemment les recommandations de la TEI P5). Ce sont des références utilisées pour la recherche aussi bien que pour l’enseignement, comme peuvent également l’être une sélection de celles qui abordent certains modes d’étiquetage de corpus (cf. Paroubek & Rajman (2000), Valli & Véronis (1999) pour les corpus oraux, Véronis & Khouri (1995) pour les corpus multilingues, ou Véronis (2000), qui inclut les enrichissements morphologiques et syntaxiques traités par les précédents dans un panorama plus large). 130 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Le second sous-ensemble réunit des publications qui traitent de questions qui intéressent directement mes recherches à deux titres différents : – soit parce qu’elles relatent des explorations de corpus réalisées dans le cadre de travaux de lexicographie, comme Grundy (1996), qui avait alimenté de fructueux échanges avec son auteur et auquel je me suis souvent référée, Braasch (2004) ou Citron & Widmann (2006), que j’ai évoqués plus ponctuellement, ou encore les publications élaborées autour du projet FrameNet et de la sémantique des cadres (“Frame semantics”), particulièrement intéressants pour la lexicographie (cf. Atkins (1995), Fillmore & Atkins (1998), Atkins, Fillmore & Johnson (2003), ou Atkins, Rundell & Sato (2003)) ; – soit parce qu’elles éclairent l’intérêt qu’il peut y avoir à employer des corpus pour documenter les descriptions de dictionnaires (cf. Hanon (1990), Atkins (1990), Laufer (1992), ou Béjoint (2007), voire, avec un axage plus linguistique, Hanks (2004) ou P. Corbin (2005 et 2006)). Ce second sous-ensemble serait toutefois incomplet sans la mention des écrits, plus techniques, qui présentent les travaux articulés aux développements informatiques entrepris par Adam Kilgarriff et/ou ses divers partenaires (cf. Kilgarriff & Rundell (2002), Kilgarriff & Tugwell (2002), Grefenstette (2002), Kilgarriff & Grefenstette (2003), Baroni & Bernardini (2004), Kilgarriff & al. (2004)) à destination des lexicographes (cf. Rundell (2002)). Les références du troisième sous-ensemble, enfin, sont celles qui ont éclairé des points particuliers de certaines de mes recherches : – L’emploi d’Unitex pour explorer le corpus footballistique Rcorp1 m’a amenée à me référer à des recherches effectuées avec cet outil (ou avec Intex 176) sur des énoncés ressortissant à d’autres domaines (Faure (2000), Balvet (2002), Poibeau (2003) notamment) ou à des présentations didactiques plus générales (Courtois & Silberztein éds (1990), Silberztein (1993), Silberztein, Poibeau & Balvet (2001)). – La conception du projet de corpus plurithématique et multilingue dont T10 présente ce qui devait en être le premier élément constitutif (cf. § 1.4.2.) m’a par ailleurs conduite à revisiter ou à découvrir, sous forme écrite ou à l’occasion de présentations publiques, des contributions relatives aux questions de constitution et d’alignement de corpus bilingues (cf. Blank (1995), Kraif (2003 et 2008), Resnik (1999) et Resnik & Smith (2003), Delbecque & Zweigenbaum (2006) ou encore Véronis éd. (2000)), et d’exploration de ceux-ci dans le cadre d’études terminologiques (cf. Cmejrek & Curin (2001), Déléger & Zweigenbaum (2006) et, plus marginalement, Léon (2006) 177). Les tâches de transcription réalisées pour le corpus footballistique Rcorp1 (cf. T5 et § 1.3.3.) et les corpus du projet OURAL P2 – Rcorp5 et Rcorp6 (cf. T8 et § 1.4.1.) – m’ont, elles, amenée à étudier des publications qui présentent les recherches développées dans le 176 Intex est un outil d’exploration de corpus qui a été développé par Max Silberztein, ancien doctorant de Maurice Gross, et qui offre des fonctions de consultation très comparables à celles proposées ensuite dans Unitex (cf. § 1.3. en particulier). Quand j’ai invité Maurice Gross à intervenir dans la formation de lexicographes en 1999-2000, il a eu la générosité d’offrir des licences d’Intex à l’université Lille 3, ce qui a permis à nos étudiants de l’époque d’utiliser cet outil. 177 Stéphanie Léon, alors doctorante aixoise et antérieurement candidate à l’entrée dans la formation professionnelle lilloise, m’avait donné à relire cette contribution au colloque RÉCITAL à un moment où sa lecture présentait quelque intérêt pour notre travail. Document de synthèse – 1.7. Conclusion : place des traitements de corpus 131 cadre de l’élaboration de l’outil de transcription de corpus oraux Transcriber (cf. Barras, Geoffrois, Wu & Liberman (2000 et 2001), Geoffrois, Barras, Bird & Wu (2000)) et à situer nos travaux par rapport à d’autres entrepris sur des corpus oraux (cf. Équipe DELIC (2004), Salmon-Alt, Romary & Pierrel (2004) ou encore le Guide des bonnes pratiques 2006 (Baude coord. (2006))). Les lectures faites ne se limitent pas à celles qui sont référencées, même si ce sont les seules dont on garde une trace durable, et les lectures effectuées n’épuisent pas les possibles, pour partie faute de temps et aussi parce que, étant des sources d’inspiration et de mise à niveau technique, elles ont été complétées par d’autres plus informatiques (en particulier relatives au XML et au XSLT) et que, en leur qualité de “déclencheurs”, elles devaient plus soutenir des entreprises en cours de réalisation que servir à contraster mes choix à d’autres (chacun étant conditionné par les objectifs des corpus élaborés, les contextes de développement, l’outillage disponible, etc.). Progressivement, la documentation des descriptions d’usages linguistiques n’a plus été la seule motivation pour la création de corpus : les potentialités d’enrichissement des corpus structurés en XML et la rencontre de besoins documentaires dont la finalité relève de l’analyse textuelle plus que linguistique, sans nécessairement cependant exclure la seconde, m’ont conduite à m’impliquer dans des projets ambitieux (présentés supra aux §§ 1.5. et 1.6.), qui n’annihilent pas mon engagement dans les premiers, mais diversifient mes activités en matière de traitements de corpus. 2. Métalexicographie 2.1. Définir une manière d’étudier des dictionnaires La part la plus importante de mon activité de recherche se situe dans le domaine de la métalexicographie, ce dont témoigne la différence de volume des deux parties de ce document de synthèse, et elle porte plus précisément sur l’étude des dictionnaires récents (ceux publiés depuis le début des années 1970). Cette orientation de mes recherches s’est construite en articulation avec les enseignements que j’ai assurés, et au fil des années il m’a été loisible de dynamiser continûment le travail réalisé sur les deux terrains en focalisant mes investigations sur des objets dont une meilleure connaissance aurait une portée pédagogique. Comme le montrent les commentaires qui suivent, les méthodes d’étude mises en œuvre dans mes travaux métalexicographiques mobilisent le plus souvent des outillages informatiques (bases de données SQL et balisages XML en particulier) et les perspectives de travail adoptées constituent des variations autour de thèmes repères, comme l’appréciation de la qualité intrinsèque des informations linguistiques fournies dans les descriptions lexicales et celle de leur lisibilité et de leur utilisabilité par les publics auxquels elles sont destinées. 2.1.1. Objets, méthodes et moyens J’anime avec Pierre Corbin la formation lilloise de lexicographes depuis 1999. Les premiers de mes articles métalexicographiques (T6 (2004b), rédigé avec Pierre Corbin) et T7 (2005a)) ont été engagés en 2003 et abordaient l’analyse des dictionnaires par celle de la structure des articles. Les études suivantes ont progressivement pris en compte les programmes d’information et les modes d’élaboration des textes dictionnairiques et se sont faites plus propositionnelles. Les contributions analytiques aussi bien que celles relevant de la conception de nouveaux produits ont privilégié le public cible qui a le plus besoin que les éditeurs lui proposent des descriptions explicites et fonctionnelles : les élèves, qui ont tout à la fois à consolider leur compétence linguistique et à apprendre à utiliser les dictionnaires qui doivent les aider dans leurs acquisitions. Ces approches analytiques et propositionnelles convergent dans T17, rédigé en 2008-2009, qui constitue à ce jour l’article le plus consistant de ma production scientifique. Prenant appui sur différentes études antérieures et sur une connaissance du marché éditorial documentée par les données enregistrées depuis 2001 dans une base qui référence les dictionnaires monolingues généraux (Rbd1, cf. § 2.1.2.), j’y ai décrit comment l’informatique a modifié les usages éditoriaux sans encore véritablement permettre l’avènement de dictionnaires électroniques innovants, ce que traduit son plan, qui permet d’aborder les questions de sélection, de rédaction et de présentation 136 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia des informations à fournir et de constituer, sur ce dernier terrain, un état des dictionnaires électroniques issus ou dérivés de textes imprimés, et qui débouche sur des propositions d’orientations éditoriales susceptibles de présenter des plus-values pédagogiques. Cette approche syncrétique a été rendue possible par une bonne familiarité avec le milieu éditorial. 178 Les conférenciers reçus et les tuteurs de stages rencontrés chaque année ainsi que les professionnels côtoyés en diverses occasions (colloques, réunions de travail à leur initiative ou à celle d’une instance indépendante comme l’AFNOR) m’ont permis progressivement de me construire une représentation assez précise de leurs activités, de leurs contraintes économiques et des difficultés qu’ils surmontent pour accomplir leurs tâches quotidiennes. En observant les permanences et les ruptures dont je les entends témoigner depuis plus de dix ans, j’ai appréhendé leurs conditions de travail, et en écoutant l’un d’eux me confier son espoir de trouver de l’inspiration auprès d’analystes de dictionnaires, j’ai pris conscience à mon tour 179 que le fait de concevoir les recherches que nous effectuons à l’université comme des contributions (souvent indirectes 180 ) à celles que les entreprises aspirent à réaliser, mais auxquelles elles ne peuvent pas pleinement se consacrer, n’est pas une illusion induite par mon ancrage universitaire. C’est sur ces bases que, progressivement, mes publications, qui étaient initialement plutôt techniques et orientées vers l’accompagnement à l’intégration d’un usage informatique déroutant pour une part des rédacteurs (les structurations en XML des textes dictionnairiques), sont devenues plus analytiques et propositionnelles, critiquant au besoin le texte des articles étudiés. Dans le même temps, sans négliger le point de vue des rédacteurs, les études faisaient une part grandissante aux destinataires des dictionnaires en interrogeant la lisibilité des textes produits et leur adéquation aux besoins 178 Les formations professionnelles universitaires présentent à mon sens un paradoxe qui consiste dans le fait que, tout en faisant intervenir des professionnels, elles sont portées par des universitaires, qui peuvent n’avoir aucune expérience professionnelle effective des métiers auxquels elles forment. Cette extériorité, qui implique qu’ils œuvrent pour en acquérir une bonne connaissance indirecte, offre en contrepartie une position intéressante pour l’étude des produits et des méthodes de travail des secteurs d’activité concernés. 179 Cf. déjà P. Corbin (1984, § 1.2. ; 1995 : 82 et §§ 2.1.1. et 2.1.2.) et Cabré-Castellví (1994 : 340-342). 180 Les maisons d’édition françaises du secteur de la référence (dictionnaires, encyclopédies) participent peu à des projets de recherche et développement, même s’ils donnent lieu à des financements. Ces dernières années quelques-unes se sont néanmoins engagées dans cette voie, comme en témoignent certaines initiatives dont j’ai eu connaissance : – En 2001, Le Robert a répondu avec succès à un appel à projet pour l’élaboration d’un outil de décodage du langage employé dans les administrations françaises, dont l’aboutissement a été la publication trois ans plus tard du Petit décodeur de l’administration (Le Fur dir. (2004)). – En 2002, les réflexions que j’avais engagées avec les éditions Larousse et Le Robert en vue du montage d’un projet financé de constitution de corpus thématiques (cf. n. 44) ont été interrompues du fait du démantèlement du groupe Vivendi Universal Publishing dont faisaient partie ces deux entreprises, qui a eu pour conséquence leur séparation et consécutivement leur retour à une position de concurrence qui bloquait les perspectives de collaboration dans le cadre d’un projet de recherche. – En 2005, la société Initiales, sous-traitant des éditions Atlas (spécialisées dans les encyclopédies), a recruté en contrat CIFRE une doctorante qui devait chercher à automatiser le repérage des segments de textes susceptibles d’être devenus obsolètes dans les articles en cours d’actualisation (cf. Laignelet (2009)). Des engagements de cette nature incitent à penser qu’il serait possible de mettre en place des collaborations entre universités et entreprises, à condition de choisir les contextes les plus favorables, afin que les maisons d’édition puissent avoir de bonnes garanties de rentabilisation du temps consacré à la mise en place de ces collaborations, qui, n’étant pas réservé à leurs tâches éditoriales usuelles, constitue en soi un investissement. Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires 137 effectifs ou spéculés tels que les définissent les projets lexicographiques présentés dans les paratextes des répertoires. Intégrant par ailleurs l’importance des dérivations de dictionnaires à partir d’une ou plusieurs sources textuelles (dérivation stricte ou métissage) et de la place grandissante des éditions électroniques 181, j’ai tenté de contribuer aux réflexions sur la valorisation des textes imprimés déjà publiés et sur les créations de produits pour ce nouveau support. Il résulte de ce qui précède que les travaux de métalexicographie que j’ai élaborés doivent être distribués dans deux sous-ensembles distincts : – Le premier (cf. §§ 2.2. à 2.5.) réunit les analyses de textes dictionnairiques, qui doivent couvrir progressivement tous les types d’informations que ceux-ci ont vocation à transmettre et tous les composants d’articles qui sont utilisés pour ce faire, la relation observable entre informations et composants n’étant pas bijective, ni même toujours régulière. – Le second ensemble (cf. §§ 2.6. et 2.7.) regroupe d’une part les présentations des contributions d’analystes de dictionnaires suscitées pour deux numéros de la revue Lexique, l’un dirigé avec Pierre Corbin (D1), l’autre dont j’assure seule la coordination (D2) ; • et d’autre part T17, dont l’importance au sein de mes travaux a déjà été évoquée supra, et T21, qui prolonge la réflexion engagée dans T17 à propos d’un dictionnaire scolaire novateur sans revenir sur les soubassements exposés dans le premier de ces articles, ainsi que quelques prototypes de dictionnaires élaborés dans différents contextes, ces travaux ancrant des options dictionnairiques nouvelles dans des analyses de l’existant, ce qui peut être tout à fait explicite (comme dans T17) ou plus discret (comme dans T21). • Au moment de la rédaction de ce document de synthèse, ma production métalexicographique (sans distinction des sous-ensembles “analytique” et “de conception”) comporte dix-sept articles parus ou à paraître 182, deux textes de diffusion restreinte 183 et quatorze communications 184. Pour tous ces travaux, comme pour les quatre-vingt-seize mémoires à composante métalexicographique ou lexicographique (générale ou spéciali- 181 En dépit des difficultés que les éditeurs semblent avoir rencontrées dans la définition de principes de commercialisation qui leur permettent de rentabiliser leurs productions électroniques, qu’elles soient proposées sur disque, en ligne sur abonnement ou en accès libre (cf. F. & P. Corbin (2008 : 61)), le nombre de ces produits a indéniablement augmenté, même s’ils correspondent rarement à des créations dictionnairiques (cf. T17 § 2.3.1.). 182 T6 ((2004b), rédigé avec Pierre Corbin), T7 (2005a), T9 ((2009c), rédigé avec Pierre Corbin), T11 ((à paraître b), rédigé avec Pierre Corbin), T12 (2008a), T13 (2008g), T14 (à paraître e), T15 (2008e), T16 (2008f ), T17 (2009d), T18 ((2009a), rédigé avec Pierre Corbin et relevant également des traitements de corpus – cf. n. 10), T19 ((2009b), rédigé avec Pierre Corbin), T20 ((à paraître d), rédigé avec Stavroula Markezi et relevant également des traitements de corpus – cf. n. 10), T21 (2010a), T22 (à paraître c), T23 (2010b) et T24 ((à paraître a), rédigé avec Pierre Corbin). 183 Tdr3 (2010) et Tdr5 (en préparation b) 184 C9 (2004) [cf. T7], C10 ((2005a), avec Pierre Corbin) [cf. T9], C13 ( (2006b), avec Pierre Corbin) [cf. T11], C14 (2007a) [cf. T12], C15 (2007b) [cf. T13], C16 (2007c) [cf. T13], C17 (2007d) [cf. T14], C18 (2008a) [cf. T15], C19 (2008b) [cf. T16], C20 ((2008c), avec Pierre Corbin) [cf. T18], C21 ((2009a), avec Stavroula Markezi) [cf. T20], C22 (2009b) [cf. T21], C23 (2009c) [cf. T22], C24 (2010) [cf. T23]. 138 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia sée, monolingue, bilingue ou multilingue) que j’ai dirigés seule (soixante-dix-neuf) 185 ou avec Pierre Corbin (seize) 186 ou Danièle Van de Velde (un) 187, j’ai veillé à fonder (ou à faire fonder) les spéculations avancées sur une connaissance aussi solide que possible des données disponibles, ce qui m’a conduite à créer pour mes recherches la base du marché éditorial déjà évoquée et cinq bases de données métalexicographiques compilant des sélections de segments de textes dictionnairiques 188. La complémentarité des analyses métalexicographiques et des exposés d’alternatives possibles se marque aussi dans les publications par le fait que j’y dresse un état des usages observés avant, le cas échéant, de formuler des propositions, les deux points de vue pouvant être réunis au sein d’une seule publication (comme dans T15 à propos des identifications diachroniques, cf. § 2.5.3.) ou développés dans des productions liées (T17 et T21 ont par exemple bénéficié des analyses de traitements syntaxico-sémantiques réalisées pour T9). Les différentes publications relatives aux analyses de textes dictionnairiques, qui vont être revisitées ci-après, s’intègrent à un programme de recherche orienté dans deux directions : – l’étude des modes de présentation de différentes informations, axée d’une part sur l’identification des composants d’articles qui les accueillent et d’autre part sur l’appréciation de la lisibilité de celles-ci pour les usagers ; – l’étude de la structure des textes dictionnairiques et des possibilités de valorisation informatique de ceux qui sont imprimés, ce qui implique des structurations a posteriori de textes existants. Très souvent, explicitement ou non, j’ai intégré les partenaires professionnels de la formation 189 dans les destinataires de ces textes. Ce ciblage virtuel canalise mon propos en l’indexant sur les compétences supposées de mes possibles lecteurs, ce dont témoigne la technicité croissante de mes écrits au fur et à mesure des évolutions perceptibles dans les maisons d’édition. Mais, en dépit de certains retours sur mes travaux, il serait utopique de penser que ces lecteurs potentiels sont tous des lecteurs effectifs. En effet, même si, il n’y a pas si longtemps encore, des lexicographes majeurs de grandes maisons d’édition étaient également des chercheurs actifs interagissant directement avec la recherche universitaire, les changements économiques survenus depuis vingt-cinq 185 Cinquante-sept ne relèvent que de la métalexicographie ou de la lexicographie : Mdir4, 6, 9, 14, 25, 30, 31, 32, 37, 39, 41, 42, 44, 45, 46, 47, 48, 50, 51, 53, 54, 55, 56, 57, 58, 59, 60, 62, 65, 68, 70, 71, 72, 73, 75, 77, 79, 80, 81, 83, 84, 85, 87, 88, 91, 92, 93, 97, 98, 99, 100, 101, 102, 104, 106, 108, 110. À l’une des deux composantes précédentes, deux conjoignent de la synthèse de la parole (Mdir52) ou de l’informatique éditoriale (Mdir82). Vingt intègrent également des traitements de corpus : Mdir8, 15, 16, 18, 20, 22, 26, 27, 29, 35, 38, 43, 49, 66, 78, 89, 90, 103, 107, 111. 186 Dix ne relèvent que de la lexicographie ou de la métalexicographie : Mdir1, 2, 3, 5, 11, 12, 13, 33, 63, 64. Six intègrent également des traitements de corpus : Mdir7, 17, 21, 23, 24, 105. 187 Il traite de linguistique et de lexicographie : Mdir109. 188 Base généalogique des dictionnaires débutée en 2001 (Rbd1), base des iconographies du Robert junior (éditions imprimée de 1997 et électronique de 1999) en 2002-2003 (Rbd2), base des items marqués dans les dictionnaires scolaires en 2006-2007 (Rbd3), base étymologique des dictionnaires pour enfants depuis 2007 (Rbd4), base des nomenclatures depuis 2008 (Rbd5) et base des items décrits comme relevant du parler enfantin en 2009 (Rbd6). 189 Auxquels s’ajoutent nos anciens étudiants qui entrent dans le monde professionnel où ils souhaitaient s’insérer en venant se former avec nous, même si ceux-ci ne sont encore ni intervenants ni tuteurs de stages. Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires 139 ans environ, probablement corrélés aussi à des évolutions des centres d’intérêts d’une partie des acteurs de ces entreprises, ont fait qu’il existe aujourd’hui, en France, une séparation assez nette entre la pratique professionnelle et la recherche 190. Quelques lexicographes du privé participent à des colloques – certains y assistent régulièrement, un petit nombre y communiquent même –, mais il est vraisemblable que dans leurs tâches courantes leur disponibilité pour des lectures théoriques soit limitée (cf. P. Corbin (2002 : 32) et Landau (2001 : 348-349 et 398-401), repris par Béjoint (2009 : 127-128)) 191. Par ailleurs, d’un point de vue méthodologique, pour chaque étude réalisée, je veille à situer les dictionnaires pris en compte, – soit en comparant entre eux ceux qui peuvent être considérés comme des éléments constitutifs d’une gamme ou comme des concurrents, et en confrontant, pour ceux pour lesquels c’est pertinent, leur contenu avec celui de ceux avec lesquels ils partagent une parenté textuelle, – soit en appréciant leur adéquation avec ce que les responsables des ouvrages ont pu en dire dans des publications scientifiques, lors d’interventions publiques ou dans les textes de présentation des ouvrages destinés à leurs lecteurs 192. Ce travail d’analyse demande une bonne connaissance du fonds de chaque éditeur et des généalogies des dictionnaires de chacun, et de minutieuses comparaisons des textes, ce qui requiert d’une part de disposer des ouvrages 193 et d’autre part de s’imprégner de leur richesse (étude des informations contenues et de leurs formulations, de leurs placements dans les volumes et dans les articles, analyse des structures d’articles appuyée sur la présence de symboles alphanumériques et diacritiques et sur les contenus discursifs de chaque subdivision de description délimitable, repérage des relations discernables entre les composants d’articles et les types d’informations fournies au sein de chacun, etc.) afin de connaître chaque répertoire et de pouvoir détecter des filiations encore non identifiées. La tâche est consistante, mais cette culture est nécessaire pour dialoguer avec les responsables de projets des maisons d’édition 194. 190 À la différence de ce qui s’observe en Grande-Bretagne, cf. Béjoint (2009, § 2.2. et 2010, § 8.1.2.). 191 Bien que je n’aie jamais été confrontée à des propos en ce sens, je ne crois pas qu’il faille exclure a priori que certains lexicographes puissent avoir le sentiment que leur compétence professionnelle est suffisante pour qu’ils ne ressentent pas le besoin d’investir dans des lectures de théoriciens. Les acteurs du privé que j’ai rencontrés jusqu’ici ont toujours témoigné d’un intérêt certain pour les travaux métalexicographiques développés dans notre UMR. Je les remercie pour cela comme pour la confiance qu’ils nous témoignent en nous parlant de leurs activités. 192 Les paratextes (internes ou externes, comme ceux présentés sur les sites Web des éditeurs) qui sont rédigés par les lexicographes et qui présentent les projets éditoriaux ont un intérêt plus marqué (ou tout du moins d’une autre nature) que les publicités qui émanent des services marketing et qui visent à déclencher un désir d’acquisition chez les destinataires du message commercial. 193 Les considérant plus comme des ouvrages de référence que comme des objets d’étude, les bibliothèques n’acquièrent usuellement pas chaque millésime ou tirage de chaque titre, or, sans en disposer, il est impossible de les comparer. La bibliothèque de linguistique de l’UMR SILEX puis STL a consenti certains efforts depuis sa création, ce qui en fait un espace documentaire d’une relative richesse que nos étudiants exploitent très utilement, mais la culture que je devais me forger avait besoin d’une plus grande complétude. Sans la documentation personnelle que Pierre Corbin a mise à ma disposition dès mon recrutement en 1999, mon expertise comme la portée de mes recherches en métalexicographie auraient nécessairement été plus limitées. 194 Les plus expérimentés d’entre eux connaissent bien les produits de l’entreprise dans laquelle ils ont fait carrière, mais, à l’occasion, certains apprécient de pouvoir interroger des métalexicographes sur la genèse d’un texte qu’ils doivent faire évoluer. 140 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia 2.1.2. Références et descriptions des répertoires monolingues généraux : la base du marché éditorial [Rbd1] Ce sont la quantité et la précision des informations à mémoriser sur chaque dictionnaire du marché français qui m’ont résolue, dès 2001, à élaborer une base de données des répertoires monolingues généraux – Rbd1 – afin de compiler pour chaque produit des données identificatrices (titre, ISBN, etc.), des informations généalogiques (pour les textes dérivés ou produits par métissage), des descriptions de leur contenu dictionnairique et de leurs différents paratextes 195 (ces derniers étant susceptibles de varier d’une édition à une autre même quand le texte dictionnairique proprement dit est stable), et, plus récemment, des indications fournies dans des textes externes de présentation des ouvrages (en particulier les descriptifs proposés sur les sites Web des éditeurs, cf. n. 192). La structure de cette base a longtemps été retravaillée, en particulier avec différentes promotions du M2 LTTAC, avec lesquelles nous analysons les produits commercialisés à chaque rentrée en réalisant des versions partielles de Rbd1, en fonction de ce que je les invite à étudier plus centralement chaque année. Les données qui sont réunies au sein de cette base proviennent de dépouillements systématiques réalisés selon trois modes : – la description de l’ensemble des propriétés d’un répertoire ; – celle d’une sélection de caractéristiques qui montrent que des dictionnaires sont en concurrence dans le même segment de marché (cf. n. 205) ou entrent dans une gamme de produits proposés par un éditeur ; – ou encore celle d’indices textuels qui prouvent que certains ouvrages entretiennent une filiation. Les données enregistrées autres que celles qui permettent d’identifier chaque produit ne sont donc pas exhaustives, mais dépendantes des circonstances qui me permettent de saisir les éléments descriptifs relevés et de la disponibilité de ceux-ci, qui peut dépendre 1) de facteurs matériels : il faut capturer les informations proposées sur les sites des éditeurs avant que celles-ci ne soient remplacées par d’autres ; 2) de l’avancement des connaissances : une filiation textuelle doit être vérifiée par la comparaison des textes d’un échantillon consistant d’articles avant de pouvoir être enregistrée ; 3) de l’actualité de l’exploitation des données : des informations qui n’ont pas encore été mobilisées dans le cadre d’une recherche ou d’une préparation de cours peuvent ne pas avoir été enregistrées dans la base. Constituée de manière progressive et requérant une régularité des relevés (afin de disposer au moins des références de chaque produit publié), Rbd1 joue un rôle fondamental dans mes recherches. Cette ressource documentaire, bien qu’incomplète, constitue en effet une mémoire des caractéristiques des répertoires étudiés et de certains éléments d’analyse de leur généalogie. Elle est également un moteur pour la réalisa195 Ceux-ci peuvent comprendre des planches thématiques, un atlas, un cahier synthétisant les contenus des programmes scolaires, des chronologies diverses, etc. Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires 141 tion d’investigations qui consolident la connaissance des produits et parfois conduisent à observer en leur sein des composants, des modes de description, des évolutions, etc. qui auraient pu ne pas apparaître sans l’actualisation périodique des données descriptives enregistrées. Sa structure actuelle (cf. figure 28) compte vingt tables. Figure 28. Schéma de relations de la base du marché Rbd1 L’ISBN de chaque produit éditorial (ou un identifiant ad hoc) 196 est enregistré dans la table T_N_U_Prod qui référence les produits traités. Il sert à lier cette table aux autres via une première (T_Id_Prod) qui explicite à quel répertoire correspond chaque ISBN ou identifiant interne. La répartition des informations relatives à chaque produit est définie selon les principes suivants : – Les informations identificatrices (date de parution, titre, image de la couverture, nom de l’éditeur, nombre d’exemplaires publiés (si cette information est disponible), nombre de volumes 197 et prix) sont stockées dans la table T_Id_Prod. – Les variantes de titres, si le produit est nommé de différentes manières, et tous les énoncés paratextuels qui contiennent des informations à propos de chacune des données enregistrées dans la base sont stockés, typés, localisés et éventuellement commentés dans la table T_Attestations 198. 196 Les produits qui n’ont pas d’ISBN, comme les éditions électroniques librement consultables en ligne ou les dictionnaires dont la publication est antérieure à l’instauration de cet identifiant en 1970, se voient affecter un identificateur interne à cette base. Ceux qui ont le même ISBN pour plusieurs tirages au sein desquels des variations ont été constatées voient leur ISBN complété par un identifiant de tirage. 197 Pour les plurivolumes dont chaque tome porte lui-même un ISBN, la table T_Partie-tout enregistre chaque ISBN de volume associé à l’ISBN du produit global (ou à son identificateur interne à la base, cf. n. 196). 198 Cette table est très importante puisqu’elle constitue la mémoire des sources textuelles qui permettent de valider les données de la base. 142 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – Les responsabilités éditoriales connues concernant chaque produit sont stockées dans la table T_Resp_Ed sous forme de paires constituées d’un nom de fonction et d’un nom de personnel (ces derniers étant préenregistrés dans la table T_Noms_Resp_Ed, ce que symbolise le lien qui lie ces deux tables et qui n’a pas de cardinalité (1 ou ∞, qui représente la valeur “plusieurs”) mentionnée à ses extrémités). – Les caractérisations des destinataires et des destinations des ouvrages tels qu’ils sont décrits dans les paratextes des produits éditoriaux font l’objet des tables T_Destinataires 199 et T_Destination. 200 – Les typages de chaque produit tels qu’ils sont proposés par les éditeurs (ce qui recouvre les éditions remarquables ou l’appartenance à une classe d’ouvrages ou de dictionnaires particuliers) sont compilés dans la table T_Types_Prod 201. – Les informations éditoriales qui permettent de situer les répertoires dans le temps (par les dates de leurs copyrights, de leurs tirages, de leurs achevés d’imprimer, etc.) et le cas échéant dans des filiations textuelles (par l’identification du ou des texte(s) qui ont servi de base pour leur production) font respectivement l’objet des tables T_Datations et T_Dic_Ascendants. Mais si d’autres ISBN sont mentionnés sur un produit, en particulier ceux d’éditions antérieures du même texte, ils sont, eux, relevés dans la table T_ISBN_supl. – Des informations matérielles, qui varient selon les supports des dictionnaires et, pour les éditions électroniques, en fonction de la disponibilité d’une version identifiable ou de textes consultables en ligne et susceptibles d’évoluer sans spécification de changement de version, sont enregistrées dans les tables T_Livres, T_Disques ou T_Ed_Web. – Des informations quantitatives sur des types de composants d’articles et de paratextes, et le segment de marché auquel ces données permettent de définir que le répertoire appartient (dont les noms sont listés dans la table T-Seg-marche) sont enregistrées dans la table des données dites “normalisées”, c’est-à-dire nommées indépendamment des usages des éditeurs (T_Don_Norm). 202 199 Ces informations ont été particulièrement utiles pour la figure 1 de T12, qui liste les répertoires étudiés en mentionnant leur filiation et les publics de chaque produit. 200 La présentation faite à la Journée des dictionnaires de Cergy-Pontoise en mars 2005 (C10) débutait par un exposé de la généalogie du répertoire étudié, le Dictionnaire du français au collège (Larousse, 2000). Cette partie de la contribution orale, qui n’a pas été reprise dans T9, analysait les proximités textuelles des présentations des destinataires des répertoires impliqués et des services (les “destinations”) que ceux-ci déclaraient être en mesure de rendre à ceux-là. 201 Ces indications sont utiles pour l’identification des gammes de produits et le repérage de leurs évolutions. 202 Les noms des champs de la table T_Don_Norm sont des abréviations de dénominations complexes qui sont décodées dans la colonne de droite du tableau ci-dessous. Celles-ci mériteraient d’être présentées de manière plus détaillée que cela n’est faisable dans les limites de ce document. Toutefois, afin de donner une idée de ce à quoi réfère chacune, des exemples de désignations correspondantes observées sur des sites d’éditeurs en 2009-2010 sont fournies en italiques entre parenthèses. ABRÉVIATIONS FORMES DÉVELOPPÉES (EXEMPLES DE DÉSIGNATIONS D’ÉDITEURS CORRESPONDANTES) It_No_L_et_NP_Prin items de nomenclature de langue et de noms propres principale (mots) It_No_L_Prin items de nomenclature de langue principale (entrées ; mots ; mots de la langue ; mots de langue ; mots de langue définis (différents sens, exemples, locutions) ; mots du vocabulaire courant, littéraire, spécialisé ; mots et leurs sens ; noms communs) It_No_L_Prin_Nv items de nomenclature de langue principale nouveaux (nouveaux noms communs) Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires 143 – Les paramètres d’analyse des paratextes documentaires composés d’une ou de plusieurs iconographies sont réunis dans la table T_Paratextes 203 (les sujets de ces derniers étant préenregistrés dans la table T-Sujets-paratextes). Articu_Art_L C_Expli_Art_L C_Mons_Art_L articulations d’articles de langue (définitions ; définitions assorties d’exemples simples ; sens et locutions) composants explicatifs d'articles de langue (sens ; sens illustrés par des exemples) composants monstratifs d’articles de langue (exemples ; citations ; citations littéraires ; citations du monde entier ; citations du monde entier traduites en français) Disp_Consult_Art_L dispositif d’aide à la consultation d’articles de langue ( plans détaillés pour les articles longs) El_Cons_Comp_ Cultu éléments constitutifs de composante culturelle (articles de synthèse ; textes) It_No_NP_Prin items de nomenclature de noms propres principale (noms propres) It_No_NP_Prin_Nv items de nomenclature de noms propres principale nouveaux (nouveaux noms propres) Art_Syn articles de synthèse (articles de synthèse) C_Métaling_Art_NP composants métalinguistiques d’articles de noms propres (étymologies) C_Ency_Art_L composants encyclopédiques d’articles de langue (dossiers encyclopédiques) C_Ency_Art_Ind composants encyclopédiques d’articles non déterminés (développements encyclopédiques) C_Ico_Art_L_et_NP composants iconographiques d’articles de langue et d’articles de noms propres (illustrations ; images) C_Ico_Art_L composants iconographiques d’articles de langue (mots illustrés par des dessinateurs de renom) C_Ico_Art_Np composants iconographiques d’articles de noms propres ( photographies et reproductions) C_Carto_Art_NP composants cartographiques d’articles de noms propres (cartes ; cartes en couleurs ; cartes géographiques et historiques) C_Synopti_Art_NP composants synoptiques d’articles de noms propres (tableaux) Ptxt_Int_Aut_L_ Neol paratexte interne autonome de langue néologique (cahier spécial […] sur les mots nouveaux) Ptxt_Int_Aut_L_ Termi_et_Ico paratexte interne autonome de langue terminologique et iconographique ( planches d’illustrations thématiques) Ptxt_Int_Aut_L_ Orth_Gr_Conj paratexte interne en partie autonome de langue orthographique, grammatical et conjugationnel (cahier spécial pour déjouer les pièges de l’orthographe, de la grammaire et de la conjugaison) Ptxt_Int_nonAut_ L_Conj paratexte interne non autonome de langue conjugationnel (guide de conjugaison ; précis de conjugaison) Ptxt_Int_Aut_L_Gr paratexte interne autonome de langue grammatical (mémento de grammaire ; précis de grammaire ; dictionnaire grammatical complet ; guide pratique de français) Ptxt_Int_Aut_L_ Orth paratexte interne autonome de langue orthographique (liste des mots concernés par les rectifications de l’orthographe ; règles de l’orthographe) Ptxt_Int_Aut_Ency_ paratexte interne autonome encyclopédique historique (chronologie ; chronologie uniHisto verselle illustrée ; chronologie thématique illustrée) Ptxt_Ext_Aut_Ency paratexte externe autonome encyclopédique (Livret de Savoirs) Disp_Consult_ Partie_L dispositif d’aide à la consultation de la partie langue (ascenseur alphabétique dans les noms communs) 203 Il sera intéressant de rapprocher ces indications de celles de la base iconographique Rbd2 (cf. § 2.3.3.), mais pour l’heure seuls les paratextes des dictionnaires pour le cycle 2 ont été enregistrés dans Rbd1 et leurs iconographies ne sont pas encore prises en compte dans Rbd2. 144 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – Enfin, pour les dictionnaires qui entretiennent une relation de dérivation avec un ascendant identifié, les modalités de traitement de l’adressage sont décrites dans la table T_Modes_Adressages 204. Jusqu’en 2007, année où a été engagée la constitution du corpus de paratextes dictionnairiques limités aux présentations introductives des répertoires, Rcorp12 (cf. § 1.4.3.), le travail d’analyse du marché des dictionnaires monolingues généraux avait conduit à des représentations évolutives de l’offre en une dizaine de segments conçus sur la base d’une sélection des propriétés des répertoires (dont en particulier le nombre d’unités traitées, le(s) public(s) destinataire(s), le positionnement comme ouvrages “de poche” ou non) 205. Les analyses des textes de présentation, internes d’abord puis également externes, qui ont été effectuées depuis ont validé les principes de segmentation du marché précédemment posés, en observant d’autres points communs des ouvrages de chaque niveau (en particulier en termes de modalités de présentation des services qu’ils peuvent rendre ou des informations qu’ils contiennent 206). 204 Il sera intéressant également de compléter les indications de la table T_Modes_Adressages qui sont formulées à partir d’observations de sélections d’articles avec les configurations d’adressage non observées en leur sein mais que le traitement des nomenclatures lors de leur saisie dans la base Rbd5 (cf. § 2.3.2.) aura permis de repérer. 205 À la rentrée 2006, dix segments de marché avaient été identifiés : 1) les plurivolumes de référence, qui comptaient entre 75 000 et 100 000 unités (comme le Grand Robert) ; 2) les dictionnaires “encyclopédiques” de référence, qui comptaient entre 85 000 et 120 000 unités (comme le Grand usuel Larousse) ; 3) les monovolumes et bivolumes pour le grand public – incluant les étudiants –, qui comptaient entre 60 000 et 75 000 unités (comme le Nouveau Petit Robert) ; 4) les monovolumes pour les collégiens et le grand public, qui comptaient autour de 40 000 unités (comme le Nouveau dictionnaire de français) ; 5) les monovolumes utilitaires portatifs développés, qui comptaient autour de 40 000 unités (comme le Robert de poche) ; 6) les monovolumes utilitaires portatifs réduits, qui ne comptaient pas plus de 35 000 unités (comme le Dictionnaire Hachette de la langue française mini) ; 7) les monovolumes pour la frontière entre l’école primaire et le collège ou les allophones, qui comptaient entre 15 000 et 25 000 unités (comme le Dictionnaire super major) ; 8) les monovolumes pour le cycle 3 de l’école primaire, qui comptaient 20 000 unités (comme le Dictionnaire Hachette junior) ; 9) les monovolumes pour le cycle 2 de l’école primaire, qui comptaient entre 5 000 et 6 500 unités (comme le Dictionnaire Hachette benjamin) ; 10) les monovolumes pour les cycles 1 et 2 de l’école primaire ou le parascolaire, qui comptaient entre 1 000 et 4 000 unités (comme Mon premier Bescherelle illustré). En 2009, le deuxième segment avait disparu et le troisième ne comptait plus que des monovolumes. Il faut prendre en compte cette évolution du marché et adapter l’intitulé de ces segments, tout en veillant à la stabilité de la base, qui doit également permettre de continuer à bien identifier les objets publiés les années antérieures, ce qui est rendu possible par l’exploitation d’une table qui enregistre les caractéristiques des segments (T-Seg-marche en figure 28). 206 Il est par exemple remarquable, à cet égard, que la préface rédigée par Alain Rey pour le Dixel, dictionnaire encyclopédique lancé en 2009 (avec le millésime 2010) par Le Robert sur le segment de marché dont le Petit Larousse est de longue date le leader, présente davantage de parentés rédactionnelles, par sa brièveté et sa faible technicité, avec celle de ce dernier ouvrage qu’avec les préfaces très détaillées que le lexicographe a pu rédiger antérieurement pour divers autres répertoires de la maison d’édition dont il fut un maître d’œuvre majeur. Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires 145 Place de Rbd1 dans mes travaux Bien que non explicitement mentionnée dans mes articles alors qu’elle joue un rôle capital pour la rigueur des informations fournies (cf. par exemple la figure 1 de T12), Rbd1 constitue l’outil de stockage de mon chantier d’investigation le plus ancien et le plus régulièrement retravaillé. Outre la documentation de la recherche, cette ressource pourrait connaître une valorisation orientée vers la vulgarisation des savoirs : la mise en ligne d’une sélection des données qu’elle contient pour l’information de ceux qui veulent s’acheter un dictionnaire et qui cherchent sur Internet des éléments susceptibles d’orienter leur choix a été envisagée. Ce projet, qui s’inspire dans une certaine mesure des études comparatives proposées par des associations de défense des consommateurs, nécessite que les données réunies soient complétées, mais surtout qu’elles soient accompagnées d’explicitations sans lesquelles le grand public ne pourrait pas véritablement tirer profit des informations fournies. En mars 2008, l’AFNOR a sollicité ma collaboration à un projet de normalisation des informations fournies par les éditeurs à propos de leurs produits de manière à rendre ceux-ci mieux comparables par les usagers. 207 Le travail réalisé dans ce contexte me semblait pouvoir directement s’articuler aux réflexions sur la présentation “didactisée” des données de Rbd1, mais pour l’heure les travaux de l’ISO ont peu progressé et je n’ai pas été en mesure de consacrer le temps utile à la sélection de données enregistrées pertinentes dans ce contexte puis à leur explicitation, ce qui a différé la mise en ligne d’informations extraites de Rbd1. Cette base joue cependant déjà depuis longtemps le rôle qui lui est dévolu dans le cadre des recherches que je développe, et ses données documentent la grande majorité des publications et travaux qui vont être passés en revue ci-après. 2.1.3. Plan du commentaire des travaux métalexicographiques Les regroupements effectués dans cette deuxième partie tiennent compte de la chronologie des recherches métalexicographiques mais déstructurent en partie celle-ci pour rapprocher les travaux qui relèvent des mêmes thématiques : – Les analyses structurelles (§ 2.2.) correspondent à mes premières recherches dans ce domaine (celles publiées dans T6 et T7 et d’autres menées simultanément). Elles abordent chaque dictionnaire étudié par l’identification de ses composants d’articles, de leur organisation et des informations qu’ils fournissent, favorisant une prise de connaissance transversale des contenus. – Les recherches portant sur l’identification de ce qui est traité dans les articles (§ 2.3.) ont débuté dès 2002 pour la base des items iconographiés Rbd2, et en 2005 pour l’étude d’emplois verbaux spécifiés par leurs patrons syntaxico-sémantiques conduite dans T9 (2009c), et elles se sont depuis déployées sur différents terrains, sans toujours donner lieu à des publications. Une étude récente (T24 (à paraître a)) concerne la sélection des unités lexicales et des emplois qui font l’objet de traitements dans les articles, considérées sous l’angle de ce que les lexicographes choisissent de décrire et non de ce que les destinataires des répertoires peuvent identifier comme étant décrit. Enfin la 207 Pour des raisons de confidentialité des travaux réalisés à l’AFNOR, je ne présenterai pas davantage ce projet. 146 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia dernière rédaction (Tdr5 (en préparation b)) aborde conjointement la question de l’identifiabilité des unités traitées dans les dictionnaires scolaires à partir de formes graphiques rencontrées dans des textes de lecture des manuels de français et celle de la sélection des nomenclatures de ces répertoires (qui n’incluent pas tout ce qui est rencontré dans les textes), et complète, concernant le dernier point, les inventaires de la base des nomenclatures des dictionnaires scolaires Rbd5, qui fournit un état comparatif des sélections d’unités linguistiques et des modes d’adressage de chacune dans ces répertoires destinés à de jeunes usagers. – Les deux sections suivantes regroupent d’une part (§ 2.4.) les études des marquages ou des prescriptions d’emploi exprimés à propos de certains items dans des dictionnaires généraux destinés à des lecteurs experts ou à des élèves, et d’autre part (§ 2.5.) celles des informations étymologiques et historiques fournies dans certains articles de dictionnaires généraux ou spécialisés destinés aux jeunes lecteurs. Elles sont proposées en fonction de l’ordre relatif de leurs premières contributions respectives (pour la première, T11 (à paraître b), débuté en 2006, et pour la seconde, T12 (2008a), rédigé en 2007). Chacune réunit des travaux qui multiplient les angles d’approche des mêmes questions. Cette stratégie qui allie des traitements systématiques par sous-ensembles d’items cohérents, puisque constitués en fonction de leurs propriétés linguistiques, et transversaux en fonction de ce qui motive la présence de chaque indication, doit permettre à terme de couvrir les aspects les plus saillants de ces champs d’étude. Après ces retours sur des travaux d’analyse de données dictionnairiques débute un sous-ensemble de deux sections plus composites que les précédentes mais néanmoins caractérisées l’une et l’autre par le fait qu’elles rassemblent des études qui ont trait à divers changements observables ou concevables dans l’univers de la lexicographie, qu’il s’agisse des modes d’analyse métalexicographique, des processus d’élaboration des dictionnaires ou des produits eux-mêmes : – La première (§ 2.6.) réunit deux textes de présentation de volumes de la revue Lexique : (i) Tdr3, destiné au comité de rédaction dans le cadre de la soumission du projet (de D2) et aux contributeurs en vue de la préparation du numéro, expose ce qui motive que les six lectures innovantes réunies impliquent des inventaires aussi exhaustifs que possible des objets étudiés 208 et comment, pour les trois thèmes abordés, elles offrent une perspective analytique et une autre plus propositionnelle (voire effectivement mise en œuvre dans le cadre d’une activité lexicographique) ; (ii) T19, qui introduit le numéro 19 (D1), présente les travaux réalisés par les neuf contributeurs qui ont réfléchi à l’opportunité de « Changer les dictionnaires » et aux méthodes envisageables à cette fin, en ancrant leurs réflexions sur ce qui est proposé dans une sélection de répertoires français, belges, britanniques et américains. – La seconde de ces sections finales (§ 2.7.) est principalement consacrée au commentaire de T17, article déjà évoqué au début de cette introduction et qui le sera de nou208 Ce mode d’approche des données, central dans mes travaux, ne me semble pas jouir d’une faveur unanime, ce qui doit être lié au coût de sa mise en œuvre. Même si je reconnais un intérêt certain aux analyses qui évaluent les différentes techniques d’échantillonnage qui peuvent être adoptées pour analyser les textes dictionnairiques (cf. entre autres Coleman & Ogilvie (2009) ou Bukowska (2010)), j’ai souhaité valoriser des analyses aussi exhaustives que le motive le propos, en suscitant de la part d’autres chercheurs des contributions qui partagent ce principe. Document de synthèse – 2.1. Définir une manière d’étudier des dictionnaires 147 veau souvent dans les retours sur mes autres travaux, dans la mesure où les réflexions engagées pour eux ont alimenté celles de ce texte, qui les reprend dans une perspective éditoriale à laquelle T21 offre un développement complémentaire. Elle évoque également les principaux prototypes de dictionnaires conçus, dont les aspects les plus innovants sont exposés après qu’ils aient été situés dans leurs contextes d’élaboration. 2.2. Analyses structurelles : du repérage des composants d’articles à l’étude de leurs contenus Parmi les centres d’intérêt que j’ai développés en métalexicographie analytique, le premier est l’analyse structurelle des articles de dictionnaires. Dès 1999 je travaillais sur ces questions pour les cours de SGML et de XML que je proposais aux étudiants du DESS, en faisant mes premières armes sur des textes de structures relativement simples, et, afin de bien en assimiler les objets, j’assistais parallèlement à tous les autres cours de la formation 209, dont ceux de Pierre Corbin, auprès de qui je me familiarisais avec les lectures structurelles d’articles qu’il proposait alors sans recourir à un outillage informatique. Depuis cette époque, ma recherche est continue sur ces questions structurelles, qui constituent pour moi un mode d’accès privilégié aux contenus dictionnairiques, en phase avec le développement récent de la structuration informatique des dictionnaires, et conséquemment un préalable aux travaux focalisés sur certains composants ou types d’informations. Les études réalisées sont nombreuses. Elles ne seront pas toutes évoquées ci-après, mais dans ce domaine je ne peux pas non plus ne revenir que sur celles qui ont donné lieu à publication, cette forme d’aboutissement textuel étant plutôt liée à des circonstances qui ont fait que telle analyse structurelle constituait mon actualité à un moment où il était possible de publier un article à son sujet. Motivation du plan retenu Si toutes les études structurelles ne donnent pas lieu à publication, elles fondent l’ensemble des analyses métalexicographiques auxquelles je procède. En conséquence, ce § 2.2., le premier de ceux qui réunissent des retours sur travaux développés dans le domaine métalexicographique, présente la particularité de conjoindre l’exposé d’un principe d’approche des textes dictionnairiques, qui peut avoir trois modalités de réalisation, et des commentaires de publications. Faire précéder les retours sur les contributions consacrées à des questions de structuration d’articles par un développement relatif aux trois outils exploités pour les études structurelles (balisage XML, bases de données SQL et graphes) que j’exploite présente l’intérêt de situer les deux textes publiés (T6 et T7) dans une pratique plus globale et 209 Le DESS “Lexicographie et Terminographie”, continuateur du “Diplôme Européen de Lexicographie” créé en 1991, a été habilité en septembre 1999 (cf. n. 1), au moment de mon recrutement à Lille 3. Danielle et Pierre Corbin en assuraient la responsabilité pédagogique, mais je me suis très rapidement impliquée dans son animation et dans les relations avec les intervenants professionnels que nous invitions. 150 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia de montrer les choix qui peuvent être opérés en matière de structuration des textes dictionnairiques. Le XML est d’un usage très répandu 210 tant chez les éditeurs que chez les métalexicographes, probablement parce qu’il permet de préserver la linéarité des textes structurés (puisque le balisage est intégré aux textes) et d’enchâsser différents éléments de structuration et donc d’isoler des constituants au sein de constituants de niveau supérieur. Des bases SQL peuvent également être mobilisées, en particulier quand les structurations opérées sont peu profondes et que l’ordre des constituants est régulier. Les graphes, que j’utilise alternativement à ces deux modes de structuration, ne servent pas réellement à structurer, mais ils constituent des représentations graphiques de structures et, dans certains cas très particuliers, ils peuvent être des outils de balisages partiels. Les graphes présentés dans mes différents travaux sont élaborés avec l’éditeur de l’outil d’exploration de corpus Unitex. Pour lui, les graphes constituent des modes d’expression de motifs de recherche (éventuellement très complexes) à partir desquels il repère les segments de textes qui leur correspondent. Ils servent donc à coder des expressions linguistiques. Si je me sers d’Unitex pour des manipulations d’énoncés réunis en corpus 211, je l’emploie aussi pour étudier les textes dictionnairiques : – les graphes me servent à formaliser graphiquement des éléments d’analyses métalexicographiques (comme dans le cadre des études structurelles du Larousse pratique, cf. § 2.2.1.2.) ou des composants étymologiques des dictionnaires destinés aux jeunes lecteurs, dans T12 (cf. § 2.5.1.) ; – certains graphes de description structurelle permettent également de procéder à des extractions dans les textes dictionnairiques ponctuellement traités en tant que corpus, ce qui me donne le moyen de tester leur complétude en vérifiant qu’ils sont bien capables d’extraire tout ce qu’ils représentent et qu’il n’y a pas dans le texte dictionnairique d’autres segments à prendre en compte ; – enfin, des graphes particuliers, appelés transducteurs (cf. § 1.3.2., figure 8), peuvent compléter les traitements précédents en ne se limitant plus au repérage des segments de texte correspondant au motif exprimé, mais en insérant en leur sein des balises, ce qui permet de structurer le texte dictionnairique 212. 210 Son prédécesseur, le SGML, semble avoir eu une diffusion plus réduite, ce qui est peut-être en partie lié au fait qu’il constituait une innovation (puisque c’était le premier langage de balisage standardisé), alors que le XML a profité des savoir-faire développés pour lui. 211 Cf. T4, où je fais coopérer Unitex avec Cordial Analyseur (cf. § 1.3.2.), et T10, où les graphes d’Unitex me servent à rechercher en corpus ce qui est ou n’est pas présent dans les guides de conversation et dictionnaires auxquels la richesse documentaire du corpus est comparée (cf. § 1.4.2.). 212 Bien que l’utilisation de transducteurs fournisse une visualisation graphique des données à manipuler, la mise en œuvre de ces graphes est lourde et implique l’utilisation d’un outil qui, comme Unitex, sait les exploiter pour insérer des balises. Quand je n’ai pas besoin de montrer les manipulations opérées, j’utilise préférentiellement des scripts (écrits par exemple en Perl) pour ce type de tâche. Il est vraisemblable que les éditeurs n’utilisent pas non plus d’interfaces graphiques quand ils réalisent des postbalisages de textes dictionnairiques et que l’emploi de graphes soit limité aux entreprises talistes qui font de la recherche d’information (ce qui constitue une forme d’exploration de corpus, même si ceux-ci peuvent être ouverts). Document de synthèse – 2.2. Analyses structurelles 151 Dans les développements qui suivent comme dans les articles commentés, le fait de rédiger des textes qui ont un certain niveau de technicité mais qui doivent être lisibles par chacun sans connaissance prérequise m’incite le plus souvent à privilégier les représentations les plus schématiques, ce qui explique la proportion relativement faible d’exemples de balisages XML et celle sensiblement plus forte d’illustrations sous forme de graphes, alors que les proportions des deux sont inverses dans mes travaux. Pour leur part, les bases SQL voient rarement leurs tables et les schémas de relations exposés dans les publications. Ceci est induit par le fait que, bien qu’elles jouent un rôle très important dans l’ensemble de mes travaux métalexicographiques 213, elles se prêtent moins bien que le XML à l’étude structurelle de textes dictionnairiques existants. 2.2.1. Analyse structurelle d’articles de dictionnaires monolingues Les premières analyses structurelles dont il va être question, qui ont en commun de porter sur des dictionnaires monolingues, relèvent de deux ensembles distincts : les premières, chronologiquement comme dans l’exposé ci-après, fondent des principes d’analyse et de formalisation des observations que j’ai repris dans différentes autres études et publications (dont en particulier T6 et T7, qui font l’objet des §§ 2.2.2. et 2.2.3.) ; la dernière, plus récemment engagée et toujours en cours de développement, consiste non seulement en une analyse mais aussi en une mise à disposition pour d’autres travaux du texte du dictionnaire imprimé étudié (Rdic4). 2.2.1.1. L’article tuer du Nouveau Petit Robert C’est en 2001-2002 que j’ai commencé à travailler de manière véritablement interactive avec Pierre Corbin 214. Nous avons alors entrepris une lecture structurelle de différents articles des deux dictionnaires Robert qui dominaient la hiérarchie de produits de cet éditeur (le Grand Robert et le Nouveau Petit Robert) 215, en nous attachant particulièrement à l’étude de l’article que ce dernier consacrait (dans son édition électronique de 2001) au verbe tuer (cf. figure 29), exemplaire en ce qu’il présentait les cinq niveaux hiérarchiques mobilisables dans ce répertoire, beaucoup d’expressions et un réseau analogique fourni. Durant son analyse, afin d’y repérer les combinaisons de composants identifiables 216, nous avons appris à unifier notre vocabulaire et à faire coexister des contraintes induites 213 Cf. nn. 188 et 229 et §§ 2.1., 2.3.2., 2.3.3., 2.4.1., 2.4.3., 2.5.1. 214 Cf. n. 45. 215 Depuis lors, le Dictionnaire culturel en langue française en quatre volumes de 2005 est venu s’intercaler entre ces deux répertoires. 216 Des ensembles de composants constituent des modules élémentaires au sein desquels chacun prend une valeur particulière. Ces modules obéissent à une syntaxe qui gouverne d’une part leur principe d’assemblage dans les articles en architectures plus ou moins élaborées, et d’autre part, au sein de chaque module, l’optionnalité ou la répétabilité éventuelle ainsi que la distribution des composants. Les grammaires qui régissent les principes d’organisation des modules élémentaires peuvent être de complexité et de régularité variables, comme le montrent les analyses des différents répertoires évoqués infra. 152 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia par les principes de l’analyse métalexicographique mise en œuvre 217 et par le souhait d’élaborer une DTD. La finalité de cette dernière ne devait pas être de servir à baliser d’autres articles, ce pour quoi ces patrons informatiques sont généralement conçus 218, mais de permettre de noter avec précision les identifications de composants élémentaires ou complexes auxquelles nous parvenions et de réfléchir à la manière la plus adéquate possible de nommer chacun d’eux 219. Figure 29. Début de l’article tuer du Nouveau Petit Robert électronique (de 2001) 217 Celle-ci fut assez fortement influencée par les propositions de Hausmann & Wiegand (1989 : 328-360). 218 Quand un document se conforme à une DTD ou à un schéma, c’est en général qu’il doit faire partie d’un ensemble de documents se conformant au même modèle et qu’il est nécessaire que chacun respecte les mêmes règles de structuration parce qu’ils vont ensuite être fusionnés ou traités dans le cadre des mêmes posttraitements. 219 L’intérêt pour le métalangage de la lexicographie, dont T18 présente une première analyse éclairant les figures qui s’y observent, est constant dans ma pratique d’analyste de textes dictionnairiques : alors que les propos relatifs aux dictionnaires, qu’ils soient tenus par des lexicographes ou par des métalexicographes, s’accommodent souvent d’un certain flou dénominatif, je tente pour ma part (i) de rester vigilante concernant mes propres usages (ce qui est plus aisé dans les publications que durant les cours où la dynamique collective peut conduire à employer des noms dont l’adéquation manque d’évidence, comme indicateur1 en figure 33) ; et (ii) de motiver (au moins à mon intention) les noms que je retiens pour chaque composant d’article, et qui sont de ce fait sujets à évoluer en fonction de la progression de mes analyses. Les noms d’éléments employés dans la figure 30, par exemple, ne sont plus ceux que je choisirais aujourd’hui : si je ne modifierais pas sensiblement les noms de constituants, j’éliminerais par contre des noms des éléments qui les contiennent les mentions de rang ou les autres informations qui correspondent à des variables, pour enregistrer leurs valeurs dans des attributs (<subdivision-de-niveau-plus2> et <sélection-d-un-premier-argument-de-verbe> deviendraient respectivement <subdivision niveau="plus2"> et <sélection-argumentale rang-d-argument="1">). Document de synthèse – 2.2. Analyses structurelles 153 Premier balisage métalexicographique L’extrait de balisage présenté en figure 30 montre les options d’analyse retenues pour le début de la subdivision I. A. 1. de la partie définitionnelle de l’article tuer (appelée conventionnellement “zone 2”). Figure 30. Extrait du balisage de la zone 2 de l’article tuer du Nouveau Petit Robert électronique (de 2001) <zone2-fonctionnelle> <subdivision-de-niveau-plus2> <repère-de-subdivision-de-niveau-plus2> <ordonnateur-numérique-romain-de-microstructure>I</ordonnateur-numérique-romain-de-microstructure> <signalisateur-de-subdivision-majeure></signalisateur-de-subdivision-majeure> </repère-de-subdivision-de-niveau-plus2> </subdivision-de-niveau-plus2> <subdivision-de-niveau-plus1> <repère-de-subdivision-de-niveau-plus1> <ordonnateur-alphabétique-de-microstructure>A</ordonnateur-alphabétique-de-microstructure> <signalisateur-de-subdivision-majeure></signalisateur-de-subdivision-majeure> </repère-de-subdivision-de-niveau-plus1> <spécificateur-métalinguistique-non-contextualisé-délimité> <délimitateur-initial-de-spécificateur-métalinguistique-non-contextualisé>(</délimitateur-initial-despécificateur-métalinguistique-non-contextualisé> <sélection-d-un-premier-argument-de-verbe>Sujet personne</sélection-d-un-premier-argument-de-verbe> <délimitateur-final-de-spécificateur-métalinguistique-non-contextualisé>)</délimitateur-final-despécificateur-métalinguistique-non-contextualisé> </spécificateur-métalinguistique-non-contextualisé-délimité> </subdivision-de-niveau-plus1> <subdivision-de-niveau0> <repère-de-subdivision-de-niveau0> <ordonnateur-numérique-arabe-de-microstructure>1</ordonnateur-numérique-arabe-de-microstructure> <signalisateur-de-subdivision-majeure></signalisateur-de-subdivision-majeure> </repère-de-subdivision-de-niveau0> <énoncé-définitionnel> <segment-d-énoncé-définitionnel>Faire mourir</segment-d-énoncé-définitionnel> <spécificateur-métalinguistique-contextualisé-délimité> <délimitateur-initial-de-spécificateur-métalinguistique-contextualisé>(</délimitateur-initial-despécificateur-métalinguistique-contextualisé> <sélection-d-un-deuxième-argument-de-verbe>qqn</sélection-d-un-deuxième-argument-de-verbe> <délimitateur-final-de-spécificateur-métalinguistique-contextualisé>)</délimitateur-final-despécificateur-métalinguistique-contextualisé> </spécificateur-métalinguistique-contextualisé-délimité> <segment-d-énoncé-définitionnel>de mort violente</segment-d-énoncé-définitionnel> </énoncé-définitionnel> <séparateur-de-séquences>.</séparateur-de-séquences> <composant-d-analogie-avec-items-macrostructurels-non-délimité> <embrayeur-d-analogie-avec-items-macrostructurels>⇒</embrayeur-d-analogie-avec-items-macrostructurels> <item-macrostructurel-cible>assassiner</item-macrostructurel-cible> <séparateur-d-éléments-textuels>,</séparateur-d-éléments-textuels> <!-- […] --> </composant-d-analogie-avec-items-macrostructurels-non-délimité> <!-- […] --> </subdivision-de-niveau0> <!-- […] --> </zone2-fonctionnelle> 154 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Toutes les variations typographiques et tous les constituants du texte sont pris en compte afin de définir les bornes des composants repérés, y compris les ordonnateurs hiérarchiques et les délimitateurs (comme les parenthèses) qui ont pu ne pas être saisis lors de la rédaction des articles mais ajoutés ou modifiés par posttraitement (cf. T6 § 2.2.2.3.). Les noms des éléments reflètent la fonction de chaque segment de texte délimité dans l’économie générale de l’article, telle qu’elle est interprétée, et traduisent donc des options d’analyse : par exemple, alors que les articles les plus complexes du Nouveau Petit Robert peuvent compter jusqu’à 5 niveaux hiérarchiques (numériques romains, lettres majuscules, numériques arabes, losanges éclairés, tirets cadratins), ceux-ci ne sont pas numérotés de 1 à 5 mais de +2 à −2, le niveau 0 – celui des numériques arabes – correspondant à celui qui est le plus régulièrement utilisé comme niveau de subdivision majeur dans les articles aux hiérarchies moins profondes. Balisage conforme à la norme NF ISO 1951:2007 Le travail d’analyse structurelle d’articles du Nouveau Petit Robert s’est échelonné sur deux années, de janvier 2002 à janvier 2004, date à laquelle André Le Meur, qui coordonnait les travaux réalisés à l’AFNOR pour la contribution française à l’élaboration de la norme NF ISO 1951:2007 relative au balisage des textes dictionnairiques 220, m’a demandé de confronter l’état d’analyse obtenu avec ce que pouvait être le balisage du même article conforme à la DTD de la future norme (cf. figure 31) afin de pouvoir discuter de son adéquation dans le groupe d’experts de l’AFNOR que j’avais été invitée à rejoindre. Figure 31. Extrait du balisage de la zone 2 de l’article tuer du Nouveau Petit Robert électronique (de 2001) conforme à la DTD de la norme NF ISO 1951:2007 <HomographGroup> <!-- I --> <SenseGroup> <!-- A --> <RangeOfApplication>Sujet personne</RangeOfApplication> <SenseGroup> <!-- 1 --> <Definition>Faire mourir (qqn) de mort violente</Definition> <SynonymBlock> <Synonym>assassiner</Synonym> <!-- […] --> </SynonymBlock> <!-- […] --> </SenseGroup> <!-- […] --> </SenseGroup> <!-- […] --> </HomographGroup> La DTD de la norme étant destinée à la rédaction de textes dictionnairiques, tous les ordonnateurs hiérarchiques et les délimitateurs des contenus textuels d’un élément sont considérés comme étant postinsérés et donc non pris en compte dans le balisage de l’article. Par ailleurs, outre la langue retenue pour les noms d’éléments, ce sont les 220 Cf. Derouin & Le Meur (2002 et 2008) pour des vues de cette norme à deux stades d’élaboration différents. Document de synthèse – 2.2. Analyses structurelles 155 différences de choix dénominatifs qui ont été faits et de systématicité du balisage mis en œuvre qui me paraissent intéressants : – alors que ceux présentés en figure 30 sont aussi particularisants que possible, ceux de la norme sont généraux : des éléments <SenseGroup> balisent les subdivisions de niveau +1 et 0 sans en distinguer la nature 221, et un élément <RangeOfApplication> (correspondant au « champ de validité d’un sens », cf. NF ISO 1951:2007, p. 7) balise l’indication sémantique relative au premier argument du verbe 222 ; – alors que ceux présentés en figure 30 sont strictement déterminés en fonction d’indices structurels, ceux de la norme regroupent différentes subdivisions de description de sens dans un élément <HomographGroup>, ce qui introduit une part d’interprétation, par ailleurs discutable, voire intenable, sans justification indépendante de l’analyse linguistique 223 ; – alors que la figure 30 expose des éléments nommés de manière identificatrice pour chaque objet d’un même paradigme informationnel, le balisage normalisé ne les prend pas tous en compte : si un élément <RangeOfApplication> balise l’indication relative au premier argument du verbe, celle relative au second est restée non balisée dans le contenu de l’élément <Definition>. Ni l’analyse formalisée initiale, ni la confrontation des structurations qu’elle a rendues possible n’ont donné lieu à publication : la première parce que l’occasion ne s’est pas trouvée et peut-être aussi parce que je souhaitais mettre de nouveau à l’épreuve ma méthodologie d’approche avant de publier à son sujet, la seconde du fait de la confidentialité de la DTD normalisée jusqu’à sa publication par l’ISO. Si je les évoque dans ce document, c’est qu’elles ont été déterminantes pour mon implication en métalexicographie et pour la suite de mes collaborations avec Pierre Corbin, en permettant à la fois d’apprécier la compatibilité des analyses structurelles élaborées à la manière qu’il m’a transmise avec les principes de structuration propres au XML et, par notre implication conjointe sur ces deux terrains, d’harmoniser nos points de vue et de nous confronter à des problèmes qui fortifièrent notre réflexion 224 et nous préparèrent à effectuer des analyses plus extensives sur d’autres objets, en recherche comme dans le cadre de la formation. Balisage dérivé de la structure HTML de la version électronique de l’article Depuis cette phase initiale de formalisation de la structure d’articles du Nouveau Petit Robert, j’ai observé que les versions électroniques de ses millésimes 2007 et sui- 221 Les indications « <!-- A --> » et « <!-- 1 --> » sont des commentaires inclus dans le document XML. Ils sont destinés aux lecteurs humains mais n’appartiennent pas à proprement parler au balisage du texte. 222 Dans les exemples de balisages proposés dans le texte de la norme, les éléments <RangeOfApplication> délimitent uniquement des sélecteurs de sens (feeling et words), qui figurent antéposés à des équivalents traductionnels fournis dans un article bilingue anglais-français (s.v. dam up, cf. Tableau 8, p. 10 et Annexe C, exemple 1, pp. 45-46 : « […] figurative [feelings] refouler, ravaler ; [words] endiguer »). 223 Cette éventuelle justification ne semble pas être explicitée dans le texte de présentation de la norme. 224 Le travail de comparaison de balisages n’est pas étranger à cette harmonisation de points de vue, dans la mesure où il m’a conduite à expliciter, pour moi-même d’abord puis à l’intention de Pierre Corbin et ensuite d’André Le Meur, les qualités comparées des deux principes de balisage. 156 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia vants 225 permettent d’accéder au balisage HTML des articles copiés dans un éditeur de documents balisés, ce qui donne la possibilité de le manipuler ensuite afin de convertir les éléments <div> et <span> porteurs d’attributs @class en éléments dont le nom correspond à la valeur de ces attributs (cf. figure 32). 226 Figure 32. Extrait du balisage XML de la zone 2 de l’article tuer du Nouveau Petit Robert 2009 électronique généré à partir du balisage HTML <s_dvr> <span id="E001"> <s_ndvr> <label> I. </label> </s_ndvr> <s_str> <label> <s_cat>Verbe transitif</s_cat> </label> </s_str> </span> <s_dvc> <span id="E002"> <s_ndvc> <label> A. </label> </s_ndvc> <s_mta2>(Sujet personne)</s_mta2> </span> <s_dvn> <span id="E003"> <s_ndvn> <label> 1. </label> </s_ndvn> <s_dfn>Faire mourir (qqn) de mort violente.</s_dfn> </span> <s_rvd> <f_rv> </f_rv> <clickable>assassiner,</clickable> <!-- […] --> </s_rvd> <!-- […] --> </s_dvn> <!-- […] --> 225 Le texte de l’article tuer a évolué depuis l’édition de 2001 : sur les extraits présentés en figures 29, 30 et 32, l’ordonnateur numérique romain de subdivision microstructurelle était directement suivi de l’ordonnateur alphabétique en 2001 (« I¡ A¡ »), alors qu’une catégorisation les sépare en 2009 (« I. Verbe transitif A. ») et la flèche qui introduit le renvoi analogique à assassiner est double en 2001 (« ⇒ ») mais simple dans les éditions récentes (« »). 226 Usuellement les transformations qui sont opérées sur les données dictionnairiques (mais également sur un large sous-ensemble des productions éditoriales) prennent en entrée un document XML et produisent un document HTML au sein duquel les éléments XML initiaux sont remplacés par des éléments <div> (pour créer des blocs de texte) et <span> (pour créer des segments internes à une ligne de texte) porteurs d’un attribut @class dont la valeur est le nom de l’élément XML original et qui est généralement associé à une mise en forme déclarée dans la CSS (Cascading Style Sheets, la feuille de styles qui liste les mises en forme à appliquer) à laquelle se réfère le document HTML. Document de synthèse – 2.2. Analyses structurelles 157 </s_dvc> <!-- […] --> </s_dvr> Les noms d’éléments obtenus (des codes constitués de s_ ou f_ suivis d’une séquence de lettres ou, pour le dernier présenté ci-dessus, du mot clickable, qui ne réfère pas à la valeur du segment balisé au sein du texte de l’article mais au fait qu’il porte un lien hypertexte) ne sont pas tous interprétables aisément, mais la disponibilité de ce codage des articles fournit tout de même un mode d’accès à leur structure sous-jacente. Sans tenir compte des variations de texte décrites en n. 225, la confrontation de ce balisage restitué et de celui que nous avions proposé permet, pour le même extrait d’article, d’observer, concernant les principes mis en œuvre : – que tous les constituants du texte balisés par l’éditeur l’avaient été par nous : dans le XML généré à partir du HTML, les subdivisions sont balisées de manière distinctive (<s_dvr>, <s_dvc> et <s_dvn>) ainsi que tous les ordonnateurs hiérarchiques qui les introduisent (contenus par des éléments <label> enchâssés dans des éléments <s_ndvr>, <s_ndvc> et <s_ndvn>), l’item appartenant au réseau analogique est repéré comme étant un renvoi (par l’élément <clickable>) et la flèche qui le précède comme un opérateur de renvoi, – mais aussi que les parenthèses qui encadrent l’indication de sélection du premier argument ne sont pas balisées en tant que telles dans le texte de l’éditeur 227 et que l’indication relative au second argument verbal n’y est pas balisée non plus, contrairement à celle qui porte sur le premier 228. Une perspective d’étude renouvelée du Nouveau Petit Robert pourrait consister à convertir en XML le balisage HTML d’une sélection d’articles de complexité structurelle variée afin d’identifier les types de contenu de chaque élément, d’en apprécier la régularité relative et de confronter le balisage restitué à celui qui peut être réalisé sur la base de ce qu’un utilisateur du dictionnaire particulièrement attentif peut comprendre du découpage de chacun des articles pris en compte. 2.2.1.2. Le Larousse pratique La seconde étude structurelle de dictionnaire monolingue que j’ai effectuée a donné lieu à des dépouillements avec Pierre Corbin et les étudiants du M2 LTTAC 229. Elle 227 Cette absence de balisage peut être liée au fait qu’enchâsser ces parenthèses dans un sous-élément n’a pas d’utilité éditoriale, mais elle peut alternativement être induite par le fait qu’elles pourraient ne pas appartenir au texte balisé des articles mais être postinsérées. 228 L’indication de sélection du premier argument est enchâssée dans un élément dont le nom est malaisément décodable : <s_mta2>. 229 Cette méthode collective de dépouillement des articles a été utilisée pour – trois répertoires monolingues : le Larousse pratique (en 2003-2004), le Grand Robert (en 2007-2008) et le Petit Larousse (en 2007-2008 et 2008-2009) ; – et un répertoire bilingue : le Robert & Collins junior bilingue français / anglais (en 2002-2003), cf. T6 et T7 (§§ 2.2.2. et 2.2.3.). Dans chaque cas, nous avons présenté un état de l’analyse structurelle que nous avions réalisée à partir d’un échantillon d’articles et nous invitions les étudiants à prospecter à la recherche de configurations textuelles 158 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia concernait le Larousse pratique, un dictionnaire de langue de milieu de gamme publié en 2003 à la rédaction duquel Vanessa Vandevoorde, une des premières étudiantes que nous avons conjointement formées (promotion 2000-2001), a contribué dès le début de celle-ci. Ce répertoire, que nous avons étudié dès sa parution, a retenu notre attention en raison de sa nouveauté structurelle et en partie textuelle et du fait que sa rédaction s’est effectuée dans un environnement structuré (ce qui constituait une première pour le département monolingue de l’éditeur et qui a motivé l’intervention en master LTTAC, en 2004-2005, des responsables éditoriaux et informatiques du projet (la lexicographe Hélène Houssemaine-Florent et les informaticiens Gabino Alonso et Marion Pépin (cf. n. 252)). Les analyses des articles de ce répertoire ont pris différentes formes : – des balisages XML, dans lesquels nous nous sommes attachés à repérer tous les composants d’articles et leur réunion en combinaisons de complexité croissante, à l’instar de ce que nous avions entrepris pour l’article tuer du Nouveau Petit Robert évoqué supra ; – des descriptions de tous les composants et de leurs enchâssements par le biais de graphes 230, ce qui faisait écho à des travaux réalisés en exploration de corpus (le concordancier Unitex permettant d’utiliser ce type de représentation pour décrire des grammaires locales (cf. T4 et T10, et §§ 1.3.2. et 1.4.2.)) et qui préfigure les analyses des composants transmettant des informations étymologiques présentées dans T12 (§ 2.5.1.) ; – enfin, des enregistrements des textes de chaque composant dans une base de données SQL, qui présente l’intérêt de permettre de restituer ou non les indications qui ont subi un effacement dans les articles (celles qui ne sont mentionnées qu’une fois mais dont la portée dépasse les limites d’une subdivision de description, comme par exemple les catégorisations qui précèdent plusieurs descriptions de sens). Je n’exposerai pas les analyses structurelles xmlisées, qui sont comparables à ce qui a été développé au § 2.2.1.1., mais je vais présenter les deux autres types d’approche. Si les descriptions sous forme de graphes me semblent intéressantes pour donner à voir les structurations repérées, elles ne trouveraient pas de réemploi sous cette forme chez les éditeurs (sauf dans le cas particulier de postbalisages de textes réalisables au moyen des graphes particuliers que sont les transducteurs (cf. n. 212 et infra)). Les bases de données SQL sont par contre des modes de structuration qui peuvent tout à fait trouver leur place dans les traitements éditoriaux, même si elles ne paraissent pas être très souvent utilisées dans l’édition dictionnairique. Analyses structurelles présentées sous formes de graphes Une manière de montrer les organisations structurelles des articles a consisté à exploiter des représentations graphiques réalisées avec Unitex, un outil d’exploration que nous n’avions pas déjà prises en compte. Leurs observations étaient enregistrées dans une base de données durant les séances de dépouillement puis intégrées aux analyses, la complétude de celles-ci s’améliorant rapidement grâce aux recherches simultanées et aux confrontations d’interprétations diverses que peuvent motiver certains segments de textes. Un travail comparable a été réalisé pour un monolingue scolaire, le Robert junior, dans ses éditions imprimée de 1997 et électronique de 1999, au sein desquelles nous avons étudié les composants iconographiques (et leurs relations avec les composants textuels des articles) afin de constituer la base Rbd2 (cf. § 2.3.3.). 230 Cf. § 1.3.2. et infra. Document de synthèse – 2.2. Analyses structurelles 159 de corpus textuels que j’ai, en la circonstance, détourné de sa fonction première. Au sein des graphes qu’il permet de dessiner, des cheminements constitués de nœuds reliés par des arcs qui se lisent de gauche à droite (du nœud initial figuré par un triangle – comme un nœud vide – au nœud terminal représenté par un carré inclus dans un cercle) représentent les séquences de composants observées. Si un nœud ou une séquence de nœuds est répétable, un arc part de la droite de celui-ci ou du dernier nœud de la séquence pour rejoindre sa gauche ou la gauche du premier. Dans l’extrait ci-dessous des graphes présentés ci-après en figure 33, qui reprend le graphe intitulé renvoi-tab.grf, le chemin qui relie le nœud initial au nœud terminal est constitué de deux nœuds : le premier contient une chaîne de caractères correspondant strictement à ce qui introduit le composant d’article décrit, le second, qui est répétable du fait de la présence d’un arc qui relie son extrémité droite à celle de gauche, contient un code représentant un mot quelconque (ce qui, combiné avec la répétabilité, représente une séquence d’un ou plusieurs mots quelconques). Si, entre deux nœuds NA et NB, les contenus de plusieurs nœuds ou combinaisons de nœuds sont alternatifs, plusieurs chemins partent du nœud NA et rejoignent le nœud NB via des nœuds intermédiaires distincts. Dans l’extrait ci-dessous des graphes présentés en figure 33, qui reprend le graphe intitulé =.grf, deux cheminements permettent de rejoindre le nœud terminal à partir du nœud initial : après le nœud contenant une parenthèse et le signe égal et celui qui est répétable et qui contient le code <MOT>, il est possible de choisir, entre deux nœuds, celui qui contient une parenthèse fermante ou celui qui contient un point-virgule (ce caractère marquant lui aussi la fin du composant décrit mais en séparant la présentation de la glose de contextualisation introduite par le signe égal et la mention, dans les composants d’articles suivants, de synonymes ou de contraires, ce qui explique l’optionnalisation des nœuds contenant la parenthèse ouvrante dans les graphes SYN.grf et CONTR.grf, cf. infra). Les barres contre-obliques antéposées au signe égal et aux parenthèses déspécialisent ces métacaractères, ce qui leur permet ‘avoir leur valeur littérale. Parmi les graphes présentés en figure 33, certains appellent des sous-graphes via les nœuds grisés qui contiennent leur nom. La largeur des retraits gauches de chacun marque sa dépendance vis-à-vis de celui qui est mentionné précédemment avec retrait de largeur plus réduite. En figure 33, le graphe intitulé contextualisation.grf, par exemple, appelle quatre sous-graphes : séquence-contextualisante.grf, =.grf, SYN.grf et CONTR.grf. Dans l’extrait ci-dessous, les deux premiers de ces sous-graphes ont un retrait gauche plus large que celui du graphe contextualisation.grf. 160 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Seules les subdivisions de descriptions postposées à la zone d’identification de l’item traité sont prises en compte dans le graphe zone2.grf de la figure 33 231. La structure de chacune est régulière 232 : elle débute par une séquence optionnelle d’indicateurs entre crochets (sous-graphe indicateur1.grf ) 233 puis un indicateur optionnel entre parenthèses 234, suivis d’une définition obligatoire, de zéro, une ou plusieurs contextualisations et de zéro ou un renvoi vers un tableau (renvoi-tab.grf ) 235. La définition (définition.grf ) est elle-même constituée d’un spécificateur optionnel 236 (suivi le cas échéant d’une virgule), d’une séquence définissante (ces deux composants étant répétables, et chaque séquence étant séparée de la suivante par un point-virgule) 237 et d’une opposition définitionnelle facultative (elle-même décrite comme figurant entre parenthèses, débutant par par opp. à suivi d’un déterminant ou par par opp. au et se poursuivant par l’expression d’un ou plusieurs concept(s), ou encore débutant par par opp. à suivi d’un mot voire de plusieurs séparés par des virgules 238 dans le sous-graphe opposition-def.grf ). Chaque contextualisation (contextualisation.grf ) est constituée d’une sé- 231 Ce graphe, comme les suivants, représente tous les cas de figure observés, mais il surgénère, c’est-à-dire qu’il représente également des combinaisons de segments textuels décrits par ses nœuds et ceux de ses sous-graphes qui n’ont pas été rencontrés. L’écriture de graphes qui décrivent strictement ce qui est attesté augmente très rapidement leur complexité. Dans le cadre de ce document, j’ai préféré privilégier la lisibilité des descriptions présentées. 232 Les noms des constituants repérés sont moins précis que ceux des éléments XML qui balisent l’article tuer, ce qui est simplement motivé par le fait de les écrire dans des graphes qui doivent contenir peu de texte pour rester lisibles. C’est également ce qui justifie l’emploi d’abréviations. 233 Par exemple une marque diachronique seule (s.v. muid 1 : « [ANC.] ») ou combinée avec une marque diaphasique (s.v. zazou : « [FAM., ANC.] » ou s.v. 2. pays, e : « [FAM., VIEILLI] »), ou une combinaison de marques sémantique et diaphasique (s.v. dompter 3 : « [FIG., LITT.] »). 234 Par exemple s.v. miracle 3 : « (Employé en appos.) ». Dans le graphe zone2.grf, cet indicateur est représenté par le nœud grisé correspondant à l’appel du sous-graphe indicateur2.grf, mais ce sous-graphe n’est pas décrit. 235 Par exemple s.v. mugir : « (Voir tableau des cris d’animaux.) ». 236 Ils sont utilisés pour des marquages diatopiques (s.v. zwanze : « En Belgique »), diachroniques (s.v. 2. livre 3 : « Sous l’Ancien Régime »), diatechniques (s.v. zygomatique : « En anatomie ») ou diaphasiques (s.v. zizi : « Dans le langage enfantin »). 237 La concaténation des deux éléments (dont le premier est optionnel) est répétable pour décrire les cas où la définition est exprimée par une juxtaposition d’indications définitionnelles (s.v. moyennant : « Au moyen de ; à la condition de » ; s.v. welter : « En boxe, catégorie de poids immédiatement inférieure à celle des poids moyens ; boxeur appartenant à cette catégorie »). 238 Par exemple s.v. multilinguisme : « (par opp. à monolinguisme) ». Document de synthèse – 2.2. Analyses structurelles 161 quence contextualisante optionnellement suivie d’une glose (=.grf ) et/ou d’un composant de synonymie (SYN.grf ) et/ou d’un composant d’antonymie (CONTR.grf ) 239. Figure 33. Sélection de graphes décrivant des composants d’articles du Larousse pratique 239 Par exemple s.v. moyennant : « Moyennant finance, nous pourrons trouver un accord (= en payant ; SYN. grâce à) ». Les synonymes et les contraires peuvent eux-mêmes être associés à un marquage, décrit par une partie des chemins du sous-graphe indicateur1.grf, comme s.v. acariâtre : « (SYN. grincheux, hargneux, revêche ; CONTR. affable, amène [litt.]) ». 162 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Dans le prolongement de l’utilisation détournée de son éditeur de graphes, Unitex peut être mobilisé pour manipuler les textes des articles analysés. En effet, il est envisageable de traiter un texte dictionnairique à la manière d’un corpus au sein duquel Unitex peut mettre en correspondance des segments textuels et un motif de recherche exprimé au moyen de graphes, ce qui rend possible, au moins en partie, l’automatisation du balisage des textes de certains composants d’articles. Ceci implique de convertir les graphes en transducteurs dont les nœuds vides porteurs de balises souscrites permettent que, au sein du texte mis en correspondance avec le motif de recherche exprimé par le chemin où ceux-ci figurent, soient insérées lesdites balises à la position qu’ils occupent. En figure 34, dans le transducteur présenté, qui est conçu pour le balisage d’une sélection des composants étymologiques et historiques (les “identifications diachroniques” selon la terminologie de Hausmann & Wiegand (1989 : 314 et 343) que je reprends dans les travaux présentés au § 2.5.), le premier nœud postposé au nœud initial et le dernier nœud précédant le nœud terminal – ceux contenant les parenthèses qui encadrent le composant – sont communs à tous les cheminements réalisables au sein du graphe. Figure 34. Transducteur élaboré pour le balisage des informations relatives à l’identification diachronique des items décrits dans le Larousse pratique Document de synthèse – 2.2. Analyses structurelles 163 Entre ces nœuds mutualisés : – Le premier chemin permet de baliser comme <évolution> une séquence constituée de la mention optionnelle d’une langue puis de celle d’un item et facultativement d’une glose de celui-ci, ce qui correspond à la description d’un mot hérité 240. – Le deuxième chemin indique que la même séquence que précédemment précédée cette fois de de l’ ou de du comme la concaténation de de et de l’item doivent être enchâssées dans un élément <construction-endogène> pour expliciter que le mot a été construit en français 241. – Le troisième chemin permet que, si le nom de la langue est précédé de mot et suivi de la signification introduite par signif. et présentée entre guillemets, la séquence soit balisée comme la description étymologique d’un emprunt de forme graphique identique (<emprunt-graphie-id>) 242. – Les trois derniers chemins permettent respectivement de traiter les indications du fait que les unités décrites sont des noms déposés 243, des sigles 244 ou des abréviations 245. 240 Le texte « (lat. hospitale, auberge) » (s.v. hôtel), par exemple, sera balisé comme (<evolution><langue>lat.</langue> <item>hospitale</item>, <glose-d-item>auberge</glose-d-item></évolution>) les balises des éléments <langue>, <item> et <glose-d-item> étant introduites par les sous-transducteurs langue.grf, item.grf et glose-d-item.grf appelés par les nœuds grisés du transducteur principal. 241 Le texte « (du gr. polemos, guerre) » (s.v. polémologie), par exemple, sera balisé comme (<construction-endogène>du <langue>gr.</langue> <item>polemos</item>, <glose-d-item>guerre</glose-d-item> </construction-endogène>) les sous-transducteurs balisant cette fois encore les éléments <langue>, <item> et <glose-d-item>. Le texte « (de pointe) » (s.v. pointeau), quant à lui, sera balisé comme (<construction-endogène>de <item>pointe</item></construction-endogène>) le sous-transducteur item.grf balisant cette fois encore l’élément <item>. 242 Le texte « (mot angl. signif. « montant des enjeux ») » (s.v. pool), par exemple, sera balisé comme (<emprunt-graphie-id>mot <langue>angl.</langue> signif. <signification> « montant des enjeux »</signification> </emprunt-graphie-id>) les balises des éléments <langue> et <signification> étant introduites par les sous-transducteurs langue.grf et signification.grf. 243 Le texte « (nom déposé) » (s.v. Abribus, Caméscope, Digicode ou Nescafé), par exemple, sera balisé comme (<nom-déposé>nom déposé</nom-déposé>) 244 Les textes de la colonne de gauche ci-dessous, par exemple, seront balisés comme indiqué en colonne de droite : TEXTES SOURCES TEXTES BALISÉS « (sigle) » (s.v. O.S.) (<sigle>sigle</sigle>) « (acronyme) » (s.v. cégep) (<sigle>acronyme</sigle>) « (sigle de habitation à loyer modéré) » (s.v. H.L.M.) (<sigle>sigle de <forme-longue>habitation à loyer modéré</forme-longue></sigle>) « (acronyme de syndrome d’immunodéficience (<sigle>acronyme de <forme-longue>syndrome acquise) » (s.v. SIDA) d’immunodéficience acquise</forme-longue></sigle>) « (sigle de Communauté financière africaine ou de Communauté financière en Afrique) » (s.v. C.F.A.) (<sigle>sigle de <forme-longue>Communauté financière africaine</forme-longue> ou de <forme-longue>Communauté financière en Afrique</forme-longue></sigle>) « (sigle de l’angl. human immunodeficiency virus) » (s.v. HIV) (<sigle>sigle de l’<langue>angl.</langue> <forme-longueVO>human immunodeficiency virus</forme-longue-VO></sigle>) 164 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Lors de l’étude d’un type de composant dont le texte contient beaucoup de constituants à baliser qui peuvent apparaître dans des ordres variés et avec des introducteurs diversifiés, comme c’est le cas de ceux qui fournissent des identifications diachroniques (cf. T12 et § 2.5.1.), une stratégie exploratoire peut consister à construire un transducteur très fortement surgénérateur qui balise tout ce qui peut être identifié en leur sein. En traitant le contenu de ce composant, on obtient un texte structuré au sein duquel il convient éventuellement de repérer les segments non balisés qui devraient l’être pour les intégrer dans des éléments. Au terme de ce travail de délimitation des constituants internes, il devient possible d’écrire la DTD du composant étudié. 246 Un contexte non métalexicographique mais pratique de ce type de balisage partiel au moyen d’un transducteur qui surgénère peut se concevoir dans le cadre de la détection méthodique des irrégularités de traitement observables dans un dictionnaire en cours de révision et dont on souhaite régulariser la codification textuelle. Analyses structurelles présentées dans une base SQL Certaines analyses d’articles du Larousse pratique que j’ai réalisées ont également été effectuées dans la perspective de créer une base de données SQL afin d’évaluer dans quelle mesure les principes de structuration adoptés dans le cadre des balisages XML (manuels ou réalisés par le biais de transducteurs) sont transposables dans une base de données relationnelle. 247 Les travaux préliminaires à l’élaboration du schéma de Les balises des éléments <forme-longue>, <langue> et <forme-longue-VO> seront introduites par les sous-transducteurs forme-longue.grf, langue.grf et forme-longue-VO.grf appelés par les nœuds grisés du transducteur principal. 245 Les textes de la colonne de gauche ci-dessous, par exemple, seront balisés comme indiqué en colonne de droite : TEXTES SOURCES TEXTES BALISÉS « (abrév.) » (s.v. poly) (<abréviation>abrév.</abréviation>) « (abrév. de l’anglo-amér. electronic mail) » (s.v. e-mail) (<abréviation>abrév. de l’<langue>anglo-amér.</langue> <formelongue-VO>electronic mail</forme-longue-VO></abréviation>) « (abrév. de l’angl. compact disk read only (<abréviation>abrév. de l’<langue>angl.</langue> <forme-longuememory, disque compact à mémoire morte) » VO>compact disk read only memory</forme-longue-VO>, <forme-longue-VF>disque compact à mémoire morte</forme(s.v. cédérom) longue-VF></abréviation>) « (abrév. de chemin de fer métropolitain) » (s.v. 1. métro) (<abréviation>abrév. de <forme-longue>chemin de fer métropolitain</forme-longue></abréviation>) Les balises des éléments <langue>, <forme-longue-VO> et <forme-longue-VF> seront introduites par les soustransducteurs langue.grf, forme-longue-VO.grf et forme-longue-VF.grf appelés par les nœuds grisés du transducteur principal. 246 Ce travail peut alternativement être réalisé au moyen de scripts dans lesquels les segments textuels contenus par les nœuds du transducteur figurent cette fois au sein d’expressions régulières. 247 Il me semble que nous ne sommes pas très nombreux à pouvoir exploiter une connaissance effective des balisages XML et des bases SQL pour tenter d’objectiver leurs potentiels et leurs limites. La mise en contraste des deux modes de structuration m’a intéressée dès mon implication dans la formation de lexicographes. Depuis 2001, le programme de celle-ci intègre les deux types de structurations (cf. n. 279) et j’ai régulièrement invité à les comparer les étudiants lillois, comme ceux du master de traduction de l’université d’Orléans (dans lequel je suis intervenue de 2001 à 2006, cf. n. 266). La première expression de cette comparaison dans le cadre d’une recherche a été motivée par les investigations préparatoires menées dans le cadre du projet Matoutou (cf. § 1.2.1., « Un projet de recherche peut en appeler un autre (lexicographique celui-ci) »). Au- Document de synthèse – 2.2. Analyses structurelles 165 relations de celle-ci ont permis que P. Corbin (2004, § 2.3.3.) modélise et illustre avec l’article multiple (cf. figure 35) une lecture originale du rôle joué par la hiérarchisation du texte marquée par les ordonnateurs alphanumériques : l’article y est décomposé en descriptions élémentaires telles que chacune porte sur un item catégorisé dont la mention en début de subdivision est facultative et dépendante de l’identité de l’unité sur laquelle porte la précédente, ce que montre un état de la base de données présenté sans regroupement (et donc sans effacement des répétitions) comme celui qui est proposé en figure 36. Figure 35. Article multiple du Larousse pratique multiple adj. (du lat. multiplex, qui a beaucoup de plis). 1 Qui se produit de nombreuses fois : Ce magnétoscope a été réparé à de multiples reprises (SYN. nombreux). 2 Qui est composé de plusieurs parties : Une prise multiple (= sur laquelle on peut brancher plusieurs appareils). 3 Qui se présente sous des aspects nombreux et variés : Nous vous proposons de multiples solutions. Grossesse multiple, donnant naissance à deux enfants ou plus. n.m. Nombre entier qui contient un autre nombre entier plusieurs fois exactement : 12 est un multiple de 4. Plus petit commun multiple ou P.P.C.M., le plus petit des multiples communs à plusieurs nombres. Ce type de formalisation, qui ne respecte pas la linéarité du texte source (ce qui peut paraître déroutant) et qui demande une manipulation ultérieure pour la restituer si nécessaire, présente l’avantage d’inciter à réfléchir sur la portée de chacune des indications fournies dans un article : dans l’article multiple, il convient, par exemple, de repérer que l’indication étymologique est relative à l’adjectif, mais pas au nom qui en dérive ni aux composés construits avec chacun des items simples et que nombreux est un synonyme de multiple proposé pour le contexte où il est question d’une répétition (à de multiples reprises). L’état présenté en figure 36 est celui qui a été réalisé à partir de la première base de données mise en œuvre, en 2004, pour enregistrer les informations contenues dans l’article multiple et une sélection d’autres articles choisis pour leur diversité structurelle. Comme le montre le schéma de relations présenté en figure 37, cette base constituée de neuf tables stocke les formes graphiques des items traités optionnellement mises en relation avec une information catégorielle et avec une indication étymologique, et liées (via une table pivot) à une ou plusieurs définition(s) 248, chacune pouvant être illustrée par une ou plusieurs contextualisation(s), elle(s)-même(s) optionnellement associée(s) à une glose et à la mention d’un ou de plusieurs synonyme(s) et contraire(s). delà de ce que j’en ai très rapidement dit à propos de ce projet et en introduisant le § 2.2., j’ambitionne de pouvoir rédiger un article qui comparerait les qualités relatives du XML et des bases SQL pour la structuration de textes dictionnairiques et leur manipulation dans le cadre de créations de versions électroniques ou de métissages de textes de sources variées. 248 L’utilisation d’une table pivot permet de ne pas enregistrer deux fois la définition associée aux unités plus petit commun multiple et P.P.C.M. le plus petit des multiples communs à plusieurs nombres le plus petit des multiples communs à plusieurs nombres adresse subordonnée adresse recatégorisée adresse subordonnée variante d'adresse subordonnée Grossesse multiple multiple Plus petit commun multiple P.P.C.M. n.m. (du lat. multiplex, Qui se produit de Ce magnétoqui a beaucoup de nombreuses fois scope a été réparé à de mulplis) tiples reprises adj. adresse principale multiple Nombre entier qui contient un autre nombre entier plusieurs fois exactement donnant naissance à deux enfants ou plus (du lat. multiplex, Qui est composé qui a beaucoup de de nombreuses plis) parties adj. adresse principale multiple 12 est un multiple de 4 Une prise multiple Nous vous proposons de multiples solutions (du lat. multiplex, Qui se présente qui a beaucoup de sous des aspects plis) nombreux et variés adj. sur laquelle on peut brancher plusieurs appareils nombreux COMPOSANT-DE- COMPOSANT-DE- COMPOSANT-DECONTEXTUALISA GLOSE-DE-CONSYNONYMIE TEXTUALISATION TION adresse principale COMPOSANTDEFINITIONNEL multiple COMPOSANTETYMOLOGIQUE COMPOSANTDE-CATEGORISATION COMPOSANTTYPED-ADRESSAGE D-ADRESSAGE 166 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Figure 36. État de la base de données relationnelle consacrée aux unités décrites dans l’article multiple du Larousse pratique Document de synthèse – 2.2. Analyses structurelles 167 Figure 37. Schéma de relations élaboré pour la base de données relationnelle du Larousse pratique Développée dans le cadre d’activités de recherche, cette base a connu ensuite plusieurs versions au gré de sa mise à l’épreuve avec cinq promotions du M2 LTTAC. Depuis 2008-2009, ce travail trouve un nouvel essor du fait de l’instauration d’un dialogue lexicographique et informatique avec Serge Verlinde, qui partage avec moi les enseignements de bases de données dans la formation professionnelle, ce qui nous permet de confronter les principes de structuration conçus en fonction d’un strict respect de l’organisation structurelle et du texte du dictionnaire source avec ceux que mettrait en œuvre ce lexicographe rompu à l’utilisation de bases SQL pour la mise en ligne de contenus dictionnairiques s’il devait dériver du Larousse pratique des articles plus proches de l’esprit de ceux du Dictionnaire d’apprentissage du français langue étrangère et seconde (DAFLES), dont il est un des maîtres d’œuvre. 249 2.2.1.3. Le Larousse des débutants [Rdic4] Une dernière étude structurelle de dictionnaire me semble avoir eu une importance particulière parmi mes travaux. Elle concerne un répertoire destiné aux élèves du cycle des apprentissages fondamentaux (le cycle 2 de l’école primaire), le Larousse des débutants de 2005, – dont l’un des prédécesseurs, le Mini débutants de 1985, 250 avait déjà servi antérieurement de support à Agnès Tutin dans la formation lilloise de lexicographes pour des balisages en SGML 251 ; 249 Cf. n. 151. Thierry Selva, qui avait conçu le schéma de relations de la base du DAFLES, avait fait profiter nos étudiants de la promotion 2002-2003 de l’expérience acquise dans le cadre de l’élaboration de ce dictionnaire concernant la structuration et la création d’interfaces de consultation en ligne. Serge Verlinde, qui à l’époque (et même plus largement : de 2000 à 2007) intervenait dans notre formation avec Jean Binon sur des questions de lexicographie bilingue, a assuré la gestion de la base du DAFLES depuis la fin du contrat de Thierry Selva et lui a donné de nouveaux développements dans le cadre de la Base lexicale du français. C’est cette expérience qui motive qu’il intervienne maintenant à ce sujet dans la formation professionnelle lilloise. 250 La généalogie du Larousse des débutants (2000 et 2005) comporte deux jalons : le Dictionnaire mini débutants (de 1999), précédé du Mini débutants. Mon premier vrai dictionnaire (1985, 1990, 1997). Le dictionnaire publié en 2000 proposait le même texte que celui de 1999 sous un titre différent. Bien que leur titre soit proche, celui de 2005, qui a connu un retirage en 2010, est le produit d’une refonte de celui de 2000. 168 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – dont la mise en page donne une impression de clarté du texte bien qu’il ait déjà une structure assez élaborée ; – et dont la structuration en XML effectivement mise en œuvre a été évoquée par des acteurs de l’informatique éditoriale des éditions Larousse lors de l’une de leurs interventions 252. M’inspirant du projet de Tutin & Véronis (1998), qui avaient cherché à respecter les recommandations de la TEI pour le balisage du Petit Larousse 253, et désirant prendre en compte par ailleurs les consignes de structuration de la norme ISO à laquelle j’avais travaillé à l’invitation de l’AFNOR (cf. § 2.2.1.1.), j’ai entrepris en 2007 de comparer les balisages du Larousse des débutants obtenus en appliquant les propositions de ces deux textes à vocation standardisante avec celui découlant d’une analyse métalexicographique plus conforme à l’esprit de celles qui sont développées à Lille 254. Après avoir mené une étude préliminaire sur une sélection d’articles, j’ai souhaité effectuer le balisage de l’ensemble du dictionnaire et évaluer d’une part si le texte numérisé pouvait être balisé semi-automatiquement, comme je l’avais envisagé en 2004-2005 pour le Robert & Collins junior bilingue (cf. T7 (§ 2.2.3.)), et d’autre part s’il serait possible de convertir au moyen de transformations XSLT le premier balisage mis en œuvre afin d’en générer d’autres conformes aux deux autres DTD, puis de tester toutes les conversions (du balisage TEI vers un balisage ISO, du balisage ISO vers un balisage TEI, du balisage métalexicographique vers un balisage TEI et vers un balisage ISO) afin de comparer leur faisabilité 255. Deux stagiaires ont collaboré à ce projet 256 en assurant la numérisation (en mode texte) d’une large partie du volume et ses premières relectures, mais les données 251 Quand j’ai débuté à Lille 3, Agnès Tutin, à qui je succédais, a eu la gentillesse de me fournir de la documentation utile pour la préparation de mes cours et pour l’instauration d’un dialogue de qualité avec les informaticiens qui gèrent les salles pédagogiques où elle avait travaillé avant moi. Je tiens à l’en remercier. 252 Gabino Alonso et Marion Pépin, respectivement responsable et membre du service d’informatique éditoriale, sont intervenus une première fois en 2005-2006, en compagnie d’Hélène Houssemaine-Florent, pour présenter le travail réalisé avec cette lexicographe lors de la création du Larousse pratique (cf. § 2.2.1.2.), et une seconde fois en 2006-2007 pour exposer plus transversalement leurs activités de structuration de dictionnaires et de développements de logiciels de rédaction et d’exploration de corpus. 253 Ce travail faisait suite aux récentes présentations des recommandations de la TEI (Sperberg-McQueen & Burnard eds (1994), Burnard & Sperberg-McQueen (1996)) et, plus spécifiquement, à celles sur leur usage pour les dictionnaires, qui avait constitué l’objet de l'exposé de Jean Véronis au colloque sur l’informatisation du Trésor de la langue française (Véronis & Ide (1996)). 254 Dans ce contexte comme dans le cas des balisages de l’article tuer du Nouveau Petit Robert (cf. § 2.2.1.1.), l’analyse structurelle porte sur le texte publié, ce qui est pertinent pour une étude métalexicographique mais ne correspond pas exactement au cadre pris en compte par l’ISO, qui formule des recommandations à mettre en œuvre pour des productions de dictionnaires qui laissent plus de souplesse d’application : lors d’une réédition ou d’une dérivation, les éditeurs ne sont pas tenus de restituer strictement un texte préexistant, ils peuvent décider de le faire évoluer afin de respecter les contraintes d’une nouvelle DTD, ce qu’un métalexicographe ne peut pas faire sans dénaturer le texte qu’il étudie. La TEI, en revanche, envisage aussi bien la structuration de textes dictionnairiques existants que de textes à créer. 255 Une conversion partant de l’un des balisages standardisés pour obtenir l’autre me paraissait mieux réalisable qu’une autre qui (partant du même balisage) devrait produire celui qui avait une vocation métalexicographique, mais je désirais valider cette hypothèse par l’expérience. 256 Il s’agit en 2007 de Carolina Lamouroux, M2 LTTAC promotions 2006-2009, et en 2008 de Mame Khady Sow, M1 TAL promotions 2006-2008. Je les remercie pour le sérieux dont elles ont fait preuve dans la réalisation des tâches que je leur ai confiées. Document de synthèse – 2.2. Analyses structurelles 169 qu’elles ont produites n’ont pas été suffisamment relues et nettoyées pour permettre de tester les alternatives de structuration que constituent les deux standards et la DTD métalexicographique, et l’automatisation des conversions de balisage est restée spéculative faute de pouvoir être appliquée 257. La ressource Rdic4, bien qu’elle ait profité du travail de ces deux stagiaires, n’a donc pas encore connu les développements escomptés ni les publications envisagées 258, probablement faute de temps, d’autres projets prenant simultanément leur essor, dont en particulier la constitution du corpus des écrits de Danielle Corbin, Rcorp8 (cf. § 1.6.2.) et les analyses d’informations étymologiques qui m’ont conduite à constituer une base de données réunissant une importante sélection de composants d’articles qui fournissent ces informations dans les dictionnaires pour enfants, Rbd4, et à rédiger sur ce sujet quatre contributions dans un temps relativement court (T12, T13, T15 et T16 (cf. § 2.5.)). Si le projet de balisage intégral du Larousse des débutants n’a encore pas pu à ce jour avoir l’aboutissement escompté, ce n’est probablement pas seulement en raison de contingences pratiques, mais aussi du fait de ses ambitions, qui toutes ont un coût spécifique : – numériser et poststructurer le texte de ce dictionnaire, pour disposer 259 des articles de l’un des répertoires destinés aux élèves pour le cycle 2, qui présente par ailleurs la caractéristique originale de proposer des patrons de construction syntaxico-sémantique dans certaines de ses définitions phrastiques (cf. § 2.3.6.), ce qui en fait un bon support pour réfléchir à la manière dont pourrait être constituée une compilation de dictionnaires scolaires existants intégrée à un cartable numérique (du type de celle que j’envisage dans T17 § 3.) et consultable par hyperappel à partir des textes des manuels (cf. T17 § 3.2.1.1. et § 2.7.2.) ; – traiter l’ensemble du texte, pour se placer dans la situation d’un éditeur qui souhaite poststructurer aussi automatiquement que possible un texte déjà saisi ou imprimé et numérisé et se confronter véritablement aux difficultés de ce type de tâche 260 ; – baliser le texte de tous les articles en veillant à faire preuve d’un haut niveau de précision métalexicographique, pour valider les principes d’analyse structurelle posés et évaluer de manière systématique si les noms choisis pour les composants conviennent bien pour l’ensemble des textes qu’ils contiennent ; – baliser le texte en respectant les recommandations de la TEI et de l’ISO, pour se placer dans la situation d’un éditeur qui voudrait pouvoir assurer une promotion de son pro- 257 Il peut sembler paradoxal que j’aie engagé l’élaboration des algorithmes de poststructuration et l’écriture des transformations destinées à convertir les balisages d’un format dans l’autre (métalexicographique / TEI / ISO) dès 2007, alors que le nettoyage des données textuelles déjà numérisées et relues n’était pas suffisamment abouti pour que les règles mises en place puissent donner des résultats exploitables. Cette chronologie a été induite par le fait que je souhaitais expliquer concrètement la finalité du travail à la première stagiaire chargée des numérisations et que j’ai profité de la dynamique générée par ce stage comme par le suivant pour faire progresser mes réflexions. Il reste maintenant à terminer les numérisations et les relectures. 258 Il a néanmoins donné lieu à un mémoire de M1 (cf. Mdir87 (Contreras (2009)) et n. 263). 259 Le texte de ce dictionnaire est sous droits, ce qui implique que je ne le diffuse pas. 260 Le Larousse des débutants a une structure régulière et le fait qu’il soit déjà balisé par son éditeur (cf. supra) donne de bonnes garanties de faisabilité à mon entreprise. 170 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia duit sur cette base 261 et se donner les moyens d’appréhender la ou les représentation(s) que ces standards donnent des structures d’articles ; – convertir les balisages d’un format dans un autre, pour simuler une tâche éditoriale que je n’ai pas l’occasion d’effectuer sur des répertoires complets et dont il m’intéresse de mieux connaître les contraintes 262. La ressource Rdic4 est donc appelée à jouer un rôle important pour des études de structure 263 comme de contenus informationnels. Les nn. 414 et 420 précisent ces perspectives au § 2.3.6. en évoquant deux évolutions complémentaires de l’étude conjointe du corpus de textes de lecture Rcorp13 et du Dictionnaire Hachette benjamin (cf. T20 (§ 1.6.1.) et Tdr5 (§ 2.3.6.)) : d’une part la réduplication du travail fait pour le dictionnaire Hachette en prenant en compte cette fois le texte du Larousse numérisé, et d’autre part l’élaboration de nouvelles descriptions lexicales dérivées de celles du dernier répertoire. Rdic4 constitue un outil pédagogique que j’exploite depuis 2007 et qui sert depuis 2008 pour les manipulations de textes structurés en XML proposées par Luc Audrain 264 aux étudiants du master LTTAC. 261 Certains dictionnaires indiquent sur leurs couvertures qu’ils respectent la norme ISO, ce qui est le cas, par exemple, de plusieurs ouvrages récents des éditions Langenscheidt Fachverlag porteurs de la mention « Datenstruktur konform mit ISO ↵ ISO 1951(2007) », comme par exemple : 1) à gauche : Langenscheidt Fachwörterbuch Kompakt Elektrotechnik und Elektronik Englisch, paru en 2008 (cf. http://www.langenscheidt.de/produkt/ 4144_2/Langenscheidt_Fachwoerterbuch_Kompakt_Elektrotechnik_und_Elekt ronik_Englisch-Buch/978-3-86117-303-8) ; 2) à droite : Langenscheidt Fachwörterbuch Kompakt Technik Englisch, paru en 2009 (cf. http://www.langenscheidt.de/produkt/4146_2/Langenscheidt_ Fachwoerterbuch_Kompakt_Technik_Englisch-Buch/978-3-86117-299-4). 262 Lors des interventions des partenaires de l’informatique éditoriale de Larousse en master LTTAC (cf. n. 252), les extraits d’articles balisés qu’ils nous avaient présentés nous avaient permis de constater que leurs options de balisage et les noms qu’ils choisissent ont une certaine parenté avec ceux que j’ai mis en œuvre dans le balisage métalexicographique, même si celui-ci tend à être plus détaillé que ce qui est fonctionnel pour l’éditeur. Les conversions réalisées à partir du balisage métalexicographique sont donc à mon sens celles qui se rapprocheront le plus d’une tâche éditoriale possible. 263 Le mémoire de Contreras (2009) (Mdir87, cf. n. 258) a donné un prolongement très consistant au travail de postbalisage du Larousse des débutants de 2005 (Rdic4) en comparant le texte de celui-ci avec celui de 2000 (celui qui a été refondu pour produire l’édition 2005, cf. n. 250), dont il a balisé une large sélection d’articles après avoir élaboré pour ce texte une DTD cohérente avec la plus analytique de celles conçues pour Rdic4. Ce travail de structuration lui a permis d’analyser les changements opérés lors de la refonte, en attachant une attention particulière aux transformations d’exemples glosés en séquences constituées d’une définition suivie d’un exemple. 264 Luc Audrain (cf. n. 149) ne pouvait pas utiliser de contenus éditoriaux créés chez son employeur, le groupe Hachette, pour les manipulations de documents XML qu’il fait réaliser aux étudiants du M2 LTTAC : transformations XSLT pour le réemploi de contenus textuels en se conformant à une autre DTD ou en les convertissant en textes HTML, et mises en forme générées par des traitements codés en XSL-FO ou effectués dans InDesign après y avoir importé les documents XML. En 2004-2008, il a travaillé à partir du texte du dictionnaire des mots de la formation (Rdic2, cf. §§ 1.4.3. et 2.7.3.), mais nous avons ensuite convenu de traiter un extrait de notre version du Larousse des débutants (Rdic4), dont le balisage de certains articles est régulièrement repris en cours lors des premiers exercices de manipulation de l’éditeur XML <oXygen/> que je propose. L’utilisation de ce texte ne contrevient pas à l’obligation qu’a Luc Audrain de ne pas utiliser de contenus éditoriaux produits par son groupe dans la mesure où, bien que rédigé par Larousse, le fragment que nous manipulons n’est qu’une petite portion du texte dictionnairique et où il n’a pas été fourni par cet éditeur mais obtenu par un travail que nous avons réalisé sans participation d’un acteur du groupe Hachette. Document de synthèse – 2.2. Analyses structurelles 171 2.2.1.4. Conclusion : des articles monolingues aux bilingues Les trois travaux qui viennent d’être évoqués, remarquables par leur ampleur, et conséquemment par le temps que je leur ai consacré (seule ou accompagnée de Pierre Corbin, de nos étudiants et de nos partenaires externes, dont en particulier Luc Audrain et Serge Verlinde), témoignent de la stabilité de mon intérêt pour l’étude de la structure des textes dictionnairiques monolingues depuis que j’anime la formation lilloise de lexicographes, mais c’est à propos d’un dictionnaire bilingue que j’ai publié les deux analyses structurelles coordonnées dont il va maintenant être question. 2.2.2. Analyse structurelle d’articles de dictionnaires bilingues [T6 (2004b)] Rien ne laissait a priori prévoir que mes premières publications métalexicographiques concerneraient un dictionnaire bilingue, mais deux événements de l’automne 2002 ont infléchi mes travaux dans cette direction : – d’une part la parution du Robert & Collins junior bilingue, dictionnaire monodirectionnel conçu pour les collégiens français par Martyn Back (qui en a également assuré la direction éditoriale) ; – et d’autre part la réorganisation des enseignements de lexicographie bilingue de notre master. Ceux-ci étaient assurés depuis une petite dizaine d’années par Henri Béjoint, animateur du Centre de recherche en terminologie et traduction (CRTT) de Lyon 2 et auteur en 1994 d’une synthèse sur la lexicographie anglophone, et par Valerie Grundy, coresponsable du Dictionnaire Hachette-Oxford français-anglais / anglais-français (1994). Mais ces deux experts, à l’écoute desquels je m’étais initiée aux spécificités de ce domaine 265, n’étant plus en mesure de poursuivre leur collaboration avec nous, nous décidâmes, Pierre Corbin et moi, de les remplacer pour les cours de base 266 et de recourir à la compétence de porteurs de projets dictionnairiques 267 pour des approfondissements spécifiques. Ce remplacement de ceux qui ont qualité pour faire des dictionnaires bilingues par d’autres qui sont mieux placés pour en être des utilisateurs limita la capacité d’appréciation des qualités traductionnelles des ouvrages examinés mais 265 Je tiens à les remercier chaleureusement pour la consistance de nos échanges. Valerie Grundy, ayant eu dès 2000 une activité éditoriale riche en expériences de rédaction de dictionnaires structurés en XML, en a témoigné dans les limites permises par la confidentialité des projets et a discuté avec moi de leurs principes de balisage, nous permettant de confronter nos points de vue sur les valeurs relatives de différentes stratégies. Elle avait également très tôt travaillé avec des corpus et contribué à la constitution de celui qui a été exploité pour le Dictionnaire Hachette-Oxford. T2 et Tdr1 (cf. § 1.2.2.) et les exposés qui les ont précédés lui devaient beaucoup. 266 Nous pouvions, pour ce faire, nous appuyer sur une petite expérience pratique, puisque j’avais été sollicitée trois ans plus tôt pour assurer à l’université d’Orléans, dans le DESS “ Traduction spécialisée, Culture et Médias”, un cours de lexicographie et terminographie bilingue théorique et technique qui se prolongea jusqu’en 2006 au titre de la spécialité de master “ Traduction d’Édition (sciences humaines et disciplines artistiques)” et dans lequel je devais aborder des questions de documentation au moyen de corpus alignés et de structuration d’articles en XML et dans des bases SQL. 267 Par ordre chronologique de leur première participation : Martyn Back et Dominique Le Fur (Le Robert), Ralf Brockmeier (Larousse), Marie-Jeanne Derouin (Langenscheidt Fachverlag), Ilan Kernerman (K Dictionaries), Estelle Campion (Edigeo), Valeria Zotti (Université de Bologne), Paul Bogaards (Van Dale), Alexandre Ecker (Ministère de la Culture, de l’Enseignement Supérieur et de la Recherche du Grand-Duché de Luxembourg). 172 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia accorda une place privilégiée à celle de leur consultabilité (clarté de l’organisation structurelle, lisibilité). C’est dans ces circonstances que j’ai entrepris l’étude du Robert & Collins junior bilingue dès sa mise sur le marché, sous l’angle notamment de son balisage structurel, dont traitent T6 ((2004b), rédigé avec Pierre Corbin) et T7 (2005a). Les analyses débutées dans le cadre de notre veille éditoriale et pour la formation professionnelle n’étaient a priori pas destinées à déboucher sur un texte synthétisant notre travail. La rédaction de celui-ci a été engagée consécutivement à l’invitation du lexicographe et métalexicographe québécois Jean-Claude Boulanger, qui souhaitait que nous contribuions à un volume consacré aux dictionnaires Le Robert 268 dont il assurait la codirection, mais le texte que nous avons soumis a semblé trop technique pour un ouvrage destiné à un large public (ce que nous avons naturellement compris, mais que nous n’avions pas anticipé dans notre perception initiale du projet éditorial). Plutôt que de simplifier notre propos pour l’intégrer à toute force dans ce volume, ce qui l’aurait dénaturé, nous avons préféré retirer notre contribution. Peu après, Chantal Wionet, qui avait travaillé sur la rétroconversion de dictionnaires du XVIIIe siècle avec Agnès Tutin 269, nous a fourni l’occasion de publier T6 dans un numéro des Cahiers de lexicologie constitué en hommage à Michel Glatigny, dont toute la carrière universitaire s’était faite à Lille 3, où il avait accueilli Pierre Corbin et où j’avais eu moi-même l’occasion de le côtoyer lors de séminaires de l’UMR SILEX. Motivation de l’objet et de la méthode Les §§ 0. et 2. de T6 présentent ce qui a motivé notre démarche : la tendance relativement récente à structurer les textes de dictionnaires en XML 270, pratique qui influait sur le regard des analystes au point qu’il était devenu commun de considérer que les textes non structurés informatiquement étaient irréguliers. Même si certains posent d’incontestables problèmes lors de leur rétroconversion, nous estimions que cet avis constituait un seul des points de vue possibles et nous souhaitions en conséquence adopter une approche plus positive, focalisée, elle, sur la remarquable régularité de certains de ces textes 271. Nous avons choisi pour cela le Robert & Collins junior bilingue, pour lequel nous avons proposé une DTD analytique, qui n’était pas la seule possible mais celle qui reflétait l’état auquel était alors arrivée notre étude de la partie fran268 Cf. Cormier, Francoeur & Boulanger dir. (2003). 269 Le Dictionnaire universel de Basnage de Bauval (1702) et celui dit “de Trévoux” (1704), cf. Wionet & Tutin (2001). 270 Les nouveaux dictionnaires n’étaient pas nécessairement tous structurés lors de leur rédaction au début des années 2000. Actuellement, il semble que la plupart le soient, mais il y a peu de produits neufs (hors refontes), les derniers monolingues originaux étant le couple Larousse des noms communs / Larousse des noms propres en 2008 et le Dixel en 2009 (cf. n. 206). Les premières structurations de textes déjà existants ont débuté chez Larousse à partir de 1996 (en SGML), mais d’autres éditeurs ont peut-être été plus précurseurs en la matière. 271 Le balisage de l’article tuer du Nouveau Petit Robert (cf. § 2.2.1.1.) avait permis de mesurer la complexité mais aussi la régularité de ce texte (qui contient par ailleurs de nombreux renvois analogiques hérités de l’ouvrage dont il dérive – le Dictionnaire alphabétique et analogique de la langue française –, dont la mise en place avait constitué un travail d’autant plus remarquable qu’il avait été accompli à l’origine sans outillage informatique). Cette poststructuration, qui avait fait déceler certaines régularités peu visibles du dictionnaire, constituait un très bon entraînement pour l’étude d’un texte aussi rigoureux et régulier que celui du Robert & Collins junior bilingue. Document de synthèse – 2.2. Analyses structurelles 173 çais-anglais de ce dictionnaire, et qui pourrait en inspirer d’autres, peut-être mieux adaptées à des contraintes éditoriales, qu’il s’agisse de celles induites par la conception de fonctionnalités de consultation dans une édition électronique ou par la rédaction d’un texte dérivé pour d’autres paires de langues 272. L’exposé débute (§ 1.) par une rapide présentation des qualités qui ont fait que le Robert & Collins junior bilingue a retenu notre attention, dont en particulier : – un programme d’information monodirectionnel, ce qui était exceptionnel, puisque, pour la période moderne, il n’était que le troisième bilingue de ce type en France concernant l’anglais, après le Dictionnaire d’anglais. Niveau 1 (Larousse, 1975) et le Dictionnaire de l’anglais contemporain (Larousse, 1980) 273 ; – une présentation claire avec des couleurs de caractères différentes pour les items de chaque langue (anglais en bleu, français en noir) 274 et des trames de fond distinctives pour les trois types d’objets présentés (bleu moyen pour les équivalences traductionnelles, bleu pâle pour les informations relatives à celles-ci 275, blanc pour les paires de contextualisations qui illustrent les traductions ou certaines des explications) ; – des choix de mise en page différenciés entre les parties dédiées respectivement à l’aide à l’expression et à la compréhension, afin d’accorder la place nécessaire pour donner une bonne lisibilité et répéter certaines informations – comme les prononciations, les flexions ou des remarques ciblées – chaque fois qu’elles peuvent être utiles ; – un métalangage en français, peu présent dans la partie français-anglais mais constituant l’élément majeur de la structuration des articles dans la partie anglais-français ; – un programme linguistique qui accorde une large place aux cooccurrences privilégiées sans qu’aucun corpus ait été exploité pour élaborer l’inventaire traité. Le texte quitte ensuite les considérations lexicographiques pour aborder des questions plus techniques (§ 2.1.). L’observation du fait que la pratique du XML se diffusait mais que certains partenaires professionnels n’étaient pas encore engagés dans le balisage de leurs textes, a motivé l’hypothèse que les lecteurs de T6 pourraient avoir besoin d’être soutenus dans la découverte de notre travail et la décision de leur proposer un discours aussi pédagogique que possible. C’est pourquoi il a été décidé de présenter le principe du balisage, de situer le métalangage XML par rapport au SGML, qui l’avait précédé, et de définir les DTD comme étant des grammaires des balisages 272 Après avoir renommé First in English le Robert & Collins junior bilingue et en avoir fait le premier élément de la gamme « les premiers bilingues », les éditions Le Robert ont élargi la collection à deux autres dictionnaires en 2004 (un français / allemand et un français / espagnol) réalisés sur le même modèle : Nummer Eins in Deutsch et Primero en español. Une étudiante du M2 LTTAC, Marion Martinez, a participé en 2003 à l’élaboration du volume français / espagnol après avoir étudié avec nous le volume français / anglais. Deux étudiantes de M1 TAL ont par ailleurs ultérieurement rédigés des mémoires sur cette gamme, Carole Alleman étudiant minutieusement celui qui implique l’espagnol (cf. Mdir97 (Alleman (2010))), et Alice Chiandusso spéculant sur ce que pourrait être un potentiel volume français / italien en s’appuyant sur l’examen des trois répertoires existants et en s’inspirant de nos travaux (cf. Mdir58 (Chiandusso (2007))). 273 Ces deux répertoires d’apprentissage échelonnés, de conception par ailleurs différente de celle du Robert & Collins junior bilingue, se limitaient à une composante anglais-français. 274 Ce principe subit toutefois quelques rares entorses. 275 Quand aucune équivalence traductionnelle n’est proposable, une explication est fournie. Elle est imprimée sur une zone de trame comparable à celle des modules d’information qui précisent les conditions d’actualisation d’une équivalence traductionnelle présentée par ailleurs. 174 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia (en SGML comme en XML), en précisant au passage que les documents XML peuvent alternativement se référer à des schémas écrits en XML (cf. n. 8), ce que la note 53 de T17 explicite mieux que ne le fait T6. Le recours à un balisage XML pour analyser un texte dictionnairique (§ 2.2.) est motivé par la distinction posée entre les contenus informationnels et les codifications typographiques qu’ils reçoivent 276. Il l’est également par l’hypothèse que, puisque dans le cadre d’éditions électroniques les mises en forme sont le plus souvent gérées par le biais de feuilles de styles, les propositions de T6 pourraient être reprises pour envisager la création d’une version électronique par dérivation du texte imprimé : c’est l’approfondissement de cette piste de réflexion qui m’a conduite à rédiger T7. Que retenir de T6 ? De l’analyse minutieuse d’une large sélection des informations transmises par les articles du Robert & Collins junior bilingue, je retiens en particulier : – la formalisation des constructions des emplois d’ennuyer à la manière du LADL, reconduite pour ceux du verbe permettre dans T9 ; – la précision des descriptions de sélecteurs d’emplois, qu’ils soient par équivalence comme s.v. ennuyer 1 (cf. figure 38) : Figure 38. L’article ennuyer du Robert & Collins junior bilingue ennuyer 1 Ça m’ennuie de devoir lui demander ça. It bothers me to have to ask him that. 1 (= contrarier) bother /'bKJBr/ 2 Est-ce que ça t’ennuie si j’ouvre la fenêtre ? Do you mind if I open the window? 2 Pour demander la permission à quelqu’un de faire quelque chose, on emploie l’expression anglaise do you mind…? / du: ju: 'maNnd/ ' 3 Si vous vous ennuyez, jouez aux cartes. If you’re bored, play cards. 3 ► s’ennuyer : be bored /bC:d/ ou par repérage d’emplois, comme s.v. chapeau : (que l’on porte sur la tête) (s.v. chapeau 1) (pour féliciter quelqu’un) (s.v. chapeau 2) 276 Avant que Pierre Corbin reprenne cette distinction et fonde sur elle le modèle de l’activité lexicographique en trois strates (métalinguistique, discursive et de posttraitement, cf. T17 n. 5) présenté à EURALEX 2004, je ne l’avais vu envisagée, sous des formes différentes, que chez Atkins (1996, § 1.1.) et dans un texte non publié sur lequel Pierre Corbin travaillait en 2001-2002. Document de synthèse – 2.2. Analyses structurelles 175 et dont l’utilisation dans le dictionnaire vise à permettre à ses utilisateurs de savoir quelle acception d’une unité linguistique française est traduite quand celle-ci est polysémique ou homographe d’une autre ; – la diversité des attributs associés aux éléments de la DTD afin de préciser la valeur de leurs contenus (par exemple la nature de l’équivalence ou du repérage d’emplois pour les sélecteurs précédents) : expérientiel et pragmatique pourraient respectivement constituer les valeurs des attributs Anature du repérageA associés aux éléments Esélecteur par repérageE observés s.v. chapeau 1 et 2 et présentés ci-dessus. ou de fournir une analyse linguistique codifiée (par exemple la structure argumentale des énoncés proposés en contextualisation) : La structure idiomatique Ncouleur comes out Ntextile onto Ntextile pourrait constituer la valeur de l’attribut Astructure argumentale anglaiseA de l’Eéquivalent traductionnel anglais d’énoncé françaisE suivant : The red has come out of the shirt onto all the other clothes! (s.v. déteindre 2) – la discussion sur l’orientation respective de la rédaction, qui semble avoir logiquement été réalisée de la traduction vers les exemples, et de la consultation, que l’« Avantpropos » présente comme devant être effectuée des exemples vers la traduction et les explications qui l’accompagnent conformément à l’ordre des deux colonnes au sein desquelles est réparti le texte, alors même que certains textes d’explication invitent explicitement le lecteur à observer le ou les exemple(s), comme s.v. le, la, les ci-dessous (où rien ne permet de déterminer s’il s’agit d’une invitation à les découvrir ou à retourner les voir) : 277 Pour mieux comprendre cette différence, comparez les exemples donnés à gauche. – les gênes rencontrées concernant le choix d’un traitement adéquat pour les explications traductionnelles (comme s.v. ennuyer 2 ci-dessous), qui se manifestent par le traitement en deux temps qui a été retenu : • les présenter d’abord comme faisant partie de l’ensemble des modules d’informations variées (au motif que, comme ceux de celles-ci, leurs textes sont présentés sur des trames colorées claires) ; • puis les extraire de cet ensemble pour les traiter de la même manière (sur trame bleu moyen) que les deux modules de traduction (ceux des items en adresses principales et en adresses subordonnées), deux composants dont ces explications sont fonctionnellement très proches. 277 Après que Martyn Back eut explicité, durant l’une de ses interventions en M2 LTTAC, le principe directeur présenté ci-dessus et admis quelques entorses faites à celui-ci, l’analyse de l’orientation de la lecture préconisée a été réévoquée dans T7 n. 65 et avait vocation à donner lieu à des développements plus consistants dans une troisième publication que j’ambitionnais alors de rédiger (cf. § 2.2.3.). 176 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia La DTD retenue concilie les deux positions en enchâssant les modules d’explication traductionnelle dans l’ensemble des informations, mais en faisant que seules les informations de ce type puissent constituer des composants majeurs, les informations des autres types étant subordonnées aux traductions. Quand j’ai repris l’analyse des articles du Robert & Collins junior bilingue pour préparer la rédaction de T7, j’ai privilégié en la circonstance les distinctions fondées sur les fonctions des constituants au détriment de celles reposant sur la couleur de leur trame de fond, mais ce choix, bien que fonctionnel dans le cadre des traitements envisagés dans ce nouveau texte, néglige la prise en compte d’une propriété – celle d’être des textes rédigés – qui distingue les explications traductionnelles des traductions par mises en équivalence directes et qui les rapproche des autres informations. Cette DTD, avant d’être intégralement détaillée en annexe de T6, où elle est développée d’une manière relativement formalisée (des indentations marquant les enchâssements d’éléments), est présentée au § 2.2.2. en articulation avec les résultats des analyses métalexicographiques précédentes, et un exemple de distribution de chacun des segments de textes constitutifs de l’article ennuyer en vis-à-vis du nom de l’élément terminal qui doit le contenir est fourni sous forme de tableau (cf. figure 5) afin de rendre les options descriptives plus concrètement perceptibles avant que ne soit montré un exemple de balisage (portant, lui, sur le contenu de l’article en, cf. figure 6). Dans ces paragraphes, trois développements n’ont pas directement à voir avec le balisage analytique des articles. Ils constituent des anticipations de traitements éditoriaux que le texte du Robert & Collins junior bilingue pourrait recevoir s’il était structuré en XML et proposé en version électronique : (i) la gestion des mises en formes par une feuille de styles (dont quelques instructions sont données à titre d’exemple), (ii) l’insertion des délimitateurs et des ordonnateurs numériques qui introduisent certains modules traductionnels et de contextualisation (c’est à cette occasion que le balisage de l’article en est introduit en figure 6), et (iii) le stockage dans une base de données externe des textes informationnels exploités plusieurs fois (parce que présentés à propos de tous les items qui partagent la propriété qu’ils décrivent) pour régir leurs insertions au moyen de règles et ainsi éviter les rédactions multiples des mêmes indications, qui consomment inutilement de l’espace de stockage 278. Options d’informatique éditoriale À l’époque où ce texte a été rédigé (2003), je mettais à l’épreuve mes compétences techniques en concevant et réalisant ce type de traitement. Si quelques variations de précision et de didactisme observables dans les développements techniques portent la trace de cet apprentissage, ce premier écrit concernant la structuration des articles de dictionnaires posait clairement le principe de réemplois de contenus dictionnairiques sur de multiples supports exploitant ceux-ci non pas comme des textes continus (ce que 278 Si ce dictionnaire avait été rédigé dans un environnement structuré, la mise à disposition des segments de textes à répéter dans une base de données aurait permis de gagner en régularité du propos et, probablement, en temps de rédaction. Document de synthèse – 2.2. Analyses structurelles 177 font les éditions électroniques de dictionnaires par ailleurs imprimés), mais comme des réunions de composants textuels ayant une relative autonomie. L’observation de cette position me conduit à souhaiter en préciser la portée au-delà de ce qui est exposé dans T6. J’étais déjà sensible à ce qui incite Verlinde, Selva & Binon (2009 : 227) à considérer que les composants des articles puissent être conçus comme autonomes, même si certains expriment des informations interdépendantes et doivent donc être liés d’une manière ou d’une autre 279 : c’est ce principe qui fonde leur choix de structurer le DAFLES au moyen d’une base SQL, ce qui constitue une option originale dans l’édition dictionnairique mais informatiquement pertinente, les bases SQL permettant très souplement de gérer des combinaisons de composants afin de constituer un ou plusieurs texte(s) informationnel(s). Néanmoins, j’ai aussi perçu très tôt que les bases SQL, malgré leur adéquation, auraient un coût de création que les éditeurs pourraient chercher à éviter et qu’elles ne seraient donc pas les seules modes de stockage retenus pour les segments de textes dictionnairiques à réemployer, que certains au moins des textes balisés (ou des extraits de ceux-ci conservant leur balisage) serviraient également de bases de données d’où extraire des segments de textes pour les introduire (automatiquement ou manuellement) en certaines positions choisies dans un texte en cours de rédaction, ce qu’évoque T6, ou pour les recomposer et éventuellement élaborer de nouvelles descriptions d’unités linguistiques sans création textuelle. Comme il n’est pas toujours possible d’apprendre quelles procédures techniques sont mises en œuvre par les équipes d’informatique éditoriale, peut-être que ce que j’évoque est réalisé depuis qu’elles exploitent des documents XML, mais il m’a fallu attendre 2008 pour que cette intuition me soit explicitement confirmée par un responsable éditorial de l’un des éditeurs majeurs, qui a créé un nouveau produit imprimé, le Larousse des noms 279 Ce développement fournit une occasion incidente de préciser que, afin de préparer au mieux les étudiants en formation professionnelle à prendre leur part dans l’élaboration des dictionnaires (ou d’autres types de répertoires), j’ai régulièrement proposé des inflexions de programme qui traduisent à leur manière la même vision. D’abord, dès 2001, j’ai ajouté une initiation à la conception et au développement de bases SQL aux cours de structuration des textes en SGML et XML figurant déjà dans la maquette du DESS à sa création en 1999, afin d’élargir la polyvalence de nos étudiants. Par la suite, les évolutions techniques qui semblaient poindre m’ont incitée à densifier et à diversifier de deux façons les compétences étudiantes en informatique éditoriale, – en faisant intervenir sur des volumes horaires plus importants des personnes qui avaient l’expérience de développements innovants autant que consistants : • Thierry Selva puis Serge Verlinde pour les bases SQL interrogées au moyen de scripts PHP (cf. nn. 173 et 249) en 2002-2003 puis à partir de 2008 ; • et Luc Audrain pour le XML et le XSLT (cf. nn. 149 et 264) à partir de 2004 ; – et en complétant ces interventions par d’autres, plus ponctuelles, d’informaticiens éditoriaux représentant : • Larousse : Gabino Alonso et Marion Pépin (cf. n. 252) ; • Le Robert : Laurent Catach, à l’occasion de la sortie du Grand Robert de la langue française électronique sur disque en 2005, et Sébastien Pettoello, diplômé à Lille 3 en 1996 et revenu en 2007-2008 pour un exposé global de ses tâches chez l’éditeur qui l’emploie actuellement, mais également pour un retour sur la structuration du Dictionnaire latin-français de Félix Gaffiot et la dérivation de sa version abrégée (Le Gaffiot de poche) qu’il avait effectuées quand il travaillait chez Hachette à l’issue de sa formation lilloise ; • ou encore Edigeo, entreprise milanaise fournisseuse de contenus pour divers éditeurs italiens : Estelle Campion, ancienne étudiante du DESS (diplômée en 2003) invitée depuis à plusieurs reprises comme professionnelle, en particulier pour deux exposés centrés sur des questions de conversions en XML de balisages dictionnairiques réalisés antérieurement au moyen de codes “propriétaires” et un consacré aux traitements informatiques nécessités par l’élaboration du Grand dictionnaire italien-français français-italien à l’occasion de sa publication en 2006 en Italie et en France. 178 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia communs (cf. n. 270), au moyen de métissages de textes xmlisés, de révisions textuelles et de rédactions de portée aussi limitée que possible (cf. T17 n. 108) 280. 281 2.2.3. Balisage semi-automatique d’articles bilingues et repérage des relations privilégiées liant certains composants [T7 (2005a)] Comme je l’ai indiqué précédemment, sitôt achevée la DTD du Robert & Collins junior bilingue présentée dans T6, j’ai commencé à réfléchir à une version dérivée de celle-ci 282 qui serait mieux employable par l’éditeur dans le cadre de la rétroconversion de ce dictionnaire, tâche que celui-ci aurait légitimement pu considérer comme étant préalable à la dérivation d’une version électronique du répertoire imprimé et à la déclinaison de son texte structuré pour d’autres paires de langues (du français / anglais aux français / allemand, / espagnol, voire / italien, etc. 283). Dans le premier contexte, il aurait été nécessaire de structurer informatiquement le texte pour le rendre consultable (à moins de ne présenter que des fac-similés du texte imprimé, ce qui ne se fait usuellement que pour des dictionnaires anciens), mais l’éditeur aurait pu choisir d’intégrer les segments de textes dans les tables d’une base SQL (cf. supra § 2.2.1.2.) plutôt que de les baliser en XML. Dans le second contexte, la postxmlisation du texte français / anglais aurait facilité le travail de dérivation : les éléments textuels en anglais et ceux en français correspondant à des explications portant sur le fonctionnement de la langue anglaise auraient pu être éliminés par prétraitement automatisé, pour ne conserver que la trame française a priori pertinente pour un nouvel appariement de langues. 280 La même année (en mai, cf. P. Corbin (2008, n. 96)), cet éditeur a par ailleurs proposé, sur le site Larousse.fr, L’encyclopédie en ligne (dont le noyau est dérivé – comme celui de l’encyclopédie électronique Kléio parue en 1999 – du Grand Larousse en 5 volumes de 1987 et enrichie de descriptions récentes du Petit Larousse, cf. T24 nn. 18 et 19), et il lui a récemment associé le Dictionnaire de français, qui reprend aussi les descriptions de sens du Grand Larousse en 5 volumes (cf. T24 n. 19) mais pas ses composants encyclopédiques (le projet de ce répertoire ne motivant pas cette reprise), préférant leur adjoindre des synonymes, des homonymes, des difficultés et des citations dont une partie au moins était déjà proposée dans le Larousse expression de 2002 (rebaptisé Larousse multidico depuis 2004 (cf. T17 nn. 85 et 86)). Si ces deux produits actuellement proposés sur le site Larousse mériteraient une recherche plus fine de leurs autres sources textuelles, ils me semblent constituer de bons exemples des recompositions par modules que les structurations en XML de leur fonds permettent aux éditeurs d’envisager. 281 Antérieurement, je savais que depuis 2005 le texte du Larousse pratique de 2003 (cf. § 2.2.1.2.) est intégré à deux produits électroniques prêts à consulter – le Larousse illico multidictionnaire français et le Larousse illico multidictionnaire français – français-anglais anglais-français – français-espagnol espagnol-français –, et qu’il constitue avec quatre bilingues dérivés d’ouvrages du segment alors dénommé “dictionnaire compact” les éléments du Larousse illico, un multidictionnaire modulaire à composer soi-même (cf. T17 nn. 72 et 74). Mais la création de ces produits n’a pas réellement nécessité de métissage des textes : le dictionnaire de français illico affiche ses informations par sous-ensembles thématiques, mais son contenu est le même que celui du Larousse pratique et, quand il est associé à un ou plusieurs bilingue(s), les données extraites de chacun sont simplement juxtaposées. Dans ce cas, contrairement à celui du Larousse des noms communs, si la disponibilité des textes xmlisés a bien permis la création des produits électroniques, elle n’a pas motivé de création textuelle. 282 Les différences observables entre les deux DTD sont indiquée dans T7, en notes 20, 31, 40, 41, 43, 46, 52, 54, 59 et 71. 283 Les deux premières ont effectivement été réalisées (cf. n. 272), mais sans plus de structuration que dans le volume original. Document de synthèse – 2.2. Analyses structurelles 179 Si la nouvelle DTD que j’ai conçue l’a été en fonction de ce qu’auraient pu être les projets de l’éditeur, elle n’avait pas vocation à être employée par lui dans la mesure où ni le responsable du projet, ni le service d’informatique éditoriale n’a véritablement envisagé de poststructurer le texte. Moins profonde, mais élaborée en cohérence avec la première, cette DTD constitue donc un travail strictement métalexicographique sur lequel sont basés les algorithmes de poststructuration des articles exposés à Klingenberg en juillet 2004 (C9) puis dans T7 284. Le plan de T7 est simple : après avoir situé ce travail par rapport à T6 et plus globalement aux travaux de recherche et de formation lillois (§ 1.), et, dans la même visée pédagogique que précédemment, avoir présenté quelques rappels relatifs au XML (§ 2.), je propose des algorithmes de postbalisage fondés sur les régularités textuelles et de mise en forme observables au sein des articles (§ 3.), puis des enrichissements qui pourraient être adjoints au texte dans la perspective d’une édition électronique, et qui consisteraient en mises en relation explicites des équivalences traductionnelles et des contextualisations qui les illustrent (§ 4.). Le projet développé est ambitieux et spéculatif. Il est peut-être même partiellement irréalisable puisque quelques-uns des segments de textes qui n’ont pas été pris en compte dans cet exposé ont été exclus parce que je n’ai pas réussi à mettre en œuvre les traitements qui les concernent 285, soit que la méthode employée ne fût pas adaptée et eût demandé à être révisée pour eux, soit que, les concernant, le recours à un traitement manuel ponctuel semblât être le moins coûteux. Algorithmisation du balisage fondée sur les régularités textuelles Le repérage des limites textuelles de chaque composant des articles (§ 3.) donne lieu à des descriptions de ce qui y est observable et à des spécifications de ce qu’un programme de balisage devrait réaliser, ces dernières intégrant des tests exprimés de manière codifiée – « SI condition ALORS {action(s)} SINON {action(s)} » – mais prenant la forme d’instructions exprimées en langage naturel afin d’être compréhensibles par tous ceux qui feraient l’effort de chercher à les décoder. Le premier algorithme décrit le balisage des modules de contextualisation et de traduction d’items en adresses subordonnées et est illustré en particulier par son application à ceux de l’article ennuyer (cf. supra figure 38), qui a déjà servi à présenter le balisage mis en œuvre dans T6 (figure 5, évoquée au § 2.2.2.), ce qui permet à ceux qui lisent les deux articles de pouvoir prendre appui sur les analyses métalexicographiques de T6 pour comprendre les motivations du principe de balisage qui est repris dans T7. Le second algorithme décrit le balisage des modules de traduction d’items en adresse principale. Prétendant prendre en compte la diversité des textes rencontrables dans ce 284 Du fait de contraintes de place, tout ce qui a été présenté à Klingenberg n’a pas pu être intégré dans la version finale de l’article, ce que précise la n. 12 à l’intention de ceux qui ont assisté à l’exposé. 285 Ce point motive en partie mon souhait de poststructurer le texte numérisé du Larousse des débutants (Rdic4) dans son intégralité (cf. § 2.2.1.3.), ce qui garantirait de bien voir ce qui n’est pas encore pris en compte ou qui n’est pas bien traité par les règles de balisage déjà prévues, alors que le fait de ne pas disposer du texte du Robert & Collins junior bilingue n’a pas permis d’évaluer précisément ce qui ne serait pas convenablement traité par les algorithmes présentés dans T7. 180 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia composant, il intègre de nombreux commentaires (délimités par des dièses) qui proposent des exemples observés dans différents articles et est suivi du balisage de deux de ces modules – ceux des articles ennuyer et penser – qui réalisent différemment le programme de mise en équivalence traductionnelle d’items en adresse principale (le premier recourant à un sélecteur de sens pour spécifier l’acception traduite, tandis que le second propose les formes conjuguées irrégulières de l’équivalent anglais, cf. respectivement les figures 38 supra et 39 ci-dessous). Figure 39. L’article penser du Robert & Collins junior bilingue penser Je pense que c’est possible. I think that is possible. ou I think it’s possible. Je pense que oui. I think so. Je pense que non. I don’t think so. Nous pensons partir demain. We’re thinking of leaving tomorrow. think /INEk/ (thought, thought /IC:t/) i On peut dire en anglais soit think that …, soit simplement think … (par exemple, I think it’s possible, I don’t think it’s true). i Notez que l’on n’utilise pas yes et no pour traduire penser que oui et penser que non. ► penser + infinitif (= envisager) : think of + -ing Ce travail de balisage des articles, effectué à partir d’indices portés dans leurs textes, s’inscrit, dans son projet, dans la lignée d’autres travaux, comme ceux réalisés dans le cadre de l’informatisation du Trésor de la langue française (cf. Dendien (1996 et 2004) ou Henry (1996)). Appliquée au petit dictionnaire bilingue étudié, la tâche est moins ardue que dans le cas de cet ouvrage de référence, mais elle implique similairement une analyse structurelle fine doublée d’une analyse textuelle orientée vers le repérage de séquences de caractères ou d’autres indices matériels de changement de composant d’article. Les données de la première analyse, collectées pour préparer T6, ont naturellement été précieuses, mais elles n’auraient pas permis à elles seules de concevoir les procédures de postbalisage qui ont été proposées dans T7, et il a été intéressant de pouvoir mesurer la distance observable entre les connaissances utiles pour deux modélisations pourtant très proches par leurs objets et les techniques mobilisées. En reprenant les DTD présentées dans T6 et T7, j’observe une différence que je n’ai peut-être pas assez soulignée dans T7 : en fondant sur la DTD de T6 286 les règles d’xmlisation décrites dans les algorithmes de T7, j’ai été conduite à la faire évoluer en tendant à ne plus prendre en compte que les éléments de structuration restituables à partir du texte, ce qui en modifiait fondamentalement la philosophie. La DTD de T7 est certainement plus proche de celle qu’un éditeur mettrait en œuvre pour postbaliser 286 Prendre la DTD de T6 comme base pour une nouvelle réflexion présentait l’avantage de me permettre de m’appuyer sur des éléments dont les noms avaient été choisis avec soin, dont je connaissais les règles de construction et que j’avais déjà exploités pour baliser une sélection d’articles. Cela permettait en outre d’envisager de comparer les DTD d’analyse métalexicographique de T6 et de poststructuration de T7, ce que d’autres choix dénominatifs ou, plus radicalement, d’autres principes de structuration auraient rendu impossible. Document de synthèse – 2.2. Analyses structurelles 181 un texte de son catalogue et elle permet bien d’en repérer les éléments de structuration majeurs, mais elle n’a pas vocation comme celle de T6 à expliciter la structure des articles ni à en valoriser la cohérence et l’intelligence. 287 Enrichissements du balisage pour une édition électronique Le § 4. revient, lui, sur des points d’analyse plus directement liés à l’étude structurelle des articles : il s’agit de repérer les liens existant entre les mises en équivalence traductionnelle et les paires de contextualisations (un énoncé français et l’équivalent proposé pour lui en anglais) qui les illustrent. Dans le cas standard – décrit dans T6 (figures 2 à 4) –, il s’agit d’une relation de type “un à un”, mais il peut éventuellement s’agir d’une relation de type “un à plusieurs” (comme s.v. savoir 2, où deux paires d’énoncés sont mises en correspondance avec l’explication traductionnelle) ou “plusieurs à un” (comme s.v. école, où une paire d’énoncés illustre les équivalences traductionnelles de deux items en adresse subordonnée, école maternelle et école primaire 288) – cf. figures 40 et 41 et T7 figures 13 et 9 pour des versions enrichies d’annotations) : Figure 40. L’article savoir du Robert & Collins junior bilingue savoir 1 Est-ce que tu sais comment il s’appelle ? Do you know what his name is? Quel âge elle a ? – Je n’en sais rien. How old is she? – I don’t know. 1 know /nBL/ (knew /nju:/, known /nBLn/) ► je n’en sais rien : I don’t know / aNdBLnt'nBL/ ') ; )) 2 Rachel ne sait pas parler espagnol. Rachel can’t speak spanish. Est-ce que tu sais utiliser un ordinateur ? Can you use a computer? Le k de know ne se prononce pas. 2 Pour dire qu’on sait faire quelque chose en anglais, on emploie le modal can /kWn/ + infinitif. Pour dire qu’on ne sait pas faire quelque chose, on emploie can’t /kA:nt/ + infinitif. 287 Dans l’esprit du travail engagé sur le Larousse des débutants (cf. § 2.2.1.3.), il pourrait être intéressant de déterminer, sur la base de la DTD retenue dans T7, le principe de balisage qui aurait pu être envisagé au moment de la rédaction du Robert & Collins junior bilingue (ce qui éliminerait du texte balisé les segments qui auraient pu être introduits par posttraitement) et de comparer celui-ci avec ceux qui sont proposés par la TEI et surtout par l’ISO (ce dernier étant mieux valorisable commercialement, il est plus que le précédent susceptible d’être pris en compte par un éditeur, comme le montrent les mentions observées sur certains dictionnaires spécialisés Langenscheidt (cf. n. 261)). 288 Dans cet exemple, l’emploi d’école primaire est impropre, l’enseignement primaire réunissant les classes de l’école maternelle et celles de l’école élémentaire, mais cette inadéquation reflète une confusion faite par de nombreux locuteurs et ne pose pas de problème pour l’étude métalexicographique en cours. L’exactitude des données référentielles fournies dans les contextualisations du Robert & Collins junior bilingue ne paraît pas mise en cause dans son principe par cette observation isolée d’une approximation bénigne. 182 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Figure 41. L’article école du Robert & Collins junior bilingue école L’école est tout près de l’église. The school is very near the church. L’école maternelle et l’école primaire sont dans le même bâtiment. The nursery school and the primary school are in school /sku:l/ the same building. ► école primaire : primary ► école maternelle : nursery school /'nM:srN sku:l/ (pluriel : nursery schools) school /'prANmrN sku:l/ Quel jour est-ce que l’école finit ? What day does school finish? Marek ira à l’école en septembre. Marek will go to school next September. (pluriel : primary schools) ► l’école (= les cours) : school /sku:l/ ► aller à l’école : go to school (went, gone/been) Le traitement proposé repose sur la détection des items français et anglais présentés comme étant des équivalents traductionnels dans les modules de traduction ou d’explication traductionnelle, puis sur celle de leur coprésence dans les énoncés de contextualisation de chaque langue (où il faut savoir composer avec les ajustements contextuels qu’ils y ont subis : flexion en genre et nombre ou conjugaison), afin de mettre en place des relations porteuses chacune d’un indice de confiance dont la valeur dépend de l’évaluation automatique de la qualité de l’appariement proposé. Ceux-ci se matérialisent par l’adjonction de différents attributs qui enregistrent les valeurs des identificateurs de chacun des composants où figurent les équivalents traductionnels et celles des indices de confiance des mises en relation. Après la description du traitement 289, qui prend, elle aussi, la forme d’un algorithme suivi d’un exemple de balisage (celui d’un extrait de l’article ennuyer, cf. figure 7), j’introduis une codification plus lisible que les attributs précédents pour figurer les mises en relation : des doubles flèches de taille indexée sur les valeurs de leurs indices de confiance et reliant les composants concernés (cf. figures 8 à 13 et, ci-dessous, figure 42 pour l’article école). L’introduction des différentes doubles flèches est accompagnée de l’annonce qu’« un prochain développement […] prendra en compte les modules d’information » en plus des trois composants majeurs dédiés à l’information traductionnelle et « que les valeurs des indices de confiance de chaque lien feront écho au sens de lecture préconisé dans le texte et auront des valeurs différentes », ce qui est illustré en note 65 par l’exemple du composant d’information de nature non spécifiée (élément Info-Nat-Non-Spe) proposé s.v. étendre 5 (cf. ci-après figure 43), qui doit référer à la contextualisation 5 avec 289 Dans la perspective d’une tâche de poststructuration réalisée par un éditeur, les algorithmes présentés aux §§ 3. et 4. de T7 rendraient bien les services escomptés pour la mise en place d’un premier balisage. Mais alors que les règles de délimitation des éléments présentées au § 3. fourniraient des données fiables bien que susceptibles d’être complétées par d’autres insertions de balises réalisées manuellement, celles dont il est question ici, qui effectueraient les mises en correspondance et leur affecteraient des indices de confiance, produiraient des liens qui mériteraient d’être contrôlés par un relecteur humain quand l’indice de confiance aurait une valeur faible. Document de synthèse – 2.2. Analyses structurelles 183 un indice de confiance supérieur à celui du lien symétrique afin de marquer l’orientation de la lecture. Figure 42. L’article école du Robert & Collins junior bilingue avec matérialisation des relations entretenues par certains composants d’articles [cf. figure 9 de T7] école L’école est tout près de l’église. The school is very near the church. L’école maternelle et l’école primaire sont dans le même bâtiment. The nursery school and the primary school are in school /sku:l/ the same building. ► école primaire : primary ► école maternelle : nursery school /'nM:srN sku:l/ (pluriel : nursery schools) school /'prANmrN sku:l/ Quel jour est-ce que l’école finit ? What day does school finish? Marek ira à l’école en septembre. Marek will go to school next September. (pluriel : primary schools) ► l’école (= les cours) : school /sku:l/ ► aller à l’école : go to school (went, gone/been) Figure 43. L’article étendre du Robert & Collins junior bilingue étendre 1 Céline a étendu une couverture par terre et s’est couchée dessus. 1 (= étaler) spread /spred/ out (spread out, spread out) Céline spread a blanket out on the floor and lay down on it. ;))) Spread rime avec red. 2 Il n’y a pas de place pour étendre ses jambes 2 (en parlant des bras, des jambes) dans ce cinéma. stretch /stretG/ There isn’t any room to stretch your legs in this cinema. 3 C’est ton tour d’étendre le linge. It’s your turn to hang out the washing. 3 ► étendre le linge : hang Étends-toi deux minutes, tu te sentiras mieux. Lie down for a couple a minutes, you’ll feel better. 4 ► s’étendre (= s’allonger) : 4 /hWE/ out the washing /'wKGNE/ (hung /hHE/ out, hung out) lie /laN/ down (lay /leN/ down, lain /leNn/ down) i 5 La plage s’étend sur plusieurs kilomètres. The beach stretches over several kilometres. La forme en -ing est lying down. 5 ► s’étendre (en parlant d’une ville, d’un espace) : stretch /stretG/ i Notez la préposition employée en anglais : s’étendre sur = stretch over. Mais la troisième étude annoncée concernant le Robert & Collins junior bilingue, qui devait suivre de près les deux premières et pousser plus loin les réflexions engagées à propos de la dérivation d’une version électronique dotée de fonctions de recherche – à partir de formes graphiques ou phoniques (comme celles évaluées dans T23), ou en 184 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia explorant certains constituants ou encore en ciblant certains types d’informations –, n’a finalement pas vu le jour, pour des raisons purement contingentes 290 et en dépit d’une recherche documentaire préparatoire et de la poursuite du travail sur ces données avec deux promotions d’étudiants de M1 TAL (en algorithmique) et trois de M2 LTTAC (en analyses structurelles d’articles pour leur balisage). Je doute aujourd’hui que ce projet ait des chances d’être réactivé, son actualité s’estompant au gré du vieillissement du dictionnaire impliqué dans le catalogue de son éditeur. 2.2.4. Conclusion : xmlisation de répertoires pour la valorisation des textes imprimés et l’analyse métalexicographique Le fait d’élaborer des balisages structurels d’articles de dictionnaires dans le cadre de mes recherches comme dans celui de la formation professionnelle de lexicographes me conduit, dans ce document de synthèse, à valoriser les synergies qui se sont créées entre ces deux activités. Mais les enrichissements mutuels que j’évoque comme la capacité à participer à des structurations à finalités soit éditoriales, soit analytiques dont témoignent certains des étudiants que nous avons formés ne doivent pas faire oublier que les représentations de la structure du texte des répertoires diffèrent selon qu’elles sont réalisées pour un type de traitement ou pour l’autre. Il me paraît par conséquent opportun de conclure le développement relatif aux analyses structurelles en situant chaque type de structuration de textes dictionnairiques 291 et en évaluant dans quelle mesure il est susceptible de renouveler sa matière et de m’impliquer ou de mobiliser certains de nos anciens étudiants. Structurations éditoriales Dans le cadre de projets éditoriaux, les structurations informatiques de textes dictionnairiques existants peuvent être entreprises : – pour donner une seconde vie à un produit qui a été imprimé mais dont la production est trop onéreuse pour qu’une seconde commercialisation en version imprimée soit rentable ou auquel on veut adjoindre des modalités de consultation qui motivent l’élaboration d’une édition électronique ; – ou dans le but, pour un éditeur, de réemployer des contenus qui appartiennent à son fonds pour élaborer de nouveaux produits en réexploitant l’intégralité d’un texte, en en dérivant un autre partiellement neuf ou en métissant ceux de plusieurs ouvrages sources pour en produire un ou plusieurs autres. 290 Eu égard à mes responsabilités dans la formation professionnelle de lexicographes, il était nécessaire de diversifier les thèmes de mes recherches métalexicographiques et conséquemment de consacrer plus de temps à d’autres répertoires et à d’autres modes d’investigation. 291 Dans la majorité des exemples évoqués ci-après, la numérisation a assurément été accompagnée d’une xmlisation, mais dans quelques cas il est difficile, à partir des informations disponibles, de savoir quel est le procédé de structuration informatique employé, s’il y en a bien un. Ce peut alternativement être un balisage en SGML ou dans un format propriétaire, ou un enregistrement du texte dans une base SQL. Document de synthèse – 2.2. Analyses structurelles 185 Concernant les rééditions en versions électroniques : – les dictionnaires structurés peuvent être relativement récents, qu’ils aient été produits sur fonds publics (comme le Trésor de la langue française 292) ou par des éditeurs commerciaux (comme le Grand Robert 293), ou être plus anciens (comme les répertoires proposés par les éditions Redon 294) ; – et les informatisations peuvent être le fait d’entités professionnelles spécialisées – instances de recherche ou entreprises commerciales – qui perçoivent des financements pour les effectuer ou qui escomptent tirer des bénéfices des ventes à venir (pour les répertoires précédents, respectivement l’INaLF (puis l’ATILF (UMR 7718)) et des éditeurs privés), mais elles peuvent exceptionnellement aussi être le fruit d’initiatives de personnes extérieures au domaine et être librement consultables, comme c’est le cas pour le XMLittré 295. Concernant le réemploi de données textuelles pour dériver de nouveaux produits : – À l’ATILF, le texte du Trésor de la langue française est posttraité pour en dériver de nouveaux lexiques, comme dans le cadre des projets Morphalou 296 et Definiens 297. 292 Cf. Piotrowski éd. (1996) et Dendien (2004). 293 Le texte refondu pour l’édition imprimée de 1985 a été proposé en version électronique sur disque dès 1989 et celui révisé en 2001 à partir de 2005 (cf. T17 n. 75). Une version en ligne sur abonnement est proposée depuis avril 2009 (cf. T17 n. 78). 294 Les éditions Redon ont publié sur disques : – en 1997, le Dictionnaire le Littré ; – en 1998, L’atelier historique de la langue française, qui réunissait sept ouvrages en texte intégral : le Dictionnaire de la Curne de Sainte-Palaye (1876), les Curiositez françoises d’Antoine Oudin (1640), le Dictionnaire universel d’Antoine Furetière (1690), le Dictionnaire de l’Académie française (1762), le Dictionnaire philosophique de Voltaire (qui n’est pas un dictionnaire) et ses compléments (1765), le Dictionnaire universel des synonymes de Guizot (1822) et le Dictionnaire de la langue française d’Émile Littré (1872, avec le supplément de 1877) ; – en 1999, L’encyclopédie de Diderot et d’Alembert ; – en 2000, le Dictionnaire de l’Académie française (éditions de 1694, 1718, 1740, 1762, 1798, 1835, 1878, et 1932-1935) ; – en 2001, Le grand atelier historique de la langue française, qui réunissait quatorze ouvrages : les sept de L’atelier historique de la langue française et Le Thresor de la langve francoyse de Jean Nicot (1606), le Dictionnaire français contenant les mots et les choses de Pierre Richelet (1680), le Dictionnaire étymologique de Gilles Ménage (1694), le Dictionnaire des arts et des sciences de Thomas Corneille (1694), le Dictionnaire universel françois et latin de Trévoux (1743-1752), le Dictionnaire critique et le Dictionnaire grammatical portatif de la langue française de l’Abbé Jean-François Féraud ; – en 2002, le Grand dictionnaire universel du XIXe siècle par Pierre Larousse. Dans la présentation des « secrets de fabrication » de ces disques (cf. http://www.dictionnaire-france.com/ soc.html), il n’est pas fait mention des choix techniques de structuration informatique des textes : à peine est-il indiqué que « [l]es principales fonctionnalités (recherche en plein texte, par auteur, par domaine, navigation hypertexte) sont […] programmées et installées avec les données. », ce qui suggère indirectement que certains types d’informations sont localisés dans le texte (au moyen d’un balisage peut-être) ou au moins indexés. 295 Le XMLittré (http://francois.gannaz.free.fr/Littre/accueil.php) a été structuré et enrichi de formes fléchies extraites du lexique Morphalou (cf. n. 296) par François Gannaz. Son contenu a été intégré aux ressources de l’ARTFL (cf. n. 306). 296 Dans le cadre du projet Morphalou (dont les derniers développements ont eu lieu en 2004-2006), un lexique de plus de 500 000 formes correspondant aux lemmes issus de la nomenclature du Trésor de la langue française et associées à des indications morphosyntaxiques a été constitué sous la responsabilité de Susanne Salmon-Alt (cf. http://www.cnrtl.fr/lexiques/morphalou/). 186 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – Chez les éditeurs privés, qui avaient l’habitude de retravailler des textes antérieurs pour en produire de nouveaux, la généralisation des structurations en XML du fonds facilite ces reprises textuelles : les éditions Larousse font preuve d’une remarquable compétence dans ce domaine (comme elles le montrent par exemple avec les dérivés du Grand Larousse en 5 volumes de 1987, cf. n. 280), mais tous les éditeurs semblent être concernés par ces gestions éditoriales, y compris ceux qui ne proposent que peu de dictionnaires comme les Éditions Garnier 298. Les travaux de structuration de textes réalisés chez différents éditeurs privés ont impliqué un nombre relativement important d’étudiants de la formation lilloise 299. Mais, dans la mesure où les productions récentes sont balisées lors de leur élaboration, le nombre d’ouvrages publiés dont les textes sont jugés intéressants à postbaliser pour la création de nouveaux produits diminue 300. Les jeunes lexicographes issus de notre master ont donc maintenant une probabilité plus réduite que leurs prédécesseurs de pouvoir être sollicités pour ce type de chantiers, mais ils pourront l’être pour les manipulations de textes structurés qui permettent alternativement ou cumulativement de décliner un même dictionnaire pour différents supports 301, d’en dériver un nouveau répertoire 302 ou de métisser son texte avec ceux d’autres répertoires 303. 297 Dans le cadre du projet Definiens (cf. Barque & Polguère (2009) et Barque, Nasr & Polguère (2010)), l’affinement du balisage des définitions du Trésor de la langue française informatisé afin de matérialiser en leur sein les bornes de leurs différents composants sémantiques doit à terme permettre de dériver un nouveau lexique par extraction et enrichissement textuel de ces gloses dotées d’un nouveau balisage. 298 Les Éditions Garnier ont proposé différents répertoires dérivés du Dictionnaire de la langue française d’Émile Littré (1872-1877) et de son abrégé par Amédée Beaujean en 1874. Ces nouvelles versions ont été commercialisées sous différents intitulés : – Le Nouveau Littré pour la version imprimée de la réédition enrichie de l’abrégé de Beaujean, vendue depuis 2004 et dont le texte a connu plusieurs états d’actualisation – le but de l’éditeur étant d’élaborer progressivement un dictionnaire historique du français actualisé et homogénéisé – et a été accompagné de différents suppléments – eux-même réexploités de diverses façons ; – Le Nouveau Littré électronique pour la version électronique du précédent, vendue depuis 2007 (cf. http:// www.nouveaulittre.fr/) ; – Le Nouveau petit Littré pour une version imprimée simplifiée de l’abrégé publiée en 2005 (et rapidement retirée de la vente sur plainte du MRAP) ; – Le Littré. Le dictionnaire de référence de la langue française pour une version enrichie du grand dictionnaire de Littré en vingt volumes et six suppléments (pour partie repris aux rééditions de l’abrégé) vendue par Le Figaro en 2007-2008 (cf. http://www.lefigaro.fr/littre/) ; – Le Nouveau petit Littré pour l’édition imprimée de l’abrégé enrichi, en 2009, par le Livre de poche. 299 3 chez Larousse, 1 chez Hachette, 1 chez Redon et 8 chez Garnier. Ceux qui ont réalisé des tâches de structuration chez Garnier ont également assuré des relectures-corrections et éventuellement de la rédaction, mais ceux qui n’y ont contribué qu’à la rédaction des actualisations textuelles des éditions du dictionnaire de Littré et de son abrégé (cf. n. 298) ne sont pas pris en compte dans ce chiffre. 300 Un partenaire professionnel nous a indiqué qu’un service s’est consacré à la structuration chez Larousse jusqu’à la fin de 2009, travaillant en étroite collaboration avec l’informatique éditoriale mais sans faire partie de cette entité. Selon les indications fournies dans les ours des différentes éditions du Petit Larousse illustré, la structuration avait été autonomisée par rapport à l’informatique éditoriale pour l’élaboration du millésime 1998. 301 Après avoir créé des versions électroniques vendues sur disques ou mises en ligne (où elles sont consultables sur abonnement ou en accès libre), les éditeurs œuvrent à la production de dictionnaires pour smartphones (dont l’iPhone) et liseuses (comme le Sony Reader), et récemment pour l’iPad. Les bases textuelles employées à cette fin sont généralement structurées en XML, mais elles peuvent ne l’être qu’en SGML, ce qui implique de les convertir en XML avant de les adapter pour les nouveaux dispositifs de consultation. Les développements étant souvent encore en cours, il ne m’est pas possible de les détailler, mais il est loisible d’obser- Document de synthèse – 2.2. Analyses structurelles 187 Structurations analytiques Quand l’étude de dictionnaires inclut la structuration de leur texte, elle peut concerner l’intégralité de celui-ci ou une sélection d’articles et avoir deux vocations : – soit valoriser un répertoire qui à un titre ou à un autre présente un intérêt, mais qui n’est plus édité, ou du moins plus avec le strict contenu de l’édition qui va être structurée ; – soit enregistrer le produit d’analyses métalexicographiques fondées sur l’étude de la structure des articles, comme celles mises en œuvre dans T6, T7 et d’autres de mes travaux qui n’ont pas donné lieu à des publications (et dont l’évocation au-delà de ce qui a été fait supra n’a pas sa place dans ce document). Les structurations de textes intégraux effectuées dans le cadre de l’étude de ceuxci diffèrent de celles évoquées précédemment par le fait que les balisages mis en œuvre ne sont pas conçus en réponse à des besoins éditoriaux (dont en particulier des choix de modes de consultation à offrir) mais sont définis en fonction des analyses opérées et que l’on souhaite valoriser, et de la décision qui est prise de se conformer ou non à des recommandations 304. L’ampleur de la tâche fait que ces structurations sont souvent effectuées dans le cadre de programmes de recherche et sont plutôt le fait de chercheurs spécialistes de l’étude de dictionnaires anciens qui ont joué un rôle important dans l’histoire éditoriale ou la société qui a connu leur diffusion, comme ceux de l’École nationale des chartes 305, de l’ATILF 306 ou du LDI (UMR 7187) 307. 302 303 304 305 306 ver que sur iTunes, dans la rubrique “App Store > Références”, deux produits monolingues proposés par deux éditeurs français majeurs du secteur de la référence – le Dictionnaire de français (Larousse, 2009) et le Dixel mobile (Le Robert, 2010) – font partie des “Apps les plus populaires” (cf. http://itunes.apple.com/fr/genre/ mobile-software-applications/id6006?mt=8 [consulté le 16/07/2010]). Par exemple, chez Larousse, le Larousse illico multidictionnaire français dérivé du Larousse pratique avec changement de support mais sans rédaction nouvelle (cf. n. 281). Ce qui peut se faire à l’occasion d’une adaptation pour un nouveau support, comme cela a été le cas pour la version iPhone du Dixel du Robert, qui intègre le contenu de la version imprimée et des éléments textuels du DicoMalin des Éditions Diagonal (qui procède lui-même du Dictionnaire général de la langue française de Hatzfeld, Darmesteter & Thomas), dans une interface de consultation dérivée de celle du DicoMalin, qui préexistait en version pour iPhone (cf. http://ipa-iphone.net/2010/04/ipa-le-robert-dixel-mobile-vers-2-0-fr/ [consulté le 24 février 2010]). Rares sont les éditeurs qui structurent leurs dictionnaires en respectant les normes ou standards : ils préfèrent en général se conformer à des DTD qui leur sont propres et motivent ce choix par le fait qu’ainsi leurs données sont moins aisément réemployables sans leur accord (ce qui n’est peut-être pas la seule raison puisque, tous leurs traitements éditoriaux étant programmés en fonction de leurs DTD, en changer aurait un coût important). La question de la protection des textes structurés ne se pose pas dans les mêmes termes concernant les dictionnaires étudiés dont il est question ici, et ceux qui les structurent emploient souvent des balisages standardisés (ceux proposés par la TEI – la dernière version étant la TEIP5 (cf. http://www. tei-c.org/Guidelines/P5/) – sont, semble-t-il, préférés à ceux de l’ISO – norme NF ISO 1951:2007 –, bien que ces derniers soient les seuls à avoir le statut de norme). L’École nationale des chartes a participé en particulier à l’xmlisation, respectueuse des recommandations de la TEI, du Glossarium mediæ et infimæ latinitatis de Charles Du Cange (cf. http://ducange.enc.sorbonne.fr/), réalisée dans le cadre du projet ANR OMNIA – Outils et Méthodes Numériques pour l’Interrogation et l’Analyse des textes médiolatins – (cf. Bon (2009)), et pour laquelle un de nos anciens étudiants, Frédéric Glorieux (promotion 2006-2007), a été recruté en 2007 (cf. Glorieux (2009)). L’ATILF contribue au projet ARTFL (American and French Research on the Treasury of the French Language), porté depuis 1982 par la Division of the Humanities, la Division of the Social Sciences et les Electronic Text 188 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Des structurations sélectives seraient, elles, mobilisables pour une large gamme de travaux d’analystes de dictionnaires, et ce d’autant mieux que l’on pourrait ne pas limiter les balisages à des délimitations de composants d’articles, mais les exploiter aussi pour annoter les contenus textuels de chacun. Le peu de place accordé aux balisages analytiques dans les études métalexicographiques, alors même que des textes intégraux de dictionnaires sont xmlisés, m’incite à m’interroger d’une part sur les causes de cette situation et d’autre part sur les actions susceptibles de sensibiliser les métalexicographes à l’intérêt de ce type de procédure pour leurs travaux. Peut-être des éléments de réponses sont-ils à trouver dans les modalités de développement et de valorisation de la recherche, qui peuvent inciter à privilégier les projets ambitieux et générateurs de nouvelles ressources au détriment d’études plus locales 308. Dans le futur, les structurations analytiques doivent pouvoir constituer des activités dont la matière trouvera à se renouveler tant qu’il restera des répertoires à baliser ou des principes de balisage alternatifs à mettre en œuvre. Elles pourront mobiliser des (méta)lexicographes initiés aux techniques informatiques utiles pour ces types de xmlisations et désireux d’approcher les dictionnaires étudiés par leur structuration ou sensibles à l’étude et à la valorisation d’ouvrages anciens. Services de l’université de Chicago (cf. http://artfl-project.uchicago.edu/content/about-artfl), qui rend consultables en ligne : – d’une part, dans la rubrique « Dictionnaire d’autrefois » (cf. http://artfl.atilf.fr/dictionnaires/index.htm et http://artfl-project.uchicago.edu/content/dictionnaires-dautrefois) : le Dictionarium latinogallicum de Robert Estienne (1552), le Thresor de la langue françoyse de Jean Nicot (1606), le Diction[n]aire critique de la langue française de Jean-François Féraud (1787-1788), le Dictionnaire de l’Académie française (première, quatrième, cinquième, sixième et huitième éditions : 1694, 1762, 1798, 1835 et 1932-1935) et le Dictionnaire de la langue française d’Émile Littré (1872-1877) dans la version xmlisée de François Gannaz (XMLittré, cf. n. 295) ; – d’autre part, dans la rubrique « ARTFL encyclopédie » : l’Encyclopédie ou Dictionnaire raisonné des sciences, des arts et des métiers de Diderot et d’Alembert (1751-1772), seul texte (indépendamment du XMLittré) pour lequel il est explicitement question de balisage XML conforme aux recommandations de la TEI (« The ARTFL Encyclopédie has been converted to a TEI-conformant encoding scheme and we have enacted another round of text and metadata corrections based on user submissions from our “Report Error” interface. » (cf. http://artflproject.uchicago.edu/content/whats-new-artfl)). 307 Le Petit Larousse illustré de 1905 vient d’être xmlisé à l’initiative de Jean Pruvost et d’Hélène Manuélian (à l’université de Cergy-Pontoise). Marine Lesprit, une de nos étudiantes de la promotion 2002-2003, a été recrutée durant quelques mois pour participer à ce projet dans ses débuts. Le balisage mis en œuvre respecte les recommandations de la TEI (cf. Manuélian (2010)). Cette édition a été mise en ligne à la rentrée 2010. 308 Les balisages sémantiques des définitions du Trésor de la langue française effectués dans le cadre du projet Definiens (cf. n. 297) partagent avec ceux que j’évoque la motivation d’être conçus pour la dérivation d’un nouveau lexique, mais ils sont polyvalents puisque le fait de mobiliser des éléments XML pour annoter le texte source en y repérant les constituants sémantiques de ses définitions pourrait tout à fait permettre de procéder à une analyse des sélections d’informations et des modes rédactionnels observables dans le dictionnaire, ce qui contribuerait à enrichir encore la connaissance métalexicographique de celui-ci, dont l’étude reste active, à en juger par le nombre des contributions (un peu moins de la moitié des 30 communications) qui lui ont été consacrées lors du colloque international « Lexicographie et informatique : bilan et perspectives » organisé en janvier 2008 à l’ATILF à l’occasion du cinquantième anniversaire du lancement du projet qui lui a donné le jour (cf. http://www.atilf.fr/atilf/evenement/Colloques/Tlf2008/Programme_colloque_TLF2008. pdf ). Document de synthèse – 2.2. Analyses structurelles 189 Arguments en faveur de postbalisages analytiques non intégraux Dans le cadre de mes travaux, le postbalisage des textes constitue un mode d’appropriation du contenu des répertoires examinés puis, dans certains cas, une manière de présenter les analyses élaborées à leur sujet. Le passage par une décomposition structurelle pour introduire une nouvelle étude est un exercice qui m’est utile dans la mesure où il implique une lecture intégrale des articles et où il m’amène à m’interroger sur le ou les rôle(s) joués par chacun des composants identifiés dans la transmission des informations, ce qui me permet d’acquérir des connaissances préalables mobilisables ensuite lors de l’examen particulier de certains d’entre eux ou de la manière dont individuellement ou collectivement ils sont exploités pour exprimer des propriétés déterminées des unités linguistiques décrites. Ainsi, à partir de l’examen structurel des articles, c’est leur fonctionnement global qui est approché par amendements successifs de leur représentation formalisée. Par exemple, lors de la préparation de T6, le balisage d’une sélection d’articles conformément à la DTD élaborée à cette fin a impliqué d’enrichir cette dernière chaque fois que de nouvelles constructions textuelles étaient rencontrées, ce qui a permis d’améliorer son adéquation descriptive et, consécutivement, la précision de l’exposé métalexicographique. Mais les décompositions structurelles préliminaires peuvent ne pas être évoquées afin de privilégier une présentation non formalisée des données analysées, comme c’est le cas ponctuellement dans T6, par exemple à propos des sélecteurs de sens (§ 2.2.2.2.2. (i)), alors même que le contexte rédactionnel met la DTD et le balisage au cœur du propos, ou plus extensivement dans T12 (§ 2.5.1.), où les balisages des composants d’identification diachronique étudiés sont évoqués en introduction mais plus dans les développements analytiques. Ainsi, si c’est assez logiquement à propos d’analyses structurelles que les xmlisations de textes dictionnairiques sont introduites dans mes publications comme dans ce document, la portée de ce type de formalisation n’est pas limitée aux délimitations de composants d’articles et à la description de leurs enchâssements, mais peut être beaucoup plus vaste, comme le montrent – des travaux dans lesquels je me suis impliquée : certains points de ce qui est présenté dans T6 ou T12, qui viennent d’être évoqués, mais aussi différents mémoires que j’ai encadrés 309, dont en particulier Mdir52 et 87, qui abordent par le balisage des composants d’articles des thèmes d’étude aussi variés que l’oralisation de leurs contenus textuels et les réécritures d’exemples glosés en définitions illustrées d’exemples ; – ou, indépendamment de mes activités, les balisages sémantiques du projet Definiens (cf. nn. 297 et 308). Pour ces types de travaux, l’xmlisation des articles d’un répertoire ou de certains segments de textes en leur sein constitue un mode d’annotation des données à étudier 309 Dans le cadre des directions de mémoires, j’oriente aussi souvent que possible les étudiants vers des lectures structurelles avant qu’ils abordent, le cas échéant, des points d’analyse thématisés. Ce mode d’accès aux données textuelles étudiées est particulièrement visible dans les mémoires de Valeria Zotti (2005 (Mdir48)), Hao Chen (2006 (Mdir50)), Camille Delobel (2006 (Mdir52)), Mame Khady Sow (2008 (Mdir54)), Sabine Arnaud-Thuillier (2008 (Mdir56)), Alice Chiandusso (2008 (Mdir58)), Marjorie Jean (2008 (Mdir64)), Camille Leveau (2009 (Mdir85)), Edwin Contreras (2009 (Mdir87)) [cf. n. 263], Héléna Falcone (2009 (Mdir88)), Carole Alleman (2010 (Mdir97)), Danièla Banica (2010 (Mdir99)) et Doan Vien Nguyen Ngoc (2010 (Mdir102)). 190 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia qui permet d’une part d’enregistrer dans le balisage les acquis de l’analyse afin de pouvoir les exploiter pour fonder la suite des investigations, et d’autre part de se doter d’un mode de formalisation des résultats par l’élaboration de DTD qui synthétisent les choix descriptifs opérés. Transposition du principe de postbalisage sélectif à une autre recherche Parmi les travaux récents ou que des analystes de dictionnaires développent sans recourir à des structurations en XML, il me semble que certaines pourraient trouver quelques bénéfices à en utiliser. À titre d’exemple, je vais évoquer celles réalisées par Camille Martinez, l’un des contributeurs pressentis pour le numéro de la revue Lexique en préparation (D2, cf. Tdr3 (§ 2.6.1.)) Les analyses de Martinez (2009 et en préparation) relatives aux évolutions des textes du Petit Larousse et du Nouveau Petit Robert depuis quatorze ans, pour lesquels leur auteur revendique une filiation intellectuelle avec les études généalogiques de P. Corbin (1989b), donnent lieu à un découpage des articles et à une datation des segments textuels isolés. « [l]e texte du dictionnaire pourrait à terme être étiqueté par des datations fines et garder une trace des éléments supprimés. Si tel article ajouté dans le millésime 2010 et rédigé à cette occasion date effectivement de 2010, en revanche tel autre article du même millésime a très bien pu être introduit en 1998 et retouché en 2005, sans que cela transparaisse en 2010. Nous proposons donc de découper l’article de dictionnaire en segments textuels caractérisés par leur date d’apparition, auxquels nous ajouterions les segments textuels supprimés. Cette datation aurait pour but d’éviter de mauvaises interprétations du dictionnaire : considérer une définition du millésime 2010 comme une définition datant de 2010, c’est nous semble-t-il emprunter un raccourci hasardeux. » (Martinez, résumé joint à Tdr3 pour la soumission de D2) Aucune indication n’est fournie concernant les modalités techniques de ces annotations qui doivent enrichir les articles dont le texte a évolué. Or, celles-ci pourraient de manière tout à fait pertinente donner lieu à des balisages d’articles où chaque changement observé serait strictement délimité et annoté. Ainsi, par exemple, la modification apportée à un article de la page 318 du Petit Larousse 2007 pour l’élaboration du Petit Larousse 2008 que Martinez (2009, § 1.5.1.4.) décrit en ces termes : « Sur le reste de la page 318, un dernier changement est apporté. Dans le long développement encyclopédique de l’article cubisme, quelques mots sont supprimés. Le passage « Divers sculpteurs […] interprètent en trois dimensions les principes cubistes » devient « Divers sculpteurs […] interprètent les principes cubistes ». Cette suppression de trois mots se répercute de ligne en ligne jusqu’à la fin du paragraphe, mais n’entraîne aucun gain de ligne. » (Martinez (2009, § 1.5.1.4.)) pourrait très bien être balisée au moyen d’un élément comme <correction>, auquel serait associé un attribut @type qui permettrait d’indiquer qu’il s’agit d’une suppression et d’un attribut @millesime qui indiquerait dans quel millésime du Petit Larousse il est observé pour la première fois : Divers sculpteurs […] interprètent <correction type="suppression" millesime="2008">en trois dimensions</correction> les principes cubistes Document de synthèse – 2.2. Analyses structurelles 191 Annoter ainsi les articles qui ont évolué en plusieurs étapes permettrait en outre de cumuler les évolutions repérées, ce qui faciliterait l’observation des changements textuels sur lesquels les lexicographes sont revenus, auxquels Camille Martinez attache une importance particulière. Retour aux commentaires de mes travaux Les analyses qui sont présentées infra dans les §§ 2.3. à 2.5. n’abordent plus les articles par leur lecture structurelle et, quand elles articulent l’étude des modes de présentation de certaines propriétés et des composants d’articles où ceux-ci se réalisent, elles n’évoquent que très rarement d’éventuels balisages, préférant à l’occasion matérialiser les analyses structurelles par des schématisations comme des graphes 310, mais elles en ont souvent bénéficié. 310 Les analyses de composants étymologiques de T12, par exemple, sont illustrées par un balisage XML en figure 2 et par dix graphes en annexe. 2.3. Identification des unités linguistiques et de leurs différents emplois décrits dans les articles de dictionnaires Un premier ensemble de travaux est consacré à différents aspects de l’identification des unités linguistiques, essentiellement lexicales, donnant lieu à des traitements dans différents répertoires métalinguistiques, qu’il s’agisse de dictionnaires “de langue”, en principe entièrement dédiés à la description d’aspects du fonctionnement d’items du lexique, ou de dictionnaires “encyclopédiques”, qui y associent des fragments de savoirs non métalinguistiques. Ce qui est identifié comme unités linguistiques d’un idiome ne constitue pas une donnée pour les linguistes et les lexicographes, mais la résultante de leurs analyses, sujette à varier en fonction de celles-ci. Cette variation inhérente à l’activité métalinguistique est une des composantes de la différenciation des nomenclatures des dictionnaires, mais ce n’est pas la seule : s’y surajoutent en effet des considérations liées aux finalités différentes de ces répertoires, qui déterminent pour chacun d’eux des principes particuliers de sélection et de hiérarchisation des unités à prendre en compte, ainsi qu’à l’hybridation éventuelle du propos métalinguistique avec un discours encyclopédique et à l’importance relative accordée à ces deux composantes. Le cumul de ces différents filtres débouche sur des organisations textuelles de complexité variable, impliquant notamment des niveaux d’adressage hiérarchisés identifiables par des codifications plus ou moins discriminantes. Ces dispositifs sémiotiques supposent, de la part des utilisateurs des dictionnaires, la maîtrise de clés qui permettent de se repérer en leur sein pour accéder aux informations cherchées, ce qui ne constitue pas un savoirfaire trivial, puisqu’il nécessite d’identifier les adresses quel que soit leur niveau hiérarchique, d’interpréter celui-ci, de déterminer si leurs référents sont des unités linguistiques, et lesquelles, ou si ce sont des entités du monde, de circonscrire les différents emplois d’un item déterminé et d’apprécier la portée de chaque information fournie au sein d’un article donné. Motivation du plan retenu J’ai abordé plusieurs aspects de ces questions à travers différents travaux, associant constitution de ressources et rédactions diverses, qui portent – sur les principes de sélection des nomenclatures, qui, selon les projets éditoriaux, prennent en compte une large variété de critères, dont la diffusion de l’usage des items et la valorisation dont ils font l’objet, eux-mêmes en partie dépendants des référents dénotés (T24, cf. § 2.3.1.) ; 194 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – sur l’importance des modes de traitement des unités linguistiques, qui valorisent ou non leur appartenance aux nomenclatures (en tant qu’adresses principales, subordonnées ou microstructurelles), dans le cadre de la confrontation de celles de différents répertoires (Rbd5, cf. § 2.3.2.) ; – sur les principes de sélection des items auxquels des iconographies sont associées, qui dépendent assurément du support du répertoire (le nombre des illustrations pouvant varier entre un dictionnaire imprimé et sa version électronique), des modes de gestion des stocks iconographiques (une extension du nombre des iconographies dans une version électronique de dictionnaire imprimé pouvant se faire au moins en partie par la démultiplication des emplois de celles de l’édition source) et des mobiles des exploitations dictionnairiques de représentations iconographiques des référents dénotés par les unités linguistiques présentes à la nomenclature, dont en particulier leur usage pour illustrer la diversité des référents nommables par le même item, la polysémie d’une unité linguistique ou l’homographie de plusieurs d’entre elles (Rbd2, cf. § 2.3.3.) ; – sur les formes phoniques et graphiques des unités linguistiques : celles qui sont décrites (les formes canoniques et une sélection d’autres), mais aussi celles qui peuvent s’observer dans les usages (T23 et Tdr5, cf. §§ 2.3.4. et 2.3.6.) ; – sur les manières de présenter différents emplois d’une même unité linguistique, ceux-ci étant distingués par des propriétés syntaxiques et sémantiques (T9 et plus marginalement T17 § 3., cf. §§ 2.3.5. et 2.7.2.) ; – et sur les relations qu’un utilisateur de dictionnaire devrait pouvoir identifier entre ce qu’il rencontre dans le contexte d’emploi d’un item qu’il ne comprend pas et les indications fournies par le répertoire qu’il consulte pour résoudre son problème (Tdr5 et Rbd5, cf. §§ 2.3.6. et 2.3.2.). Les publications et les bases de données documentaires qui font l’objet des commentaires de ce § 2.3. abordent ainsi différentes questions afférentes à l’identification des unités linguistiques sélectionnées et traitées par les dictionnaires, sans qu’aucune les envisage conjointement. Leur réunion pourrait faire l’objet d’un livre que j’ambitionne de rédiger et dont de premiers éléments ont été écrits, mais qui n’a pas trouvé encore le temps nécessaire à son aboutissement. 2.3.1. Étude des principes de sélection de nomenclatures [T24 (à paraître a)] Lors de l’élaboration des dictionnaires, leurs concepteurs doivent constituer la liste des unités linguistiques à traiter, ce qui les conduit à opérer une sélection qui est indexée sur le projet du répertoire en chantier. T24 (à paraître a (rédigé avec Pierre Corbin)) cherche à déterminer quelles sont les positions assumées en la matière par ceux qui portent les projets dictionnairiques, celles qu’ils expriment dans les paratextes des ouvrages ou les publications dans lesquelles ils développent leurs positions théoriques 311. 311 Cette étude, en partie documentée par les données du corpus Rcorp12 (cf. § 1.4.3.), a par ailleurs donné lieu à la relecture de différents textes de lexicographes analysant leurs propres pratiques ou celles observables dans des répertoires dus à d’autres auteurs. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 195 Dans cette perspective, T24 examine les représentations du lexique français que proposent les dictionnaires généraux monolingues actuels en approchant cette question à travers les aspects quantitatifs et qualitatifs de la sélection de leurs nomenclatures. Ce choix conduit à accorder une attention particulière aux dictionnaires qui offrent les descriptions les plus amples et consistantes, et ainsi à privilégier les répertoires plurivolumes et les monovolumes les plus importants proposés par les trois éditeurs majeurs du domaine 312. Données quantitatives L’analyse des aspects quantitatifs de la question (§ 1.) permet de montrer, sur la base des décomptes de Martinez (2009) et de données stockées dans Rbd5, les difficultés de dénombrement et de comparaison des nomenclatures induites par les différences de traitement des unités linguistiques, qui peuvent soit constituer des adresses d’articles principaux ou subordonnés, soit figurer comme adresses microstructurelles (éventuellement non valorisées typographiquement) 313. Les observations faites à propos des tailles des nomenclatures au § 1. ramènent par ailleurs à un double constat déjà effectué par P. Corbin (2008a) et F. & P. Corbin (2008) : – la disparition des plurivolumes imprimés qui, mis à part le Dictionnaire culturel en langue française (cf. T24 n. 13), s’observe actuellement s’accompagne de la réduction des plus larges nomenclatures actualisées 314 à la limite des 60 000 unités, c’està-dire à la taille de celles des monovolumes de référence (Nouveau Petit Robert, Petit Larousse, Dictionnaire Hachette et Dixel) 315 ; – les versions électroniques de ces plurivolumes n’étant pas révisées, exception faite de celle de L’encyclopédie en ligne (http://www.larousse.fr/encyclopedie, cf. T24 n. 19), leurs nomenclatures risquent de perdre progressivement leur représentativité au regard des usages actuels. Outre l’amenuisement de la capacité des dictionnaires à répondre effectivement aux demandes documentaires qui motivent leur consultation 316, cette évolution commerciale me semble jouer négativement – chez les éditeurs, sur l’appréciation des besoins des usagers, qu’il ne faudrait pas indexer sur des contraintes matérielles d’édition de volumes imprimés (l’épaisseur maximale d’un volume devant rester dans des limites qui garantissent qu’il soit reliable puis manipulable) ; 312 Ceci constitue un angle d’approche complémentaire de celui mis en œuvre pour la base Rbd5 (cf. § 2.3.2.). 313 Pour une illustration des différents modes d’adressage, cf. § 2.3.2., où sont décrites les adresses subordonnées et microstructurelles présentes dans le Nouveau Petit Robert s.v. cheval, aux II. 314 Le Lexis (Larousse) compte 70 000 unités, mais sa nomenclature n’est pas actualisée (cf. T24 n. 90). 315 Le lexique de la langue “commune” est évalué dans différents paratextes dictionnairiques comme comptant entre 20 000 et 30 000 unités (cf. T24 n. 26). Un dictionnaire ayant une nomenclature de 60 000 items décrit donc entre 30 000 et 40 000 unités relevant d’espaces d’expression plus particuliers, ce qui est peu au regard de la diversité de ceux-ci. 316 Ce point est également abordé dans T17 (§ 2.7.2.) et il motive les recherches engagées à partir du corpus de textes de lectures destinées aux élèves du cycle 2 (Rcorp13), cf. §§ 1.6.1. et 2.3.6. 196 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – et chez les usagers, qui, s’ils expérimentent plusieurs fois le fait de ne pas trouver un mot qu’ils cherchent (dans un dictionnaire choisi de manière aléatoire le plus souvent), risquent de ne plus être enclins à faire l’effort d’utiliser ces ouvrages de référence et de préférer butiner sur Internet à la recherche d’éléments de réponses peut-être moins fiables (ce qui n’est pas certain) mais assurément présents, ce que nous indiquons, en conclusion de T24, en mentionnant la généralisation du recours à Wikipédia, qui semble être la plus naturellement consultée des sources documentaires sur Internet, bien que ce soit une encyclopédie et non un dictionnaire. Données qualitatives L’analyse qualitative des nomenclatures (§ 2.) ne prend en considération que les unités linguistiques qui entrent dans les ensembles au sujet desquels des discours sont régulièrement tenus, ce qui exclut les unités repérables par leur statut linguistique (éléments de formation, mots construits, unités déformées par siglaisons, abréviations, etc.), qui donnent lieu à peu de commentaires en dehors de répertoires comme le Robert brio (dont le paratexte leur accorde une place particulière), au profit d’unités concernant lesquelles il est plus usuel de tenir un propos axé sur leurs usages. La prise en compte des paratextes des dictionnaires et d’écrits métalexicographiques de lexicographes nous a conduits à envisager sous cet angle les sélections de nomenclatures successivement en fonction de paramètres temporels, spatiaux, sociaux, discursifs et thématiques (§§ 2.1. à 2.5.), qui recoupent plus ou moins des variables communément prises en compte par les lexicographes, éventuellement avec des dénominations un peu différentes 317. – Paramètres temporels Concernant les facteurs temporels de différenciation des usages lexicaux (§ 2.1.), l’accent est mis sur la dimension diachronique de nombre de dictionnaires dont la vocation première est synchronique, que les paratextes de grands dictionnaires de langue et certains textes de commentaire justifient par l’aide apportée à la bonne compréhension des textes classiques patrimoniaux qui restent vivants dans la culture collective par la médiation de l’école et des spectacles 318. L’attention se porte aussi sur un autre ensemble de répertoires, en intersection partielle avec le précédent, celui des dictionnaires en un volume qui connaissent une édition annuelle millésimée et pour lesquels c’est l’actualisation des nomenclatures qui est mise en avant, non sans un décalage entre son affichage publicitaire et sa mise en œuvre, nécessairement limitée par des contraintes éditoriales incontournables. 317 Dans la présentation de la première édition du Petit Robert, par exemple, Rey (1967 : XX-XXI) distinguait les variables « temps », « espace », « société », « fréquence » et « style », cette dernière correspondant à notre paramètre thématique (cf. T11 § 1.2.). 318 Le Grand Larousse de la langue française en sept volumes n’étant plus édité, le Grand Robert, demeure le principal représentant de cette valorisation de la place de la tradition littéraire dans la culture contemporaine (cf. Rey (1985 : XXII ou 1983 : 549), cité dans les nn. 34 et 35), alors que la vocation du Trésor de la langue française est plus spécifiquement de l’ordre d’une compilation moins sélective des richesses lexicales du patrimoine textuel des deux siècles écoulés. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 197 – Paramètres spatiaux Les options géolinguistiques des dictionnaires, évoquées au § 2.2., font l’objet d’une valorisation croissante dans leurs paratextes, qui n’est pas seulement motivée par l’intérêt linguistique accordé à ce paramètre (dont la prise en compte à grand échelle nécessiterait des études de terrain très méticuleuses, à la manière de celles effectuées par Rézeau dir. (2001)), mais est également déterminée par des choix de positionnement politique et commercial 319 au sein de l’espace francophone. Dans la pratique, la place faite aux francophonismes dans les nomenclatures de certains répertoires s’est accrue dans les deux dernières décennies 320, mais dans les limites d’un espace qui reste trop contingenté pour qu’ils puissent être représentatifs des usages des différentes communautés francophones, et les marquages diatopiques qui leur sont associés se bornent le plus souvent au nom du pays (ou, s’agissant du Québec, de la province) où ils sont employés, ce qui contraste avec ceux, sensiblement plus précis, des mots des régions hexagonales. Cette différence de précision dans la localisation des usages par rapport aux mots du français de France métropolitaine peut résulter d’une sélection d’items employés dans l’ensemble de chacune des aires francophones non françaises prises en compte plutôt que de régionalismes de ces espaces, et aussi d’un choix de marquages suffisamment approximatifs pour qu’ils soient interprétables par l’ensemble du public de France et des autres aires francophones. Dans cette dernière hypothèse, si de nombreux emplois du français de France peuvent être plus précisément marqués par leur région d’usage, c’est soit que les noms de ces régions sont réputés connus dans tout l’espace francophone contrairement à ceux des régions des autres aires, soit que les dictionnaires accordent à la France métropolitaine le privilège d’occuper une place centrale dans la francophonie prise en compte, ce qui peut être légitime pour des dictionnaires de langue générale vendus en France mais est de nature à susciter des réactions hors de France et à motiver que les représentants des autres espaces de langue française, et en particulier les Canadiens francophones, revendiquent la reconnaissance d’un français de référence distinct du français de France (cf. Poirier (2003 : 220), dont la requête est rapprochée d’un propos très accueillant de Rey (1983, n. 11) en n. 42). À lire le plaidoyer de Garnier (2005 : 248 et 2008 : 67) pour l’entrée de francophonismes, en nombre nécessairement limité, dans le Petit Larousse au motif que chacun des francophones sera confronté à des items d’un français qui ne relèvera pas de son aire linguistique – après que Rey-Debove (1998 : 278) eut pour sa part attiré l’attention sur le fait qu’un dictionnaire, à la différence d’un trésor, a vocation non pas à relever toutes les particularités des usages d’une langue mais à permettre l’intercompréhension des locuteurs qui sont susceptibles de communiquer ensemble –, il me semble que les points de vue de l’un et de l’autre sont indexés sur une limitation des sélections de nomenclatures dans les bornes que nous leur connaissons dans les monovolumes imprimés (soit 60 000 unités pour ceux qui sont millésimés). Il pourrait alternativement être envisagé que, dans la mesure où les dictionnaires sur support électronique 319 Les propos de Garnier (2005 et 2008) et de Catach (2000) repris par Martinez (2009) étayent ce point concernant les éditions Larousse et Le Robert. 320 Le Petit Larousse a fait une place aux canadianismes dès 1968 (millésime 1969), mais ils n’étaient alors que huit selon Boulanger (2002 : 210 et 2005 : 256-257). 198 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia ne connaissent en principe pas de limitation d’espace comparable à celle des volumes imprimés, ceux-ci, nécessairement plus sélectifs, privilégient les usages locaux alors que des éditions électroniques se montreraient plus accueillantes et témoigneraient de la richesse des parlers de la francophonie, voire même d’une plus grande attention aux variantes régionales des différents espaces francophones 321. Deux éléments semblent cependant indiquer que le projet d’éditions imprimées et électroniques différenciées par leurs modes de traitement des francophonismes est actuellement utopique : – d’une part, depuis plus de vingt ans que les éditions électroniques doivent libérer l’espace rédactionnel des lexicographes qui étaient jusque-là entravés par des contraintes de place, nous n’avons pas vu de créations électroniques qui auraient profité de cette liberté acquise pour augmenter les volumes des nomenclatures 322 ; – et d’autre part, il ne semble pas aisé de décrire les francophonismes en prenant en compte ceux de chaque aire linguistique pertinente 323 et en trouvant le moyen de valoriser les différences afin que les populations dont on décrit les usages propres puissent avoir l’impression qu’ils ne sont pas stigmatisés mais au contraire qu’ils sont considérés à parité avec les emplois plus partagés. 321 En France, les salons du livre régionaux et la diffusion régionale des « Dictionnaires du français » des éditions Bonneton témoignent de l’attachement de la population aux régions et aux usages régionaux. Si cette attitude n’est pas seulement française, les francophones pourraient trouver une certaine satisfaction à voir leurs particularismes locaux mieux pris en compte. 322 Les produits électroniques les plus innovants ont métissé des ressources existantes pour adjoindre des expressions ou des citations à des articles de facture classique. Ces créations ont nécessité des manipulations informatiques parfois complexes, mais elles n’ont eu qu’un faible coût en rédaction de descriptions nouvelles, contrairement à ce qu’impliquerait un élargissement de nomenclature. 323 Seule une coopération internationale semble pouvoir être en mesure de permettre à chaque aire linguistique d’être représentée, mais il faudrait également que les efforts de description réalisés pour les usages de chacune soient commensurable à l’importance de ce qui y est observable, ce qui est difficile à évaluer sans études de terrain minutieuses et alors que certaines se sont plus richement dotées que d’autres d’instances d’étude des usages locaux. La Base de données lexicographiques panfrancophone (http://www.bdlp.org/) est peut-être un exemple de projet de recensement effectué dans la perspective qui vient d’être évoquée. Patronnée par l’Agence universitaire de la Francophonie et développée sous la responsabilité de Claude Poirier, secondé par Michel Francard, elle fait suite au projet de Trésor des vocabulaires français imaginé par Bernard Quemada dans les années 1980. Lancée en mars 2001, pour une mise en ligne des premières données en mars 2004, – elle compile (au 25 mai 2010) des inventaires de français d’Acadie (520 fiches), d’Algérie (1 300), des Antilles (124), de Belgique (33), du Burundi (1 152), de Centrafrique (1 325), du Congo-Brazzaville (850), de Côte d’Ivoire (226), de France (202), de Louisiane (898), de Madagascar (264), du Maroc (854), de Maurice (202), de Nouvelle-Calédonie (455), du Québec (3 384), de La Réunion (1 581), du Rwanda (586), de Suisse (2 602) et du Tchad (970) ; – et elle est interrogeable par fiches entières trouvées à partir d’une forme graphique mentionnée dans l’inventaire d’une aire francophone ou, transversalement, au moyen de formulaires d’interrogation qui explorent conjointement les données de chaque inventaire local. Mais les disparités dans le nombre des items décrits pour des aires qui semblent comparables (comme par exemple la Belgique et la Suisse, pour lesquelles sont respectivement enregistrés 33 et 2 602 items) semblent indiquer que les efforts de relevé et de description ne sont pas du même ordre pour chacune. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 199 – Paramètres sociaux Le développement consacré à la variation sociale des usages (§ 2.3.) constate la discrétion des paratextes dictionnairiques actuels concernant son rôle dans la sélection des nomenclatures et s’interroge sur ses causes. Une première hypothèse pourrait être que ce facteur est moins déterminant qu’antérieurement, les évolutions sociologiques et les mutations technologiques en matière de communication ayant érodé certains cloisonnements sociaux et troublé les repères antérieurs, ce qu’exprime, à partir des années 1980, la diffusion, du Robert à Larousse, d’une réflexion critique sur la pertinence de la caractérisation d’usages comme “populaires” 324. D’autres explications pourraient être que la caractérisation diastratique des usages ne va pas sans poser de problèmes théoriques et pratiques, ou que certains de ceux qui peuvent être observés sont perçus comme trop instables pour être intégrés durablement dans la nomenclature de dictionnaires généraux. Mais on peut également se demander dans quelle mesure la requalification diaphasique, en termes de “familiarité”, de beaucoup d’usages lexicaux antérieurement considérés comme “populaires” n’a pas induit une désaffection plus globale à l’égard des considérations diastratiques, qu’elle prenne la forme des interrogations de Rey (1983 : 564) sur leur utilité lexicographique (cf. n. 67) ou se manifeste par l’absence d’évocation de groupes sociaux identifiables dans la société actuelle qui soient susceptibles de partager des usages lexicaux typiques. – Paramètres discursifs S’agissant des conditions énonciatives qui peuvent déterminer des variations des usages lexicaux, une ambition typologique peut être de distinguer le rôle de plusieurs facteurs, comme le médium oral ou écrit, le contrôle de la formalité discursive ou le type textuel des énonciations, ce que Hausmann (1989 : 651) assigne aux trois variables « Medialität », « Formalität » et « Textsorte » 325. Cette finesse classificatrice suppose toutefois des moyens dont la lexicographie du français ne dispose pas, et le recours à ceux qui lui sont accessibles ne va pas sans introduire certaines limites ni induire certains biais dans la qualification discursive des usages, dont le § 2.4. donne un aperçu. Les ressources documentaires de la lexicographie française sont très généralement écrites, même quand il s’agit d’attester des faits présentés comme représentatifs de l’oral, ce qui ne crée pas les conditions appropriées à la discrimination de ce qui ressortit à la variable diamédiale. Face au silence des paratextes des dictionnaires généraux sur ce point, c’est la « Présentation » d’un répertoire dédié aux « expressions quotidiennes », celui de Bernet & Rézeau (2008), qui analyse lucidement les inflexions descriptives que peut entraîner cette contingence documentaire. Parmi ces ressources écrites, les sources littéraires, du fait de leur accessibilité comme de leur importance dans la culture française, restent d’un grand poids dans la documentation des dictionnaires de langue de référence, avec une vocation de matériau à toutes fins (cf. n. 75) assumée notamment par Rey (1983 : 545 et 1995 : 17), qui y voit un réservoir de « la plus grande variété d’usages » (1985 : XXXVIII), ce qui a pour 324 Cf., respectivement, Rey (1983 : 557, 564 et 1985 : XL (« Présentation de la deuxième édition » du Grand Robert)), et, en 1993, la préface (p. VII) du Dictionnaire général Larousse (cf. T11 § 1.3. (§ 2.4.1.)). 325 Cf. infra § 2.4. pour une présentation globale de la grille des marquages d’usages de Hausmann (1989). 200 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia contrepartie qu’elles ne soient typiques d’aucun usage particulier et pour corrélat que le marquage de certains emplois comme “littéraires” ne spécifie pas tant l’appartenance à une classe de discours que l’observance de conventions de formalité 326. En tant que possible alternative documentaire, la presse écrite n’apparaît pas comme un contrepoids très sûr dans l’équilibrage des usages observés, soit que, comme par exemple dans le Nouveau Petit Robert, son utilisation, d’après certains indices (cf. n. 77), paraisse relativement restreinte, soit que, comme pour le DAFLES, rebaptisé Base lexicale du français, la commodité du recours exclusif à des journaux d’un certain type dont l’exploitation électronique vise à dégager les usages lexicaux les plus usuels induise des surreprésentations et des sous-représentations de certains items. Quant à Internet, ressource discursive inépuisable autant qu’hétérogène et délicate à exploiter, son utilisation pour l’élaboration de dictionnaires généraux est aussi avérée que les paratextes de ceux-ci sont discrets à son sujet, et ici encore c’est au dictionnaire spécialisé de Bernet & Rézeau (2008) que revient l’initiative d’aborder explicitement le sujet. Eu égard aux contingences documentaires qui sont les siennes, la lexicographie générale française actuelle ne paraît donc guère en mesure, en matière d’appréciation des variations des usages lexicaux liées aux circonstances énonciatives, d’aller beaucoup plus loin que des considérations diaphasiques assez générales dont le couple antagonique “familier” / “soutenu” constitue l’armature, chaque dictionnaire modulant l’équilibrage de ses deux termes en fonction de son identité propre. – Paramètres thématiques Concernant enfin les dimensions thématiques des sélections de nomenclatures, le § 2.5. se fait l’écho de discours relatifs à l’importance des vocabulaires spécialisés, dans l’absolu, où leur ordre de grandeur défie les comptages 327, mais aussi dans les nomenclatures des plus grands dictionnaires (comme le Grand dictionnaire encyclopédique Larousse de 1982-1985 et le Grand Robert), et aux principes qui doivent régir la sélection de sous-ensembles de ces vocabulaires dans les dictionnaires généraux de diverses dimensions. Une attention particulière est portée à la crainte formulée par Rey (1985 : XXIV) de voir les utilisateurs se perdre dans des nomenclatures trop fournies, sans doute fondée concernant les répertoires imprimés, mais qui d’une part perd de son actualité du fait de la réduction de l’offre en fonction de l’évolution du marché qui a été évoquée précédemment, et d’autre part semble ne pas avoir de réelle pertinence dans l’espace des éditions électroniques, où les usagers ne sont jamais confrontés 326 Selon le « Tableau des signes conventionnels, conventions et abréviations » du Grand Robert (2001), la marque littér. « désigne un mot qui n’est pas d’usage familier, qui s’emploie surtout dans l’usage écrit et soutenu » (p. LI). Il n’en va pas de même de la marque poét., qui, elle, a bien une valeur diatextuelle, mais qui ne concerne qu’un nombre limité de mots localisés dans un ensemble fini de textes spécifiés : « mot ou emploi appartenant à l’usage littéraire […], utilisé notamment en poésie, surtout dans la poésie classique et postclassique, où la hiérarchie des genres entraîne des spécialisations lexicales » (p. LIII). 327 Les responsables de dictionnaires de grande envergure qui ont été confrontés à ces vocabulaires surenchérissent volontiers concernant leur ampleur, de Dubois (1990 : 1579) évoquant « pour les seuls insectes […] plus d’un million d’espèces dénommées ! » à Rey (2007 : 311) faisant état, pour un de leurs sous-ensembles, de « deux mille espèces de formicidés ». Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 201 à de grandes pages foisonnant d’articles et où il est possible de jouer sur des affichages variés pour la valorisation d’informations dans chaque article consulté. Au-delà de ce qu’expose T24, on peut aussi observer que, quelles que soient les thématiques représentées dans les dictionnaires, leurs paratextes ne sont guère explicites au sujet des modes d’échantillonnage retenus pour sélectionner les items intégrés à la nomenclature, ni concernant les types d’énoncés dans lesquels ces items sont susceptibles d’être rencontrés. On peut imaginer, cependant, que les lexicographes sont susceptibles de faire jouer trois critères selon des modalités variables : – un critère linguistique, un item ayant sa place dans le dictionnaire s’il a par ailleurs des spécificités étymologiques 328, morphologiques, sémantiques ou d’une autre nature qui peuvent être jugées utiles à faire connaître aux destinataires du répertoire ; – un critère de fréquence, un item n’étant retenu que s’il a de bonnes chances d’être rencontré par les utilisateurs du dictionnaire : ce mode de sélection implique d’évaluer l’usualité des items dans les discours auxquels ces personnes peuvent être confrontées, ce qui, faute de mieux, est souvent fait de manière intuitive 329 ; – et un critère de représentativité, comparable à celui qui peut être à l’œuvre dans des descriptions dictionnairiques de classes ontologiques 330, au sein desquelles figurent souvent quelques exemples d’espèces qui en relèvent. Au sujet des typages des discours, il suffit d’être un observateur attentif pour constater que le personnel hospitalier ne parle pas aux malades comme en salle de repos ni comme avec les médecins en visite, ou que ce qui s’entend dans les commentaires sportifs n’est pas ce qui se dit dans les gradins, qui diffère aussi des propos échangés dans les vestiaires, ce que les marquages des dictionnaires n’expriment pas. Il pourrait y avoir quelque intérêt à évaluer s’il serait pertinent que les descriptions lexicographiques prennent en compte une partie au moins des travaux relatifs aux typages des discours comme ceux de Biber (1988, 1995) 331, qui ont connu une certaine diffusion en particulier il y a une dizaine d’année avec la promotion des corpus électroniques dont on souhaitait qu’ils soient “représentatifs” 332. 328 Par exemple le fait d’être un emprunt, comme navicert, ou un nom de marque lexicalisé, comme volucompteur. 329 Les éditeurs français ne recourant généralement pas à des corpus, le faire pour évaluer les fréquences des items des domaines thématiques nécessiterait pour eux d’en constituer ou d’en acquérir pour cet usage spécifique, ce qui serait coûteux. Les recherches que j’ai entreprises relativement aux corpus à haut rendement (cf. l’introduction du § 1.3. et T3, T4 et T5 (§§ 1.3.1. à 1.3.3.)) avaient justement vocation à contribuer à la documentation de leur réflexion en définissant des modalités de constitution de corpus thématiques présentant le meilleur rapport coût / rentabilité. 330 Ces descriptions de classes ontologiques peuvent être textuelles ou présentées sous formes de planches paratextuelles. Dans le second cas, il peut s’agir de classifications hiérarchiques, comme celle à six niveaux proposée pour les mammifères dans le Lexis (p. 1096 de l’édition de 2009), ou de schémas ou de planches iconographiques éventuellement enrichis de dispositifs de pointage permettant d’introduire des éléments terminologiques, comme cela est fait dans le même répertoire pour le « bétail [de] boucherie » (p. 184). 331 Ces travaux ont déjà été évoqués quand j’ai abordé les questions de sélection d’énoncés à haut rendement pour la constitution de corpus (cf. § 1.3.). 332 Pour être qualifié de “représentatif ” un corpus doit contenir des quantités bien pondérées de différents types de discours. Cette qualité est reconnue au British National Corpus, mais aucune réalisation comparable n’a vu le jour en France (cf. T2 et § 1.2.2.). 202 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Pour conclure T24 est le seul de mes articles de métalexicographie analytique qui fonde son propos sur ce que les auteurs ou d’autres analystes ont indiqué concernant les principes de sélection de nomenclatures plus que sur l’étude des textes dictionnairiques eux-mêmes. La présence de son commentaire en introduction de la section consacrée à une pluralité de travaux qui concernent la détermination des unités linguistiques traitées par les dictionnaires présente l’intérêt de poser les principes de choix des éditeurs avant d’entrer dans des études de la mise en œuvre de ces choix : analyses des modes d’adressage des unités linguistiques sélectionnées et de ce qu’offrent les dictionnaires pour expliciter quelles sont les unités et les emplois de celles-ci qu’ils traitent. 2.3.2. Comparaison de nomenclatures à partir des formes graphiques en adresses macro- et microstructurelles [Rbd5] Étudier les unités linguistiques traitées dans les dictionnaires présuppose de savoir quelles sont celles qui le sont. Or, bien que cette question soit fondamentale, y répondre n’est pas simple. Afin de me construire une meilleure représentation des sélections de nomenclature opérées par les responsables de projets éditoriaux et des modes de traitement des unités retenues, j’ai engagé la création d’une base de données (Rbd5) compilant les unités linguistiques traitées dans un sous-ensemble de dictionnaires et leurs modes d’adressage. La réunion de ces données au sein d’une base SQL permet – de disposer des unités présentes dans les nomenclatures des dictionnaires, en commençant par leurs sous-ensembles les plus accessibles (celles qui donnent lieu à des adressages aisément repérables) pour augmenter ensuite progressivement l’inventaire ; – et à terme de pouvoir manipuler l’ensemble des items informatiquement (pour constituer des sous-listes, des tris, des comparaisons,…), ce qui constitue un préalable à des études en vraie grandeur sur les choix lexicaux des lexicographes. Ce mode de traitement des nomenclatures n’est pas très frayé 333, probablement parce que l’ordre de grandeur des données sur lesquelles il s’agit de travailler peut faire préférer les échantillonnages, mais je l’ai adopté parce qu’il me semble non seulement fructueux mais également plus praticable qu’on ne pourrait peut-être l’imaginer, en tout cas en s’en tenant à des répertoires dont la nomenclature est de taille raisonnable, comme les dictionnaires scolaires, ou qui sont disponibles en version électronique, comme le Nouveau Petit Robert (dont la liste des entrées est exportable par sous-ensembles dans l’édition de 2001), et/ou en adoptant certaines stratégies ad hoc : par exemple, l’observation de points communs entre les principes de sélection et de traitement des unités linguistiques figurant aux nomenclatures des sections alphabétiques A et B des dictionnaires Hachette pour les cycles 3 et 2 aurait permis d’envisager de cons- 333 Une importante exception récente est fournie par Martinez (2009), qui, pour ses investigations sur les variations orthographiques, exploite l’intégralité de la nomenclature macrostructurelle des éditions étudiées du Petit Larousse illustré et du Nouveau Petit Robert. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 203 tituer l’inventaire des unités lexicales du répertoire pour le cycle 2 à partir de celui concernant le cycle 3 si le premier n’avait pas déjà été effectué de manière indépendante. La base Rbd5 et les étapes de sa création sont présentées infra, après quelques exemples illustrant les problèmes auxquels on est confronté quand on étudie les nomenclatures des dictionnaires. Exemples de difficultés de détermination des unités linguistiques traitées Les dictionnaires sont structurés en blocs textuels, les articles, qui ont des adresses constituées de séquences graphiques représentant des unités linguistiques et qui enchâssent éventuellement des articles subordonnés eux-mêmes introduits par des items en adresses qui entretiennent avec l’item en adresse principale une relation de nature le plus souvent morphologique ou syntaxique (items construits sur ce dernier, groupes syntaxiques le contenant). Les unités ainsi mentionnées en adresses dites “macrostructurelles”, qu’elles soient de premier niveau ou enchâssées, reçoivent une mise en forme typographique qui les distingue et facilite le repérage du début de leur description, celle-ci leur étant normalement postposée. Mais d’autres unités sont introduites plus discrètement, en particulier au sein des contextualisations des premières, sans y faire toujours l’objet d’une valorisation typographique, et peuvent donner lieu à description, en particulier sémantique par le biais de gloses de contextualisations, 334 sans pour autant figurer nécessairement dans la liste des entrées des versions électroniques. Ceux qui lisent des articles de dictionnaires ne trouvent donc l’ensemble des unités traitées qu’à condition de bien veiller à analyser les différentes valeurs de chaque segment de texte, sans se limiter aux items des composants d’adressage macrostructurels. Les analystes de textes dictionnairiques, similairement, ne peuvent effectuer le relevé des unités traitées qu’en prenant en compte les nomenclatures principale et subordonnée mais aussi les adresses microstructurelles, dont l’identification n’est pas toujours aisée 335. Ce problème me semble particulièrement bien illustrable à partir d’unités polylexicales décrites dans le Nouveau Petit Robert : selon que l’on consulte la liste des entrées 334 Les deux exemples suivants illustrent certaines des formes que peuvent prendre, parmi d’autres, ces adressages dits “microstructurels” (dont une typologie méthodique est proposée par Hausmann & Wiegand (1989, § 8.)) : (i) la locution à l’abandon est décrite dans toutes les éditions du Robert junior s.v. abandon 3., où elle est introduite dans une contextualisation et expliquée par la glose de celle-ci, mais elle ne fait pas l’objet d’une valorisation typographique : « Un jardin à l’abandon, dont on ne s’occupe plus. » ; (ii) la locution afin que est décrite dans le Dictionnaire Hachette benjamin s.v. afin, où elle est également introduite dans une contextualisation, mais l’item y est valorisé et elle est précédée de la définition de celui-ci (ce qui n’est pas une configuration courante) : « Dans le but. Papa a fermé la fenêtre afin que le chat ne sorte pas pendant la nuit. ». Selon les types d’informations fournies pour chaque unité traitée, le repérage de ces adresses insérées au cœur des articles peut être d’une complexité variable : dans un dictionnaire monolingue, la prise en charge microstructurelle d’un item peut se limiter à suggérer son existence par sa seule mention, éventuellement au sein d’une séquence d’éléments en italique dont certains ne seront que de banales contextualisations (c’est l’« adressage zéro » dans les termes de Hausmann & Wiegand (1989 : 310)), alors que dans un bilingue la présence au moins d’un équivalent traductionnel semble indispensable. 335 Si l’absence de valorisation typographique empêche de les repérer lors d’une lecture rapide des articles, c’est alors la forme textuelle des informations qui peuvent leur être associées ou le fait que certaines séquences semblent plus figées ou plus usuelles que d’autres qui détermine leur repérage comme unités traitées. 204 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia ou celle des composés présentées l’une et l’autre en marge gauche ou que l’on effectue une recherche d’item décrit à partir d’une forme phonique ou graphique, les unités accessibles ne sont que partiellement les mêmes. J’ai par exemple évoqué dans T23 des variations affectant les unités polylexicales décrites s.v. cheval, aux, qui méritent d’être exposées ici pour une sélection plus large de ces unités afin de bien expliciter les différences de traitement observées et la difficulté qu’il peut y avoir à déterminer ce qui doit être décompté pour reconstituer les nomenclatures macro- et microstructurelles. La subdivision II. de l’article cheval, aux (cf. figure 44) réunit par exemple : – des items écrits en petites majuscules (en brun ou en noir, sans que cette différenciation soit pertinente pour le propos) et insérés ou non dans un contexte plus large (cidessous : cheval de bois, cheval d’arçons, cheval de Troie, petits chevaux, cheval-vapeur et cheval – le premier et le troisième ne figurant pas dans la liste des entrées en marge gauche mais dans celle des composés, et le dernier, de même forme que l’adresse principale (limitée à son lemme), ne figurant dans aucune, probablement du fait de cette homographie) ; – des items écrits en italique et éventuellement précédés d’un numéro de subdivision ou insérés dans un contexte plus large (ci-dessous : chevaux de bois, cheval de frise, cheval fiscal, deux-chevaux, 2 CV, deuche et deudeuche – le deuxième, le quatrième et les deux derniers figurant dans la liste des entrées, le troisième dans celle des composés, et les deux autres ne figurant dans aucune liste) ; Figure 44. Extrait de l’article cheval, aux du Nouveau Petit Robert électronique millésime 2009 Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 205 – des abréviations (écrites en brun) des unités polylexicales qui sont l’objet du propos (ci-dessus : Ch (abrégeant cheval-vapeur) et CV (cheval fiscal) – présentes dans la liste des entrées). La copie de cet article et la conversion de son balisage HTML en XML (cf. n. 226) donnent accès aux codes associés par l’éditeur à chacun des items précédents et permettent de voir qu’ils sont traités de manière hétérogène, enchâssés directement dans des éléments <s_xpl>, <s_xpc> et <s_enc> ou dans des inclusions des uns dans les autres. Par exemple, 2 CV figure dans le contenu textuel de l’élément <s_xpl> alors que deux-chevaux constitue le contenu d’un sous-élément <s_enc> enchâssé dans le premier : <s_xpl>Une <s_enc>deux(-)chevaux</s_enc> Citroën, une 2 CV […]</s_xpl> Il serait trop long de détailler ici l’ensemble des configurations observées, mais elles permettent de voir que, si les éléments <s_xpc> et <s_enc>, quand ils ne contiennent que du texte, semblent être de bons candidats pour le balisage d’unités linguistiques appartenant à la nomenclature, les contenus textuels des éléments <s_xpl> doivent être considérés individuellement, et éventuellement par sous-segments textuels, afin d’y repérer des unités (comme 2 CV 336, à isoler dans le balisage ci-dessus) décrites ou simplement mentionnées. L’identification des unités linguistiques décrites doit par ailleurs tenir compte du fait que les choix de traitement lexicographique ne sont pas nécessairement indexés sur des analyses linguistiques : la distinction classique entre homonymes et acceptions d’un item polysémique n’est pas toujours appréciée de la même manière et des mots ou affixes qui partagent la même forme graphique canonique peuvent être traités de deux façons (dans des dictionnaires différents mais aussi dans un même répertoire) : – sous une même adresse principale, soit dans différentes subdivisions d’un seul article (cf. -carpe ci-dessous), soit, en particulier en cas de changement de catégorie, l’un dans l’article principal et le ou les autre(s) dans un ou des article(s) subordonné(s) : -carpe 1. Élément, du gr. karpos « fruit » : endocarpe, péricarpe. 2. Élément, du gr. karpos « poignet » : métacarpe. (Nouveau Petit Robert électronique millésime 2009, s.v. -carpe) – ou dans des articles successifs (dont les adresses sont alors souvent précédées d’un ordonnateur d’homographes) : 1. aÉlément, du latin ad, marquant la direction, le but à atteindre, ou le passage d’un état à un autre (var. ad-; ac-, af-, ag-, al-, an-, ar-, as-, at-) : amener, alunir, adoucir. ➙ à. (Nouveau Petit Robert électronique millésime 2009, s.v. 1. a-) 336 Il ne semble pas que ce mode de traitement particulier soit motivé par le fait que 2 CV n’est qu’une unité graphique, qui se prononce comme deux(-)chevaux, ce que tend à confirmer par exemple l’observation du fait que Ch, qui a des caractéristiques phonographiques de même ordre que 2 CV, fait l’objet, lui, d’un balisage spécifique : <s_enc>Ch</s_enc>. 206 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia 2. aÉlément tiré du gr. exprimant la négation (« pas »), ou la privation (« sans »), et dit a privatif (var. an- devant voyelle) : anaérobie, apolitique. (Nouveau Petit Robert électronique millésime 2009, s.v. 2. a-) Le choix de traitement ne repose pas nécessairement sur les seules propriétés linguistiques des unités décrites, mais peut prendre en compte des critères de lisibilité liés au projet dictionnairique et dont l’appréciation peut comporter une part de subjectivité. 337 Dans le cadre d’une aide à la compréhension des unités linguistiques décrites, le regroupement sous une seule adresse graphique peut être jugé plus simple, puisqu’il délimite clairement l’espace au sein duquel la réponse peut être trouvée (mais ceci fait qu’il en implique la lecture), ou au contraire plus complexe, si le lecteur est susceptible de savoir identifier la nature grammaticale de l’item ou des éléments syntaxiques ou sémantiques, voire étymologiques, qui lui permettent de choisir entre les différentes descriptions proposées dans les articles successifs. Enfin, une fois que les formes (canoniques ou non) des unités en adresses macro- et microstructurelles sont repérées et que leurs traitements sont localisés, la détermination de ce qui est décrit implique de comprendre la portée des indications fournies. Rbd5 : une base de recensement des unités linguistiques des nomenclatures Quand un usager consulte un dictionnaire pour comprendre un mot qu’il rencontre par ailleurs, le dictionnaire peut répondre à son besoin, mais les indications qu’il fournit ne sont que rarement confrontées avec celles d’un autre répertoire 338. En revanche, dans le cadre d’une pratique métalexicographique, il est naturel que l’on compare les nomenclatures des répertoires étudiés. Quand cette comparaison ne se limite pas à celle de la forme graphique des items en adresses, mais qu’elle prend en compte les formes graphiques et phoniques des unités linguistiques traitées, les indications catégorielles disponibles ou spéculées et la valeur des acceptions décrites (les emplois, définis par le sens et par les constructions dans lesquelles l’unité s’intègre), l’entreprise est d’une tout autre difficulté. Les investigations que j’ai réalisées en la matière ont composé avec cette difficulté à déterminer ce qui est traité au sein des articles, limitant prudemment la précision de mon propos à ce qui est connaissable à partir des principes d’adressage et de traitement des dictionnaires examinés. C’est ainsi que les bases de données élaborées dans le cadre de l’analyse des utilisations d’iconographies dans le Robert junior (Rbd2), des 337 Dans quelques cas, une variation de genre, comme celle observable pour des items comme sorcier et sorcière, par exemple, est corrélée à une spécialisation des caractéristiques des référents en fonction de leur sexe que les dictionnaires peuvent vouloir valoriser ou non. Deux répertoires pour le cycle 2 (le Dictionnaire Hachette benjamin et le Larousse des débutants) traitent les deux items précédents comme des mots distincts décrits chacun dans un article, alors que le Robert benjamin comme les répertoires pour le cycle 3 des trois éditeurs proposent un seul article. Ces variations de choix de traitement ne facilitent ni les développements de modules d’hyperappel de dictionnaires (comme celui que pourrait documenter le travail d’annotation réalisé sur le corpus de textes de lecture de CE1 Rcorp13, cf. T20, § 4. point 6) (§ 1.6.1.)), ni le déroulement d’exercices réalisés en classe de CE1, puisque, parmi les élèves qui trouveraient sorcière dans leur dictionnaire, certains le localiseraient s.v. sorcier et d’autres s.v. sorcière (cf. nn. 410 et 564). 338 Ceci peut néanmoins se produire en cas de recherches successives, par exemple si les premières ont apporté des réponses décevantes, ou simultanées, en particulier dans les contextes scolaires (cf. n. 337). Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 207 spécifications d’emplois linguistiquement marqués (Rbd3), des études d’informations étymologiques et historiques (Rbd4) et même, plus récemment, des observations de mots marqués comme relevant du “parler enfantin” (Rbd6) utilisent les adresses macrostructurelles des dictionnaires au sein desquels les relevés ont été opérés (éventuellement associées à des indicateurs catégoriels et/ou sémantiques en cas d’homographie) pour identifier les unités linguistiques à propos desquelles les informations sont formulées. En 2008, la rédaction de T17 servant probablement de catalyseur, j’ai engagé la constitution d’une base des nomenclatures (Rbd5) qui doit me permettre de réunir les relevés des nomenclatures macrostructurelles principale et subordonnée des dictionnaires monolingues pour les cycles 2 et 3 de l’enseignement primaire (voire du collège) 339 et du Nouveau Petit Robert, puis s’enrichir des adresses microstructurelles des premiers et d’identificateurs 340 des acceptions retenues par chaque répertoire scolaire pour chaque unité linguistique prise en compte 341. L’un des objectifs de cette entreprise est de pouvoir évaluer sur des bases concrètes ce qui est proposé dans les dictionnaires en fonction des publics destinataires, d’être en mesure de comparer les sélections de nomenclature des répertoires qui occupent un même segment de marché et d’avoir les moyens de confronter les unités linguistiques traitées dans les répertoires et ce que les élèves de l’enseignement primaire ou secondaire rencontrent dans leurs lectures scolaires (cf. T20 (§ 1.6.1.)) ou périscolaires. Si les données attestées dans des corpus de lectures comme Rcorp13 montrent, comme j’en fais l’hypothèse sur la base de plusieurs sondages, que les unités linguistiques que les élèves ont besoin de savoir interpréter sont plus nombreuses que celles des dictionnaires scolaires 342 (cf. T17 § 3.1. (§ 2.7.2.)), il conviendra de prendre en compte les nomenclatures des répertoires du segment de marché qui est juste au-dessus, les dic- 339 Il n’existe pas sur le marché français de dictionnaire monolingue général spécifiquement destiné aux élèves du lycée ou de l’enseignement supérieur. 340 Il s’agit d’indications syntaxico-sémantiques minimales, qui, dans un dictionnaire électronique modulaire, pourraient figurer comme sélecteurs d’acceptions – d’une part dans un affichage du plan de l’article donnant un accès par des liens à chaque subdivision de celui-ci ; – et d’autre part dans le cadre d’un mode de consultation onomasiologique fondé sur un réseau reliant les descriptions d’items relevant des mêmes rubriques thématiques (cf. T17 § 3.2.2.1.). 341 Les adresses microstructurelles du Nouveau Petit Robert ne sont pas toutes identifiables aisément et sont trop nombreuses pour être relevées manuellement, et les délimitations des descriptions d’acceptions y sont beaucoup plus complexes que dans les dictionnaires scolaires, ce qui m’incite à différer leur relevé. 342 Les nomenclatures macrostructurelles des dictionnaires destinés aux élèves du cycle 3 avoisinent 20 000 items, d’après les paratextes de ces répertoires. Elles comptent donc plus d’unités linguistiques que le vocabulaire actif de ces écoliers. Mais ce n’est peut-être pas suffisant. En effet, – si les élèves peuvent choisir de ne s’exprimer qu’en employant des mots qu’ils connaissent, il ne leur est pas possible de circonscrire le lexique des énoncés qu’ils sont amenés à lire ou à entendre ; – et si les dictionnaires qu’ils sont susceptibles de consulter ne décrivent que 20 000 items, ils excluent une part, peut-être assez large, de ceux que les élèves rencontrent mais ne connaissent pas. Il en résulte que ceux-ci, dont les connaissances sont par ailleurs inégales, trouvent mieux dans leurs dictionnaires les items qu’ils connaissent, et qui donc ne motivent pas leur consultation, que ceux qui sont susceptibles de poser des problèmes de compréhension ou de réemploi à bon escient, qui tendent, eux, à y être moins assurément expliqués. 208 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia tionnaires de milieu de gammes 343 (ou “médians”) 344, qui incluent ceux destinés aux collégiens (cf. nn. 391 et 392), voire le relevé de toutes les adresses du Nouveau Petit Robert. Cette extension doit permettre d’évaluer si une nomenclature d’une richesse comparable à celles des médians ou du dernier répertoire rendrait de meilleurs services c’est-à-dire si elle remédierait au silence lexicographique trop souvent patent dans le cadre de l’aide à la compréhension, sans souci du bruit induit par des répertoires comportant des mots étrangers aux rencontres potentielles des élèves, qui n’accéderaient qu’aux descriptions d’unités linguistiques pour lesquelles ils engageraient une consultation dictionnairique. Pour l’heure, l’inventaire des items présentés dans la liste des entrées du Nouveau Petit Robert 345 a donné sa matière initiale à la liste de référence des couples de formes graphiques et catégorisations grammaticales 346 sur laquelle se fonde celle des unités linguistiques traitées. Celle-ci se constitue progressivement par diverses voies : 347 343 Cette dénomination est corrélée à la position des ouvrages réunis dans les gammes des produits proposés par les éditeurs. Ces dictionnaires ont des nomenclatures comprises entre 35 000 et 40 000 entrées et ils partagent diverses propriétés physiques et marchandes. 344 En fonction de la disponibilité de versions électroniques, le choix s’orienterait prioritairement vers – le Larousse pratique de 2003, qui, enrichi d’une nomenclature de noms propres, est actuellement commercialisé en version imprimée en tant que Maxipoche 2011, dont le texte constitue depuis 2005 l’un des modules du Larousse illico multidictionnaire français (cf. n. 281) et dont une version gratuite est consultable parmi celles d’autres répertoires sur le site TheFreeDictionary (http://fr.thefreedictionary.com/), où chaque article est suivi de la mention « Larousse Pratique. © 2005 Editions Larousse », ce qui ne correspond pas à un copyright de version imprimée (cf. T17 nn. 72 et 74) ; – le Dictionnaire pratique du français (Hachette, 1987), qui a connu diverses éditions imprimées sous différents titres jusqu’en 2001 (où il paraissait comme Dictionnaire Hachette langue française) et qui a été publié pendant plusieurs années sur le CD-ROM Dictionnaire Hachette. Langue française & synonymes à partir de 2001 (cf. T17 n. 81) ; – le dictionnaire msn.encarta, un peu plus important que les médians (avec ses 50 000 unités principales présumées), accessible en ligne (http://fr.encarta.msn.com/encnet/features/dictionary/dictionaryhome.aspx) et qui donne accès à toutes ses adresses, celles-ci connaissant un traitement comparable quelles qu’elles soient. 345 Les unités linguistiques présentes dans la liste des entrées ne constituent qu’une partie de la nomenclature du Nouveau Petit Robert, l’autre partie trouvant sa matière dans ce qui n’y figure pas : – d’une part les adresses subordonnées et microstructurelles déjà évoquées (cf. supra les observations formulées à propos de l’article cheval, aux) ; – mais aussi certaines recatégorisations (comme celle de la forme na, qui ne figure qu’au titre de l’interjection dans la liste des entrées, mais pour laquelle l’article na contient successivement les descriptions de l’interjection et du substantif ). 346 Les items associés à plusieurs catégorisations dans la liste des entrées ont été traités en fonction de ces étiquetages. Ainsi sur les 1 067 entrées dont la première lettre est un N, 130 font l’objet d’une double catégorisation liminaire et 2 d’une triple, ce qui a fourni 1 201 (1 067 + 130 + 4) unités linguistiques en N catégorisées dans la liste de référence. Comme indiqué dans la note précédente, ces catégorisations multiples ne couvrent qu’une partie des changements de catégorie pris en compte dans les articles. 347 Dans les exemples ci-après, je me limiterai à la comparaison des nomenclatures du Nouveau Petit Robert et des dictionnaires Hachette pour les cycles 2 et 3 de l’école primaire (le Dictionnaire Hachette benjamin et le Dictionnaire Hachette junior), le premier scolaire étant celui qui est exploité pour l’annotation du corpus Rcorp13 (cf. T20 (§ 1.6.1.)) et dont Tdr5 (cf. § 2.3.6.) évalue qualitativement les descriptions d’emplois en considérant leur capacité à éclairer la compréhension des items dans les contextes dans lesquels ils sont attestés dans le corpus, tandis que le second présente le double intérêt d’être proposé par le même éditeur et d’offrir une référence dans la gamme des répertoires annonçant 20 000 unités à leur nomenclature. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 209 – l’enregistrement, sous une forme indépendante des codifications du Nouveau Petit Robert, des unités déjà incluses dans la liste de référence et observées comme étant traitées dans l’un au moins des répertoires scolaires : Par exemple : à l’entrée « à - prép. » relevée dans le Nouveau Petit Robert correspondent les adresses catégorisées « à (mot invariable) » dans le Dictionnaire Hachette benjamin et « à (préposition) » dans le Dictionnaire Hachette junior, ce qui motive l’enregistrement de l’unité linguistique à catégorisée comme préposition. – l’ajout des unités appartenant à la nomenclature d’au moins un répertoire scolaire mais ne figurant pas dans les entrées majeures du Nouveau Petit Robert : Par exemple, sont enregistrés comme unités linguistiques décrites dans au moins un dictionnaire – la locution adverbiale à l’abandon, qui figure en adresse subordonnée dans le Dictionnaire Hachette junior et qui est présente s.v. abandon 5. dans le Nouveau Petit Robert mais pas dans la liste des entrées de ce dictionnaire ; – ou le nom masculin pluriel abats, qui figure en adresse principale dans le Dictionnaire Hachette junior et qui est décrit s.v. abat II. dans le Nouveau Petit Robert mais qui n’est pas listé parmi les entrées de ce dictionnaire. – la mise en relation des items que compte la liste avec les adressages des répertoires scolaires dépouillés et avec les entrées du Nouveau Petit Robert qui leur correspondent, et l’adjonction 348 • des indications catégorielles Par exemple : – la préposition à est liée à l’adressage « à (mot invariable) » du Dictionnaire Hachette benjamin, « à (préposition) » du Dictionnaire Hachette junior et à l’entrée « à - prép. » du Nouveau Petit Robert ; – la locution adverbiale à l’abandon est liée à l’adresse subordonnée « À l’abandon » du Dictionnaire Hachette junior (s.v. « abandon (nom masculin) ») ; – et le nom masculin pluriel abats à l’adressage principal « abats (nom masculin pluriel) » du Dictionnaire Hachette junior. • et des sélecteurs syntaxico-sémantiques qui s’avèrent être utiles : Par exemple, le nom masculin bas, qui peut être soit un nom de vêtement, soit le nom dérivé de l’adjectif bas pour nommer la partie inférieure de quelque chose est enregistré d’une part comme un nom masculin associé à l’indicateur sémantique « vêtement » et d’autre part comme un nom masculin associé à l’indicateur « partie inférieure », le premier étant lié aux adressages « 2. bas (un) (nom) » du Dictionnaire Hachette benjamin et « 2. bas (nom masculin) » du Dictionnaire Hachette junior et à l’entrée « bas - n.m. » du Nouveau Petit Robert, tandis que le second est lié à l’adresse subordonnée « Le bas » du Dictionnaire Hachette benjamin (s.v. « 1. bas (Adjectif et nom) » 3.), à l’adressage d’item recatégorisé « bas (nom masculin) » du Dictionnaire Hachette junior (s.v. « 1. bas, basse (adjectif ) ») et à l’entrée « bas, basse - adj., n.m. et adv. » du Nouveau Petit Robert. 348 Des transcriptions phonétiques auraient pu être introduites quand deux lemmes d’unités linguistiques homographes ne se prononcent pas de la même manière, mais leur saisie en alphabet phonétique international dans la base de données pose des problèmes de gestion de caractères. Ceux-ci auraient pu être contournés par l’emploi de la codification SAMPA (Speech Assessment Methods Phonetic Alphabet, cf. http://www.phon. ucl.ac.uk/home/sampa/) ou un codage personnel basé sur l’alphabet ordinaire, mais j’ai jugé ces solutions trop coûteuses comparativement aux services que l’enregistrement de ces transcriptions aurait rendus (qui sont déjà très largement assurés par les catégorisations et les sélecteurs syntaxico-sémantiques). 210 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – la création de liens entre les adresses principales des répertoires scolaires et • d’une part les unités linguistiques simples ou complexes qui figurent en adresses subordonnées dans l’article qu’elles introduisent, qu’il s’agisse d’items recatégorisés, de dérivés ou de locutions : Par exemple, – l’adjectif abdominal et le nom pluriel abdominaux sont liés à l’adressage principal « abdominal, ale, aux (adjectif ) » du Dictionnaire Hachette junior et le nom est conjointement lié à l’adresse subordonnée « abdominaux (nom masculin pluriel) » ; – les unités linguistiques abandon et à l’abandon sont liées à l’adressage principal « abandon (nom masculin) » du Dictionnaire Hachette junior et la locution adverbiale est conjointement liée à l’adresse subordonnée « À l’abandon ». • d’autre part ceux des mots dérivés qui sont listés dans un article principal (et qui font généralement aussi l’objet d’une description et sont à ce titre associés à un adressage). Par exemple s.v. abattre dans le Dictionnaire Hachette junior, le composant dérivationnel liste les items « abat-jour, abattage, abattement, abattoir, rabattre », qui appartiennent tous à la nomenclature principale du dictionnaire et qui à ce titre figurent dans la liste des unités linguistiques traitées et liées à un adressage dans ce dictionnaire. Pour enregistrer les données qui viennent d’être présentées, la base Rbd5 dispose de cinq tables (cf. figure 45), dont le schéma de relations peut être lu comme suit : – Les unités linguistiques enregistrées dans la table T_Unite_Linguistique avec mention de leur forme et, si c’est pertinent, de leur catégorisation et d’un sélecteur syntaxicosémantique sont liées, via une table pivot (qui ne contient que les identificateurs utiles pour la gestion informatique des mises en relation : T_pivot_ULing_Ad_Prin_Ad_Sub), • d’une part aux adressages principaux sous lesquels figurent les descriptions des unités linguistiques dans les différents dictionnaires [la relation entre la table pivot et T_Adressage_Principal est de type un à plusieurs d’abord parce qu’une même unité peut éventuellement être décrite dans plusieurs articles, mais surtout en raison du fait qu’elle est traitée dans plusieurs dictionnaires et que la table T_Adressage_Principal compile les adressages de tous les répertoires pris en compte], • et d’autre part, le cas échéant, aux adressages subordonnés, qui sont différenciés selon ce qui les motive et sont déclarés comme étant de niveau zéro en cas de recatégorisation et de niveau moins un pour les items dérivés de ou contenant l’item simple présenté en adresse principale 349 [la relation entre la table pivot et T_Adressage_Subordonne est de type un à plusieurs pour les mêmes motifs que précédemment concernant la table 349 Tous les répertoires ne différencient pas les mises en forme des composants d’adressage des items en adresses subordonnées en fonction de la nature de leur lien avec l’item en adresse principale, mais le Dictionnaire Hachette junior le fait : – en cas de recatégorisation, les typographies des items et de leurs catégorisations sont les mêmes, mais l’adresse subordonnée est précédée d’un carré (« abdominal, ale, aux (adjectif ) […] abdominaux (nom masculin pluriel) […] » ; – en cas d’expression construite syntaxiquement, les mises en formes sont différentes (« abandon (nom masculin) […] • À l’abandon : […] »). Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 211 T_Adressage_Principal 350, mais il peut également y avoir zéro mise en relation pour les enregistrements de la table pivot qui ne donnent lieu qu’à un adressage principal]. – Les adressages principaux de la table T_Adressage_Principal sont eux-mêmes liés aux unités linguistiques qui figurent en qualité de dérivés (T_ULing_derive_sous_Ad_Prin) dans l’article qu’ils introduisent [(i) la relation entre les tables T_Adressage_Principal et T_ULing_derive_sous_Ad_Prin est de type un à plusieurs, puisque rien d’autre que des contraintes linguistiques ou de sélection par les lexicographes ne borne le nombre de dérivés listés dans un article ; (ii) comme chaque dérivé doit également avoir été enregistré dans la liste des unités linguistiques traitées, les valeurs de la table T_ULing_ derive_sous_Ad_Prin proviennent de la table T_Unite_Linguistique, ce qu’indique le lien représenté entre les deux tables et qui se distingue des autres par l’absence de cardinalités exprimées à ses extrémités 351]. Figure 45. Schéma de relations de la base des nomenclatures Rbd5 Bien qu’encore modeste dans son développement comme dans l’exploitation qui en est faite dans le cadre de publications – limitées pour l’heure aux travaux réalisés pour Rcorp13, qui ont alimenté la rédaction de T20 et Tdr5 (cf. §§ 1.6.1. et 2.3.6.) –, cette base de données constitue un des grands travaux que je voudrais pouvoir mener à son terme dans la mesure où elle me semble devoir jouer un rôle capital dans l’accession à une meilleure connaissance de ce qui est décrit par les dictionnaires qui font le plus régulièrement l’objet de mes investigations. Parmi les études qui pourront être utilement documentées par Rbd5, quatre se détachent actuellement, soit en raison de leurs liens avec des travaux déjà engagés, soit par l’élargissement des publics d’apprenants qui pourraient être pris en compte : 350 En cas d’adressage subordonné, la mention du nom du dictionnaire où il est observé ne figure que dans la table qui enregistre l’adressage principal car, les deux adressages étant conjointement liés à l’unité linguistique via la table pivot T_pivot_ULing_Ad_Prin_Ad_Sub, la mention du répertoire n’a pas besoin d’être répétée : si la table pivot indique que à l’abandon est conjointement lié à l’adresse principale « abandon (nom masculin) » du Dictionnaire Hachette junior et à l’adresse subordonnée « À l’abandon », il s’agit nécessairement de l’adresse subordonnée de l’article abandon du Dictionnaire Hachette junior. 351 Sur la figure 45 l’extrémité gauche de ce lien est mal visible, du fait qu’ elle est recouverte par la représentation de la relation un à plusieurs existant entre les tables T_Unite_Linguistique et T_pivot_ULing_Ad_ Prin_Ad_Sub. La suppression de la table pivot dans le schéma de relations permet de mieux visualiser les extrémités du lien existant entre les tables T_Unite_Linguistique et T_ULing_derive_sous_Ad_Prin : 212 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – les trois premières sont réalisables à partir des données déjà enregistrées ou en passe de l’être : • si la reconstitution des nomenclatures permet de déterminer quelles unités linguistiques sont traitées, la confrontation des inventaires enregistrés dans Rbd5 permet d’aller plus loin dans l’étude des choix de traitement des différents dictionnaires qui décrivent les mêmes unités (dont en particulier les types d’adressages retenus et le nombre de subdivisons de description constituées 352) et donc aussi dans celle des propriétés linguistiques qui peuvent motiver certaines options de description préférentiellement à d’autres ; Concernant les mots construits, par exemple, les données enregistrées permettent – d’une part d’identifier ceux qui sont intégrés aux nomenclatures et/ou dont la base l’est (les dérivés pouvant être ou non mentionnés dans l’article consacré à celle-ci) ; – et d’autre part de filtrer les items en fonction de leur mode de création (en se limitant pour l’heure à des sous-chaînes de caractères correspondant à des constituants lexicaux ou infralexicaux, mais ceci pourrait être amélioré par l’ajout d’un champ de description dans la table qui inventorie les unités linguistiques). Ceci offre des perspectives pour l’étude par sous-ensembles cohérents des modes de traitement des mots construits. si les dictionnaires affichent le nombre d’unités que compte leur nomenclature (sans préciser toutefois ce qui est compté), ils emploient des valeurs arrondies qui les positionnent sur le marché face à leurs concurrents, mais il est intéressant pour l’analyste de ne pas s’en tenir à l’indétermination de ce qui est compté et à l’approximation des valeurs fournies ; • Comme l’indique T24 n. 8, la constitution de Rbd5 nous a permis de réévaluer à la hausse le chiffre annoncé par le Dictionnaire Hachette benjamin (6 582 items lexicaux simples ou complexes traités contre 6 000 annoncés). Cette valeur ajustée correspond à celle de 6 500 annoncées par ses concurrents, le Larousse des débutants et le Robert benjamin (depuis 2009), cf. T24 n. 4, ce qui pourrait légitimement inciter son éditeur à aligner son affichage sur ceux des deux autres répertoires sans évolution de nomenclature. Comme l’indique T24 n. 6, Martinez (2009 : 114) a montré que le millésime 2008 du Nouveau Petit Robert comptait 54 003 articles contre « 60 000 mots » annoncés sur sa couverture, ce qui constitue une réévaluation à la baisse que l’inventaire des unités linguistiques traitées conduirait certainement à revoir encore, mais à la hausse cette fois, sans qu’il soit assuré que l’un ou l’autre des décomptes réalisés nous permette de déterminer quelle est la valeur à accorder à « mot » dans la quantification proposée par l’éditeur. • si les dictionnaires pour le cycle 2 annoncent 6 000 à 6 500 items à leur nomenclature et ceux pour le cycle suivant 20 000, les sélections opérées par chacun des concurrents diffèrent sensiblement, ce qui m’incite à penser que la constitution d’une nomenclature cumulative avec pondération de chaque item en fonction du nombre des dictionnaires qui l’ont sélectionné peut permettre de se faire une représentation du lexique conçu par les lexicographes comme étant à connaître par les élèves de chaque tranche d’âge 352 Rbd5 ne permet pas de savoir si ce sont les mêmes sens qui sont décrits par exemple s.v. abandon 1. dans le Dictionnaire Hachette junior et le Robert junior. Un travail d’alignement au niveau des subdivisions de description serait bien plus complexe et donc coûteux que le recensement entrepris, qui traite les nomenclatures au niveau des unités linguistiques. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 213 et de la confronter à celles du lexique actif des enfants émanant de travaux de psycholinguistes acquisitionnistes ou de pédagogues 353 ; – la dernière étude envisagée implique d’élargir la sélection des dictionnaires actuellement pris en compte : • si les dictionnaires pour le cycle 2 ont des nomenclatures de tailles supérieures à celles de dictionnaires bilingues (partie français - langue x) destinés à des élèves plus âgés de France (environ 4 800 articles dans la partie français-anglais du Robert & Collins junior bilingue (cf. T6 § 1.1.)) ou d’autres pays (environ la moitié des 6 000 items annoncés pour la nomenclature globale des deux parties du Basiswoordenboek Frans publié par Van Dale en 2009 pour les néerlandophones à partir de 8 ans par exemple), • et si celles des dictionnaires pour le cycle 3 et du Dictionnaire du français, répertoire monolingue pour allophones publié par CLE International & Le Robert en 1999, sont quantitativement proches, les sélections d’unités linguistiques opérées dans chaque répertoire en fonction de la langue maternelle des destinataires et de la vocation des dictionnaires apporteraient certainement des indications complémentaires des précédentes : 353 Paveau & Rosier (2008 : 208-209) évoquent différentes évaluations du nombre de mots connus ou qu’il conviendrait de connaître déterminées en fonction de l’âge ou d’autres paramètres socioculturels. Parmi celles-ci, deux sous-ensembles se distinguent : celles qui sont formulées pour la promotion d’ouvrages et qui sont relevées dans leurs paratextes (premier paragraphe de la p. 208) et celles qui sont formulées dans le cadre de recherches comme celles de Gougenheim (1964), mais aussi, plus récemment, de Florin (1993), Picoche (1993) ou Gueunier (1994) et d’acquisitionnistes qui prennent en compte les apprentissages des premières années. Celle reprise de Florin (1993 : 94) ne constitue qu’une fourchette indicative : au « début du vingtième siècle, […] le vocabulaire moyen d’enfants [de langue anglaise] de huit ans pouvait être estimé à 3 600 mots par un auteur, et à 44 000 par un autre ». Dans l’article cité, mais aux pages suivantes (1993 : 95-96), Agnès Florin expose un protocole expérimental qui a permis d’évaluer le nombre de mots connus ou non par les élèves du cycle 3 (cf. Ehrlich, Bramaud du Boucheron & Florin (1978)) : « Notre échantillon de référence a été extrait du Dictionnaire du Français Contemporain [de 1971 en retenant 13 500] mots primaires, représentatifs de toutes les familles sémantiques [en veillant à ce que] les proportions des différentes catégories grammaticales dans la langue française [soient respectées puis en classant les mots retenus] dans une échelle de connaissance en cinq points [qui sera également utilisée par les 2 538 élèves questionnés : 1] je ne l’ai jamais entendu, [2] je l’ai déjà entendu mais je ne sais pas ce qu’il veut dire, [3] je le connais mal et je l’utilise rarement, [4] je le connais assez bien et je l’utilise assez souvent, [5] je le connais très bien et je l’utilise très souvent ; » (p. 95) « Le répertoire de chaque enfant est estimé en rapportant ses réponses [pour un sous-ensemble de 450 mots] à l’ensemble des mots de l’échantillon de référence […]. Les résultats font apparaître une augmentation de la dimension des répertoires importante du CE1 au CM2, puisque le nombre de mots jugés inconnus diminue de moitié au cours de cette période (8 081 en CE1 ; 4 057 en CM2). Mais un examen plus qualitatif montre que le nombre de mots très bien connus augmente peu (+ 1 000 mots du CE1 au CM2) […] Il apparaît que le vocabulaire fréquemment utilisé varie peu pendant la scolarité d’école primaire, mais qu’on fait apprendre aux enfants beaucoup de mots nouveaux, qu’ils n’utilisent guère, pour la plupart d’entre eux. » (p. 96) Même si rien n’y est dit relativement au rôle des dictionnaires dans l’apprentissage observé, ces travaux méritent une attention particulière dans la mesure où, dans une sélection de 13 500 items, ils situent à 4 000 unités environ la quantité de mots inconnus des élèves de CE1 mais connus de ceux de CM2, ce qui n’a pas de commune mesure avec l’écart de 14 000 unités observable entre les nomenclatures des dictionnaires destinés à ces deux ensembles d’écoliers, et qui conforte mon souhait de voir s’étoffer les nomenclatures des répertoires scolaires, au moins pour ceux proposés en version électronique (cf. en particulier T17 § 3.2.1. (§ 2.7.2.)). 214 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia • sur le lexique réputé utile pour chaque tranche d’âge selon que les locuteurs s’expriment dans leur langue maternelle ou dans une langue seconde ; • et, en considérant plus particulièrement les dictionnaires conçus à l’étranger pour de jeunes apprenants allophones, sur (i) la diversité des registres de langue pris en compte (le dictionnaire Van Dale évoqué supra traite par exemple craquer pour, qui ne figure pas dans les dictionnaires scolaires de France), et (ii) les items inclus dans les nomenclatures sans pourtant être des unités linguistiques usuellement employées par les jeunes de France – comme papier émeri (technique) ou poil de moustache (non idiomatique), traités par le même dictionnaire Van Dale –, qui peuvent traduire une connaissance insuffisante du français par des rédacteurs allophones et/ou la prise en compte d’expressions non hexagonales. Ces quelques pistes de travail montrent, sans épuiser la diversité des perspectives, le potentiel documentaire de la base des nomenclatures Rbd5. 2.3.3. Analyse des relations entre unités linguistiques et représentations graphiques de leurs référents [Rbd2] La base des iconographies du Robert junior (Rbd2) dont il va être question ci-après constitue (comme Rbd5) une ressource pour l’analyse des unités linguistiques traitées dans un dictionnaire scolaire. Mais elle aborde cette question d’une manière toute particulière, puisqu’elle ne prend en compte que les unités dont les référents donnent lieu à des représentations graphiques et que les descriptions sont focalisées sur les iconographies et des relations qui lient celles-ci aux textes des articles auxquels elles sont associées. Par ailleurs, elle ne concerne jusqu’à présent 354 qu’un répertoire, le Robert junior, considéré dans sa version imprimée de 1997 et dans l’édition électronique de 1999. Contexte déclencheur Ce projet a initialement été conçu pour motiver un développement de base de données SQL sous Access dans le cadre des cours de notre formation professionnelle de 354 Rbd2 est extensible en principe à l’ensemble des dictionnaires scolaires iconographiés. L’intégration des données d’autres répertoires pourrait être motivée par le souhait de comparer leurs sélections d’items associés à des iconographies, ce qui pourrait constituer un prolongement de la comparaison de leurs sélections de nomenclatures à partir des données de Rbd5. Outre cet objectif métalexicographique, la diversification des données enregistrées dans Rbd2 fournirait les moyens de comparer, pour eux-mêmes et en fonction de l’âge des destinataires, les choix de ce qui est illustré (entités sensibles vs nonsensibles, statiques vs dynamiques (procès), etc.), des modes iconographiques, des positionnements relatifs des iconographies par rapport aux éléments textuels des articles ou encore de leur interdépendance sémiotique. Dans le cadre d’une première phase d’enrichissement, qui se concentrerait sur les dictionnaires concurrents, ceux pour le cycle 2 pourraient être privilégiés, du fait – de la limitation du corpus, qui, même si la proportion d’articles iconographiés y est très probablement supérieure à celle des répertoires pour le cycle 3 ou la frontière entre l’école et le collège, reste plus restreint en valeur absolue ; – de l’avancement de ma connaissance de leurs nomenclatures ; – et des liens que ce travail aurait avec les travaux engagés sur deux d’entre eux – le Dictionnaire Hachette benjamin et le Larousse des débutants –, qui donnent lieu à d’autres développements dans ce mémoire (cf. respectivement §§ 1.6.1. et 2.3.6., où T20 et Tdr5 sont commentés, et § 2.2.1.3., où Rdic4 est présenté). Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 215 lexicographes (promotion 2002-2003) 355. J’ai proposé aux étudiants de simuler une tâche qui avait plausiblement été effectuée déjà par l’éditeur de ces répertoires : la préparation du réemploi des iconographies utilisées dans un ouvrage imprimé du catalogue dans le cadre de la dérivation d’une version électronique à partir de celui-ci 356 afin que, tout en exploitant pour l’essentiel le même stock d’illustrations, le produit consultable sur écran donne l’impression d’être beaucoup plus richement iconographié du fait du réemploi des mêmes images dans différents contextes 357. Cette investigation rencontrait par ailleurs les intérêts de François Corbin, qui, dans le cadre d’une thèse en préparation, travaillait sur la fonction des iconographies dans les dictionnaires 358. L’adhésion enthousiaste des étudiants et de François Corbin 359 à ce projet m’a conduite à prendre en compte des paramètres qui ne l’auraient pas été dans la base qu’aurait pu réaliser l’éditeur, dans la mesure où ils permettaient d’acquérir une meilleure connaissance du contenu de ce dictionnaire scolaire, des sélections d’items de la nomenclature qui avaient donné lieu à illustration, des manières d’associer des iconographies à des descriptions textuelles et des conditions de réemploi d’une même illustration 360 dans différents contextes 361 (qui impliquent parfois des ajustements locaux : recadrage, suppression de dispositifs de pointage permettant de nommer des parties constituantes d’un tout, etc.). 355 C’est également cette promotion qui a réalisé les transcriptions des commentaires de matchs de football du corpus Rcorp1 (cf. §§ 1.3.1. à 1.3.3.). 356 L’édition électronique intègre également des iconographies provenant du Robert benjamin de 1997 et de l’édition nord-américaine du Robert Junior de 1994 (pour une analyse plus fine des emprunts iconographiques à ces deux répertoires Robert, cf. F. Corbin (2009 : 77, et en particulier nn. 24 à 26)). 357 La quatrième de couverture de l’édition imprimée du Robert junior de 1997 annonçait « 1 000 illustrations en couleurs » et « 38 pages de planches thématiques ». Le dos du boîtier de l’édition électronique de 1999 mentionnait « 10 000 mots illustrés » sous l’accroche « visualiser et associer » et « 1 400 illustrations » sous « classer et illustrer » (la rubrique qui présentait les regroupements thématiques qui permettaient d’accéder aux médias). 358 Cf. F. Corbin – (2002), qui se concentre sur un dictionnaire destiné à un large public, le Petit Larousse illustré millésimes 2000 et 2001 ; – (2005a), qui concerne un autre dictionnaire scolaire, le Larousse des débutants de 2000 (réédition retitrée de la refonte de 1999 du Dictionnaire mini débutants, cf. n. 250) ; – et (2009), qui traite de différentes éditions du Robert junior. 359 Je tiens à le remercier pour cette collaboration très stimulante. 360 Dans la mesure où nous disposions des deux éditions du Robert junior, les iconographies de la base Rbd2 qui sont décrites comme provenant de l’édition imprimée de 1997 peuvent – soit être le produit de captures d’image réalisées à partir de la version électronique quand celles qui y figurent sont des réemplois sans changement de celles qui étaient dans l’édition imprimée ; – soit avoir été numérisées à partir du volume. 361 Dans la version électronique, les iconographies sont présentées à droite des éléments textuels des articles (cf. infra figure 49 par exemple) ou dans les regroupements thématiques qui constituent un mode d’accès alternatif aux iconographies et enregistrements sonores du Robert junior et qui sont eux-mêmes accessibles via la « Fenêtre des médias » (cf. F. Corbin (2009 : 86-89)), dans laquelle « l’accès à chaque groupe thématique s’effectue en cliquant au-dessus de l’intitulé de celui-ci sur une image encadrée qui reprend une ou plusieurs image(s) du groupe, emblématique(s) du domaine auquel il est consacré » (id., partie I., n. 53). Cidessous à gauche, le bouton de la « Fenêtre des médias » inclus dans la barre d’outils du dictionnaire donne un accès direct au « Sommaire des Médias » présenté à droite. 216 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Structure et contenu de la base iconographique Le schéma de relations (cf. figure 46) donne une idée de la précision descriptive visée : – chaque iconographie • est enregistrée dans la table T_Iconographies, où elle se voit associer des éléments de description intrinsèque 362 ; • est liée à chacune des descriptions des utilisations qui en sont faites (enregistrées dans la table T_Utilisations) par des tables pivots qui présentent la caractéristique de constituer trois mises en relation alternatives entre les tables T_Iconographies et T_Utilisations, choisies en fonction du type d’utilisation : l’une est simple et ne contient que les identificateurs d’iconographies et d’utilisations, dont la présence est indispensable pour la mise en place des relations, alors que les deux autres leur associent des éléments d’analyse spécifiques : (i) pour un emploi dans une compilation : porte-t-elle une légende ? combien d’iconographies élémentaires réunit-elle ? les légendes de chacun des constituants sont-elles préservées ? quelle est la position relative du constituant en cours de description ? (ii) pour un emploi avec recadrage : est-il fait sur une sous-partie particulière ou s’agitil d’un zoom ? – dans la table T_Utilisations, les descriptions de chaque emploi iconographique spécifient la présence éventuelle d’un dispositif de pointage, l’orientation de l’iconogra- Bouton de la « Fenêtre des médias » du Robert junior électronique « Sommaire des Médias » du Robert junior électronique bouton d’accès à la « Fenêtre des médias » dans la barre d’outils du Robert junior électronique 362 Parmi ceux-ci figure la légende qui accompagne éventuellement l’iconographie. Ceci trouve sa pertinence dans le cadre de l’étude qui a motivé la création de Rbd2 : puisqu’il s’agissait d’étudier le réemploi des iconographies d’une édition imprimée particulière dans une édition électronique déterminée, considérer que la légende “appartenait” à l’image ne posait pas de problème, mais il aurait alternativement été possible de traiter la légende indépendamment de l’iconographie à laquelle elle était associée dans une utilisation donnée et donc de la considérer comme une caractéristique de cette utilisation. Cette seconde solution était moins pertinente pour les iconographies du Robert junior, mais elle aurait été mieux adaptée à l’intégration d’iconographies provenant d’autres dictionnaires (cf. n. 354). Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 217 phie, si elle est employée seule ou dans une combinaison d’images dont le type est spécifié et où elle est visible 363 ; – chaque utilisation décrite est elle-même liée aux items auxquels les iconographies peuvent être associées (enregistrés dans la table T_Items) par le biais de la table pivot T_pivot_Items_Utilisations, qui enregistre des éléments d’analyse de la qualité des utilisations au sein d’un dictionnaire donné, que ceux-ci soient effectifs ou qu’ils ne soient qu’envisageables dans le cadre d’une recherche de réemploi d’iconographies pour d’autres items traités ; – les crédits de chaque iconographie sont enfin enregistrés dans la table T_Sources_ creditees, qui est liée à la table T_Iconographies par une table pivot, car, si les iconographies du Robert junior imprimé de 1997, en l’absence de crédits mentionnés dans le volume, se voient toutes associer la valeur par défaut « Dictionnaires Le Robert », ce n’est pas le cas de celles de la version électronique de 1999 (ni naturellement de celles d’autres répertoires si Rbd2 devait intégrer les iconographies d’autres dictionnaires scolaires, cf. n. 354). Figure 46. Schéma de relations de la base des iconographies Rbd2 La saisie des descriptions se fait via un formulaire (cf. figure 47) où un système d’onglets permet de n’avoir à l’écran que les sous-ensembles de champs pertinents pour l’iconographie en cours d’enregistrement. 363 Selon les contextes d’emploi des iconographies, leur localisation peut correspondre à un identificateur – d’article : l’item qui figure en adresse principale ; – de planche hors texte de l’édition imprimée : sa pagination et sa position relative dans la page ; – ou d’un élément des médias de l’édition électronique : le cheminement le plus direct qui conduit du « Sommaire des Médias » (cf. n. 361) à lui. 218 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Figure 47. Extrait du formulaire de saisie dans Rbd2 et de la description de la première iconographie de la planche « CHAMPIGNONS » du Robert junior imprimé de 1997 L’image décrite dans ce formulaire appartient à une compilation. L’article champignon, qui figurait à la page 157 de l’édition imprimée, était illustré par une planche en page 159 intitulée « CHAMPIGNONS », qui réunissait 14 iconographies (cf. figure 48). La première (dont un extrait de la description dans la base Rbd2 est présenté supra) était associée à un dispositif de pointage qui fournissait les noms de chaque partie constituante d’un champignon prototypique (le seul de la page dessiné en noir et blanc). La planche a été réemployée dans l’édition électronique pour illustrer l’article champignon (cf. figure 49) et comme image représentant « Les Champignons » dans « Le règne végétal » de la « Fenêtre des médias » (cf. figure 50), mais la première iconographie y a perdu son dispositif de pointage, et l’ensemble de ses constituants originaux (dispositif de pointage inclus pour la première iconographie) est proposé dans le groupe thématique (cf. n. 361) « Les Champignons » dans la « Fenêtre des médias » (cf. figure 51, où lamelles a remplacé lames dans le dispositif de pointage de la première iconographie). Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 219 Figure 48. L’article champignon et la planche « CHAMPIGNONS » du Robert junior imprimé de 1997 Figure 49. L’article champignon du Robert junior électronique de 1999 Figure 50. Regroupement thématique « Le règne végétal » du Robert junior électronique de 1999 220 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Figure 51. Regroupement thématique « Les champignons » du Robert junior électronique de 1999 Le travail a été organisé en phases de dépouillement collectif 364 et d’analyse du contenu des deux versions du Robert junior prises en compte, des explorations dictionnairiques étant articulées à la conception évolutive du schéma de relations de la base SQL jusqu’à la détermination de l’ensemble des informations descriptives et analytiques finalement retenues, au relevé des données, puis à leur contrôle. Perspectives d’exploitation de Rbd2 La base Rbd2 a contribué à documenter une publication (F. Corbin (2009)). Elle motivait aussi la coécriture d’un texte (qui n’a pas été achevé 365 ) par le biais duquel nous souhaitions valoriser l’apport documentaire d’une base comme la nôtre dans le cadre d’une analyse métalexicographique des iconographies. La réédition en 2006 de la version électronique de 1999 du Robert junior (sous le titre de Robert des enfants), après la refonte du texte et des iconographies de la version imprimée en 2005, redonne indirectement une certaine actualité à la base Rbd2 dans la mesure où, les répertoires de 2005 et 2006 proposant des traitements iconographiques qui sont encore plus disjoints que ceux que nous avions étudiés, les connaissances que nous avions acquises lors de ce travail seraient tout à fait utiles pour entamer la comparaison de ces deux éditions les plus récentes 366. Que la base soit enrichie dans la perspective que je viens d’évoquer (ou dans celle de l’extension à d’autres dictionnaires envisagée en note 354) ou qu’elle se limite à son contenu actuel, elle constitue une documentation de qualité pour 364 Cf. n. 229. La collaboration des étudiants a permis d’explorer la version électronique en diversifiant plus que je ne l’aurais fait seule les cheminements au sein des articles et des médias reliés par des liens hypertextuels : les étudiants ont trouvé des liens que je n’avais pas localisés et, par leur nombre, ils m’ont aidée à mieux systématiser leur activation (sans pour autant qu’il soit certain que nous les ayons tous visités). 365 Le travail sur le corpus footballistique (Rcorp1) engagé presque simultanément ne m’a pas laissé la disponibilité nécessaire pour travailler immédiatement avec François Corbin et j’ai choisi ensuite de différer celui sur les iconographies après son désengagement de la recherche. 366 L’édition imprimée de 2010 ne semble pas avoir renouvelé le traitement iconographique. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 221 – d’une part l’approfondissement, à la suite de F. Corbin (2009), de l’analyse du travail éditorial réalisé chez Robert lors du réemploi des iconographies ; – et d’autre part l’étude des relations qui peuvent être perçues entre les unités linguistiques illustrées et ce que représentent les iconographies (cf. n. 354). Dans le premier contexte, la base de données serait en mesure de fournir différents éléments de description des iconographies de l’édition imprimée de 1997 et de leurs emplois dans ce volume et dans l’édition électronique de 1999 : – concernant les caractéristiques intrinsèques des iconographies, Rbd2 permet de savoir : • quel est leur mode iconographique (dessins en noir et blanc ou en couleur) ; • si elles présentent leur référent en contexte ou hors contexte ; • etc. ; Les iconographies ne fournissent généralement aucun contexte (comme par exemple pour le paon en figure 52) et, quand elles en donnent un, elles ne proposent qu’un minimum d’éléments au sein de celui-ci (comme le morceau de branche portant des feuilles pour le panda). Figure 52. Iconographies du panda et du paon extraites des médias du Robert junior électronique de 1999 Les iconographies présentées ci-dessous sont extraites des médias de l’édition électronique du Robert junior, mais elles sont également associées aux articles panda et paon de cette édition comme de celle, imprimée, de 1997 (où elles figurent avec les légendes « panda » et « paon » en 1997, et « un panda » et « un paon » en 1999). – concernant les emplois des iconographies, Rbd2 permet de savoir : • si elles sont associées à un item en adresse et/ou accessibles via les regroupements thématiques des médias dans l’édition électronique : La trompette, par exemple, n’était pas iconographiée dans l’article consacré à son nom dans l’édition imprimée mais dans la planche intitulée « INSTRUMENTS DE MUSIQUE », un renvoi invitant à aller de l’article à la planche (cf. figure 53). Cette planche (où la trompette figurait embouchure à droite et pavillon légèrement plus bas que cette dernière) n’a pas été intégrée à l’édition électronique, mais le même dessin (horizontalisé et retourné latéralement) est présenté dans les médias comme icône représentant « Les Cuivres » (à gauche en figure 222 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia 54) et il a été enrichi d’un dispositif de pointage pour être inséré dans l’article trompette et pour représenter cet instrument parmi d’autres cuivres dans les médias (à droite ci-dessous). Figure 53. L’article trompette et la planche « INSTRUMENTS DE MUSIQUE » du Robert junior imprimé de 1997 Figure 54. Iconographies de la trompette extraites des médias du Robert junior électronique de 1999 Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 223 • si elles sont exploitées isolément et/ou au sein d’une compilation, et, dans ce dernier cas, s’il s’agit (i) d’une composition locale présentée dans un article pour y cumuler ou y contraster des représentations (cf. figures 55 et 56), (ii) d’une planche thématique présentant différentes espèces du même genre et constituant un hors-texte lié à une description d’emploi lexical dans l’édition imprimée (cf. figures 48 et 53), d’une illustration d’article (cf. figure 49) ou d’une image de la « Fenêtre des médias » dans la version électronique (cf. figure 50), et/ou (iii) d’une compilation spécifique aux médias de l’édition électronique au sein desquels elle sert de bouton d’accès à un sous-groupe thématique (cf. figure 57, colonne de gauche). Dans les compositions locales présentées dans les articles (cf. figures 55 et 56), les compilations peuvent permettre – de montrer plusieurs objets nommés de la même manière, comme s.v. anse 1. ; – ou d’illustrer une polysémie lexicale, comme s.v. griffe, où le nom de partie du corps de certains animaux, celui du crochet de bijouterie (dérivé du premier par analogie) et celui (métonymique) de l’étiquette vestimentaire sont conjointement illustrés. Dans l’édition électronique, s.v. griffe, les trois référents sont représentés distribués dans chacune des trois subdivisions de description, alors qu’ils étaient réunis en une seule vignette dans l’édition imprimée. S.v. anse 2., une seconde illustration (provenant de l’article crique du Robert benjamin) a été ajoutée dans l’édition électronique sans incidence sur celle présentée s.v. anse 1. Figure 55. Les articles anse et griffe du Robert junior imprimé de 1997 224 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Figure 56. Les articles anse et griffe du Robert junior électronique de 1999 Dans la « Fenêtre des médias » de la version électronique, des iconographies représentent les sous-groupes thématiques (cf. figure 57). Il peut s’agir de compilations ou d’iconographies simples : – « Les herbivores » sont représentés par une compilation qui inclut l’iconographie du panda présentée s.v. panda (cf. figure 52). – « Les Oiseaux terrestres » sont, eux représentés par celle du paon, privée de la légende qui l’accompagnait s.v. paon (cf. figure 52). Figure 57. Iconographies du panda et du paon insérées dans des compilations de sous-ensembles d’animaux présentées dans les médias du Robert junior électronique de 1999 • si elles bénéficient d’un dispositif de pointage (ce qui peut varier d’un emploi à l’autre, cf. figures 47 à 51 pour le champignon, 53 et 54 pour la trompette) ; • si elles font l’objet de recadrages dans des réemplois de la version électronique (comme dans le cas de la trompette évoqué précédemment) ; • etc. Dans le cadre de l’étude des relations entre les unités linguistiques illustrées et ce que représentent les iconographies, les mises en relation des adresses d’articles asso- Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 225 ciés à une illustration, de l’iconographie elle-même, de la description textuelle de ce qui figure sur celle-ci et de son mode d’exploitation permettent notamment d’étudier le rôle du recours aux iconographies dans le traitement des unités linguistiques pour lesquelles différents référents sont associables aux mêmes formes graphiques et/ou phoniques (cf. ci-dessus figures 55 et 56). L’exploitation en sus d’éléments d’analyse relatifs à la redondance ou à la complémentarité des indications textuelles proposées par les articles et de ce qui figure dans les iconographies peut contribuer plus largement à l’analyse de la place relative des informations linguistiques et référentielles dans les articles du Robert junior et du rôle des secondes dans la bonne appropriation des premières par les élèves qui consultent ce répertoire. Ces questions méritent à mon sens des analyses fines à réaliser dans les différents dictionnaires scolaires 367 afin de prendre en considération les diverses modalités de traitement iconographique et de mise en relation des composants textuels et des représentations graphiques. Ces analyses devraient permettre de mieux comprendre la valeur pédagogique des iconographies et ainsi de dépasser sur des bases argumentées la position de rejet de principe de leur utilisation dans les dictionnaires de langue défendue par Josette Rey-Debove, ce que François Corbin avait entrepris de faire 368. Ce type de recherche me semble d’autant plus utile actuellement que – d’une part, même si les iconographies sont utilisées avec une relative parcimonie dans les dictionnaires scolaires imprimés, du fait de la place qu’elles consomment et du surcoût qu’induit leur présence, l’essor potentiel des dictionnaires électroniques destinés aux jeunes lecteurs (cf. T17 nn. 113 et 115) pourrait permettre de leur faire une place supérieure ; – et d’autre part, bien qu’elles soient considérées par certains comme de simples ornementations qui égaient les pages (et qui par l’agrément de leur présence constituent un argument commercial), elles ont certainement un autre rôle à jouer dans ces répertoires (comme le montrent les travaux déjà mentionnés de François Corbin (cf. n. 358) et ceux sur les imagiers de P. Corbin (2001)) et une meilleure connaissance de leurs fonctions permettrait d’améliorer l’exploitation qui en est faite. 2.3.4. Identification des unités linguistiques par leur(s) forme(s) phonique(s) et graphique(s) [T23 (2010b)] On consulte un dictionnaire pour y chercher un mot, un affixe, une expression, etc. Ces unités linguistiques constituent ce dont on part pour accéder aux articles et aux informations qu’ils contiennent, même si ce n’est pas nécessairement sur elles que portent les interrogations qui motivent la consultation du répertoire. Une partie des unités linguistiques qui servent ainsi de point d’entrée dans les dictionnaires est con367 Une étudiante de M1 TAL a étudié récemment, dans le cadre de son mémoire (Mdir54 (Sow (2008))), les traitements textuels et iconographiques proposés pour une sélection d’items polysémiques et d’homographes dans les dictionnaires que les trois éditeurs majeurs proposent pour le cycle 2. Ses investigations indiquent qu’il y aurait bien matière à effectuer une étude d’une autre ampleur. 368 Ceci a donné lieu en particulier à un échange verbal entre ces deux protagonistes lors des Premières journées allemandes des dictionnaires de Klingenberg (cf. F. Corbin (2005b)). 226 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia nue avant que la recherche soit engagée, mais certaines n’ont jamais été rencontrées encore et, parmi celles qui sont connues, une partie ne l’ont été qu’à l’oral. Que celui qui s’apprête à consulter un dictionnaire le fasse pour résoudre une difficulté de compréhension d’un item lu ou entendu, pour trouver celui qui sera le mieux adapté dans l’énoncé qu’il cherche à construire, ou encore pour enrichir sa culture générale, il doit être capable de déterminer quelle est l’unité linguistique dont la recherche devrait le conduire à l’information souhaitée, puis sous quelle(s) forme(s) celle-ci peut être trouvée. Les dictionnaires sont des répertoires au sein desquels les descriptions sont écrites 369, alors que les unités linguistiques qui y sont cherchées sont généralement employées à l’écrit comme à l’oral et parfois même rencontrées uniquement via ce médium (ce qui est le lot des enfants avant qu’ils sachent lire et courant pour tout un chacun en diverses circonstances). Il faut donc, pour que les utilisateurs de dictionnaires soient à même de trouver les renseignements qu’ils y cherchent, qu’ils puissent établir les connexions nécessaires entres les formes écrites ou orales rencontrées en discours et celles sous lesquelles les informations sont consignées pour chaque item appartenant à la nomenclature des répertoires. Je porte un intérêt récurrent à cette mise en relation des formes que chaque unité linguistique peut pendre et de celle(s) que proposent les articles. Ceci s’observe dans – T17 (cf. § 2.7.2.), où ce sont les formes actualisées des items, celles qui sont rencontrées et sur lesquelles on a buté au point de consulter un dictionnaire, qui sont prises en compte en particulier pour envisager le recours à un hyperappel du dictionnaire, cf. n. 131 et §§ 3.2.1.1. et 3.2.2.2. ; – et T20 et Tdr5 (cf. §§ 1.6.1. et 2.3.6.), où l’appariement des formes en contexte dans un texte de lecture et en adresse dans le dictionnaire est au centre du travail d’analyse. Une des dimensions de la mise en relation des formes instanciées dans les discours avec celles que retiennent les dictionnaires pour l’adressage des informations est l’accessibilité de ces derniers pour ceux qui n’ont pas une bonne maîtrise orthographique, ce qui m’a amenée à consacrer mon premier article relevant spécifiquement de cette thématique à la prise en compte des formes phoniques par certains répertoires, aux présentations qu’ils en font et aux utilisations de celles-ci comme points d’accès aux articles. Il s’agit de T23, qui a donné lieu à un exposé au congrès EURALEX de 2010 (C24). De l’observation des traitements dictionnairiques… Le plan en 5 parties de T23 fait se succéder, entre l’introduction et la conclusion (§§ 0. et 4.), d’abord des éléments d’analyse développés selon deux modes d’approche distincts, le premier ambitionnant d’exposer une synthèse des modalités de traitement des formes phoniques communément adoptées dans les répertoires (§ 1.) et le second de focaliser l’attention sur les qualités remarquables de certains produits proposés par Le Robert 370 (§ 2.), puis des propositions pour des développements futurs (§ 3.). 369 Les descriptions écrites ont vocation à être lues par ceux qui les consultent, mais le dictionnaire en ligne Mediadico (http://www.mediadico.com/) propose aussi une oralisation des articles. 370 Deux sont effectivement comparés : le Nouveau Petit Robert électronique (éditions 2001 à 2008 (millésime 2009)) et le Robert oral-écrit de 1989. Mais un troisième est pris en compte indirectement : le Robert junior Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 227 Comme l’ensemble des spéculations dictionnairiques auxquelles je me livre, celles-ci portent sur de potentiels produits électroniques destinés à de jeunes utilisateurs, qui doivent être entraînés à surmonter de manière autonome les incompréhensions suscitées par certains textes en recourant à la consultation d’ouvrages de référence appropriés, mais qui sont encore en train d’acquérir la maîtrise linguistique utile pour pleinement profiter des indications des dictionnaires qui ont vocation à répondre à leurs questions. Les dictionnaires pris en compte dans cette étude attachent plus d’importance que d’autres aux formes phoniques des unités linguistiques, mais seul le Robert oral-écrit valorise explicitement cette option dans ses paratextes comme par sa macrostructure (cf. ci-dessous figure 58). Les articles de ce répertoire ont des transcriptions phonétiques comme adresses principales et des graphies comme sous-adresses. Ces dernières introduisent les descriptions des différentes formes lexicales correspondant à la prononciation transcrite, au sein d’articles dont la dimension sémantique et combinatoire est simplifiée mais qui comportent des développements orthographiques et flexionnels substantiels articulés par des renvois à diverses rubriques d’une synthèse sur l’orthographe française figurant en annexe de l’ouvrage. Les formes graphiques telles qu’elles s’observent dans les usages sont répertoriées sous chaque forme phonique, ce qui motive, par exemple, la mention de nous savons, forme du verbe savoir, s.v. sAv (où elle suit la sous-adresse graphique le savon) ou celle de je sens, forme du verbe sentir, s.v. s (où elle suit les sous-adresses graphiques cent, le sang et sans). Dans leur corps principal, les articles ont un programme d’information relativement classique mais où prédominent les indications sur les formes graphiques que peut recevoir chaque unité lexicale traitée. Des notes marginales complètent ces indications et fournissent des conseils de prononciation (par exemple, pour les formes verbales, s.v. sAvOnE savonner, s.v. sblE sembler ou s.v. sksjOnE sanctionner) ou explicitent les variations de forme phonique qu’une liaison par exemple peut induire (comme s.v. s cent et s sans). En haut de chaque double page les titres courants fournissent des repères relatifs aux seules formes phoniques, et la liste des symboles phonétiques employés, inspirés de ceux de l’alphabet phonétique international (API) et accompagnés de mots exemples permettant de décoder leur valeur phonique, est rappelée en marge extérieure de chaque page. Au sein de celle-ci, les majuscules indiquent des neutralisations de variantes de prononciation pour différentes voyelles. électronique de 1998, réédité en 1999 (déjà situé éditorialement supra au § 2.3.3. à propos du traitement dans la base Rbd2 des iconographies qu’il a héritées de l’édition imprimée de 1997), repressé en 2003 et publié sous le nom de Robert des enfants en 2006, qui offre des fonctionnalités comparables à celles de l’ouvrage phare de cet éditeur au moins pour celles qui sont prises en compte dans cette étude (cf. T23 nn. 3 et 28). 228 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Figure 58. Extrait du Robert oral-écrit Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 229 230 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Le Nouveau Petit Robert et le Robert junior se présentent comme des dictionnaires généraux, non spécialisés dans le traitement des formes phoniques, mais il se trouve que celles-ci occupent une bonne place parmi les informations fournies à propos des unités linguistiques traitées et que les fonctions de recherche de leurs versions électroniques (sur disques au moins 371) permettent d’accéder aux articles par l’intermédiaire de transcriptions des formes phoniques (cf. figure 59) ou de formes graphiques fautives mais oralisables comme la graphie valide (cf. figure 60). Figure 59. Fenêtre de recherche d’une entrée à partir de sa transcription phonétique dans le Nouveau Petit Robert électronique de 2009 Par exemple : la saisie de [sS] (dont le tilde est décalé du a dans la copie d’écran ci-dessous comme il le serait en codification SAMPA cf. n. 348) dans l’interface de recherche par critère phonétique permet d’accéder à cinq adresses graphiques : C (adj. numér. card., « Cent, en chiffres romains. », s.v. 2. C 1.), 1. cent (adj. numér. et n.), 3. cent (n. m., « Centième partie de l’euro. »), sang (n. m.) et sans (prép.). La saisie de [sS] dans l’interface de recherche ci-dessus permet d’obtenir les résultats ci-dessous : 371 Il est difficile de savoir ce que contiennent les versions en ligne, qui sont susceptibles d’évoluer en permanence, spécifiquement s’agissant de celles auxquelles nous n’avons pas aisément accès, comme par exemple celle du Robert junior qui est réservée aux élèves et enseignants de l’école primaire qui y sont abonnés. Concernant ce répertoire, au moment de la rédaction de T23, il était indiqué que « la version HTML ne contient pas le module de recherches avancées ni le module des médias, qui figurent dans la version CDROM. » (http://lerobert.customers.artful.net/editions-electroniques/catalogue/rde/robert_enfants_demo.asp [consulté le 05/12/2009]) ; en revanche, au moment où cette note est rédigée, la fiche détaillée du produit indique que la version en ligne propose « la prononciation enregistrée de plus de 7 000 mots difficiles […]. Un accès simple et direct au dictionnaire : […] par la liste de toutes les formes fléchies […] en utilisant le correcteur d’orthographe, basé sur la phonétique […]. De puissantes fonctions de recherche : […] par la phonétique : pour rechercher des mots selon leur prononciation (recherche de rimes…) […]. » (http://www. lerobert.com/espace-numerique/pro/le-robert-junior/fiche-detaillee.html [consulté le 05/05/2010]), mais la version de démonstration ne propose néanmoins pas de bouton ou de menu permettant de faire une recherche phonétique. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 231 Figure 60. Fenêtre de recherche d’une entrée à partir d’une graphie approchante dans le Nouveau Petit Robert électronique de 2009 La recherche des entrées graphiques proches de « san » en sélectionnant l’option « en utilisant la correction phonétique » fournit cinq adresses : les quatre dernières du résultat précédent (cf. figure 59) et 2. cent (n. m. et f., « 1. N. m. Centième partie de l’unité monétaire de divers pays » et « 2. N. f. (1851) Région. (Canada) […] cette unité, cette pièce. »). 232 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia La saisie de « san » dans l’interface de recherche ci-dessus permet d’obtenir les résultats ci-dessous : L’objet de cette étude n’est donc pas de détailler les traitements des formes phoniques observables dans une large sélection d’ouvrages 372, mais de contribuer à une meilleure connaissance de répertoires choisis en fonction de la manière remarquable dont ils traitent un type particulier d’information. Le § 1. de T23 est constitué d’une grille d’analyse des composants d’articles susceptibles de fournir une indication sur une forme phonique d’une unité linguistique qui figure en adresse macrostructurelle ou microstructurelle. Celle-ci est suivie d’un bref inventaire des besoins qui peuvent motiver une consultation de dictionnaire à partir d’une forme phonique (qu’il s’agisse de celle d’une unité linguistique ou d’un segment de taille inférieure ou supérieure). Ces éléments de cadrage, dont le mode rédactionnel est très dense dans T23, correspondent à ce que j’ambitionne de pouvoir présenter également, dans un livre en projet ou dans de futures publications, pour les formes graphiques mais aussi, en procédant aux adaptations pertinentes, pour toutes les informations linguistiques susceptibles de figurer dans un article, la circonscription fouillée de la nature, de la distribution et des finalités de celles-ci répondant tout autant à la vocation de la recherche métalexicographique qu’aux besoins d’une formation professionnelle fortement spécialisée. 372 La synthèse des lieux et modes de transmission de ce type d’information présentée au § 1. de T23 ne donne qu’un exemple de chaque manière évoquée, même pour celles qui sont partagées par un grand nombre de répertoires, pour ne pas alourdir le propos en présentant des exemples redondants bien que différenciés par la diversité de leurs sources. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 233 Le § 2. permet d’exposer les qualités et les faiblesses des traitements et des modes d’accès aux informations de chacun des répertoires étudiés, mais la valorisation des caractéristiques particulières du plus original de ces dictionnaires me conduit également à formuler deux observations de portée générale : – La première est fondée sur cette originalité du Robert oral-écrit, dont le mode de présentation des informations est atypique, puisque les adresses des articles ne sont pas des formes graphiques d’unités linguistiques mais des transcriptions phonétiques (les formes graphiques ne constituant que des adresses d’articles subordonnés). En réfléchissant à l’accessibilité donnée aux formes graphiques par leur regroupement sous une forme phonique partagée et en étudiant la transposition de ce principe dans un dictionnaire électronique, j’ai retenu des éléments sur lesquels j’ai fondé des propositions, mais j’ai également perçu qu’une partie du sens des regroupements serait perdue du fait du changement de support de consultation. Concevoir une possible édition électronique ayant les mêmes visées que le Robert oral-écrit ne consiste pas à améliorer son dispositif, remarquable dans son principe mais malcommode en pratique (ce qui doit être pour quelque chose dans l’insuccès commercial rencontré), mais à concevoir une autre architecture en fonction des caractéristiques du support. – La seconde réflexion est corrélée à une autre cause concevable de l’échec du Robert oral-écrit, qui, à en croire certains analystes de dictionnaires extérieurs à l’horizon francophone, pourrait être le peu d’intérêt porté par le public aux informations sur les formes phoniques des items 373. Quel que soit le bien-fondé, difficile à apprécier, de cette réticence supposée, celle-ci ne peut en tout état de cause qu’être amplifiée par le problème de maîtrise de l’alphabet phonétique international (API) auquel sont confrontés les utilisateurs depuis que les dictionnaires français imprimés ont massivement opté, il y a près d’un demi-siècle, pour ces notations conventionnelles, au détriment de codifications plus traditionnelles exploitant l’alphabet ordinaire 374. Cette difficulté ne saurait être minimisée, même si dans certains ouvrages le recours à d’autres dispositifs d’aide à la prononciation peut en partie l’atténuer 375. Et dans le cas du Robert oral-écrit, la situation est aggravée par le fait qu’une consultation implique de savoir transcrire la forme phonique de l’unité linguistique cherchée 376 (à moins de pouvoir recourir à l’index alphabétique, ce qui suppose de connaître la forme graphique corres373 Cf. Landau (1989 : 97 [2001 : 126]), se référant à Hulbert (1968), résumé dans T23 n. 2. 374 Ces codifications, comme celles réactivées récemment dans des guides de conversation comme ceux du Routard coédités par Hachette et Larousse depuis 2005 (cf. T10 (§ 1.4.2.)), ou celles que l’on trouvait, plus anciennement, dans un répertoire scolaire comme le Dictionnaire des débutants (Larousse, 1949 ; cf. T13 figure 8 (§ 2.5.2.)), pour ne mentionner que deux références dont des extraits sont reproduits dans mes articles, peuvent sembler plus aisément décodables que l’API par des utilisateurs quelconques. 375 Ces transcriptions codées peuvent être associées à des modes d’information plus textuels qui explicitent comment prononcer une lettre ou une séquence de lettres particulières ou rapprochent la prononciation d’une partie d’une unité linguistique de celle d’une autre unité. Par exemple, dans le Robert oral-écrit, s.v. sOl, les sous-adresses – un saule, c un sol, d un sol, une sole – dominent chacune une remarque où le degré de fermeture ou d’ouverture du [O] est précisé : « O fermé (comme dans pot). » sous la première, « O ouvert (comme dans port). » sous chacune des trois suivantes. D’autre répertoires peuvent faire appel aux rimes, comme c’est le cas s.v. étendre 1 dans le Robert & Collins junior bilingue (cf. figure 43) : « Spread rime avec red. ». 376 La capacité de transcrire une forme phonique est également utile pour la recherche de l’une de ces formes par le module de recherche phonétique des dictionnaires électroniques Robert. 234 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia pondante) et de se repérer dans l’ordre alphabétique des symboles phonétiques 377 (ce qui doit demander un apprentissage comparable à celui de la consultation d’un dictionnaire dont les adresses sont triées par ordre alphabétique, à la différence toutefois que la mémorisation de l’ordre de ces caractères trouve moins de réemploi que celui de l’alphabet). … aux spéculations Les pistes de réflexion présentées dans le § 3. ne proposent pas de moyen transposable aux dictionnaires imprimés pour réduire la place des transcriptions en API dans la description des formes phoniques, mais elles orientent la réflexion des concepteurs de dictionnaires électroniques (i) vers l’adjonction de formes oralisées écoutables à celles qui sont écrites dans les articles (ou les paratextes qui leurs sont liés : tableaux de conjugaisons et d’autres paradigmes flexionnels) et (ii) vers l’intégration d’un module de reconnaissance vocale, complémentaire des recherches par transcription phonétique ou par graphie fautive phonétiquement approchante déjà proposées dans les interfaces d’interrogation et de synthèse de la parole pour l’oralisation des formes isolées ou en contexte (cf. § 3.2.). Avant d’envisager le recours à ces technologies, j’ai cherché comment il serait utile non pas de reprendre la présentation du Robert oral-écrit, mais de transposer le principe de regroupement qui en fait la qualité linguistique. Les éditions électroniques permettant de présenter des affichages diversifiés, j’ai envisagé qu’un usager puisse accéder à deux regroupements de formes graphiques qui ont en partage une forme phonique (cf. § 3.1.) : – d’une part les différentes unités linguistiques dont les prononciations ou les segments initiaux de celles-ci sont proches (cf. figure 61) : Figure 61. Proposition de fenêtre de résultats d’une recherche d’unité linguistique à partir de sa transcription phonétique intégrale ou partielle (initiale) L’expression du motif de recherche associée au nombre des items lui correspondant (nombre qui figure en bas de la liste des réponses dans le Nouveau Petit Robert) pourrait prendre les formes respectives suivantes : « n mots décrits dans le dictionnaire se prononcent [sS] : » et « n mots décrits dans le dictionnaire se prononcent comme la forme graphique « san » : ». Si les unités linguistiques débutant par la transcription sont présentées également, leur liste pourrait être précédée des mentions « n mots décrits dans le dictionnaire débutent par [sS] : cendre (n. f.) […] » et « n combinaisons de mots phonétiquement soudés décrites dans le dictionnaire débutent par [sS] : conteste (sans) (loc. adv.) […] s’emparer (v.) […] » 378. 377 La répétition de la liste de ces symboles en marge de chaque page (cf. supra et figure 58) constitue une aide appréciable, mais leur ordre n’est pas aisé à mémoriser sans associer à chacun la graphie la plus typique qui lui correspond. 378 Ces données appellent deux remarques relatives à ce que le Nouveau Petit Robert permet actuellement de faire : – les items cendre et sans conteste mentionnés ici correspondent au premier item simple et à la première locution listés par le Nouveau Petit Robert en réponse à la recherche d’un mot qui débute par [sS] ; – l’item s’emparer n’est pas accessible au moyen d’une recherche relative à [sS] mais il correspond au premier verbe pronominal qui débute par [S]. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 235 – et d’autre part, à partir des formes d’un item, les lemmes et formes fléchies homophones, considérés en fonction de leur prononciation standard mais aussi de leurs variantes (cf. figure 62) : Figure 62. Proposition de fenêtre de présentation des homonymes du verbe être Parmi les enrichissements envisagés : – certains relèvent de décisions de traitement : ils impliquent d’élaborer les descriptions, transcriptions ou oralisations puis d’adapter les fonctions de recherche à ce qui est rendu accessible, tâches de création éditoriale comparables à celles déjà réalisées partiellement chez différents éditeurs, dont en particulier Le Robert ; – d’autres, comme l’indication de variantes de prononciation à la manière de celles répertoriées par Martinet & Walter (1973) 379, sont moins aboutis dans leur conception : ils impliquent une évaluation de la pertinence des variantes à laquelle je souhaiterais travailler avec des linguistes spécialistes de phonologie et/ou de phonétique 380 ; 379 Cf. § 3.1. : dans ce dictionnaire de prononciation, on trouve par exemple, s.v. sens dessus dessous, la mention des variantes « sSdsydsu (cdjlmnprtvwx) sSdBsydBsu (bgky) sStsytsu (a) », où les lettres mentionnées entre parenthèses identifient les informateurs. Les « fiches signalétiques » de ceux-ci sont fournies dans l’« Introduction » (§ II., pp. 37-48), précédées d’une synthèse intitulée « Traits généraux de la phonologie de nos informateurs. » (§ « I. Présentation du dictionnaire », pp. 31-36). 380 Des conversations préliminaires avec Cyril Auran, un phonéticien de l’UMR STL, ont motivé la rédaction de T23 qui, en décrivant les traitements dictionnairiques les plus consistants des formes phoniques et en profilant des perspectives de recherche, est susceptible de constituer un premier jalon pour une collaboration plus foncière. Ce thème est le second sur lequel nous envisageons de travailler ensemble, après celui portant sur l’étude des corrélations observables entre qualité de la voix, choix lexicaux et intensité des événements décrits dans les commentaires de matchs de football (cf. §§ 1.3.2. et 1.5.1.). 236 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia – d’autres enfin sont tout à fait spéculatifs : il me serait impossible d’approfondir les réflexions relatives aux intégrations raisonnées de reconnaissance vocale (pour proposer un mode de consultation orale) ou de synthèse de la parole (pour l’oralisation des formes des unités linguistiques et de leurs contextualisations) sans les compétences techniques de spécialistes de ces deux domaines 381. Place de T23 dans mes travaux Cet article est d’un genre particulier au sein de ma production actuelle en ce qu’il fonde des spéculations sur l’analyse de traitements existants en lexicographie mais aussi en phonétique pour les descriptions de variations de prononciations et les développements de reconnaissance et de synthèse vocale. Du fait de mon manque de compétence en phonétique, l’affinement des enrichissements suggérés ne peut pas être envisagé sans collaboration 382. T23 appelle également d’autres développements de recherche réalisables, de manière autonome ou avec des développeurs de dictionnaires électroniques et/ou de correcteurs orthographiques, concernant l’analyse comparée du fonctionnement des modules de recherche d’items en adresse à partir de formes graphiques fautives mais oralisables comme la graphie valide. Outre l’intérêt métalexicographique que constitue la meilleure connaissance de cette fonction proposée dans certaines éditions électroniques 383, cette analyse présenterait un intérêt dans le cadre de la réflexion engagée (cf. T17 n. 131 et § 3.2.1.1. (§ 2.7.2.)) autour des modules d’hyperappel de dictionnaires susceptibles d’être activés à partir de textes en cours de rédaction ou de textes lus comportant des fautes 384. 2.3.5. Analyse de descriptions de constructions syntaxiques [T9 (2009c)] Si les composants d’adressage qui introduisent les articles présentent une sélection des formes que peuvent prendre les unités linguistiques décrites accompagnée d’indications de catégorisation, et que ces données constituent les premiers indices dont les usagers disposent pour repérer si un article traite bien de l’item qui les intéresse, il leur faut ensuite identifier sur quoi porte chaque subdivision de description proposée. Ceci nécessite qu’ils identifient quels sont les composants élémentaires des articles en s’appuyant sur des indices typographiques, textuels et sémantiques, et qu’ils per- 381 Des interactions sont envisagées avec le site belge (Mons) du groupe Acapela (http://www.acapela-group.com/ index.html), qui, au titre de ses activités de recherche et développement, contribue à de nombreux projets financés et dont j’ai invité un spécialiste de synthèse vocale à intervenir dans le cadre du M2 LTTAC en 2010-2011, à la suite d’une prise de contact en mai 2009 à l’initiative de l’entreprise, qui a débouché sur le recrutement d’une de nos étudiantes sinophones. 382 Ceci serait tout aussi vrai pour les maisons d’édition qui souscriraient aux idées de développements que je présente. 383 En particulier, pour les monolingues français, les dictionnaires électroniques Robert et le Trésor de la langue française informatisé. 384 Ces contextes d’emploi ne sont pas pris en compte par Tdr5 (§ 2.3.6.), qui évalue la recherche de motsoccurrences présents dans des textes de lecture réputés non fautifs (ceux de Rcorp13). Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 237 çoivent comment ceux-ci sont organisés selon deux dimensions que matérialisent des symboles, des repères typographiques et des options de mise en page : (i) l’enchaînement linéaire, d’une part de ces composants élémentaires dans des unités de traitement de base en fonction d’un ordre conventionnel plus ou moins contraint, et d’autre part de ces unités de traitement de base elles-mêmes en fonction de principes linguistiques, fréquentiels ou historiques, qui varient selon les ouvrages, voire à l’intérieur d’un même dictionnaire ; et (ii) une profondeur structurelle plus ou moins importante, qui instaure dans la succession des unités de traitement de base une hiérarchie en adéquation variable avec la structuration conceptuelle sous-jacente des articles. Quand ils ont pris ces repères, les utilisateurs de dictionnaires doivent encore assimiler l’information qui est fournie, ce qui suppose qu’ils sachent discerner la ou les fonction(s) de chacun des composants identifiés, percevoir et analyser les interactions entre composants, interpréter les diverses codifications signifiantes (abréviations, symboles, signes de ponctuation, mise en page, etc.) qui sont utilisées et comprendre la métalangue qui est employée. Ce n’est qu’au terme de ce travail de décodage qu’il devient possible de déterminer sur quoi portent les informations fournies. Si, en particulier pour des dénominations, l’évocation des référents, accompagnée le cas échéant d’une iconographie, peut soutenir le travail de décodage des articles en orientant les recherches des usagers vers certains éléments informationnels privilégiés, les descriptions de prédicats, et notamment de ceux qui présentent une certaine polysémie, mobilisent plus les compétences de leurs lecteurs, qui doivent repérer dans la diversité des informations fournies celles qui correspondent à l’emploi verbal qui les intéresse. Contexte déclencheur Au cours de l’année universitaire 2004-2005, à l’occasion d’un exercice de rédaction d’article dans un environnement structuré proposé avec Pierre Corbin à nos étudiants de M2 LTTAC, nous nous sommes intéressés au verbe permettre, bien adapté à notre objectif pédagogique par la complexité modérée de ses emplois, faite d’un peu de polysémie et de certaines variations de construction. Ce qui ne devait être qu’un objet ponctuel de travaux pratiques a en fait mobilisé notre réflexion et nos énergies non seulement dans le cadre de nos cours 385, mais aussi, plus durablement, en recherche, 385 Ces travaux ont impliqué, outre les étudiants de la promotion 2004-2005, ceux des promotions 2008-2009 et 2009-2010, avec qui j’ai plus particulièrement réfléchi à la manière de présenter les emplois selon que les usagers des dictionnaires cherchent à comprendre le verbe ou à l’employer. Les descriptions de rections verbales constituent par ailleurs un thème récurrent dans mes enseignements à différents autres niveaux : – de 2006 à 2010, j’ai consacré une part du cours de lexicographie de L3 MIASHS (Mathématique et Informatique Appliquées aux Sciences Humaines et Sociales) à l’analyse des indications syntaxico-sémantiques fournies pour une sélection de verbes dans les dictionnaires scolaires ; – avant cela, j’ai déjà régulièrement dispensé des enseignements semestriels de syntaxe lexicale durant lesquels s’élaboraient des descriptions de prédicats verbaux à partir de ce qui était indiqué par différents dictionnaires et de ce qui était attesté dans des énoncés extraits en corpus : 238 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia nous conduisant d’abord à présenter un exposé à la Journée des dictionnaires de CergyPontoise en 2005 (C10), puis à rédiger en 2009 un texte inspiré de celui-ci (T9) pour le numéro 19 de la revue Lexique (D1) 386, ces contributions ayant servi de déclencheur pour de nouvelles collaborations de recherche, que j’évoquerai plus loin. Les dictionnaires comme outils d’épanouissement Après un préambule (§ 0.) motivant le choix de descriptions dictionnairiques des emplois d’un verbe comme objet d’analyse et indiquant les liens que ce choix entretient avec ceux d’autres contributeurs du même volume, le § 1. de T9 expose ce qui a suscité la rédaction de cet article : considérant que les dictionnaires peuvent contribuer à l’épanouissement et à l’autonomie de leurs destinataires à condition que ceux-ci sachent accéder aux informations qu’ils contiennent et les interpréter, nous avons voulu mettre en évidence les limites des descriptions présentées dans les volumes imprimés pour fonder des spéculations relatives à ce que pourraient proposer des dictionnaires sur support électronique (que j’ai développées dans T17 § 3. et dans T21 (cf. § 2.7.2.)). Ce travail est à situer par rapport à deux ensembles de spécificités de la place faite aux dictionnaires en France, dont la conjonction présente des aspects paradoxaux : 1) d’une part l’existence d’un patrimoine dictionnairique important 387 et une population volontiers décrite comme soucieuse de révérence pour le “bon usage” 388, celui qui est réputé consigné dans “le dictionnaire” ; 2) d’autre part, un corps enseignant qui (comme le reste de la population) n’a pas la culture lexicographique poussée qui lui permettrait de transmettre optimalement ce mode d’appropriation des savoirs aux élèves 389, et des éditeurs qui peinent à se maintenir à flot et cherchent comment exploiter l’essor du numérique pour proposer des produits susceptibles de rencontrer leurs publics 390. Notre statut d’enseignants-chercheurs ne nous donnant pas de prise sur ce contexte, nous ambitionnions seulement de susciter des réflexions chez ceux qui auraient connaissance de nos travaux et qui pourraient être mieux en situation d’infléchir le cours des choses. 386 387 388 389 390 • de 2001 à 2004, en licence option TAL et en maîtrise “Industries de la langue”, dans les cadres formels de PATR (cf. Shieber (1986 et 1990 pour la version française)) et du Lexique génératif (cf. Pustejovsky (1995), déjà exploité pour mon doctorat (1998) et dans T1 (cf. § 1.2.1.)) ; • de 2005 à 2010, en L1 et L2 MIASHS et L3 de Lettres modernes et de Sciences du langage, en recourant à des codifications plus aisément accessibles, inspirées des principes de M. Gross (1975) pour ce qui concerne les indications syntaxiques et de notations de logique des prédicats pour l’expression des gloses sémantiques. Ce texte a été inclus dans ce numéro en raison de sa totale adéquation avec le thème de celui-ci et du fait que la publication d’actes de la journée de Cergy-Pontoise de 2005 ne semblait pas envisagée. La production du passé récent est consistante (en particulier celle de la deuxième moitié du XXe siècle, baptisée « demi-siècle d’or » par Pruvost (2006 : 83-92)), mais l’actuelle n’est pas négligeable, alors même que le secteur de la référence traverse une phase récessive (cf. P. Corbin (2008b) et F. & P. Corbin (2008)). Pour une récente synthèse sur cette question, cf. Paveau & Rosier (2008). Les instructions officielles incitent les enseignants à cette sensibilisation, mais de manière assez vague (cf. T17 § 3., et en particulier les notes 113 à 115). Ceci est naturellement impératif pour que les frais engagés dans l’élaboration de ces produits donnent lieu à des retours sur investissements (jugés) acceptables. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 239 Descriptions des emplois du verbe permettre L’offre commerciale des dictionnaires de milieu de gammes (cf. n. 343), qui réunit les trois répertoires ciblant les élèves du collège 391 et les cinq qui leur étaient comparables à différents égards mais qui étaient destinés à un public plus large 392, étant présentée au § 2., le § 3. examine les modalités de description du verbe permettre dans les huit dictionnaires retenus 393 afin de situer celles proposées aux collégiens dans l’offre générale et, corrélativement, de motiver le choix de concentrer l’étude sur le Dictionnaire du français au collège par sa bonne couverture des emplois les plus communs du verbe et la précision relative du traitement qu’il en propose 394. La lisibilité et la compréhensibilité par des collégiens des indications fournies reste alors à évaluer, ce qui constitue le cœur de notre propos. Comme exposé dans le § 4., l’article permettre du Dictionnaire du français au collège offre une structure et des repères qui nous semblent avoir une bonne lisibilité (cf. figure 63 ci-dessous et figures 2 et 3) Figure 63. L’article permettre du Dictionnaire du français au collège (2000) [figure 2 de T9] permettre [pDrmDtr] v.t. (lat. permittere) [c. 57]. 1. (sujet qqn, qqch) Permettre (à qqn, à qqch) qqch, de (+ inf.), que (+ subj.), lui laisser, lui donner la liberté, la possibilité, le moyen de le faire, lui en donner l’occasion : Les règlements ne permettent pas le stationnement à cet endroit (SYN. autoriser, tolérer). L’im- portation de ce produit n’est pas permise. Il ne permet pas que ses enfants regardent la télévision le soir (SYN. admettre). Vous permettez qu’il soit présent à l’entretien ? Mon médecin m’a permis le café (CONTR. interdire). Son père lui permet d’utiliser sa voiture. Ses occupations ne lui permettent pas de sortir le soir. S’il m’est permis de faire une objection, je dirai que tout ceci manque de cohérence. Il est permis à tout le monde de se tromper ! Ses moyens financiers ne lui permettent pas de vivre de cette façon. Il se croit tout permis (= il croit que rien ne limite sa liberté). 2. (sujet qqch) Permettre qqch, le rendre possible : Son absence permet toutes les craintes (SYN. autoriser, justifier). 3. Permettez, formule de politesse : Permettez, je voudrais dire un mot (SYN. s’il vous plaît). se permettre v.pr. Se permettre qqch, de (+ inf.), faire ou dire qqch en prenant la liberté de, en dépassant les limites admises par la morale : Je ne me permets pas de parler de ce que je connais mal. Il se permet des plaisanteries stupides. Je me permettrai de vous faire observer qu’il est déjà midi. et qui ne devraient pas dérouter des collégiens qui auraient antérieurement manipulé le Larousse junior à l’école primaire (cf. figure 64 ci-dessous et figures 4 et 5). Figure 64. L’article permettre du Larousse junior (2003) [figure 4 de T9] permettre et se permettre v. (conjug. 51). 1. Donner l’autorisation de faire quelque chose. Ses parents lui ont permis de sortir. SYN. autoriser, laisser. CONTR. défendre, interdire. 2. Rendre possible. Son travail 391 Le Dictionnaire du français au collège, le Larousse du collège (2003) et le Robert collège (2008). 392 Le Dictionnaire compact (2008), le Robert micro (2006), le Robert brio (2004), le Robert pour tous (1994) et le Dictionnaire Hachette langue française (2001). 393 La validité de leur couverture descriptive d’ensemble a été confortée par la consultation de plusieurs dictionnaires de langue extérieurs au segment choisi (Grand Larousse de la langue française en sept volumes (1971-1978), Lexis (édition de 2002), Dictionnaire du français usuel (Picoche & Rolland (2002)), ainsi que de Méthodes en syntaxe (M.Gross (1975)) et du deuxième volume du Dictionnaire explicatif et combinatoire du français contemporain (Mel’čuk & al. (1988)). 394 Il serait possible d’accroître encore cette précision descriptive par la systématisation de la présentation de certaines alternances et une meilleure valorisation des emplois qui ont une valeur pragmatique. 240 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia lui permet de voyager. CONTR. empêcher. 3. Prendre la liberté de faire ou de dire quelque chose. Ma sœur s’est permis de fouiller dans mes affaires. Mais l’article du dictionnaire pour le collège présente également des difficultés de déchiffrement, pour partie inhérentes à la richesse de sa description des emplois verbaux sur la base de leurs constructions syntaxiques, héritée de son ancêtre le Dictionnaire du français contemporain de 1966, mais aggravées par la restructuration ultérieure de l’article 395. Quand, comme dans la section 1. de celui-ci, différents emplois sont regroupés et que différentes constructions sont présentées au moyen d’une seule formule apparemment linéaire – une sorte d’expression régulière comportant des variables –, le travail d’interprétation des dix-huit combinaisons possibles (cf. figure 65 et figure 6 396) constitue une épreuve que le lecteur surmonte mieux s’il fait l’hypothèse (qui n’est pas naturelle) que le patron présenté surgénère et que certaines combinaisons ne correspondent pas à des emplois possibles du verbe. 395 Dans le Dictionnaire du français contemporain, élaboré sous la direction de Jean Dubois, les descriptions de sens fournissaient des patrons de construction syntaxico-sémantiques et introduisaient des articles subordonnés consacrés aux dérivés héritiers d’une partie du sens et de la construction de la base. Au cours des révisions et compactages textuels qui ont accompagné ses rééditions (1980, 1986, 2000), le texte de ce répertoire a perdu une partie de ses qualités, dont en particulier la précision des patrons et les regroupements morphologiques initiaux. La n. 142 de T17 compare en détail les patrons de construction proposés dans les articles permettre de 1966 et de 2000 et montre comment les options de description du répertoire de 1966 rendent mieux interprétables les informations qu’il fournit. 396 Les figures élaborées pour cet article ont été réalisées avec l’éditeur de graphes d’Unitex (déjà mobilisé dans d’autres contextes métalexicographiques, cf. § 2.2.1.2.), puis ont fait l’objet de compléments et retouches dans un logiciel de traitement d’images. L’emploi de graphes nous a semblé adapté pour présenter les analyses réalisées dans la mesure où, quand ils sont employés dans Unitex pour écrire des motifs de recherche complexes à réaliser dans un corpus, ils permettent de figurer des combinaisons de segments textuels incluant éventuellement des variables, ce qui somme toute est assez proche de ce que nous voulions faire. Dans des contextes qui articulent analyses métalexicographiques et exploration de corpus, les graphes peuvent servir à extraire des corpus des énoncés attestés correspondant aux patrons théoriques des dictionnaires. Les graphes d’exploration de corpus sont alors produits par dérivation de ceux qui représentent les contenus dictionnairiques. C’était déjà le cas dans l’étude relatée dans T10 (à propos des contextes d’emploi du nom musée considéré dans le corpus bilingue du tourisme Rcorp7 et dans des guides de conversation et un dictionnaire de tourisme). Le graphe de la figure 6 de T9 a par exemple été exploité en cours pour dériver d’autres graphes, qui repèrent les énoncés du corpus relevant de chaque patron de construction décrit. Au sein de ces nouveaux graphes, les mentions qqn, qqch, (+inf.) et (+subj.) ont été remplacées par des indications plus adaptées à l’expression d’un motif de recherche. Par exemple, le graphe ci-dessous extrait les occurrences de permettre associé à un sujet et un complément indirect pronominaux et à une infinitive, que l’expression soit affirmative ou négative. En son sein (cf. § 1.3.2., figures 6 et 7), chaque nœud comportant <PRO> représente un pronom, celui contenant <MOT> un mot, celui mentionnant <V:W> un infinitif verbal et celui où figure le verbe permettre entre chevrons une forme de cet item. Les pronoms préverbaux optionnels au sein de l’infinitive (entre les nœuds contenant de et <V:W>) appartiennent à la rection verbale de l’infinitif, mais leur prise en compte dans le graphe est utile pour extraire des énoncés du type Il se permet de le lui donner [contre mon gré]. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 241 Figure 65. Matrices de phrases générées par le patron de construction de la section 1. de l’article permettre du Dictionnaire du français au collège (2000) [figure 6 de T9] + + La glose qui suit le patron de construction condense, elle, sept éléments (cf. figure 66 ci-dessous et figure 8), dont seule la connaissance de l’unité linguistique décrite peut permettre de savoir s’ils doivent être pris en compte ensemble pour représenter le sens par petites touches juxtaposées ou s’ils sont alternatifs et donc éventuellement à articuler à chaque combinaison du patron de construction (ce qui peut faire envisager jusqu’à cent-vingt-six appariements). Figure 66. Interprétations générées par les paraphrases de la section 1. de l’article permettre du Dictionnaire du français au collège (2000) [figure 8 de T9] Les onze contextualisations proposées ensuite ne sont pas listées dans un ordre qui peut correspondre à celui de la lecture du patron ou de la glose, la tâche de faire les mises en correspondance pertinentes étant une fois encore laissée aux lecteurs, ce que deux facteurs ne facilitent pas : – d’une part le fait que plusieurs contextualisations peuvent illustrer la même construction (cf. figure 10) tandis que quatre autres ne correspondent pas directement à l’une de celles qui sont décrites (cf. figure 9) ; – et d’autre part le jeu interprétatif important que laisse la mise en relation de chaque contextualisation avec les éléments constituant la glose (cf. figure 11). Les difficultés observées concernent donc les modes de présentation des indications syntaxico-sémantiques et leurs illustrations au moyen de contextualisations phrastiques, et elles sont en partie induites par la distribution des informations dans différents composants d’articles successifs mais non articulés. Les synonymes et contraires, qui sont présentés à la suite de chacune des contextualisations où ils pourraient se substituer à permettre, ne posent pas, eux, de problèmes d’interprétation comparables, mais, du fait de leur nombre trop réduit (cf. figure 12), ils ne peuvent pas constituer une aide à la rédaction suffisante, ce que nous avons mis en évidence en suggérant d’autres corrélats utiles (cf. figure 13) ainsi que des reformulations phrastiques (cf. figure 67 et figure 14) qui le seraient tout autant mais supposent un espace dont ne dispose pas le dictionnaire imprimé étudié. 242 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Figure 67. Alternatives phrastiques pour les contextualisations de la section 1. de l’article permettre du Dictionnaire du français au collège (2000) [figure 14 de T9] (Dans la colonne de droite, une puce noire précède les reformulations contenant le verbe permettre, et une puce éclairée celles ne le contenant pas.) CONTEXTUALISATIONS Les règlements ne permettent pas le staa tionnement à cet endroit. L’importation de ce produit n’est pas perb mise. REFORMULATIONS PHRASTIQUES • • • { Il ne permet pas que ses enfants regardent c la télévision le soir. { { d Vous permettez qu’il soit présent à l’entretien ? { • e Mon médecin m’a permis le café. { { { f Son père lui permet d’utiliser sa voiture. { { Ses occupations ne lui permettent pas de g sortir le soir. S’il m’est permis de faire une objection, je h dirai que tout ceci manque de cohérence. { • • { { i Il est permis à tout le monde de se tromper ! { { Ses moyens financiers ne lui permettent j pas de vivre de cette façon. k Il se croit tout permis. { • Les règlements ne permettent pas de stationner à cet endroit. Il n’est pas permis d’importer ce produit. Il ne permet pas à ses enfants de regarder la télévision le soir. Il n’autorise pas ses enfants à regarder la télévision le soir. Il ne laisse pas ses enfants regarder la télévision le soir. Il ne donne pas à ses enfants la permission de regarder la télévision le soir. Est-ce qu’il (peut + pourrait) être présent à l’entretien ? Mon médecin me permet ( le café + de boire du café). Mon médecin m’autorise ( le café + à boire du café). Mon médecin m’accorde (le café + le droit de boire du café). Son père veut bien qu’il utilise sa voiture. Son père le laisse utiliser sa voiture. Ses occupations l’empêchent de sortir le soir. Avec ses occupations, il ne peut pas sortir le soir. Si je peux me permettre (ø + de faire) une objection,… Si vous me permettez (ø + de faire) une objection,… Tout le monde peut se tromper ! Il n’y a que ceux qui ne font rien qui ne se trompent jamais ! Nul n’est parfait ! L’erreur est humaine ! Avec ses moyens financiers, il ne peut pas vivre de cette façon. Il croit qu’il peut tout se permettre. Aucun des éléments de l’analyse du Dictionnaire du français au collège n’étant de nature à nous faire imaginer que des solutions aux problèmes décrits soient viables dans l’espace nécessairement contingenté de dictionnaires imprimés, la conclusion de l’article (§ 5.) pose logiquement que seul le développement de produits électroniques pourrait proposer des sélections d’informations présentant la richesse voulue tout en Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 243 étant aisément compréhensibles. Notre contribution s’en tient toutefois à spéculer que la moindre emprise des contraintes de place d’une édition électronique associée à la diversité des modes d’affichage des informations à l’écran pourrait permettre de trouver des alternatives de présentation qui garantiraient mieux la compréhension des indications fournies. J’ai proposé les premières dans T17 et T21 (cf. § 2.7.2.), après avoir mené à bien quelques travaux exploratoires qui vont être résumés ci-après. Perspectives électroniques : tests de génération de reformulations Dans la perspective de créations dictionnairiques où l’expression des synonymes et contraires prendrait en compte des énoncés complets, j’ai entrepris une expérimentation consistant à évaluer dans quelle mesure il serait envisageable que, pour certaines contextualisations au moins, les reformulations proposées dans un dictionnaire électronique ne doivent pas toutes être écrites mais qu’une sélection d’entre elles puissent être générées semi-automatiquement. Le maître permet aux élèves de jouer au ballon 397 Ú par substitution lexicale du verbe et ajustements syntaxiques corrélés à celle-ci Le maître autorise les élèves à jouer au ballon Ce test s’est déroulé en trois étapes, les deux premières ayant mobilisé aussi Pierre Corbin et les étudiants du M2 LTTAC 398 : – les contextualisations extraites des huit dictionnaires de milieu de gammes et une sélection de celles forgées par les étudiants durant la phase d’analyse introspective du verbe (cf. n. 398) ont donné lieu à des reformulations synonymiques ou antonymiques obtenues par substitutions lexicales (ce qui pouvait impliquer de menus ajustements contextuels, par exemple quand il s’agissait de remplacer permettre par autoriser, qui régit les mêmes actants mais impose une syntaxe différente), par insertion de négations ou par écriture de phrases substitutives ; – l’ensemble des phrases compilées ou imaginées et celles produites par reformulation ont fait l’objet d’analyses syntaxiques matérialisées par un balisage en XML 399 riche de nombreux attributs dont les valeurs sont exploitables pour générer des explications des variations observables (ce qui peut être rapproché des orientations préconisées par G. Gross (1989 : 177-179)), puisqu’ils codent, pour chaque constituant syntaxique des phrases reformulées, d’une part l’identité du constituant original correspondant (@idref ) et d’autre part la nature des modifications, qui peuvent être des permutations 397 Les cadres et soulignements correspondent aux valeurs des sujets et compléments : Qqn permet (qqch à qqn + à qqn de V-inf + que P). 398 Cf. n. 385. Les étudiants de M2 de la promotion 2004-2005 ont travaillé à la description du verbe permettre en abordant cet objet d’abord par introspection puis en se fondant sur des observations en corpus, et les résultats ont été critiqués et confrontés aux données présentes dans une large sélection de dictionnaires. 399 Ce balisage a permis de mettre en place des encadrements et soulignements des sujets et compléments comme ceux présentés en n. 397. Faire participer les étudiants à la mise en œuvre de ce balisage visait à les sensibiliser à la difficulté qu’il peut y avoir à mettre en correspondance un patron qui rend compte d’une construction présentée de manière canonique et ses réalisations dans des énoncés, même dans ceux produits ou accommodés pour constituer des contextualisations de dictionnaires et donc présentant des emplois d’une certaine typicité. 244 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia d’arguments internes (comme celles observables entre les synonymes permettre et autoriser (cf. @var-Ni, @var-type-syntaxique dans le balisage de la deuxième phrase ci-après)), des introductions de verbes supports de registre plus ou moins formel ((donner + accorder + concéder) (la permission + l’autorisation)), des emplois d’expressions figées (comme L’erreur est humaine !, proposable en tant qu’alternative phrastique pour Il est permis à tout le monde de se tromper, cf. figure 14 de T9 reproduite supra en figure 67), etc. ; <P type="forgee" id="permettre_ctxt1"> <N0 type-syntaxique="SN" type-semantique="humain-actif" id="permettre_ctxt1_N0"> Le maître </N0> <V id="permettre_ctxt1_it-ad" conj="PIND3S"> permet </V> <N2 type-syntaxique="SNP" type-semantique="humain" id="permettre_ctxt1_N2"> <PREP PREP-amalgamee="à" DET-amalgame="les">aux</PREP> élèves </N2> <N1 type-syntaxique="Vinf" type-semantique="proces" id="permettre_ctxt1_N1"> de jouer au ballon </N1> </P> Ø par substitution lexicale du verbe et ajustements syntaxiques corrélés à celle-ci <P type="generee" id="autoriser_de_permettre_ctxt1"> <N0 type-syntaxique="SN" type-semantique="humain-actif" idref="permettre_ctxt1_N0"> Le maître </N0> <V id="autoriser_it-syno" idref="permettre_ctxt1_it-ad" conj="PIND3S"> autorise </V> <N1 type-syntaxique="SN" type-semantique="humain" idref="permettre_ctxt1_N2" var-Ni="N2" var-typesyntaxique="SNP"> les élèves </N1> <N2 type-syntaxique="VinfP" type-semantique="proces" idref="permettre_ctxt1_N1" var-Ni="N1" var-typesyntaxique="Vinf"> <PREP>à</PREP> jouer au ballon </N2> </P> – à partir de ces données balisées, j’ai imaginé ce que pourrait être un protocole de rédaction des contextualisations qui ambitionnerait de permettre de rédiger des phrases pouvant donner lieu à des reformulations partiellement automatisables. Sur la base des seules phrases étudiées durant cette expérimentation, il semble possible d’envisager que certaines des substitutions lexicales strictes ou avec ajustements soient programmées (comme celles de permettre et autoriser évoquées supra) et que des codes associés aux phases négatives rédigées puissent spécifier si en retirant la Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 245 négation une phrase de sens contraire acceptable et de même usualité est créée 400, ce qui permettrait de déléguer leur génération à un automate, Le chef de service ne permet pas que l’on parte plus tôt certains soirs Ø par suppression de la négation une phrase de sens contraire est bien générée Le chef de service permet que l’on parte plus tôt certains soirs 401 ou s’il convient de bloquer cette génération parce qu’elle produirait certaines contextualisations décalées par rapport aux emplois effectifs ou sans lien avec une situation réelle connotée. Je ne vous permets pas de me parler sur ce ton 402 Ø par suppression de la négation une phrase peu naturelle serait générée Je vous permets de me parler sur ce ton Fumer n’est pas permis dans les lieux publics Ø par suppression de la négation une phrase en décalage avec la législation évoquée serait générée Fumer est permis dans les lieux publics N’ayant pas encore poussé les analyses engagées au-delà des expérimentations réalisées au sujet du verbe permettre et de certains de ses synonymes et contraires, je ne suis pas capable d’évaluer la proportion de réussite de ces reformulations automatiques de phrases (dans les limites qui viennent d’être énoncées) pour tous les prédicats verbaux d’une nomenclature et, conséquemment, je ne sais pas s’il serait envisageable de concevoir un mode rédactionnel les exploitant dans le cadre de la création d’un nouveau répertoire ou de la refonte des composants de contextualisation d’un texte existant. Il faudrait en particulier trouver les modalités d’évaluation pertinentes pour juger si elles faciliteraient le travail de rédaction, qu’il s’agisse de créations textuelles ou de révisions de contextualisations existantes, voire d’adaptations d’énoncés extraits de corpus 403, ou si elles canaliseraient trop la créativité des rédacteurs et risqueraient de les conduire à produire des énoncés dont la qualité métalinguistique serait inférieure à celle des contextualisations actuellement proposées. 400 Dans la mesure où il est toujours plus simple de supprimer automatiquement un élément présent que d’en faire insérer un qui soit adapté au contexte, il est préférable de rédiger les phrases négatives et, si c’est pertinent, de générer à partir d’elles les phrases affirmatives. 401 Cette phrase est proposée dans le Dictionnaire compact. 402 Cette phrase est proposée dans le Robert collège. 403 Des recherches sur la génération de reformulations pertinentes dans un contexte dictionnairique pourraient peut-être intéresser ceux qui développent des outils de recherche d’informations et/ou rencontrer les intérêts de ceux qui travaillent en génération de textes, mais je n’ai pas encore documenté la pertinence de ces rapprochements. 246 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Perspectives électroniques : quel dictionnaire pour un environnement numérique de travail scolaire ? Ces travaux exploratoires ont stimulé une autre réflexion, qui porte, elle, sur la sélection des données à afficher à l’écran et sur les modalités de présentation de celles-ci. Débutée avec les étudiants de la promotion 2004-2005, avec qui nous avons travaillé sur des phrases extraites des dictionnaires ou forgées et sur leurs reformulations en veillant à matérialiser en leur sein leurs analyses syntaxico-sémantiques au moyen d’un balisage ad hoc, cette réflexion a été reprise quand le texte de la communication C10 a été retravaillé pour élaborer T9 et que j’ai rédigé le § 3. de T17 et T21. Ce sont donc d’autres étudiants, ceux des promotions 2008-2009 et 2009-2010, qui ont eu la primeur de ces nouvelles spéculations et qui ont contribué à leur décantation. Conclure T9 sur une note optimiste, en imaginant que des dictionnaires électroniques pourraient proposer des informations mieux lisibles que ceux qui sont imprimés, appelait d’autres développements. Les pistes de réflexion possibles me semblaient devoir tenir compte de deux des fonctions des dictionnaires : apporter une aide à la compréhension d’une unité linguistique rencontrée ailleurs et fournir un moyen d’expression qui n’a pas pu être mobilisé sans recourir à eux. 404 Me fondant sur les articles permettre du Dictionnaire du français contemporain de 1966 et du Dictionnaire du français au collège de 2000, confrontant ceux-ci à d’autres articles de répertoires alphabétiques et à ceux de différentes éditions de deux dictionnaires britanniques thématiques de facture originale spécifiquement destinés à soutenir l’expression d’allophones en anglais, le Longman Language Activator et le Longman Essential Activator, et prenant en compte les propositions formulées dans T9, j’ai progressivement élaboré des spécifications pour un dictionnaire qui aurait des interfaces distinctes d’aide à l’expression et à la compréhension, dont la présentation est ébauchée dans T17 § 3. et T21 (§ 2.7.2.), et qui donnent lieu au développement d’un prototype (Rdic6 (§ 2.7.3.)) dont l’ampleur est encore très modeste, mais qui constitue un exercice spéculatif stimulant. 405 Parmi les pistes de réflexion relatives à l’avenir des dictionnaires, il en est une qui me paraît particulièrement utile. Elle consiste en l’intégration d’un dictionnaire conçu à cette fin dans un environnement numérique de travail 406 qui permettrait de recourir à lui dans le cadre de l’aide à la compréhension de textes lus à l’écran (ce que j’ai en404 La dimension culturelle des dictionnaires est sciemment exclue temporairement du cadre de réflexion. 405 Les étudiants de master mobilisés en 2008-2009 et 2009-2010 m’ont indirectement apporté de précieuses informations sur la qualité des premiers résultats de ma réflexion. Les difficultés éprouvées par certains d’entre eux pour percevoir quelles sélections d’informations sont utiles dans chacune des deux situations de consultation envisagées m’ont permis de mieux percevoir qu’alors que les utilisateurs de dictionnaires comprennent assez bien par eux-mêmes à quoi servent une large part des différentes informations fournies dans un répertoire bilingue (où la distribution des articles dans deux parties distinctes et, au sein de chacune, le jeu des langues utilisées pour exprimer les informations constituent des points de repère), ils ont souvent moins de facilité à identifier la fonction de chacune de celles qui sont proposées par les dictionnaires monolingues, et qu’ils sont même parfois déroutés au point de ne pas y trouver certaines indications pourtant présentes. 406 Différents types d’environnements numériques de travail ont été envisagés pour les élèves des écoles primaires et des collèges (cf. T17 n. 118). Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 247 visagé dans T20 et Tdr5 (cf. §§ 1.6.1. et 2.3.6.) et qui est déjà réalisé par certains dictionnaires électroniques consultables par hyperappel, mais pas de manière aussi poussée que je l’ai conçu) et dans le cadre d’une aide à l’expression. Dans ce second contexte, il serait intégré à un outil de correction orthographique et grammaticale enrichi de fonctions d’aide à la reformulation qui analyserait les éléments textuels déjà saisis par le rédacteur et mobiliserait ce dictionnaire (comme ces outils le font déjà pour les précis de grammaire qu’ils incluent) afin d’améliorer les sélections lexicales opérées ou de mobiliser d’autres items ou constructions. La synergie imaginée implique d’autres modalités d’intégration que celles qui sont déjà mises en œuvre actuellement pour permettre de consulter les articles du ou des dictionnaire(s) intégré(s), ceux-ci étant des répertoires de facture classique plus ou moins présentés comme ils le seraient hors du correcteur. Le § 3. de T17 introduit cette perspective, mais les réflexions relatives au développement de ce mode d’interrogation d’un dictionnaire ne pouvant à mon sens pas se faire sans que je connaisse mieux le détail du fonctionnement des outils d’aide à la rédaction considérés et, le cas échéant, que je puisse interroger et éventuellement travailler avec leurs développeurs, j’ai cherché à établir des contacts avec eux, ce qui s’est fait en proposant à certains d’intervenir dans le master 407 et en prolongeant ces rendez-vous par des conversations orientées vers la recherche. Un projet de recherche peut en appeler un autre… Les échanges engagés ont été fructueux en termes de formation personnelle comme en perspectives de recherche, mais ce n’est pas exactement sur le terrain qui motivait ma prise de contact que les choses ont le plus avancé, ce qui est compréhensible eu égard aux investissements que nécessiteraient de simples prospections dans les directions qui me semblent intéressantes. D’autres projets, susceptibles de nourrir directement le précédent, semblent par contre pouvoir être menés à bien avec l’un de ces éditeurs d’outils de correction, qui souhaite améliorer la qualité des descriptions syntaxico-sémantiques de prédicats utilisées par son produit pour améliorer les performances et le niveau d’explicitation des indicateurs d’erreurs 408. Ce projet est susceptible de donner lieu à un contrat CIFRE pour lequel nous cherchons depuis plusieurs années à trouver l’étudiant le mieux capable de conjoindre des compétences d’analyse linguistique, de description lexicographique (textuelle pour les lecteurs humains et formalisée pour être rendue exploitable par l’outil) et de programmation (pour qu’il puisse se faire une bonne représentation des contraintes de ce contexte de description particulier et éventuellement contribuer aux développements). Une étudiante, Audrey Renault, apporte depuis deux ans des garanties d’implication et de compétence tant dans le travail 407 Trois outils de correction orthographique et grammaticale ont fait l’objet d’exposés relatifs à leurs développements : celui qui est interne au traitement de texte proposé par Microsoft, et deux outils autonomes capables de s’intégrer dans différents logiciels de rédaction, Cordial et ProLexis. Ces interventions ont été assurées par des partenaires qui ont activement contribué à certains aspects du développement ou de la diffusion de ces outils : Julian Parish (Microsoft), qui est intervenu durant trois années à partir de 20052006, Dominique Laurent (Synapse Développement), en 2006-2007, et Roger Rainero (Éditions Diagonal), depuis 2006-2007. 408 Pour d’évidentes questions de confidentialité, je ne présenterai ni l’entreprise ni les détails du projet. 248 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia effectué en stage dans cette entreprise que dans ses recherches sous ma direction et j’ai bon espoir qu’elle puisse contribuer à la réalisation du projet de recherche en réalisant un doctorat que je coencadrerai. Mais sans anticiper sur le futur, le mémoire de M2 qu’elle a réalisé cette année (Mdir109) a bénéficié à ma demande d’une double direction universitaire, puisque Danièle Van de Velde, qui, dans le cadre de notre master et dans le numéro 19 de la revue Lexique (D1), applique ses compétences de sémanticienne à l’analyse de descriptions dictionnairiques (cf. Van de Velde (2009)), a guidé avec moi les recherches qui ont permis à cette étudiante de mettre en place une première méthodologie de travail en vue de l’élaboration de descriptions de constructions syntaxico-sémantiques présentant un juste équilibre entre adéquation linguistique et exploitabilité dans le cadre d’un outil de correction orthographique et grammaticale. … sans écarter l’étude des emplois verbaux à partir des patrons dictionnairiques Ainsi que nous venons de le voir, nous nous sommes intéressés, dans T9, à la façon dont un dictionnaire à visée didactique, le Dictionnaire du français au collège, fournit les patrons de construction syntaxico-sémantique de certaines des unités lexicales qu’il décrit. En développant les patrons codés avec des mutualisations d’arguments s.v. permettre 1., nous avons observé que leur décodage n’est pas à la portée des collégiens destinataires, qui doivent éliminer les combinaisons invalides (présentes du fait des mutualisations) et tenter d’articuler chaque patron rétabli avec le ou les exemple(s) qui l’illustrent (quand c’est le cas), qui sont tous fournis en une suite non triée. Cet état de fait met les utilisateurs du dictionnaire considéré dans l’incapacité de construire leur représentation des emplois possibles de ce verbe : faut-il en considérer deux (autant que d’adresses d’articles), vingt-deux (la somme des dix-huit patrons reconstituables s.v. permettre 1., plus un s.v. permettre 2., un s.v. permettre 3. et deux s.v. se permettre) ou plus encore (en articulant les indications de construction et les éléments autonomisables des gloses sémantiques) ? Les analyses de T9 montrent que la lecture minutieuse de l’article étudié ne permet pas de répondre à cette question de manière tranchée. Cette indétermination n’est pas nécessairement handicapante pour certains utilisateurs, qui – soit connaissent le verbe et, étant simplement désireux de se remémorer quelle préposition employer pour introduire la mention de l’humain bénéficiant d’une permission, n’observent éventuellement même pas la surgénération du patron de construction et de la glose présentés en 1., – soit sont à la recherche d’éléments qui les mettront sur la voie de la bonne interprétation d’une fausse formule de politesse 409 dont ils découvrent l’usage. Il n’en va pas de même, en revanche, pour d’autres usagers, qu’il s’agisse – d’écoliers qui réalisent un exercice de français dans lequel ils doivent remplacer des propositions d’un type par celles d’un autre ou qui ont à confronter des descriptions proposées dans plusieurs répertoires 410 ; 409 Celle qui est décrite s.v. permettre 3., subdivision qui ne pose pas de problème d’interprétation. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 249 – ou de locuteurs quelconques qui cherchent à élaborer eux-mêmes une description du verbe (par exemple pour répondre à un enfant ou un allophone qui demande qu’un mot considéré en dehors de tout contexte lui soit expliqué). Dans T9, la comparaison de la lisibilité des articles permettre du Dictionnaire du français au collège et du Larousse junior conclut à une cohérence de présentation des deux répertoires qui faciliterait l’accès au plus complexe pour ceux qui auraient déjà eu l’occasion de travailler avec le dictionnaire pour le cycle 3 de l’enseignement primaire. J’ai ensuite poussé plus loin l’hypothèse en prenant en compte également les articles permettre du Larousse des débutants de 2000 411 et de 2005 412 (cf. figures 68 et 69). Figure 68. L’article permettre du Larousse des débutants (2000) permettre verbe 1. Le médecin m’a permis de sortir, il m’a donné le droit de sortir. ♦ Synonymes : autoriser, laisser. ♦ Contraires : défendre, interdire. 2. Son travail lui permet de voyager à l’étranger, il lui donne la possibilité de voyager à l’étranger. ♦ Contraire : empêcher. • Mots de la même famille : permis, permission. Figure 69. L’article permettre du Larousse des débutants (2005) permettre verbe 1. Permettre à une personne de faire quelque chose, c’est lui donner la permission, le droit de le faire. Le médecin m’a permis de sortir. ♦ Synonyme : autoriser. ♦ Contraires : défendre, interdire. 2. Permettre, c’est rendre possible. Son travail lui permet de voyager à l’étranger. ♦ Contraire : empêcher. ● Mots de la même famille : permis, permission. Celui de 2000 propose des exemples glosés alors que celui de 2005 introduit la description du premier sens par une indication de construction (amputée de la mention du sujet). Ce patron, qui ne mentionne qu’une des constructions retenues dans celui qui est proposé dans le Dictionnaire du français au collège, ne devrait pas présenter de difficulté d’interprétation pour les jeunes lecteurs à qui il est destiné, puisque ses rédacteurs ont pris soin de le textualiser autant que c’est possible (le syntagme une personne, préféré à l’emploi de qqn, a la même valeur mais pas la même abstraction). Cette bonne lisibilité doit permettre de le comparer avec les éléments des contextes dans lesquels le verbe a été rencontré et mal compris, ce qui peut avoir motivé de consulter le dictionnaire. Dans la même situation, le texte de 2000 demandait un effort plus important aux élèves, qui devaient d’abord analyser la phrase exemple introduisant la subdivision de description pour mettre en correspondance ses constituants et les éléments de la glose et qui devaient ensuite évaluer si la glose éclairait de la même manière le contexte où ils avaient rencontré le verbe. Les descriptions de 2000 et de 2005 ne peuvent par contre pas plus l’une que l’autre contribuer à aider un jeune élève à enrichir son expression, 410 Lors d’exercices de manipulation de dictionnaires, les élèves peuvent être invités à chercher des mots chacun dans leur répertoire et à confronter ce qui y est indiqué avec ce qui figure dans différents autres ouvrages disponibles dans la classe (cf. nn. 337 et 564). 411 C’est celui qui a le plus de chances d’avoir été employé avant le Larousse junior de 2003 si ceux qui choisissent les dictionnaires (parents, maîtres) restent fidèles au même éditeur (ce qui n’est pas assuré). 412 Cette version refondue de celui de 2000 peut avoir été utilisée par ceux qui sont entrés au CP en 2005 et au CE2 en 2007, juste avant la parution de la refonte du Larousse junior (en faisant l’hypothèse qu’un dictionnaire neuf est acheté à chacune de ces deux étapes importantes de la scolarité primaire). 250 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia le patron de 2005 n’étant pas assez consistant pour lui permettre d’observer dans le syntagme verbal des alternances entre complétive et combinaison de syntagme prépositionnel avec une infinitive ou un syntagme nominal (cf. n. 397). Plus complet, le patron du dictionnaire pour le collège présenté s.v. permettre 1. s’avère, lui, bien peu utile pour une aide à la compréhension du mot (son décodage étant trop complexe en lui-même pour éclairer une incompréhension), mais il est davantage en mesure de soutenir les efforts d’un élève qui cherche à mieux employer ce verbe en diversifiant les constructions auxquelles il recourt. La confrontation des indications syntaxico-sémantiques de différents répertoires corrélée à l’examen de leur fonction là où elles figurent et de leur utilisabilité par ceux qui consultent ces dictionnaires m’a conduite à concevoir l’utilité d’affichages différenciés en fonction des besoins et des compétences de ceux à qui les descriptions sont destinées. Ils sont exposés dans T17 § 3.2. et T21 (cf. § 2.7.2.). Mais leur conception nécessite que je pousse plus loin mes spéculations afin d’avoir une meilleure représentation des besoins des utilisateurs de dictionnaires. Ces recherches consistent, pour commencer, à évaluer les répertoires pour ce qui concerne l’aide à la compréhension limitée à l’identification des emplois verbaux rencontrés dans un texte de lecture. L’étude métalexicographique entreprise sur ce thème a été débutée avant celle relative à l’aide à l’expression, car certains de ses aspects rejoignent les spéculations portant sur l’élaboration d’un module d’hyperappel de dictionnaire capable de conduire les lecteurs d’un mot-occurrence rencontré dans un contexte de lecture à la description dictionnairique pertinente pour l’éclairer. L’introduction de cet hyperappel “intelligent” dans un dictionnaire scolaire est également motivée dans T17 § 3.2. et T21 (cf. § 2.7.2.). 2.3.6. Analyse des modalités d’identification des unités linguistiques à partir des formes graphiques rencontrées dans des textes et de leurs contextes d’emploi [Tdr5 (en préparation b)] Les évaluations de la lisibilité d’articles de dictionnaires formulées dans T9 et, en écho, dans T17 § 3.2.1. reposent sur la seule analyse des textes dictionnairiques, ce qui me semble devoir être complété par des études simulant les modalités de consultation d’utilisateurs ordinaires. Ce sont les élèves de cours élémentaire première année qui ont été pris en compte en premier lieu, ce qui a motivé la constitution d’un corpus de textes scolaires annoté en fonction des contenus dictionnairiques 413 (Rcorp13, présenté dans T20 (§ 1.6.1.)) et la préparation de Tdr5, qui présente la particularité d’être commenté dans ce document de synthèse du fait de sa pertinence à la suite du retour sur T9, alors que sa rédaction est encore en cours. 413 Chaque mot-occurrence est balisé et associé via des attributs à des indications relatives au mode de traitement de cet item dans le Dictionnaire Hachette benjamin. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 251 Portée de l’étude Cette nouvelle recherche a été engagée en 2009. Circonscrite de manière précise, elle prend en compte – un motif de consultation dictionnairique : l’aide à la compréhension ; – un type de public : les élèves du CE1 ; – un type de documents au cours de la lecture desquels un problème de compréhension peut être rencontré : les textes de lecture d’un manuel de français (À portée de mots (éditions 2003 et 2009)) ; – un dictionnaire : le Dictionnaire Hachette benjamin de 1996 ou 2002, concurrent du Larousse des débutants dont il vient d’être question 414, et sur lequel s’appuie le manuel d’où sont extraites les lectures pour les exercices d’initiation à la manipulation de dictionnaires ; – et deux modes de consultation : une recherche manuelle, dépendante des compétences de l’élève qui cherche un mot, et une recherche par hyperappel envisagée à partir d’une version électronique des textes (par exemple dans le cadre d’un manuel électronique, cf. T17 § 3.2.1.1.). Liens entre mots-occurrences du corpus et items traités dans le dictionnaire Comme indiqué ci-dessus, les premiers éléments de cette étude ont fourni la matière d’un article relatif aux modalités de constitution et d’enrichissement du corpus de textes de lecture (Rcorp13). Il s’agit de T20 (§ 1.6.1.), coécrit avec Stavroula Markezi (une étudiante de M2 LTTAC de la promotion 2008-2009 qui avait travaillé avec moi pour cette étape), et qui se concentre sur des questions techniques (i) de lemmatisation et d’étiquetage morphosyntaxique de chaque mot-occurrence du corpus, puis (ii) d’appariement, si possible, avec un item en adresse dans le dictionnaire, complété le cas échéant par l’indication de la subdivision de description de sens qui correspond à l’emploi attesté (ce qui n’était que très partiellement réalisé au moment de la rédaction de T20). Ces annotations introduites dans le balisage XML du corpus à partir des informations stockées dans la base Rbd5 (§ 2.3.2.) complétées par un retour aux articles du dictionnaire pour les mentions des indicateurs de subdivision de description constituent une aide précieuse pour l’analyse de l’utilisabilité du Dictionnaire Hachette benjamin pour la compréhension des textes de lecture du manuel développée dans Tdr5. Dans cet article en préparation, après l’exposé des objectifs de l’étude et de l’utilité du corpus annoté mobilisé, un état des items à propos desquels le dictionnaire est susceptible de fournir une aide pour une meilleure compréhension est dressé au § 1. sur la base des appariements des mots-occurrences du corpus et des adresses dictionnairiques (principales et subordonnées 415). Mais le fait qu’un lemme correspondant 414 À terme mon objectif est d’employer également le texte numérisé du Larousse des débutants de 2005 (Rdic4, cf. § 2.2.1.3.) pour les annotations et les manipulations de ce corpus, mais il m’a semblé pertinent de commencer par celui avec lequel le manuel entretient un lien privilégié. 415 Dans chaque contexte, il est nécessaire de repérer si un mot-occurrence est employé dans une unité polylexicale décrite dans le dictionnaire (où elle figure alors en adresse subordonnée). Il faudrait également être en mesure de déterminer si l’item figure dans une unité polylexicale non décrite, ce qui implique de savoir 252 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia potentiellement à une forme rencontrée dans un texte appartienne à la nomenclature du Dictionnaire Hachette benjamin ne suffit pas à garantir que l’article associé à ce lemme peut éclairer la compréhension du mot en contexte. Pour apprécier la capacité du dictionnaire à fournir l’aide que l’on attend de lui, l’étude se concentre sur les modalités de description mises en œuvre en son sein et sur les indices que les articles offrent à ceux qui les consultent pour déterminer si une partie des informations qu’ils fournissent est susceptible d’éclairer leur compréhension d’un contexte rencontré dans une lecture (en particulier des indications de construction ou des cooccurrences lexicales). Selon les premiers éléments qui ressortent de cette analyse en cours, les descriptions proposées dans le Dictionnaire Hachette benjamin n’offrent pas toujours des indices clairs facilitant l’identification de l’explication dictionnairique pertinente pour éclairer l’emploi des unités lexicales dans leur contexte : contrairement à ce qui a été indiqué supra à propos du Larousse des débutants de 2005, le dictionnaire Hachette ne fournit pas de patron de construction syntaxico-sémantique mais se limite à montrer de manière non systématique dans les gloses définitionnelles et les exemples qu’il propose quels peuvent être les actants impliqués par les prédicats, sans qu’il soit possible de savoir (sans connaître le fonctionnement des items décrits) s’ils sont tous repérés, si ceux qui le sont sont obligatoires ou si leur mention est sélective ou aléatoire. L’analyse des indications fournies par le dictionnaire est indispensable pour déterminer ce sur quoi il est possible en leur sein de fonder le choix d’une description susceptible d’éclairer un contexte lu, mais l’examen minutieux d’une sélection de contextes variés (présentant différentes constructions et sélections d’actants, des cooccurrents réguliers ou non, etc.) est également utile pour l’évaluation de la diversité des emplois pour lesquels une explicitation est susceptible d’être cherchée. Le corpus de textes de lecture en fournit un ensemble d’extension variée selon les verbes 416, qui va successivement permettre d’élaborer une méthode d’appariement des contextes et des descriptions dictionnairiques et de tester sa mise en œuvre par un automate. Le § 1. se termine sur les modalités de rapprochement des données du corpus et du dictionnaire. La part des identifications d’emplois qui est automatisable aujourd’hui se limite au repérage des mots-occurrences qui sont associés à des items polysémiques, c’est-à-dire, dans ce contexte, qui constituent des adresses principales d’articles composés de plusieurs subdivisions de description consacrées à un item (indépendamment des unités polylexicales qui peuvent être décrites à sa suite). Le dictionnaire décrivant le mot simple comme étant polysémique, il est nécessaire de déterminer quelle description correspond le mieux au sens rencontré dans le corpus (si elle existe) 417 et la repérer dans le texte, et si celle-ci est compositionnelle ou si au moins l’item a en son sein un sens qui est décrit pour lui dans le dictionnaire. 416 Il convient de bien distinguer le nombre d’occurrences du verbe dans le corpus et la diversité des contextes attestés. Quelle que soit la fréquence du verbe en corpus, il peut avoir plusieurs emplois et des patrons syntaxico-sémantiques complexes pour lesquels le corpus fournira ou non des exemples de réalisation sans que la probabilité de voir chaque emploi attesté dépende de la fréquence du verbe. 417 Si la tâche de sélection de description doit nécessairement être réalisée pour les items décrits comme étant polysémiques, elle doit en toute logique l’être également pour les items décrits comme étant monosémiques, dans la mesure où ce choix de traitement relève de la décision des lexicographes et non strictement des pro- Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 253 d’enregistrer dans le balisage du mot-occurrence du corpus l’identificateur de celleci 418. Pour ce faire, il est possible de demander à un programme informatique de signaler les mots-occurrences auxquels correspondent plusieurs descriptions dans le dictionnaire, mais, comme le choix de la subdivision à retenir demande une part interprétative, je n’ai pas entrepris son automatisation avant d’avoir poussé plus loin l’étude des indices de choix. À terme, l’objectif est de déterminer quels sont ceux qui se révèlent pertinents dans les contextes attestés et de faire effectuer la procédure de mise en correspondance par un automate qui les prendra en compte 419. Selon les premières évaluations, il apparaît assez nettement que le Dictionnaire Hachette benjamin ne fournit pas suffisamment d’indices fiables pour que l’automatisation soit réalisable, ce qui motive que je projette, au-delà de ce qui fait l’objet de Tdr5, de retravailler sur les sélections d’indices pertinents en prenant en compte les indications syntaxicosémantiques et cooccurrencielles d’autres répertoires, scolaires ou non (comme le Dictionnaire du français contemporain ou le récent Dictionnaire des verbes du français actuel ), pour rédiger des descriptions destinées, comme celles du Dictionnaire Hachette benjamin, aux élèves du cycle 2, mais qui seraient plus homogènes entre elles que celles de ce répertoire et dont le contenu offrirait une meilleure adéquation avec les besoins repérés 420. Items ou emplois apparemment exclus du dictionnaire mais attestés dans le corpus L’étude des modes d’identification des unités linguistiques rencontrées dans des textes de lecture scolaires en vue de la recherche de leur(s) description(s) dans le dictionnaire conduit par ailleurs à observer qu’une part non négligeable de ces unités ne correspondent pas à des items de la nomenclature principale ou de second niveau (en tous cas pas sous la forme lemmatisée cherchée) et que, quand l’item est décrit, ses emplois attestés n’ont pas tous de subdivisions qui leur soient consacrées. Le § 2. synthétise les causes identifiables de ces absences au moins apparentes. priétés des mots (il peut en effet avoir été jugé pertinent de ne pas évoquer dans le dictionnaire un sens moins usuel, marqué, ou considéré comme trop complexe pour le public destinataire). 418 La mention, dans le balisage, de l’adresse et de l’identificateur de subdivision pertinente permet de créer une version des textes de lecture enrichie de liens hypertextes liant les mots-occurrences aux explications pertinentes à leur sujet dans le dictionnaire. Ceci n’entre pas dans le cadre des recherches pour la mise en place d’un module d’hyperappel capable de prendre en compte n’importe quel contexte où figurent les items cherchés, mais des textes de lecture enrichis peuvent constituer un produit éditorial intéressant d’un point de vue pédagogique. 419 Pour que des appariements comme ceux réalisés dans le corpus puissent être effectués au sein d’autres contextes, il faudra ensuite évaluer la non-ambiguïté des indices utilisés dans les contextes du corpus ainsi que leur robustesse et leur efficacité pour le traitement d’autres contextes, et ajuster les choix d’indices en fonction de ces résultats. 420 Le texte du Larousse des débutants numérisé, Rdic4 (cf. § 2.2.1.3.), à propos duquel j’ai indiqué dans la n. 414 que je souhaite l’utiliser (au même titre que le Dictionnaire Hachette benjamin) pour annoter le corpus de textes de lecture Rcorp13, pourrait également servir de base pour les réécritures qui viennent d’être évoquées. Les nouvelles descriptions de sens pourraient se substituer à celles du Dictionnaire Hachette benjamin dans la version électronique des textes de lecture enrichis de liens hypertextuels évoquée en n. 418. Dans cette perspective, le fait d’avoir annoté le corpus avec les indications d’adressages du Larousse (cf. n. 414) faciliterait le travail de réécriture et la mise en relation des descriptions et des mots-occurrences qu’elles doivent éclairer. 254 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Les unités simples qui ne figurent pas dans les composants d’adressage du dictionnaire semblent avoir été exclues de la nomenclature au motif – qu’elles relèvent de catégories non représentées (les noms propres, les articles et les nombres, ces derniers ne figurant que dans un paratexte spécifique 421) ; – que leurs formes attestées en corpus ne sont pas les graphies les plus conventionnelles pour ces unités (ces dernières figurant seules dans les adressages quand les premières peuvent faire l’objet d’une remarque ou ne pas être mentionnées du tout) ; 422 – ou que ce sont des dérivés construits de manière régulière (leur base étant souvent décrite 423). Mais il peut également s’agir d’items pièges qui semblent être présents alors qu’ils sont absents : leur lemme est homographe de celui d’une autre unité linguistique qui, elle, est prise en compte, ce qui est source de confusions lexicales (que les unités soient homocatégorielles ou non, la catégorie étant de peu de secours à des élèves qui comprennent mal ce qu’ils lisent). Il peut enfin s’agir d’items qui n’appartiennent pas à la nomenclature du dictionnaire alors qu’ils semblent être utiles à la construction d’une expression de qualité telle qu’elle peut être envisagée à ce niveau scolaire, voire qui sont susceptibles d’être rencontrés à l’occasion d’activités d’éveil inscrites au programme du cycle des apprentissages fondamentaux. Ciblage des descriptions d’emploi pertinentes par le module d’hyperappel Le § 3., qui constitue le dernier point de Tdr5, reprend quant à lui le fil des réflexions engagées dans T17 § 3.2.1.1. (et que T20 prolonge déjà) à propos de la mise en place d’un hyperappel du dictionnaire à partir des textes s’ils étaient lus à l’écran (et donc intégrés à une hypothétique édition électronique du manuel À portée de mots 424). J’y reviens sur la question de la lemmatisation et de la catégorisation des motsoccurrences dans leurs contextes d’appel qui doivent conduire à des items en adresses du dictionnaire et sur celle de l’enrichissement des descriptions dictionnairiques actuelles (au sein de leurs textes ou dans leurs balisages) pour y introduire plus d’informations syntaxico-sémantiques et cooccurrentielles (ce à quoi j’ai déjà commencé à réfléchir dans T17 et qui réfère aux éléments d’analyse développés au § 1.). Je m’y intéresse aussi, en particulier, au comportement que le module d’hyperappel pourrait avoir si la consultation est demandée – soit à partir d’un mot régulièrement construit qui ne figure pas à la nomenclature contrairement à sa base, ce qui peut permettre d’exploiter l’article de cette dernière et 421 Dans celui-ci, les descriptions se limitent à la mention d’une sélection de nombres et au repérage de la place de chacun par rapport aux autres dans la suite numérique. 422 Le balisage du corpus enregistre la graphie de l’adresse, mais l’appariement du lemme du mot-occurrence et de la forme en adresse ne peut être automatisé qu’au moyen de règles ad hoc. 423 L’examen des indications indirectement fournies concernant les dérivés dans les descriptions de leur base rejoint l’une des perspectives d’étude qu’offre la base des nomenclatures (Rbd5 (§ 2.3.2.)), dont une table (T_ULing_derivee_sous_Ad_Prin) enregistre les dérivés des items en adresse principale. 424 Il s’agit ici d’une édition qui pourrait être réalisée par l’éditeur indépendamment de celle envisagée en n. 418. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 255 une indication constructionnelle plutôt que de s’en tenir à l’indication du fait que ce mot n’est pas dans le dictionnaire 425 ; – soit à partir d’un mot qui régit une construction qui n’est pas décrite alors qu’une autre, proche sémantiquement mais pas syntaxiquement 426, figure dans le dictionnaire, ce qui peut permettre d’exploiter sa description pour soutenir la compréhension du sens, mais en veillant à ce que les éléments de variation à observer soient explicitement mentionnés. Les recherches engagées dans la perspective de la conception d’un module d’hyperappel innovant ne me permettent pas encore de proposer des spécifications techniques précises en vue de son développement et de l’élaboration du texte dictionnairique dont il pourra exploiter le contenu pour sélectionner les subdivisions de description à présenter en réponse à une demande de consultation. Mais leur avancement permet déjà de mesurer la distance qui sépare les hyperappels actuellement proposés de ce qui pourrait mieux aider les utilisateurs de dictionnaires qui consultent un ouvrage de référence pour tenter de remédier à un problème de compréhension 427. Place de Tdr5 dans mes travaux Cette étude, dont rend compte Tdr5, qui est encore en préparation, est la dernière de la thématique relative à l’identification de ce qui est décrit dans les dictionnaires. Le fait d’y conjoindre une analyse métalexicographique et l’observation d’items en corpus lui confère une originalité au sein de mes travaux sur les dictionnaires, qui sont en général plutôt centrés sur les textes des ouvrages étudiés pour eux-mêmes ou comparativement à d’autres, et la rapproche dans une certaine mesure de l’exploration du corpus du tourisme que Hans Paulussen et moi avons abordée en comparant des usages lexicaux attestés à ceux qui étaient décrits dans des dictionnaires et des guides de conversation (cf. T10 (§ 1.4.2.)). 428 La confrontation des données dictionnairiques et des emplois attestés dans une sélection de contextes fournit un angle d’approche des contenus des répertoires différent de celui que l’on peut avoir quand on les étudie isolément, qui présente l’intérêt d’être plus en phase avec les fonctionnalités des ouvrages étudiés, mais dont je ne 425 Certains dérivés sont mentionnés dans l’article consacré à leur base (cf. n. 423) et à ce titre relevés dans Rbd5, mais pour un fonctionnement optimal de l’hyperappel il faudrait que ces mentions soient systématiques. 426 Pour permettre, évoqué supra, ce pourrait être le cas si une complétive était à substituer à une infinitive accompagnée d’un syntagme prépositionnel pour retrouver le sens décrit s.v. permettre 1. dans le Larousse des débutants de 2005. 427 Ceux qui consultent un dictionnaire par hyperappel dans le cadre d’une aide à l’expression le font également à partir d’un mot figurant dans un texte écrit sur support électronique, mais dans la mesure où ce sont eux qui ont choisi son emploi, ce mot ne leur est pas inconnu (même s’ils cherchent à acquérir une meilleure maîtrise de ses conditions d’emploi ou qu’ils sont intéressés par la mention d’unités qui lui soient substituables), et ils pourraient donc être mieux en mesure de se satisfaire du fonctionnement des modules d’hyperappel actuels (qui par exemple, à partir de permis, proposent de choisir entre le verbe et le nom). 428 Deux étudiantes de M1 TAL de la promotion 2009-2010 ont travaillé pour la rédaction de leurs mémoires dans l’esprit de ce que j’ai entrepris, l’une en constituant un corpus d’énoncés de problèmes de mathématiques proposés à des élèves de cycle 3 et en repérant les emplois qui y sont attestés mais qui ne sont pas décrits dans les dictionnaires destinés au même public (Mdir100 (Dutrey (2010))), et l’autre en sélectionnant des textes de TAL en anglais et en cherchant à évaluer dans quelle mesure un dictionnaire bilingue peut aider un allophone à les lire (Mdir103 (Tettelin (2010))). 256 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia sais pas encore évaluer s’il constituera un mode d’étude réellement pertinent dans la mesure où la richesse des analyses ainsi conduites est en partie dépendante de celle du corpus 429, ni, dans l’hypothèse où je réitérerais ce mode d’approche, si j’étudierais de nouveau les rapprochements des mots-occurrences et des descriptions disponibles pour chacun dans un dictionnaire ou si je les envisagerais plutôt en constituant des sous-ensembles définis en fonction des propriétés des unités lexicales et/ou du mode de traitement lexicographique mis en œuvre pour elles. 2.3.7. Conclusion : du choix au repérage de ce qui fait l’objet de traitements Les travaux réunis dans le § 2.3. abordent sous différents angles la question du choix par les lexicographes des unités linguistiques à propos desquelles des indications sont fournies dans les articles et celle de leur identification par les utilisateurs des dictionnaires. Ils peuvent être rapprochés – de ceux qui sont effectués par des métalexicographes, même si dans leurs publications ce ne sont souvent que des extraits correspondant à des segments alphabétiques qui servent à illustrer leurs propos 430 ; – et de ceux qui sont réalisés par les éditeurs qui, bien qu’ils soient souvent discrets au sujet de leurs méthodes de sélection, semblent assez régulièrement procéder à des confrontations des adresses macrostructurelles des dictionnaires qu’un nouveau produit en cours d’élaboration doit concurrencer et/ou constituer la nomenclature de celui-ci par suppression d’adresses dans la liste de celles d’un répertoire plus consistant 431 de leur fonds. T24, qui analyse les principes de sélection à l’œuvre dans la constitution des nomenclatures des dictionnaires français, et Rbd5, la base des nomenclatures des dictionnaires scolaires qui stocke l’inventaire des unités linguistiques placées en adresses macro- et microstructurelles 432, sont assez comparables respectivement, à différents égards, à ces démarches d’autres analystes ou d’éditeurs, et le fait qu’une fois encore mes activités pédagogiques bénéficient des développements de mes recherches permet aux étudiants de notre master de pouvoir participer rapidement à des tâches de sélection de nomenclatures durant leurs stages ou leurs premières embauches 433. 429 Les analyses internes des dictionnaires, réalisées en comparant les articles entre eux, permettent plus assurément d’observer les irrégularités de traitement, mais incitent moins qu’une confrontation de leur contenu avec ce qui est attesté en corpus à chercher quels sont les emplois qui n’y sont pas pris en compte. 430 C’est le cas par exemple pour Rey-Debove (1971 : 78-79), qui se focalise sur les items en ba- ou Rey (1989) qui observe ceux de la tranche fi- fil-, mais pas pour Martinez (2009) (cf. § 2.2.4.). 431 Occasionnellement, comme pour le Dictionnaire scolaire Hachette de 2002, c’est la nomenclature d’un répertoire plus modeste, en l’occurrence le Dictionnaire Hachette junior de 1998, qui est augmentée. 432 Le relevé est effectué en commençant pour chaque dictionnaire par celui des adresses macrostructurelles puis en complétant celui-ci par celui des adresses microstructurelles (cf. § 2.3.2.), ce qui permet de toujours disposer des items dont les lexicographes ont choisi de valoriser la présence à la nomenclature. 433 Les rapports de stages font état de ce type d’activité pour des stagiaires accueillis par différents éditeurs, de même que les nouvelles que nous recevons de ceux qui ont quitté la formation depuis quelques années et qui ont maintenant des responsabilités éditoriales. Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 257 Dans les recherches métalexicographiques, la détermination des unités linguistiques traitées est un prérequis pour – l’étude de leur sélection, dès lors que l’on se propose de quitter les assertions des textes de présentation des dictionnaires (comme dans T24) pour l’observation des données ; – l’analyse d’informations particulières susceptibles d’être associées à certains des items (comme les caractérisations d’emplois marqués (cf. § 2.4.) ou les mentions d’origines étrangères (cf. § 2.5.)) ; – la confrontation de dictionnaires concurrents, d’éditions d’un même répertoire séparées par une refonte ou d’ouvrages dédiés à des publics différents (comme les élèves des cycles 2 et 3 ou du cycle 3 et du collège) ; – la compilation de nomenclatures des répertoires d’un segment de marché pour l’évaluation des besoins cumulés identifiés par les éditeurs ; – et probablement d’autres investigations encore. C’est ce qui a motivé la création de Rbd5. Mais le relevé des nomenclatures, s’il permet de travailler au niveau des unités linguistiques, n’est pas suffisant pour déterminer précisément ce qui est traité, puisqu’il ne donne pas accès aux emplois décrits. Chez les éditeurs, les constitutions de nomenclatures ne semblent pas non plus prendre en compte les emplois et, quand la détermination de ceux-ci n’est pas laissée à l’appréciation des rédacteurs, une trame de rédaction préétablie, pas nécessairement de façon spécifique pour le projet éditorial en cours d’élaboration, peut leur en fournir une sélection 434. Pour mes analyses, n’ayant pas accès à ces éventuelles trames, je ne peux que tenter de restituer les sélections d’emplois à partir de leurs descriptions, que celles-ci soient textuelles (comme dans les définitions), plus codifiées (comme dans les patrons de construction étudiés dans T9) ou iconographiques (comme celles enregistrées et écrites dans Rbd2). Ce travail de reconstitution des emplois pris en compte est minutieux et plus complexe que celui concernant les unités linguistiques des nomenclatures, du fait (i) que tous les répertoires ne traitent pas tous les emplois en usage pour chaque unité linguistique et (ii) que les emplois traités ne sont pas nécessairement délimités par chaque ouvrage de la même manière (il peut y avoir des chevauchements partiels ou des différences de granularité des distinctions 435). Mais cette tâche est tout aussi importante 434 Chez Larousse, en particulier dans le département des bilingues, cette trame reçoit le nom de « canevas ». 435 Par exemple, si, s.v. allumer, le Larousse des débutants et le Dictionnaire Hachette benjamin décrivent un premier sens dans des termes relativement comparables (respectivement « Allumer, c’est faire brûler, mettre le feu. Allumer une bougie. Il est interdit d’allumer des feux dans la forêt. • Contraire : éteindre. » et « Mettre le feu à quelque chose. Maman allume le gaz avec une allumette. »), le traitement du second sens présente un écart plus marqué, puisque ce que décrit le dictionnaire Larousse correspond à l’emploi absolu du verbe dans la définition et à celui avec un argument interne référant à un luminaire (lampe de chevet) dans la contextualisation (« Allumer, c’est donner de la lumière en appuyant sur un interrupteur. Allume ta lampe de chevet. • Contraire : éteindre. »), alors que le Hachette prend en compte une acception plus large (l’argument interne pouvant référer à tout type d’appareil ou d’installation électrique) – dont celle du Larousse ne constitue qu’un emploi particulier – et l’illustre en établissant un contraste entre un appareil 258 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia que celle consistant à identifier les unités linguistiques traitées, puisque pour l’essentiel des informations que couvrent les programmes de traitement des dictionnaires, ce sont les emplois qui sont décrits et non l’unité linguistique dans sa globalité. L’inventaire des emplois traités a pour l’heure été engagé par trois voies d’accès. 1) La base Rbd2 (cf. § 2.3.3.), • qui recense les iconographies du Robert junior imprimé de 1997 et caractérise leurs insertions effectives et potentielles dans ce volume et dans l’édition électronique de 1999 ainsi que les relations qu’elles y entretiennent ou y entretiendraient (pour les utilisations possibles mais non effectives, cf. figure 46, T_pivot_Items_Utilisations) avec les éléments de description textuelle ; • qui a déjà permis d’observer certains usages iconographiques pour la différenciation d’emplois d’items qui nomment plusieurs référents (comme griffe, cf. figures 55 et 56) ; • et qui, étendue au traitement des illustrations présentées dans d’autres répertoires mettant en scène les objets nommés ou les actions dénotées, contribuera à la réflexion globale sur les indices que les dictionnaires comportent déjà ou dont ils devraient mieux se doter pour pleinement aider leurs utilisateurs à déterminer ce qui, parmi les emplois décrits, correspond à ce qu’ils ont rencontré et qu’ils cherchent à (mieux) comprendre. 2) L’étude des caractérisations syntaxico-sémantiques des emplois verbaux à partir des patrons qui sont proposés pour eux (cf. T9), qui constitue un préalable pour les spéculations relatives aux modalités de présentation des rections verbales (cf. T17 §§ 3.2.1.3. et 3.2.2.2. et T21 (§ 2.7.2.)) comme pour les réécritures de descriptions de sens qui ont été évoquées (§ 2.3.6.) en tant que prolongement du travail engagé à partir du corpus de textes de lecture Rcorp13. 3) L’enrichissement du corpus Rcorp13, • dont les annotations des mots-occurrences comportent les items en adresses et le nombre des subdivisions consacrées à chacun dans le Dictionnaire Hachette benjamin extraites de Rbd5 et doivent prochainement intégrer l’ordonnateur numérique de la description pertinente pour éclairer le sens de chaque occurrence particulière (cf. Tdr5 (§ 2.3.6.)) ; • pour lequel j’ai le projet de procéder aux mêmes annotations, mais à partir des adressages et des subdivisions du Larousse des débutants (dont le texte en cours de numérisation constitue la ressource Rdic4 (cf. § 2.2.1.3.)), afin (i) de vérifier si, du fait de la présence d’indications de construction syntaxico-sémantiques au début de certaines définitions de prédicats verbaux, ses descriptions sont plus éclairantes que celles du Dictionnaire Hachette benjamin, et (ii) de constituer une édition du corpus enrichie d’hyperliens créés entre chaque mot-occurrence et la description pertinente délimitée au sein de Rdic4 (cf. n. 418) ; • en articulation avec lequel, enfin, je souhaite (i) dériver un nouveau texte de Rdic4 (cf. n. 420), en veillant à l’adéquation des descriptions de sens avec les valeurs des mots-occurrences afin d’évaluer jusqu’à quel point un dictionnaire général peut avoir pour projet d’éclairer des contextes d’emploi particuliers, et (ii) réfléchir aux indicaà allumer et un éclairage à éteindre (« Mettre en marche un appareil électrique. Tu peux allumer la télévision, mais éteins la lumière. (Le contraire d’allumer est éteindre.) »). Document de synthèse – 2.3. Identification des unités linguistiques et des emplois décrits 259 teurs que le balisage des articles pourrait intégrer pour guider les mises en relation des contextes problématiques et des descriptions susceptibles de fournir les éléments utiles à leur compréhension dans le cadre d’un hyperappel de dictionnaire 436. Enfin, la perspective d’étude des contenus dictionnairiques envisagée à partir d’énoncés extérieurs aux répertoires (comme ceux de Rcorp13, dont les mots-occurrences sont supposés être cherchés dans un dictionnaire, cf. Tdr5) est partagée par T23, où j’évalue comment consulter un dictionnaire à partir d’une forme phonique ou d’une graphie (que l’on ne sait éventuellement pas déchiffrer) non interprétée, et de quels moyens ce dernier dispose pour aider à surmonter la difficulté de compréhension rencontrée. Les unités linguistiques ne sont plus alors considérées au niveau de leurs emplois (même si elles sont en usage au moment où elles suscitent une consultation de dictionnaire), mais à celui de la diversité de leurs formes. L’axage du propos reste, lui, sur ce qui permet d’aller de ce qui est rencontré et considéré comme pouvant poser des problèmes de compréhension vers ce qui est décrit dans un répertoire, qu’il s’agisse d’interfaces de consultation ou des modes de traitement dont usent les dictionnaires. Je reviendrai au § 2.7.2., dans le cadre du commentaire de T17, sur certains éléments des travaux relatifs à la détermination de ce qui est traité dans les articles, mais j’évoquerai plus alors les questions de présentation et d’accès aux unités linguistiques et aux informations fournies à leur sujet dans le cadre d’éditions électroniques. Avant cela, les prochains développements de ce mémoire vont se concentrer sur deux ensembles d’informations – (i) celles qui permettent de caractériser les conditions d’emploi des unités linguistiques quand elles sont perçues comme non neutres (§ 2.4.), et (ii) celles qui fournissent des éléments pour l’identification diachronique des items d’origine étrangère (§ 2.5.) – avant d’évoquer (§ 2.6.) les textes de présentation des contributions métalexicographiques suscitées pour la revue Lexique – T19 pour le numéro 19 (D1) et Tdr3 pour un prochain numéro (D2). 436 T17 et T21 (cf. § 2.7.2.), rédigés en 2008 et 2009, proposent quelques pistes de réflexion concernant ces sujets, que l’extension du travail effectué à partir de Rcorp13 en utilisant Rdic4 comme base dictionnairique doit me permettre d’approfondir, dans la limite toutefois des emplois attestés dans ce corpus particulier. 2.4. Étude des marquages ou prescriptions d’emplois lexicaux dans des dictionnaires monolingues L’étude des descriptions des conditions d’emploi des unités linguistiques traitées dans les dictionnaires constitue depuis quelques années un thème important dans mes recherches métalexicographiques. Il n’est pas sans rapport avec la sélection des nomenclatures, dont il a été question au § 2.3.1. à propos de T24, dans la mesure où les mêmes critères sont mis en œuvre pour décider d’intégrer ou non un item ou tel de ses emplois dans un répertoire et pour y caractériser les conditions socio-énonciatives de l’usage de ceux qui sont sélectionnés. Un rapprochement peut également être effectué avec ceux de mes travaux qui impliquent des corpus spécialisés ayant vocation à documenter des pratiques discursives particulières (cf. § 1.3.). Trois articles, tous à paraître, ont été rédigés, avec une portée propre à chacun, puisque T11 (§ 2.4.1.) synthétise la globalité des tendances du traitement de la variation lexicale dans l’ensemble des dictionnaires généraux français au cours des deux dernières décennies, tandis que T14 (§ 2.4.2.) explore, sous l’angle particulier de leur dimension prescriptive, les dispositifs propres aux dictionnaires scolaires et que T22 (§ 2.4.3.) se focalise sur une variété langagière particulière, le parler dit “enfantin”, analysée seulement dans certains dictionnaires Robert. Pour leur outillage conceptuel, ces études sont tributaires des cadres typologiques élaborés par Hausmann (1977 (pour le domaine français) puis 1989 (de portée générale)), eux-mêmes inspirés de Weinreich (1954) 437, sur lesquels il me semble souhaitable de fournir un éclairage avant de revenir en détail sur chaque article, à la fois pour pallier leur notoriété peut-être plus réduite que cela n’a été envisagé dans l’introduction de T11, ce dont différentes questions qui m’ont été posées lors des communications préliminaires aux articles (C13, C23 et C17) m’ont apporté des témoignages, et pour commenter certains aspects de ce modèle utile mais critiquable, en relation avec l’enrichissement qui l’a vu passer de huit à onze variables entre ses deux états successifs 438. 437 Cf. Hausmann (1989 : 652). 438 Ce bref développement fournit un début de concrétisation aux « discussions diverses auxquelles pourrait donner lieu » le classement de Hausmann qui sont évoquées dans l’introduction de T11, laquelle ne va pas plus loin que la mention de quelques pistes de débat (« le découpage opéré, les choix dénominatifs effectués, le manque de hiérarchie et d’articulation entre les critères retenus ou encore la distribution des marques sur les différents types »). 262 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Présentation critique du cadre typologique utilisé comme référence Le récapitulatif qui suit (figure 70), qui prend pour base l’état de 1989 et en particulier son tableau synthétique (p. 651), présente pour chaque type de marquage considéré le critère de variation pris en compte, le repère neutre pour la variable (« unmarkiertes Zentrum »), les repères d’écarts par rapport au repère neutre (« markierte Peripherie »), une sélection de marques extraites par Hausmann (1989) de dictionnaires allemands, anglais et français (sans reprise de leurs sources), le numéro de l’article de l’Encyclopédie internationale de lexicographie [EIL] qui traite spécifiquement de la variable considérée 439 et la localisation correspondante dans Hausmann (1977). Après le tableau qui synthétise ces données viennent quelques commentaires sur certaines variables destinés à éclairer les réflexions que suscitent les modèles hausmanniens, les problèmes qu’ils posent, qui ne sont souvent que le reflet des flottements observés par l’auteur dans les dictionnaires, et les distances que j’ai pu prendre avec eux lors de l’utilisation que j’en ai faite dans les trois articles qui seront analysés ensuite. Figure 70. Cadre typologique utilisé comme référence pour l’étude des marquages (cf. Hausmann (1989 et 1977)) VALEUR DU MARQUAGE CRITÈRE DE VARIATION REPÈRE NEUTRE REPÈRES D’ÉCARTS EXEMPLES DE MARQUES diachronique ancrage temactuel porel a vieux vx. nouveau néol. diatopique localisation b d’usage général régional ou dialecdial. tal ARTICLE DE L’EIL CORRÉLATION AVEC 1977 54 § 8.1., pp. 113-115 55 § 8.2., pp. 115-117 56 § 8.3., pp. 117-118 AmE c dia-intégratif caractère na- appartenant à la emprunté ou étrananglicisme langue nationale e ger tional d diamédial canal f neutre parlé umgangssprachlich g écrit langue écrite classe supérieure diastratique groupe socioneutre culturel diaphasique caractère formel h diatextuel type de discours k neutre neutre classe inférieure pop. fam. groupe d’enfants ou d’élèves formel fml i non formel infml j biblique bibl poétique poet § 8.4.1., p. 119 57 § 8.4.2., pp. 119-128 littéraire journalistique administratif administratif 439 Les conditions de rédaction de l’encyclopédie ont fait que les auteurs des articles 54 à 61, consacrés à différents types de marquage, ne connaissaient pas encore la typologie de l’article 53 (Hausmann (1989)) qui définit leur cadre et ne pouvaient donc se référer qu’à celle de 1977 (cf. P. Corbin (2006 : 108)). Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux VALEUR DU MARQUAGE diatechnique CRITÈRE DE VARIATION caractère technique l diafréquentiel fréquence REPÈRE NEUTRE REPÈRES D’ÉCARTS ARTICLE DE L’EIL CORRÉLATION AVEC 1977 appartenant à la appartenant à une botanique langue commune m langue spécialisée n viticulture 58 § 8.6., pp. 130-133 fréquent 59 § 8.7., pp. 133-139 60 § 8.5., pp. 128-130 61 § 8.8., pp. 139-143 rare diaévaluatif expressivité o neutre connoté dianormatif normativité incorrect EXEMPLES DE MARQUES 263 rare derog p euph incorrect correct emploi critiqué a e i m b f j n « Zeitlichkeit (Temporalität) » « Räumlichkeit (Arealität) » c “American English” d « Nationalität » « nationalsprachlich » « Medialität » g “langue usuelle” h « Formalität » “formell” “informell” k « Textsorte » l « Technizität » « gemeinsprachl[ich] » « fachsprachlich » o « Attitüde » p “derogatory” [péjoratif] – Concernant les spécifications que les dictionnaires peuvent fournir en matière de délimitation temporelle des usages, le contraste symbolisé dans Hausmann (1989) par les repères d’écarts “vieux” (« alt ») et “nouveau” (« neu ») donnait lieu en 1977 à deux développements explicites consacrés respectivement à la diachronie envisagée rétrospectivement (« nach rückwärts », § 8.1.1.) et prospectivement (« nach vorwärts », § 8.1.2.) 440, qu’illustraient divers exemples de marquages observés, comme pour les autres variables, dans la tradition dictionnairique française depuis Littré : vieilli, vieux, ancien, archaïque ou archaïsme, abandonné d’une part, moderne, néol. ou néologisme, nouveau ou nv. d’autre part. Ce couplage, qui n’est pas isolé dans la littérature lexicographique et métalexicographique 441, a probablement contre lui de proposer, sous les apparences de l’évidence, une symétrie partiellement illusoire, car si des marques comme vieilli ou vieux fournissent bien des indications sur des états de langue en signalant que les items ou les emplois ainsi marqués n’appartiennent plus aux usages les plus répandus 442, il n’en va pas de même pour néologisme, qui n’est porteur d’aucune information sur la diffusion discursive des faits lexicaux ainsi étiquetés (ni de pronostic sur leur usage à venir), à la différence de moderne, qui, tel qu’il est spécifié par exemple dans le Grand Robert, 440 Pour rendre les expressions allemandes dans ce contexte, “rétrospectif ” et “prospectif ” sont probablement plus adéquats que “régressif ” et “progressif ”, qui sont utilisés dans l’introduction de T11, article dans le § 2. duquel, par ailleurs, ne sont évoquées que des indications diachroniques rétrospectives, les nomenclatures des dictionnaires pour apprenants qui constituent l’objet de l’étude n’ayant pas vocation à accueillir des néologismes. 441 L’article 54 de l’EIL (Schmidt (1989)), qui suit immédiatement celui de Hausmann (1989), en fournit un témoignage immédiat par l’intitulé de ses deux premières subdivisions : « Markierungen der Paläologismen » (§ 1.) et « Markierungen der Neologismen » (§ 2.). Une observation comparable peut être faite concernant le chapitre II (« Les marques diachroniques ») du livre de Glatigny (1998) consacré aux marques d’usage dans les dictionnaires français du XIXe siècle, qui est organisé selon deux subdivisions similaires : « 1. Les archaïsmes » et « 2. Les néologismes ». 442 Ces indications ne dépassent pas ce degré d’approximation, les paratextes des dictionnaires n’allant pas, le plus souvent, jusqu’à spécifier des variations générationnelles précises (il y a quand même des exceptions, comme dans le cas de la définition de la marque vieilli dans le Dictionnaire Hachette encyclopédique 1994 (cf. infra § 2.4.1., figure 72), qui réfère à l’usage de « locuteurs généralement “âgés” »). 264 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia signale l’ancrage d’un usage dans la synchronie actuelle 443, mais qui n’attire peut-être pas autant l’attention que les indicateurs de néologie 444. – Pour la localisation des usages, le contraste symbolisé en 1989 par les exemples de marques dial. et AmE correspond, pour le français, à la distinction entre variations intra- ou extrahexagonales effectuée par Hausmann (1977 : 115), qui, par ailleurs, indiquait que le marquage diatopique ne se fait pas uniquement avec des marques mais peut aussi prendre d’autres formes via les étymologies ou les définitions, ce qu’illustrait, pour le premier sous-ensemble de variations, un florilège étendu d’indications observées, éventuellement en combinaison avec des spécifications ressortissant à d’autres variables, qui s’articulaient autour de quelques items récurrents – dialectal, régional / régionalisme 445, mot combiné à divers localisateurs 446 – ou prenaient des formes plus libres 447. Pour les items ressortissant à une variété de français non métropolitaine, les exemples fournis se limitaient par contre à belgicisme, canadianisme et helvétisme, conformément à la fois à leur faible représentation dans les dictionnaires de l’époque et au centrage de l’espace francophone sur le français de France qui prévaut dans nos dictionnaires généraux, deux caractéristiques qui sont analysées en détail au § 2.2. de T24, où sont évoqués l’évolution récente de la première et les débats suscités par la seconde (cf. supra § 2.3.1.). – Pour ce qui a trait à la traduction lexicale des contacts de langues, Hausmann focalise, en 1989 comme en 1977, le marquage dit « dia-intégratif » sur les emprunts à l’anglais et, hors indications étymologiques, signale essentiellement ceux-ci comme « anglicismes » – conformément à des pratiques dictionnairiques bien attestées 448 –, ce qui suscite une interrogation quant à la validité même de la variable dia-intégrative : est-il légitime d’autonomiser celle-ci dès lors que le marquage qui en est l’incarnation revêt une valeur dianormative systématique 449, à laquelle Hausmann (1977) faisait d’ailleurs écho, sans toutefois pousser l’observation jusqu’à cette ultime conséquence ? 450 443 Selon le « Tableau des signes conventionnels, conventions et abréviations » de ce dictionnaire, la marque mod. « insiste sur le fait qu’un sens, un emploi est d’usage actuel, quand le sens précédent ou les emplois voisins sont vieux (vx), vieillis, archaïques (abandonnés). » (version électronique de 2005). Spécification similaire dans le tableau correspondant du Nouveau Petit Robert électronique de 2001. 444 On peut d’ailleurs observer que, si moderne est bien en usage dans des dictionnaires généraux actuels, il n’en va pas de même des marqueurs de néologie, désormais inusités par exemple dans le Petit Robert, qui, originellement, en usait assez abondamment (cf. Hausmann (1977 : 114)). 445 Pop. et régional, vieux ou régional, anciennement régional, régionalisme (Lyon), régionalisme (Midi), régionalisme (Nord), vieux ou régionalisme. 446 Mot dauphinois, mot de l’Artois, mot des Alpes françaises, mot du Nord, mot du Nord de la France, mot d’un parler du Massif central, mot du Rouergue, mot du Sud-Est de la France, mot picard, mot toulousain, mot régional (Rouergue), mot d’argot provençal. 447 Désigne parfois encore, dans l’Ouest de la France … ; en Bretagne le … est appelé … ; nom donné à … en Bretagne et en Normandie ; nom méridional de … ; se dit principalement dans le Midi ; synonyme méridional de …. 448 À côté de ses centaines d’occurrences de la marque anglic., le Nouveau Petit Robert électronique de 2001 ne caractérise que deux items comme germanismes (restauration 2. et statthalter), un seul comme italianisme (bravoure 2.) et aucun comme hispanisme. 449 Les tableaux de conventions du Grand Robert et du Nouveau Petit Robert électroniques de 2005 et 2001 respectivement indiquent que la marque anglic. s’utilise pour un « mot anglais, de quelque provenance qu’il soit » (le Grand Robert précisant que « la notion inclut les américanismes ») qui est « employé en français et critiqué comme emprunt abusif ou inutile » (à l’exclusion des « mots anglais employés depuis longtemps et Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 265 – Le typage socio-énonciatif des usages, source de beaucoup d’approximations dictionnairiques bien connues 451, est celui qui présente le plus d’écarts apparents entre les deux modèles de Hausmann, celui de 1977 réunissant sous le marquage diastratique ce qui, en 1989, est distribué entre la variable diastratique proprement dite et les variables diamédiale, diaphasique et diatextuelle. Le regroupement de 1977 articulait des marques relevant de ces variables dans un schéma complexe de « niveaux de langue » (p. 120) 452 qui visait à montrer, à l’intention d’apprenants du français langue étrangère, le calage différent du « bon usage » dans l’échelle de ceux-ci selon que le discours est parlé ou écrit, ce qui introduit en outre une dimension dianormative : BON USAGE “Parlé” “Écrit” (ridicule !) littéraire littéraire soigné soigné ÉCRIT non marqué PARLÉ familier (très) familier populaire populaire (vulgaire !) BON USAGE Si ces quatre variables apparaissent plus autonomisées chez Hausmann (1989), leur interpénétration y reste évoquée (p. 652), et toutes ensemble elles n’y font l’objet que du seul article 57 de l’EIL, sous l’intitulé de « marques stylistiques / diastratiques » (P. Corbin (1989a) 453). De fait, s’agissant de la variable dite « diamédiale », qui concerne les canaux qu’empruntent les discours, cette autonomie ne va pas de soi en matière d’usages lexicaux. On peut en effet se demander dans quelle mesure il est possible d’isoler ces canaux de classes de discours définies, qui se rattachent au « diatextuel » de Hausmann (1989), et c’est avec l’hypothèse que c’est au niveau de celles-ci que peuvent s’observer les variations fines des usages que j’ai abordé la constitution de corpus, notamment oraux, dits “à haut rendement” 454. La réflexion serait de toute façon à reprendre dans sa globalité pour intégrer la prise en compte des modes scripturaux de masse apparus avec les nouvelles technologies, dont T24 § 2.4. évoque de récentes exploitations diction- 450 451 452 453 454 normalement en français »). Il arrive même, dans certains articles de ces dictionnaires, que la marque anglic. soit accompagnée, de façon redondante, par l’indication critiqué (par exemple s.v. best of ), tandis que, dans le Petit Larousse électronique millésime 2005, la marque anglicisme a pour qualifiant régulier déconseillé (par exemple s.v. cameraman). Les rapprochements effectués à deux reprises par Hausmann (1977 : 113 et 117) entre anglicismes ou américanismes et néologismes ajoutent au questionnement sur la spécificité de la variable dia-intégrative. Outre les deux textes de Hausmann, cf. notamment D. & P. Corbin (1980) et P. Corbin (1989a). Ce schéma prenait appui notamment sur diverses marques observées dans des articles de dictionnaires qui associaient à langue une pluralité de prédicats (littéraire, soignée, soutenue, écrite, standard, parlée, de la conversation, familière, très familière, populaire), à quoi s’ajoutait argot (p. 121). Commentant son article de l’EIL, P. Corbin (2006 : 109) indique pour sa part qu’il y a associé aux marques diastratiques réunies par Hausmann (1977) trois finalités non désignées comme telles par ce dernier : « la discrimination d’usages socialement marqués, la spécification de conditions d’énonciation et l’expression de jugements de bienséance », le dernier élément intégrant implicitement une composante diaévaluative dans certains marquages diastratiques. Cf., au § 1.3., les réflexions concernant les typages de discours qui introduisent la présentation du corpus footballistique Rcorp1 et les qualités de celui-ci comparées à celles des autres corpus relatifs au même thème (Rcorp2 et Rcorp4). Cf. également la présentation du corpus de paratextes de dictionnaires Rcorp12 et le retour sur l’analyse du vocabulaire des lexicographes proposée dans T18 (§ 1.4.3.) et sur les réflexions développées dans T24 (§ 2.3.1.). 266 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia nairiques explicitées. Mais, en tout état de cause, il n’est pas sûr que le paramètre diamédial soit d’une grande utilité métalexicographique pour le domaine français, dont les dictionnaires généraux semblent faire peu état de l’oralité 455 et réfèrent volontiers à l’écrit par des voies indirectes qui, justement, évoquent certains types de discours 456. Mieux isolée également par Hausmann (1989) qu’en 1977, où elle se mêlait étroitement au jeu des registres, la variation des usages lexicaux imputable à des groupes sociaux déterminés y fait cependant l’objet d’une présentation en partie contestable, tant par la référence à une dichotomie sociologique primaire contrastant « classe supérieure » et « classe inférieure » sans corrélat lexicographique avéré 457 que par la présence de fam. parmi les exemples de marques en compagnie de pop., ce qui traduit un amalgame du diaphasique, auquel la marque fam. devrait logiquement être référée 458, et du diastratique qui perpétue la représentation de 1977 et contredit la typologie nouvelle. En revanche, la mention de « groupes d’enfants ou d’écoliers », qui fait sortir le champ du diastratique de catégories sociologiques élémentaires, ouvre sur des corrélats dictionnairiques observables (dont cependant Hausmann ne donne pas d’illustration en 1989 et qu’il évoquait en 1977 comme s’intégrant mal à sa typologie (pp. 129-130)), qu’il s’agisse de ce qui y est présenté comme relevant du “parler enfantin”, à quoi j’ai consacré T22 (cf. § 2.4.3.), ou de ce qui y est codé comme argot scolaire. Dernière composante de l’appareil de description des variations de source socioénonciative, l’affectation de particularités lexicales à des types de discours – plus spécifiquement, Hausmann (1989) évoque en fait des types de textes (« Textsorte ») – ne va pas non plus sans poser certains problèmes de concurrence de variables : si biblique constitue une spécification textuelle stricte – mais de peu de portée dictionnairique 459 – et que poétique peut qualifier un ensemble bien circonscrit de productions textuelles, dont les tableaux de conventions des dictionnaires Robert dessinent les contours (cf. T24 n. 76), littéraire, impliqué par Hausmann (1977 : 120) dans l’appréciation du bon usage (cf. supra) et dont les emplois effectifs tirent communément vers le diaphasique (ibid.), couvre, au sens propre, un vaste ensemble de productions textuelles aux frontières floues, trop hétérogènes pour être réduites à une variété discursive unique. Concernant journalistique et administratif, enfin, on peut hésiter, comme l’observe Hausmann (1989 : 652) pour ce dernier typage, entre les variables diatextuelle et diatechnique, selon qu’on se focalise plus ou moins sur le mode énonciatif ou sur le contenu informationnel des énoncés, et l’observation des marquages effectués dans le Petit Ro455 Trois mentions seulement dans le Nouveau Petit Robert électronique millésime 2010, s.v. donf (à) (« (oral) »), guillemet (« Loc. orale ») et 2. pas II. 4. (« (cour. dans la langue orale) »). Cf. déjà Hausmann (1977 : 123). 456 Dans le Grand Robert ou le Nouveau Petit Robert (électroniques de 2005 et millésime 2010 respectivement), ce peut être par des marques comme admin. ou littér., que les tableaux de conventions de ces dictionnaires destinent respectivement à l’identification de ce qui ressortit à « la langue écrite de l’administration » et à « la langue écrite élégante ». 457 Cf. Rey (1983 : 564, cité dans T24 n. 67) commentant l’isolement sociologique de populaire dans le jeu des marques d’usage : « la marque “populaire” signifiant “unité employée par les locuteurs appartenant au peuple”, devrait engendrer les marques “bourgeois”, “paysan”, “intellectuel”, “ouvrier”, etc., inutilisées et probablement inutilisables. ». 458 Les dictionnaires actuels s’accordent pour caractériser familier comme un indicateur de registre indépendant de l’appartenance sociale (cf. T11 § 1.3., T24 n. 64. et § 2.4.1. infra). 459 Le Nouveau Petit Robert électronique millésime 2010 y réfère dans le marquage, sous des formes diverses, d’une petite dizaine d’items (par exemple s.v. fornication). Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 267 bert peut inciter à penser que la dimension diatextuelle ne soit pas de même nature pour journalistique et pour administratif (que Hausmann (1977 : 130) regroupait avec les marques commercial, juridique et religieux dans un ensemble de “manières de s’exprimer” (« Sprachstile ») hors typologie) 460. – Concernant l’appréciation du caractère spécialisé ou non des usages lexicaux, la variable diatechnique de Hausmann (1989) connote tacitement, par les deux marques botanique et viticulture qui l’illustrent, la distinction opérée en 1977 entre ce qui peut être marqué par les dictionnaires d’une part par didactique ou scientifique, d’autre part par technique, ou par des hyponymes de ces termes dont il fournissait des listes (pp. 131-132). Cette partition classique ancre l’approche des lexiques spécialisés dans les terminologies mais n’intègre pas les variations diaphasiques et diatextuelles au sein d’un champ d’activité 461 qui peuvent donner lieu dans les dictionnaires à des marquages combinant argot et des prédicats domaniaux (méd., milit., scol. 462, etc.), que Hausmann (1977 : 125-126) ne faisait qu’évoquer dans le développement composite sur le marquage diastratique qui a été commenté précédemment et qu’il réunissait un peu plus loin dans un ensemble de “parlers de groupes” (« Gruppensprachen ») décrits comme ni diastratiques, ni diatechniques, ni connotatifs (pp. 129-130). – « Connotatif », justement, était chez Hausmann (1977) la dénomination du typage devenu « diaévaluatif » en 1989, la trace de l’appellation initiale se conservant dans l’utilisation de “connoté” (« konnotiert ») pour caractériser les items lexicaux qui ressortissent à ce type du fait que, outre leurs denotata, ils traduisent un rapport de l’énonciateur à son énoncé. Hausmann (1977 : 128-129) en illustrait un large choix de manifestations dictionnairiques, ordonnées implicitement sur une échelle de distinction décroissante 463, et dont certaines, comme recherché, ne paraissent pas éloignées de marques diaphasiques. – Concernant les traitements dictionnairiques de la fréquence lexicale, parmi lesquels le Trésor de la langue française, avec les statistiques sur corpus mentionnées dans ses articles, constitue une exception, Hausmann (1989) reprend l’opposition entre les pôles “fréquent” et “rare” mise en œuvre en 1977 (p. 133). Probablement motivé par l’implication déjà évoquée de l’auteur dans la didactique du français, qui lui fait inventorier 460 Si le millésime 2010 de ce dictionnaire (version électronique) ne présente guère qu’un nombre infime de mentions d’un style administratif (s.v. ébriété et reconsidérer) ou journalistique (s.v. édile 2.), en revanche, l’utilisation assez abondante de la marque admin. touche essentiellement des emplois lexicaux observés dans des textes administratifs qui concernent des réalités de diverses natures (comme celles auxquelles réfèrent, par exemple, automobile, confidentialité, duplicata, sectoriser, etc.), ce qui rapproche le diatextuel du diaphasique, tandis que les occurrences, moins nombreuses, des marques journal. ou presse tendent à s’appliquer préférentiellement à des items référant à des réalités de la presse, et donc plus diatechniques en ce qu’ils ressortissent à un jargon professionnel (par exemple brève, intertitre, marronnier, etc.). 461 Pour rappel, c’est l’intérêt pour ce type de variation peu décrit qui a suscité la constitution des corpus Rcorp1, 2 et 4 et Rcorp12, qui ont permis d’aborder le lexique afférent respectivement au football et à la lexicographie en prenant en compte l’incidence des types de discours sur les usages observés (cf. T4 § 2. et T18 § 1. et supra l’introduction du § 1.3. et les §§ 1.3.2. et 1.4.3.). 462 Dans le Nouveau Petit Robert électronique millésime 2010, ces marques concernent respectivement des items comme néo (s.v. néoplasme), arrosage (au sens de “bombardement”) ou archicube. 463 Solennel, noble, recherché, affecté, un peu affecté, emphatique, par exagération, ironique, par antiphrase, plaisant, par plaisanterie, péjoratif, par dénigrement, par mépris, injure, grossier, vulgaire, trivial. 268 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia les dictionnaires de mots fréquents existants (§§ 8.7.1. et 8.7.2.), ce cadrage n’est pas en adéquation avec la bipolarité ordinaire de nos dictionnaires généraux, qui, au “rare”, exprimé par diverses marques dont Hausmann (1977 : 137-138) faisait état (rare, peu usité, inusité), n’opposent pas le “fréquent” mais le non-rare, signifié implicitement par l’absence de marque 464. 465 – Enfin, chacun des deux marquages, incorrect et emploi critiqué, par lesquels Hausmann (1989) illustre les observations expressément normatives des dictionnaires, incarne une des modalités de celles-ci, selon que le lexicographe formule un jugement à son propre compte ou qu’il l’énonce en discours rapporté. Sans faire état de cette distinction, Hausmann (1977 : 139-140) fournissait plusieurs exemples de marques ou de formules de l’un ou l’autre type 466, à propos desquels on peut remarquer qu’aucun n’appartient aux prescriptions positives des dictionnaires, dont une part importante, il est vrai, s’exprime aujourd’hui par la mention de recommandations officielles 467 dont l’instauration, liée à la Loi du 4 août 1994 relative à l’emploi de la langue française 468, est trop récente pour avoir pu être prise en compte par Hausmann. 464 Indirectement, des marques qui ressortissent à d’autres variables peuvent être perçues comme des indications indirectes de fréquence non rare, qu’il s’agisse de moderne, marque diachronique évoquée supra, ou d’indicateurs diatechniques comme usuel, dont l’usage, dans le Petit Larousse comme dans les dictionnaires Robert, semble circonscrit (notamment pour des dénominations vulgaires d’espèces naturelles), ou de courant, dont la définition dans le « Tableau des termes, signes conventionnels et abréviations du dictionnaire » du Nouveau Petit Robert électronique millésime 2010 souligne la vocation foncièrement contrastive : « insiste sur le fait qu’un sens, un emploi est connu et employé de tous, quand le mot est d’apparence savante ou quand les autres sens sont techniques, savants, etc. ; plus cour. : plus courant que d’autres sens eux-mêmes courants ; ou relativement plus courant que les autres sens (sans être très courant dans l’absolu) ». La stipulation faite à propos de la marque courant par le tableau correspondant du Grand Robert électronique de 2005, selon laquelle « [l]’absence de marque correspond aux informations : moderne, courant. », semble autoriser une certaine extrapolation du diachronique et du diatechnique au diafréquentiel. 465 Une exception relativement récente vient quand même, à sa manière, appuyer Hausmann : il s’agit du Dictionnaire du français, édité par Le Robert et CLE International à l’usage des allophones, qui matérialise par un symbole au sein des articles les emplois jugés « importants », sur des bases toutefois pas purement fréquentielles (cf. Rey-Debove (1999 : VII) et T11 § 2.1.). Parmi les items ainsi évalués, on peut observer que certains sont susceptibles de se voir affecter des marques qui ne valorisent pas leur usage, en particulier pour des apprenants, comme con, conne, conard ou conasse, qui reçoivent l’étiquette « style très familier ». Cette association originale d’indicateurs diafréquentiels et diaphasiques ou diaévaluatifs peut apparaître comme une illustration de l’ambivalence des marquages dictionnairiques telle que la maître d’œuvre du Dictionnaire du français, Josette Rey-Debove, avait pu la formuler en 1971 : « Au moyen des marques, le lexicographe s’affranchit de la norme puisqu’il présente tous les niveaux de langue, mais il la respecte aussi, dans la mesure où le cas marqué est choisi par la société, pour les langues sociales et régionales (du point de vue purement linguistique et fréquentiel, le cas marqué dans les langues sociales est souvent la norme). » (pp. 91-92). 466 Pour le premier, abusivement, emploi abusif ; pour le second, contesté, contesté par les puristes, critiqué, rejeté par quelques / certains grammairiens. 467 Selon les tableaux de conventions et abréviations du Grand Robert et du Nouveau Petit Robert (électroniques de 2005 et millésime 2010 respectivement), leurs indications respectives recomm. off. et recomm. offic. s’appliquent dans ces dictionnaires aux « termes et expressions approuvés ou recommandés par arrêté ministériel, en application des décrets relatifs à l’enrichissement de la langue française ». 468 http://www.culture.gouv.fr/culture/dglf/lois/loi-fr.htm. Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 269 Du cadre de référence aux analyses empiriques Les quelques remarques qui précèdent soulignent certaines limites, des points discutables ou des aspects révisables de la typologie des marquages dictionnairiques de Franz Josef Hausmann considérée dans ses deux versions de 1977 et 1989, comme il en va de toute construction théorique visant à modéliser des pratiques empiriques d’une certaine complexité. Il n’en reste pas moins que cette grille, plus élaborée, par les onze types qu’elle distingue, que celles que proposent les dictionnaires et étayée par une solide documentation métalexicographique, apporte une aide appréciable à la conduite d’analyses particulières de marquages d’usages lexicaux et offre un cadre permettant, par sa précision dans la couverture de l’ensemble des paramètres de variation, l’identification des valeurs de la plupart des indications observées moyennant, dans certaines situations, les ajustements jugés opportuns (comme, par exemple, l’affectation, évoquée précédemment, de la marque familier à la variable diaphasique). C’est sur cette base que la typologie de Hausmann a été utilisée, selon des modalités différentes, pour classer certains observables dans les trois articles que j’ai consacrés au marquage des usages dans des dictionnaires français récents ou actuels. Dans T11, qui propose une vue d’ensemble des options des dictionnaires généraux des deux dernières décennies avec une attention particulière portée à ceux qui sont destinés aux apprenants, elle sert à la fois de repère fixe pour la comparaison des dispositifs affichés dans les paratextes des répertoires et d’outil de discrimination des types de marquages actualisés dans ceux qui sont destinés à des apprenants de différents niveaux. Dans T14, qui explore cette même classe de dictionnaires, elle est utilisée pour typer les différentes voies par lesquelles les discours prescriptifs sont susceptibles de s’y exprimer en dehors des indications proprement normatives. Enfin, T22 l’exploite pour l’identification des types de marques qui sont susceptibles d’être associées aux indications stipulant que certains items ressortissent au parler dit “enfantin”. 2.4.1. Étude de la variété des marquages [T11 (à paraître b) ; Rbd3] L’objectif de T11, corédigé avec Pierre Corbin, était de présenter un état des principes de marquage retenus par les dictionnaires français généraux pour locuteurs confirmés (§ 1.) et pour apprenants (§ 2.) des deux dernières décennies, pour faire suite aux travaux, de couverture variable, de Hausmann (1977), D. & P. Corbin (1980), P. Corbin (1989a) et Glatigny (1989) notamment. Pour les lexicographes, le typage à grande échelle d’usages lexicaux hétérogènes en fonction de diverses variables n’est pas une tâche aisée, du fait qu’ils n’ont nécessairement qu’une connaissance indirecte d’une part plus ou moins importante de ces usages (cf. Rey-Debove (1971 :43)), que l’appréciation de ceux-ci se prête aux préjugés idéologiques et que, pour des raisons de place, elle doit communément prendre la forme condensée d’une étiquette par essence simplificatrice 469. L’action conjuguée de ces facteurs peut être à la fois source d’inertie, un marquage déterminé étant susceptible de 469 Sur l’évolution historique qui a vu les “marques d’usage” se substituer progressivement à des appréciations plus textualisées, cf. Glatigny éd. (1990) et Glatigny (1998). 270 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia perdurer longtemps dans les avatars successifs d’un même texte dictionnairique, et d’incertitude, des données identiques ou similaires pouvant être affectées de marquages différents d’un dictionnaire à un autre, voire au sein d’un même répertoire. Sur la durée, cependant, certaines tendances évolutives se dessinent, dans l’histoire d’un ouvrage particulier ou dans la production d’ensemble d’un éditeur, voire même sur l’ensemble de l’offre proposée aux utilisateurs. C’est à cet aspect des pratiques récentes de marquage dans la lexicographie française que nous nous sommes attachés dans T11. Concernant les dictionnaires généraux (§ 1.), nous avons observé quatre tendances, présentées en introduction et à chacune desquelles nous avons consacré un développement particulier : (i) une meilleure explicitation des principes de description de la variété des usages, (ii) une révision des marquages diastratiques et diaphasiques, (iii) une motivation normative souvent sous-jacente aux marquages diaphasiques et (iv) la persistance de formes de marquage plus textuelles que les marques proprement dites, par le canal des définitions. Explicitation des marques des dictionnaires généraux destinés à un large public Les §§ 1.1. et 1.2. sont consacrés à la première de ces tendances. La comparaison des paratextes des répertoires proposés par les trois éditeurs majeurs, que synthétisent les figures 71 à 73 ci-dessous, inspirées de ce qui avait été présenté dans l’exemplier de C13 mais qui n’ont pu être intégrées dans T11, nous a permis de constater certaines différences de positionnement éditorial. – Dictionnaires Robert Les dictionnaires généraux Robert, qui entretiennent des parentés textuelles de divers ordres, présentent, depuis la première édition du Petit Robert en 1967, une certaine stabilité dans leurs marquages articulés autour des variables temps, espace, fréquence, société et domaines spécialisés, avec des fluctuations dans les dénominations et les mises en relief selon les ouvrages et leurs éditions dont la comparaison des préfaces des refontes du Grand Robert (1985), du Petit Robert (1993) et du Micro Robert (1988) synthétisée et mise en relation avec la typologie de Hausmann (1989) dans la figure 71 donne un aperçu significatif. On peut ainsi y observer certaines variations dans le nom des variables entre le Grand Robert et le Nouveau Petit Robert, l’absence de spécification de celles-ci dans le Micro Robert (probablement moins théorique du fait de sa vocation de dictionnaire didactique) et, dans les trois ouvrages, le fait qu’il est possible, sur la base de leur caractérisation, de corréler certaines marques (fam., littér., pop.) à plus d’un des types de Hausmann (1989). Figure 71. Typage des marques présentées dans les préfaces des Grand Robert (1985), Nouveau Petit Robert (1993) et Micro Robert (1988) Les données relevées dans ce tableau proviennent respectivement des paragraphes intitulés « Le fonctionnement social du français dans les dictionnaires » (relatif aux « conditions normales d’emploi ») dans le Grand Robert, « Variétés du français » (relatif aux « valeurs sociales d’emploi des mots et des sens ») dans le Nouveau Petit Robert et « Jugements sociaux et marques d’usage » (relatif aux « valeurs d’emploi ») dans le Micro Robert. Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux TYPE DE MARQUAGE (Hausmann (1989)) Grand Robert (1985, pp. XXXIX-XLI) Nouveau Petit Robert (1993, pp. XIII-XIV) 271 Micro Robert (1988, p. XV) variable « temps » : pas de variable spécifiée : variable « temps » : • pour « des emplois vieux • pour « ce qui est donné • pour des mots « qui peu[…], vieillis ou archaïcomme un archaïsme » : vent être utilisés comme ques » : vx, vieilli vx, vieilli archaïsmes » : vx (“vieux”), diachronique • pour « un emploi normal • pour ce qui est « en usage vieilli de nos jours » : « non maraujourd’hui » : « non marqué » ou, en contraste, qué » ou, en contraste, mod. (“moderne”) mod. (“moderne”) diatopique dia-intégratif diamédial variable « espace » : variable « espace » : • pour les mots de la « fran- • pour les « régionalismes cophonie » non métropode France et d’ailleurs » : litaine : “en français soit région., qui peut être d’Afrique”, “français des précisé par “Québec”, Antilles”, etc. “Français d’Afrique”, etc., • pour les « termes régiosoit “Au Québec”, “En naux de France » : régioSuisse”, etc. nal pas de variable spécifiée : pour des « emprunts à l’anglais » discutés : anglic. (“anglicisme”) • pas de variable spécifiée : variable « niveaux de lanvariable « société » : • pour des « emplois […] • pour la « langue famigue » : normaux dans une com- • pour des « emplois réserlière, surtout parlée » : vés à la langue écrite et à munication sociale aisée, fam. des discours “soutenus” » : • pour la « langue littéraire, plutôt parlée qu’écrite » : écrite ou soutenue » : litlittér. (“littéraire”) fam. (“familier ”) • typage latent de fam. (“fatér. milier ”) par le contraste avec littér. variable « société » : variable « niveaux de lanpas de variable spécifiée : • pour les « emplois réprou- gue » : • arg. (“argotique”) ? (non • pour « les usages qui consvés par les personnes explicité) tituent de véritables sipourvues d’un « capital gnaux d’appartenance soscolaire » : pop. (“popuciale » : arg. (“argot, argolaire”) diastratique • pour « des mots et […] des tique”), pop. (“populaire” : emplois inconnus de la pour les « emplois qui démajorité des locuteurs » : notent une scolarisation “argot” insuffisante dans certains milieux sociaux défavorisés ») 272 TYPE DE MARQUAGE (Hausmann (1989)) diaphasique Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Grand Robert (1985, pp. XXXIX-XLI) variable « société » : • pour des « emplois […] normaux dans une communication sociale aisée, plutôt parlée qu’écrite, et dénuée de la contrainte propre aux échanges officiels, hiérarchiques » : fam. (“familier ”) • pour ce qui relève du « passage de l’argot à la langue familière » : “argot familier ” diatextuel Nouveau Petit Robert (1993, pp. XIII-XIV) Micro Robert (1988, p. XV) pas de variable spécifiée : variable « niveaux de lan• pour la « langue littéraire, gue » : • « emplois réservés à la écrite ou soutenue » : litlangue écrite et à des distér. cours “soutenus” » : littér. • typage latent de fam. (“familier ”) par le contraste (“littéraire”) • typage latent de fam. (“faavec une des caractérisamilier ”) par le contraste tions de littér. avec une des caractérisations de littér. variable « domaines du sa- pas de variable spécifiée : • littér. (« langue littéraire, voir » : • pour les « termes » qui écrite ou soutenue ») « ne sont en usage que dans un domaine particulier de la communication ou dans un type de discours » : « abréviations » caractérisant un « emploi didactique, technique ou scientifique » variable « usages et discours variable « domaines du sa- pas de variable spécifiée : • pour les « termes technispécialisés » : voir » : • pour les « termes », pas • pour les « termes » qui ques et scientifiques » : d’exemple de marque « ne sont en usage que soit en médecine, en scien• pour « un emploi normal dans un domaine particuces, etc., soit, dans la défide nos jours » : « non marlier de la communication nition, “Nom zoologique diatechnique qué » ou, en contraste, ou dans un type de disde…” cour. (“courant”) cours » : « abréviations » • pour les « mots de la langue didactique, qui ne caractérisant un « emploi sont pas spécialisés dans didactique, technique ou un domaine précis » : discientifique » dact. variable « fréquence » : • pour des « emplois non spécialisés et non archaïdafréquentiel ques très peu attestés, ou des usages minoritaires par rapport à une norme » : rare Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux TYPE DE MARQUAGE (Hausmann (1989)) diaévaluatif dianormatif Grand Robert (1985, pp. XXXIX-XLI) variable « société » : • « quand le contenu (érotique, scatologique, etc.) est en cause » : “très familier ”, “familier et vulgaire” variable « société » : • pour les « emplois réprouvés par les personnes pourvues d’un « capital scolaire » : pop. (“populaire”) Nouveau Petit Robert (1993, pp. XIII-XIV) 273 Micro Robert (1988, p. XV) pas de variable spécifiée : variable « niveaux de lan• vulg. (“vulgaire”) ? (non gue » : • pour des mots véhiculant affectée à un type de mar« des contenus qui ne peuquage) vent être exprimés sans • pour des « emplois grossiers, violents, injurieux », danger de choquer » : « péjoratifs », « de nature vulg. (“vulgaire”) • pour des mots véhiculant raciste » : péj. (“péjoratif ”) « des contenus […] qui terme d’injure raciste manifestent une attitude hostile et violente » : péj. (“péjoratif ”), « insulte », « injure raciste » pas de variable spécifiée : pour des « emprunts à l’anglais » discutés : anglic. (“anglicisme”) • en contraste avec des emplois « signalés comme critiqués » : “correct” • Le récapitulatif précédent ne prend pas en compte les indicateurs diatechniques répertoriés dans les tableaux de conventions et abréviations, dont le nombre est élevé et tend à croître, passant ainsi au fil des éditions du Petit Robert, d’environ 150 en 1967 à plus de 180 en 1977 et près de 250 en 1993 470. Cette progression n’est pas strictement additive, certains indicateurs pouvant également disparaître à l’occasion d’une révision. Dans l’inventaire synthétique ci-dessous, des conventions typographiques permettent de prendre les repères chronologiques appropriés : les indicateurs présents dans l’édition originale de 1967 sont en italique, ceux qui figurent dans la refonte de 1977 en gras et ceux recensés en 1993 en petites capitales, ces trois traits étant cumulatifs : ainsi, ACOUST. (en petites capitales) est un ajout de 1993, tandis que eaux et for. (en italique et gras) ne figure que dans les deux premières éditions et que ADMIN. (en italique, gras et petites capitales) est commun aux trois, etc. La typographie des opérateurs (virgules, parenthèses…) est neutralisée en romain maigre. ACOUST. ; ADMIN. ; AÉRONAUT. ; AGRIC. ; AGRON. ; ALCH. ; ALG. ; ALPIN. ; ANAT. ; ANTHROP. ; ANTIQ. ; APIC. ; ARBOR. ; ARCHÉOL. ; ARCHIT. ; ARITHM. ; ARTILL. ; ARTS (ou EN ART) ; ASTROL. ; 470 Le caractère approximatif de ces chiffres reflète certaines incertitudes du dénombrement qui ne seront pas exposées ici. Par rapport à l’ordre de grandeur et à la progression du Petit Robert, le Dixel 2010, premier dictionnaire “encyclopédique” Robert, dont l’« Avant-propos » ne fait pas référence au marquage des usages, apparaît en rupture, avec un jeu d’indicateurs diatechniques ramené à la centaine d’unités, ce qui correspond approximativement à la moitié du nombre de ceux des dictionnaires qu’il a vocation à concurrencer, le Petit Larousse et le Dictionnaire Hachette (cf. infra). Cette simplification, dont les principes et les modalités mériteraient d’être étudiés, passe notamment par des neutralisations de distinctions, comme par exemple celle qui fait n’utiliser que psych. pour tout « terme didactique de psychanalyse, de psychiatrie ou de psychologie », alors que le Petit Robert distingue en l’occurrence trois indicateurs différents (auxquels s’en ajoutent trois autres, qui affinent encore le balisage domanial : psychopathol., psychophysiol. et psychotechn.). 274 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia ASTRON. ; ASTRONAUT. ; ATHLÉT. ; AUDIOVIS. ; auto. / AUTOM. ; AVIAT. ; bactér. / BACTÉRIOL. ; BALIST. ; BÂT. ; BIJOUT. ; BIOCHIM. ; biogéogr. ; BIOL. ; BLAS. ; BOT. ; BOUCH. ; BOULANG. ; BOURSE ; BX-ARTS ; CALLIGR. ; CARACTÉROL. ; CARTES ; CARTOGR. ; CATHOL. (liturg. cathol.) ; CÉRAM. ; CHARCUT. ; CHARPENT. ; CHASSE ; CHAUSS. (PONTS ET CHAUSS.) ; CH. DE FER ; CHIM. ; chim. organ. ; CHIR. ; chir. dent. ; CHORÉGR. ; CHRÉT. (LITURG. CHRÉT.) ; CIN. ; COMM. (DR. COMM.) ; COMMUNIC. ; compt. / COMPTAB. ; CONFIS. ; CONSTR. ; COUT. ; cristall. / CRISTALLOGR. ; CUIS. ; CYBERN. ; DANSE ; DÉMOGR. ; DENT. (CHIR. DENT.) ; DIDACT. ; DIPLOM. ; DOC. ; DR. (DR. CAN., DR. CIV., DR. COMM., DR. CR., DR. FISC., DR. INTERNAT., DR. TRAV.) ; eaux et for. ; ÉBÉN. ; ÉCOL. ; ÉCON. ; écon. polit. ; ÉLECTR. ; ÉLECTRON. ; ÉLECTROTECHN. ; EMBRYOL. ; ENTOMOL. ; ÉPISTÉM. ; ÉQUIT. ; ESCR. ; ETHNOGR. ; ETHNOL. ; ÉTHOL. ; faucon. / FAUCONN. ; FÉOD. ; FIN. (DR. FIN.) ; FORTIF. ; GÉNÉT. ; GÉOD. ; GÉOGR. ; GÉOL. ; GÉOM. ; GÉORMORPH. ; GÉOPHYS. ; GR. (ANTIQ. GR., HIST. GR.) ; gram. / GRAMM. ; GRAV. ; GYMN. ; HÉMATOL. ; HÉRALD. ; HIPPOL. ; HIST. (HIST. ANT., HIST. MOD., HIST. SC., HIST. RELIG., hist. litt.) ; HISTOL. ; HORLOG. ; HORTIC. ; HYDROGR. ; ICONOGR. ; IMPRIM. ; INDUS. ; INFORM. ; INGÉN. ; JARD. ; JEU, JEUX ; JOAILL. ; JOURNAL. ; JUD. (ANTIQ. JUD., RELIG. JUD.) ; jur. ou JURID. ; LÉGISL. ; LING. ; litt. / LITTÉR. (HIST. LITTÉR.) ; LITURG. (LITURG. CATHOL., CHRÉT., JUD.) ; LOG. ; MAÇONN. ; MAR. (ARG. MAR.) ; MATH. ; MÉCAN. ; MÉCANOGR. ; MÉD. ; médiév. (hist. médiév.) ; MENUIS. ; MÉTALL. ; MÉTÉOROL. ; MÉTR. ; métr. ou MÉTROL. ; MICROBIOL. ; MILIT. ; MINÉR. ; modes ; MOR. ; MUS. (HIST. MUS.) ; MYST. ; MYTH. ou mythol. ; NAVIG. ; NEUROL. ; NUCL. (PHYS. NUCL.) ; NUMISM. ; OCÉANOGR. ; OPT. ; PALÉOGR. ; PALÉONT. ; PAPET. ; PARAPSYCHOL. ; PATHOL. ; PÂTISS. ; PÊCHE ; PÉDAG. ; pédol. ; PEINT. ; PÉN. (DR. PÉN.) ; PÉTR. ; PHARM. ; PHARMACOL. ; PHILO. ; PHONÉT. ; PHONOL. ; PHOT. ; PHYS. ; PHYSIOL. ; PISCIC. ; POLIT. ; PROCÉD. ; PSYCHAN. ; PSYCHIATR. ; psycho. / PSYCHOL. ; PSYCHOPATHOL. ; PSYCHOPHYSIOL. ; PSYCHOTECHN. ; pub. ou PUBL. (DR. PUB., TRAV. PUBL.) ; PUBLIC. ; PYROTECHN. ; RELIG. ; RELIURE ; RHÉT. ; ROM. (ANTIQ. ROM.) ; SC. ; SCOLAST. ; SCULPT. ; séc. soc. ; SÉMIOL. ; socio. / SOCIOL. ; SORCELL. ; SPÉLÉOL. ; sports / SPORT (aviron, FOOTBALL, TENNIS, BOXE, etc.) ; STATIST. ; sténo. / STÉNOGR. ; STYLIST. ; SYLVIC. ; TAUROM. ; TECHN. ; TECHNOL. ; TÉLÉCOMM. ; TÉLÉDÉTECT. ; TÉLÉV. ; THÉÂTRE ; THÉOL. ; tissage ; TOPOGR. ; tr. pub. ; TRAV. (DR. TRAV., TRAV. PUBL.) ; TURF ; TYPOGR. ; VÉN. ; VERSIF. ; VÉTÉR. ; VITIC. ; ZOOL. ; ZOOTECHN. – Dictionnaires Larousse Larousse n’a pas la même tradition d’explicitation des marquages utilisés dans ses dictionnaires que Le Robert. Les préfaces se limitent à des dénominations globales (cf. § 1.2.), volontiers articulées sur la distinction entre lexique général et lexique spécialisé, et parmi lesquelles « niveaux de langue » est une des plus récurrentes 471. Quant aux tables de conventions et abréviations, ce n’est qu’à partir du Petit Larousse 1989 qu’elles se sont ouvertes à une explicitation de la valeur de certaines marques, dont la figure 72 permet d’apprécier les éléments communs et les écarts entre des repères majeurs de la production récente de l’éditeur 472. Ceux-ci, assez réduits, affectent l’évo471 La réserve de cet éditeur en matière de typologie des marques est particulièrement illustrée par l’avantpropos de la refonte de 1988 du Petit Larousse (millésime 1989), qui détaille l’affinement du marquage opéré dans cette édition en énumérant plusieurs sous-ensemble cohérents de marques sans les référer à des variables explicitées, alors même que celles-ci se laissent clairement discerner : « L’analyse en niveaux et en registres a été affinée par l’introduction de nouvelles rubriques (distinctions entre vieux, vieilli et ancien ; entre familier, populaire, argotique et vulgaire ; entre littéraire et didactique ; entre péjoratif et injurieux, etc.) […] » (« Aux lecteurs », p. 6) 472 Pour le Petit Larousse, le millésime 2006, qui est une version actualisée de la refonte de 1997 (millésime 1998), fournissait le repère le plus proche du moment de la rédaction de T11. Depuis lors, le Petit Larousse n’a pas connu de changements, mais le Larousse des noms communs a apporté en 2008 une nouvelle modulation à la matrice générale, en reprenant l’essentiel des indications du Grand Larousse illustré de 2005, assorties de quelques retouches, empruntées au Petit Larousse le plus récent ou inédites. Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 275 lution de l’usage de certaines marques (par exemple la régression de populaire et l’apparition de soutenu), le caractère plus ou moins explicite des dictionnaires pour les mêmes marques (le plus développé étant le Petit Larousse 1989) et l’illustration de certaines marques par des exemples dans les dictionnaires les plus récents (à partir du millésime 1998 pour le Petit Larousse). Figure 72. Explicitation des marques dans différents dictionnaires “encyclopédiques” Larousse récents Les données relevées dans ce tableau proviennent respectivement des « Rubriques, abréviations et termes conventionnels employés dans cet ouvrage » pour les Petit Larousse 1989 et 1992 (pp. 22-24), des « Abréviations utilisées dans l’ouvrage » pour le Dictionnaire général (pp. XXXV-XXXVI) et des « Abréviations et signes conventionnels » pour le Petit Larousse 2006 et le Grand Larousse illustré (respectivement pp. 41-42 et XLI-XLII). Dans les trois derniers répertoires, les marques diatechniques font l’objet d’une liste distincte, intitulée « Rubriques utilisées dans l’ouvrage » dans le Dictionnaire général (pp. XXXVI-XXXVII) et simplement « Rubriques » dans le Petit Larousse 2006 (pp. 42-43) et le Grand Larousse illustré (pp. XLII-XLIII). Les variantes de marques écrites en petites capitales introduites sous la forme « (ou ARG.) » sont attestées dans le Dictionnaire général. Le symbole « ∉ » indique qu’une marque n’est pas mentionnée dans la liste des abréviations et conventions d’un dictionnaire. MARQUES Petit Larousse illustré 1989 (1988) Petit Larousse illustré 1992 (1991) Dictionnaire général (1993) Petit Larousse illustré 2006 (2005) Grand Larousse illustré (3 vol., 2005) TYPE DE MARQUAGE (Hausmann (1989)) abusif « emploi abusif ; « emploi abusif ; ∉ abusivement » abusivement » AFR. ∉ ∉ ∉ ∉ « ancien ; anciennement (mot qui n’est ni vieux ni vieilli mais qui désigne une réalité aujourd’hui disparue ou devenue rare) » « ancien ; ancien- « ancien ; anciennement (mot qui nement » n’est ni vieux ni vieilli mais qui désigne une réalité aujourd’hui disparue ou devenue rare) » « ancien ; anciennement (signale un mot dont l’emploi n’est ni vieux ni vieilli, mais qui désigne une réalité aujourd’hui disparue ou devenue rare : aumônière) » « ancien ; anciennement (signale un mot dont l’emploi n’est ni vieux ni vieilli, mais qui désigne diachronique une réalité aujourd’hui disparue ou devenue rare : aumônière) » anglic. « anglicisme » « anglicisme » « anglicisme » « anglicisme » « anglicisme » « argot ; argotique » « argot ; argotique » « argot ; argotique » arg. (ou ARG.) « argot ; argo« argot ; argotique (mot aptique » partenant soit au vocabulaire des malfaiteurs, du milieu, soit au vocabulaire propre à une profession ou à un groupe social) » arg. mil. ∉ ∉ anc. ∉ « africanisme » « emploi abusif ; « emploi abusif ; dianormatif abusivement » abusivement » diatopique dia-intégratif diastratique « argot militaire » « argot militaire » diastratique 276 MARQUES Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Petit Larousse illustré 1989 (1988) Petit Larousse illustré 1992 (1991) Dictionnaire général (1993) Petit Larousse illustré 2006 (2005) Grand Larousse illustré (3 vol., 2005) TYPE DE MARQUAGE (Hausmann (1989)) arg. scol. ∉ ∉ ∉ « argot scolaire » « argot scolaire » diastratique auj. « aujourd’hui » « aujourd’hui » « aujourd’hui » « aujourd’hui » « aujourd’hui » diachronique autref. « autrefois » « autrefois » « autrefois » « autrefois » « autrefois » diachronique BELG. ∉ ∉ « belgicisme » ∉ ∉ diatopique CAN. ∉ ∉ « canadianisme » ∉ ∉ diatopique contemp. « contemporain » « contemporain » « contemporain » ∉ ∉ diachronique cour. « courant, couramment » « courant, couramment » « courant, couramment » « courant, couramment » diatechnique / diafréquentiel CRÉOL. ∉ « courant, couramment » ∉ « créolisme » ∉ ∉ diatopique dial. (ou « dialecte ; diaDIALECT.) lectal, e » « dialecte ; dialectal, e » « dialectal » « dialecte ; dialectal » « dialecte ; dialectal » diatopique « didactique (mot employé le plus fréquemment dans des situadidact. (ou tions de commuDIDACT.) nication impliquant la transmission d’un savoir) » « didactique (mot employé le plus fréquemment dans des situations de communication impliquant la transmission d’un savoir) » « didactique (mot employé le plus fréquemment dans des situations de communication impliquant la transmission d’un savoir) » « didactique (mot employé le plus fréquemment dans des situations de communication impliquant la transmission d’un savoir : dual) » « didactique (mot employé le plus fréquemment dans des situadiatechnique / tions de commudiatextuel nication impliquant la transmission d’un savoir : dual) » « emprunt du ; emprunté à » « emprunt du ; emprunté à » « emprunt du ; emprunté à » ∉ ∉ « exagération (par) » « exagération (par) » ∉ « par exagération » « par exagération » empr. exagér. (ou par exagér. 473) dia-intégrative diaévaluative fam. (ou FAM.) « familier ; fami- « familier ; fami- « familier ; fami- « familier ; fami- « familier ; familièrement (mot lièrement » lièrement » lièrement » lièrement » réservé à la communication entre proches et généralement évité dans les situadiaphasique tions formelles, notamment celles qui mettent en jeu des rapports hiérarchiques) » HELV. ∉ ∉ ∉ diatopique impropr. « improprement » « improprement » « improprement » ∉ ∉ dianormatif ∉ helvétisme 473 Dans le Petit Larousse 2006 et le Grand Larousse illustré. Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux MARQUES Petit Larousse illustré 1989 (1988) Petit Larousse illustré 1992 (1991) Dictionnaire général (1993) Petit Larousse illustré 2006 (2005) Grand Larousse illustré (3 vol., 2005) 277 TYPE DE MARQUAGE (Hausmann (1989)) ∉ injur. « injurieux (mot « injurieux » généralement employé dans l’intention de porter atteinte à la dignité ou à la réputation de quelqu’un) » « injurieux (mot employé pour blesser ou pour nuire à la réputation de qqn : vendu, e) » « injurieux (mot employé pour blesser ou pour nuire à la répudiaévaluatif tation de qqn : vendu, e) » iron. « ironique ; ironiquement » « ironique ; ironiquement » « ironique ; ironiquement » « ironique ; ironiquement » « ironique ; ironiquement » « littéraire (mot employé surtout par les écrivains dans le registre élevé) » « littéraire (mot que l’on rencontre surtout dans les textes écrits) » « littéraire (mot que l’on rencontre surtout dans les textes écrits) » « littéraire (mot que l’on utilise surtout à l’écrit ou dans des relations sociales réglées par des conventions, et qui produit un effet de sérieux ou d’élégance : brasiller, superfétatoire) » « littéraire (mot que l’on rencontre surtout dans les textes écrits : brasiller) » « militaire » « militaire » « militaire ; militairement » ∉ ∉ diastratique « moderne » « moderne » « moderne » « moderne » « moderne » diachronique litt. (ou LITT.) mil. mod. diaévaluatif diaphasique / diamédial « par plaisante- « par plaisante- « par plaisante- « par plaisante- « par plaisantepar plais. diaévaluatif rie » rie » rie » rie » rie » « péjoratif » « péjoratif » « péjoratif » « péjoratif ; péjorativement (mot qui indique le mépris dans lequel est tenu qqn ou qqch : clientélisme) » « péjoratif ; péjorativement (mot qui indique le mépris dans le- diaévaluatif quel est tenu qqn ou qqch : clientélisme) » « poétique » « poétique » « poétique » « poétique » « poétique » péj. (ou péjor. 474) poét. 474 Dans le Dictionnaire général. diatextuel 278 MARQUES Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Petit Larousse illustré 1989 (1988) Petit Larousse illustré 1992 (1991) Dictionnaire général (1993) Petit Larousse illustré 2006 (2005) ∉ 476 Grand Larousse illustré (3 vol., 2005) ∉ 475 pop. « populaire (mot « populaire » usité surtout par les locuteurs appartenant aux couches sociales les moins aisées, et peu employé par la bourgeoisie cultivée, sauf effet de style) » recomm. off. « recommandation officielle » « recommandation officielle » « recommandation officielle » région. (ou « régional » RÉGION.) « régional » « régionalisme ; « régional » régional » « régional » scol. TYPE DE MARQUAGE (Hausmann (1989)) « populaire » diastratique « recommandation officielle » « recommandation officielle » dianormatif diatopique « scolaire » « scolaire » « scolaire » « scolaire » « scolaire » ∉ ∉ « soutenu » ∉ « soutenu (mot employé dans des relations sociales réglées par des convendiaphasique tions et produisant un effet de sérieux ou d’élégance : superfétatoire) » ∉ « très familier, très familièrement » « très familier » « très familier ; très familièrement (mot grossier, parfois injurieux : conneau) » « vieilli (mot qui tend à sortir de l’usage, mais qui reste compris de la plupart des locuteurs natifs). Voir anc. et vx. » « vieilli (mot qui tend à sortir de l’usage, mais qui reste compris de la plupart des locuteurs natifs.) Voir VX. » sout. (ou SOUT.) très fam. (ou T. FAM.) « vieilli (mot qui tend à sortir de l’usage, mais qui reste comvieilli (ou pris de la pluVIEILLI) part des locuteurs natifs) » « vieilli (mot qui tend à sortir de l’usage, mais qui reste compris de la plupart des locuteurs : indéfrisable). Voir anc. et vx. » diastratique « très familier ; très familièrement (mot grosdiaévaluatif sier, parfois injurieux : conneau) » « vieilli (mot qui tend à sortir de l’usage, mais qui reste compris de la pludiachronique part des locuteurs : indéfrisable). Voir anc. et vx. » 475 Cette abréviation est présente dans la liste, mais accompagnée du décodage « populaire (lat. pop.) », qui signifie qu’elle doit ne se rencontrer que dans les constituants étymologiques des articles. 476 Cette abréviation était encore présente dans le Petit Larousse 2005 (2004). Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux MARQUES vulg. (ou VULG.) Petit Larousse illustré 1989 (1988) « vulgaire ; vulgairement (mot renvoyant à une réalité frappée de tabou, le plus souvent d’ordre sexuel ou excrémentiel, et qu’il est considéré comme malséant d’employer en public) » « vieux (mot qui n’est plus compris ni employé, vx (ou VX) sauf dans une intention délibérée d’archaïsme) » Petit Larousse illustré 1992 (1991) Dictionnaire général (1993) Petit Larousse illustré 2006 (2005) Grand Larousse illustré (3 vol., 2005) 279 TYPE DE MARQUAGE (Hausmann (1989)) « vulgaire ; vul- « vulgaire » gairement (mot renvoyant à une réalité frappée de tabou, le plus souvent d’ordre sexuel ou excrémentiel) » « vulgaire ; vulgairement (signale un mot renvoyant à une réalité frappée de tabou, le plus souvent d’ordre sexuel ou excrémentiel : chaudepisse) » « vulgaire ; vulgairement (signale un mot renvoyant à une réalité frappée de tabou, le plus diaévaluatif souvent d’ordre sexuel ou excrémentiel : chaudepisse) » « vieux (mot qui n’est généralement plus compris ni employé). Voir anc. et vieilli. » « vieux (mot qui n’est généralement plus compris ni employé : accordailles). Voir anc. et vieilli. » « vieux (mot qui n’est généralement plus compris ni employé : diachronique accordailles). Voir anc. et vieilli. » « vieux (mot qui n’est généralement plus compris ni employé). Voir VIEILLI. » Comme précédemment pour les dictionnaires Robert, les nombreux indicateurs diatechniques ne sont pas pris en compte dans le tableau ci-dessus. Chez Larousse, ces indicateurs, qui sont toujours en petites capitales dans les ouvrages considérés, présentent deux types de formulations : « COMPTAB. comptabilité » pour les abréviations, et « BANQUE terme particulier au vocabulaire de la banque » quand ce qui est décodé n’est pas une forme abrégée. Comme pour les éditions successives du Petit Robert (cf. supra), la comparaison des indicateurs répertoriés dans les tableaux de conventions et abréviations des dictionnaires Larousse examinés permet aussi d’observer des variations. Si la nomenclature plus réduite et le projet didactique du Dictionnaire général y maintiennent le nombre de ces marques à environ 180, celui-ci s’affiche autour de 200 dans les quatre autres ouvrages, qui sont tous des variations autour du même texte, le Grand Larousse illustré utilisant comme base celui du Petit Larousse. Pour autant, cette stabilité quantitative n’équivaut pas à une indifférenciation qualitative : à cet égard, l’écart est au contraire important entre d’une part les Petit Larousse 1989 et 1992 et d’autre part le Petit Larousse 2006 et le Grand Larousse illustré, qui constituent deux ensembles homogènes présentant une centaine de différences, dans lesquelles le nombre des suppressions équivaut presque à celui des ajouts. Le récapitulatif ci-dessous adopte les mêmes conventions que celles utilisées pour le Petit Robert, l’italique étant affecté aux Petit Larousse 1989 et 1992, le gras au Dictionnaire général et les petites capitales au Petit Larousse 2006 et au Grand Larousse illustré. ACOUST. ; ADMIN. ; AÉRON. ; AGRIC. ; AGROALIM. ; alch. / ALCHIM. ; alg. / ALGÈBRE ; ALP. ; ANAL. ; ANAT. ; ANTHROP. ; anthrop. phys. ; ANTIQ. ; ANTIQ. GR. ; ANTIQ. GR. ET ROM. ; ANTIQ. ROM. ; APIC. ; ARBOR. ; ARCHÉOL. ; ARCHIT. ; ARITHM. ; ARM. ; art contemp. ; ART MOD. ; artill. ; ARTS APPL. ; arts déc. ; arts graph. ; arts plast. ; ASTROL. ; ASTRON. ; ASTRONAUT. ; astrophys. ; AUDIOVIS. ; AUTOM. ; AVIAT. ; avic. ; bactér. ; BANQUE ; BIJOUT. ; BIOCHIM. ; BIOL. ; BIOL. 280 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia CELL. ; BOIS ; BOT. ; BOUCH. ; BOURSE ; boxe ; BROD. ; bx-a. / BX-ARTS. ; CARTOGR. ; CATH. ; CHASSE ; CH. DE F. ; CHIM. ; CHIM. INDUSTR. ; CHIM. MINÉR. ; CHIM. ORG. ; chir. / CHIRURG. ; chorégr. ; chrét. ; CHRIST. ; cin. / CINÉMA ; climatol. ; COMM. ; COMPTAB. ; CONSTR. ; COST. ; COUT. ; CRISTALLOGR. ; CUIRS ; CUIS. ; cybern. ; CYCL. ; cytol. ; DANSE ; déf. ; DÉMOGR. ; DESS. INDUSTR. ; DR. ; dr. adm. / DR. ADMIN. ; dr. anc. ; dr. can. / DR. CANON ; DR. CIV. ; DR. COMM. ; DR. CONSTIT. ; dr. coutum. ; dr. féod. ; DR. FISC. ; DR. INTERN. ; DR. MAR. ; DR. PÉN. ; dr. rom. ; ÉCOL. ; ÉCON. ; ÉLECTR. ; ÉLECTROACOUST. ; ÉLECTROMAGN. ; ÉLECTRON. ; ÉLECTROTECHN. ; ÉLEV. ; EMBRYOL. ; ÉNERG. ; ENSEIGN. ; ENTOMOL. ; ÉPISTÉMOL. ; ÉQUIT. ; escr. ; ethnogr. ; ETHNOL. ; ÉTHOL. ; fauc. / FAUCONN. ; FÉOD. ; FIN. ; forest. ; FORTIF. ; GÉNÉT. ; GÉOGR. ; GÉOL. ; géom. / GÉOMÉTR. ; GÉORMORPH. ; GÉOPHYS. ; GRAMM. ; GRAV. ; HÉRALD. ; HIST. ; HISTOL. ; HORLOG. ; HORTIC. ; hydrogr. ; HYDROL. ; ICON. ; IMAG. MÉD. ; IMMUNOL. ; impr. / IMPRIM. ; ind. / INDUSTR. ; INDUSTR. GRAPH. ; INFORM. ; jard. ; JEUX ; LING. ; LITTÉR. ; liturgie ; LOG. ; MANUT. ; MAR. ; mar. anc. ; MATÉR. ; MATH. ; MÉCAN. ; MÉCAN. INDUSTR. ; MÉD. ; médiév. ; MENUIS. ; MÉTALL. ; météor. / MÉTÉOROL. ; métr. ; métr. anc. ; MÉTROL. ; MICROBIOL. ; MIL. ; MIN. ; minér. / MINÉRALOG. ; monn. ; MUS. ; MYCOL. ; MYTH. ; MYTH. GR. ; MYTH. GR. ET ROM. ; MYTH. ROM. ; NAVIG. ; NEUROL. ; NUCL. ; NUMISM. ; OCCULT. ; océanogr. ; OCÉANOL. ; OPT. ; ORFÈVR. ; ORNITH. ; OUTILL. ; paléogr. ; PALÉONT. ; PAPET. ; PARAPSYCHOL. ; pathol. ; PÊCHE ; PÉDOL. ; PEINT. ; PEINT. INDUSTR. ; pétr. / PÉTROLE ; PÉTROL. ; PHARM. ; PHILOS. ; PHON. ; phot. / PHOTOGR. ; PHYS. ; PHYS. NUCL. ; PHYSIOL. ; POLIT. ; PRÉHIST. ; PRESSE ; PROBAB. ; procéd. ; PSYCHAN. ; PSYCHIATR. ; PSYCHOL. ; psychopath. / PSYCHOPATHOL. ; RADIODIFF. ; radiol. ; radiotechn. ; REL. ; RELIG. ; relig. chrét. ; RHÉT. ; sc. ; sc. de la v. ; sc. éduc. ; SCULPT. ; serrurerie ; sexol. ; soc. ; SOCIOL. ; SPÉLÉOL. ; SPORTS ; STAT. ; STYL. ; sylv. / SYLVIC. ; TECHN. ; technol. ; TÉLÉCOMM. ; TÉLÉV. ; TEXT. ; THÉÂTRE ; TH. DES ENS. ; théol. ; THÉOL. CATH. ; THÉOL. CHRÉT. ; thérap. ; THERM. ; THERMODYN. ; TOPOGR. ; tr. publ. / TRAV. PUBL. ; turf ; typogr. ; URBAN. ; vén. / VÉNER. ; VERR. ; VERSIF. ; VÉTÉR. ; VITIC. ; ZOOL. ; zoot. – Dictionnaires Hachette L’offre assez réduite de Hachette n’amène à prendre en compte dans le catalogue de cet éditeur que son Dictionnaire encyclopédique, qui, sous diverses dénominations, concurrence le Petit Larousse depuis 1988. La « Note de l’éditeur » de sa première version, le Dictionnaire de notre temps 1989, ne retenait que l’opposition entre « vocabulaires de spécialité » et « niveaux de langue », qui fut déplacée dans le « mode d’emploi » de l’ouvrage à partir du millésime 1991, avant de revenir dans la « Note de l’éditeur » à l’occasion de la refonte de 2001 (Dictionnaire Hachette encyclopédique 2002), enrichie d’une référence au vocabulaire de la francophonie. Les tables de conventions et d’abréviations distinguent corrélativement depuis l’origine les « Indications de vocabulaires de spécialités » des « Rubriques de langue » (dans les termes du Dictionnaire de notre temps 1989). Renommées « Marques d’usage » dans le Dictionnaire Hachette encyclopédique 1994, celles-ci y ont fait l’objet d’un typage en fonction des paramètres « lieu », « temps » et « faits de société » 477 et la plupart des indicateurs listés se sont vu associer une définition. Ce principe d’explicitation a été conservé depuis lors, avec des retouches plus ou moins importantes à l’occasion des millésimes 2002 (qui vit disparaître le paramètre « lieu » du typage 478) et 2008 (qui, outre la restauration d’un paramètre « espace », substitua aux « faits de société » la distinction entre ce qui ressortit à un 477 « La marque d’usage qualifie les caractéristiques d’emploi du mot. Elle peut être liée au lieu (régional, dialectal), au temps (vieux, vieilli, ancien), aux faits de société (populaire, familier, etc.). » (p. XIII). 478 « La marque d’usage qualifie les caractéristiques d’emploi du mot. Elle peut être liée au temps (vieux, vieilli, ancien), aux faits de société (populaire, familier, etc.). » (p. XIII). Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 281 « groupe social » et ce qui dépend d’une « situation de communication » 479) : le tableau récapitulatif de la figure 73 permet en particulier d’observer des variations dans la présence de quelques marques (abus., rare, très fam.) ou de certaines explicitations (cour., dial., enfantin, mod., plaisant), des déplacements définitionnels non anecdotiques (arg., fam., iron., littér., poét., pop., région., vieilli, vulg. ou vx), l’absence constante de représentant de la variable dia-intégrative et l’apparition d’exemples dans le millésime 2008 480. Figure 73. Explicitation des marques d’usage présentées dans plusieurs éditions du Dictionnaire Hachette encyclopédique Le symbole « ∉ » indique qu’une marque n’est pas mentionnée dans la liste des abréviations et conventions d’un dictionnaire. Originellement suivies d’un point, les abréviations l’ont perdu à partir du millésime 2002. MARQUES abus. anc. arg. Dictionnaire Hachette encyclopédique 1994 (1993, p. XIII) Dictionnaire Hachette encyclopédique 2002 (2001, p. XIII) Dictionnaire Hachette 2008 (2007, p. 7) TYPE DE MARQUAGE (Hausmann (1989)) ∉ « abusivement » « abusivement » « ancien, anciennement » « forme ni vieille ni vieillie qui désigne une réalité disparue. » « ancien » « forme ni vieille ni vieillie qui désigne une réalité disparue. » « ancien » « signale une réalité aujourd’hui disparue. Le bouffon désignait autrediachronique fois un personnage de théâtre. Dans son emploi actuel, il n’a plus ce sens. » dianormatif « argot, argotique » « forme particulière à un groupe social, à une profession, et au milieu (monde de la pègre). Elle est généralement inconnue de la majorité des locuteurs, mais un passage de l’argot à la langue familière s’opère souvent, ce qui crée des usages qualifiables d’ARG. ou FAM. » « argot, argotique » « forme particulière à un groupe social, généralement inconnue de la majorité des locuteurs, mais un passage de l’argot à la langue familière s’opère souvent. » « argot, argotique » « qui n’est employé et compris que par un groupe social restreint : bahut (argot scolaire). Un passage de l’argot à diastratique la langue familière (+ diaphasique) s’opère souvent. » 479 « Dans le dictionnaire, certains mots, sens ou expressions sont marqués par une abréviation telle que fam, anc, etc. Cette abréviation est une marque d’usage, c’est-à-dire une indication sur l’emploi de ces termes. En effet, tous les mots ne sont pas neutres : ils peuvent être “marqués” dans le temps (un mot qui devient rare), dans l’espace (un mot propre à une région), être propres à un groupe social (comme l’argot) ou à une situation de communication (à plus ! ne s’emploie qu’avec une personne qui nous est familière). Ce dernier type d’emploi est également appelé niveau de langue. » (p. 7). 480 Pas encore publié au moment de la préparation de C13, il n’a pas été pris en compte dans T11. 282 MARQUES Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Dictionnaire Hachette encyclopédique 1994 (1993, p. XIII) Dictionnaire Hachette encyclopédique 2002 (2001, p. XIII) Dictionnaire Hachette 2008 (2007, p. 7) TYPE DE MARQUAGE (Hausmann (1989)) cour. « courant, couramment » « marque utilisée afin d’écarter un doute, ou pour indiquer une opposition avec un emploi spécial. » « dialectal » dial. « dialectal » « dialectal » « forme comprise et employée à l’intérieur d’un dialecte ou d’un patois, elle n’est généralement pas utilisée par la bourgeoisie et par les habitants des villes. » didac. « didactique » « forme employée dans des situations de communication impliquant la transmission d’un savoir ; langue savante. » « didactique » « forme souvent employée dans des situations impliquant la transmission d’un savoir. » « didactique » « qui n’est employé que dans un contexte sadiatechnique / vant : anfractuosité diaphasique pour cavité. » enfantin « enfantin » « forme surtout employée par les enfants ou par les adultes pour parler aux enfants. » « enfantin » « enfantin » « forme surtout employée par les enfants ou par les adultes qui parlent à des enfants. » fam. « familier, familièrement » « forme et sens employés dans une communication libre, sans contrainte hiérarchique, pouvant aller jusqu’à un registre franchement grossier (TRÈS FAM.). » « familier » « forme et sens employés dans une communication libre, sans contrainte hiérarchique, pouvant aller jusqu’à un registre franchement grossier (très fam). » « familier » « qui est employé dans une communication libre, entre personnes diaphasique proches, sans contrain(+ diaévaluatif) tes hiérarchiques : bagnole pour voiture. » inj. « injurieux » « forme dont le contenu sémantique implique un désir de blesser, d’insulter ; plus fort que péjoratif. » « injurieux » « forme dont le contenu sémantique implique un désir de blesser, d’insulter ; plus fort que péjoratif. » « injurieux » « dont l’emploi implique un désir de blesser, diaévaluatif d’insulter : ordure. » « courant » « courant » « marque utilisée afin d’écarter un doute, ou pour indiquer une opposition à un emploi spécial. » diatechnique diatopique (+ diastratique) diastratique / diaphasique Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux MARQUES Dictionnaire Hachette encyclopédique 1994 (1993, p. XIII) Dictionnaire Hachette encyclopédique 2002 (2001, p. XIII) mod. péjor. (Hausmann (1989)) « ironique » « antiphrase. » « ironique » « qui est employé par moquerie ou pour montrer le côté dérisoire de quelque chose : sacrosaint. Un terme ironique est souvent em- diaévaluatif ployé avec un sens contraire à sa véritable signification : Les joies du métier (pour parler des inconvénients du métier). » « littéraire » « forme employée par des écrivains dans un registre élevé, ainsi que dans la critique littéraire. » « littéraire » « forme employée par des écrivains dans un registre élevé, ainsi que dans la critique littéraire. » « littéraire » « qui est employé dans un texte répondant à diaphasique et certaines exigences esdiatextuel, ou thétiques : fortune pour diatechnique chance. On parle également de registre soutenu. » « moderne » « marque utilisée afin d’écarter un doute, ou pour indiquer une opposition avec un emploi […] vieux. » « moderne » « moderne » « marque utilisée afin d’écarter un doute, ou pour indiquer une opposition à un emploi […] vieux. » « péjoratif » « forme méprisante ; certains emplois péjoratifs sont également injurieux. » « péjoratif » « forme méprisante ; certains emplois péjoratifs sont également injurieux. » « péjoratif » « qui est employé par mépris, pour dévaloriser ce dont on parle : diaévaluatif cliché pour idée, expression toute faite. Certains emplois péjoratifs sont également injurieux. » « plaisant » « plaisant » « plaisant » « qui est employé de façon humoristique, parfois avec une légère diaévaluatif pointe d’ironie : illustrissime, taquiner la muse. » « poétique » « usage littéraire ; en poésie classique et postclassique, la hiérarchie des genres entraîne des spécialisations lexicales. » « poétique » « usage littéraire ; en poésie classique et postclassique, la hiérarchie des genres entraîne des spécialisations lexicales. » « poétique » « qui rappelle, par son pouvoir évocateur, le langage poétique : azur diatextuel pour ciel. » plaisant poét. TYPE DE MARQUAGE « ironique » « antiphrase. » iron. litt. Dictionnaire Hachette 2008 (2007, p. 7) 283 diachronique 284 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Dictionnaire Hachette encyclopédique 1994 (1993, p. XIII) Dictionnaire Hachette encyclopédique 2002 (2001, p. XIII) « populaire » « forme comprise et employée par les couches sociales les moins aisées, peu utilisée par la bourgeoisie cultivée, sauf effet de style. Cependant, le plus souvent, ces formes ne sont plus des marques d’appartenance sociale mais des choix de discours en fonction de situations de communication. » « populaire » « forme provenant des couches sociales les moins instruites et peu utilisée par la bourgeoisie cultivée, sauf par effet de style. » « populaire » « qui est employé par les couches sociales les moins instruites et peu utilisé par la bourgeoisie cultivée, sauf par effet de style : raquer diastratique (+ pour payer, caoua pour diaphasique) café. » « raciste » « forme injurieuse et péjorative à connotation raciste. » « raciste » « forme injurieuse et péjorative à connotation raciste. » « raciste » « qui est employé par hostilité à l’égard de certains peuples : you- diaévaluatif pin pour juif. Les termes racistes sont également injurieux. » rare « rare » « forme très peu attestée. » ∉ ∉ rég. « régional » « régional » « forme comprise et employée dans une région spécifique, elle peut être utilisée par la bourgeoisie urbaine. » MARQUES pop. raciste très fam. « très familier » Dictionnaire Hachette 2008 (2007, p. 7) TYPE DE MARQUAGE (Hausmann (1989)) diafréquentiel « régional » « dont l’emploi est limité à une ou plusieurs diatopique (+ régions de France : ai- diastratique) guail dans le Midi pour rosée. » diaévaluatif ∉ ∉ vieilli « vieilli » « forme encore compréhensible et/ou pouvant être produite par certains locuteurs généralement “âgés” ; mot qui est en train de sortir de l’usage. » « vieilli » « forme encore compréhensible mais qui tend à sortir de l’usage. » « vieilli » « dont l’emploi, bien que généralement compris, tend à sortir de diachronique l’usage : bigle pour strabique. » vulg. « vulgaire, vulgairement » « forme renvoyant à une réalité frappée de tabou (sexuel ou scatologique) qu’il est considéré comme grossier d’employer en public, quelle que soit la classe sociale. » « vulgaire » « forme renvoyant à une réalité frappée de tabou (sexuel ou scatologique) qu’il est grossier d’employer en public. » « vulgaire » « qui renvoie à une réalité frappée de tabou : putain pour prostituée. diaévaluatif (+ Le caractère grossier dianormatif ) des termes vulgaires en proscrit l’usage en public. » Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux Dictionnaire Hachette encyclopédique 1994 (1993, p. XIII) Dictionnaire Hachette encyclopédique 2002 (2001, p. XIII) Dictionnaire Hachette 2008 (2007, p. 7) « vieux » « forme qui n’est plus clairement comprise et jamais spontanément produite dans la communication, sauf dans une intention d’archaïsme (effet de style) ou dans un emploi dialectal ; renvoie souvent à l’usage classique (auteurs). » « vieux » « forme qui n’est plus clairement comprise et jamais spontanément produite dans la communication, sauf par effet de style ou dans certaines régions. » « vieux » « qui ne s’emploie plus sauf par effet de style ou dans certaines régions : en gésine pour sur le point d’accoucher. » MARQUES vx 285 TYPE DE MARQUAGE (Hausmann (1989)) diachronique (+ diatopique) Dans le Dictionnaire Hachette, les indicateurs diatechniques, qui ne sont pas pris en compte dans le tableau ci-dessus, présentent beaucoup plus de stabilité que les marques qui viennent d’être décrites, avec un ordre de grandeur avoisinant 180 unités, soit un peu moins que le Petit Larousse mais beaucoup plus que le Dixel (cf. supra n. 470). Le récapitulatif ci-dessous adopte les mêmes conventions que celles utilisées pour le Nouveau Petit Robert et les dictionnaires Larousse, l’italique, le gras et les petites capitales étant affectés respectivement aux millésimes 1994, 2002 et 2008. ; AERON ; AGRIC ; ALG ; ALPIN ; AMEUB ; ANAT ; ANTHROP ; ANTIQ ; ANTIQ GR ; ANTIQ ROM ; ; ARBOR ; ARCHEOL ; ARCHI ; ARCHI ANTIQ ; ARITH ; ARM ; ART ; ARTILL ; ARTS GRAPH ; ASTRO ; ASTROL ; AUDIOV ; AUTO ; AVIAT ; BIOCHIM ; BIOL ; blas ; BOT ; Bx-A ; CHASSE ; CH de F ; CHIM ; CHIR ; CHOREGR ; CHRET ; CINE ; COMM ; COMPTA ; CONJUG 481 ; CONSTR ; COUT ; CUIS ; CYCLISME ; DR ; DR ADMIN ; DR ANC ; DR CANON ; DR COMM ; DR FEOD ; DR INTERN ; DR MARIT ; DR PUBL ; DR ROM ; ECOL ; eco / ECON ; EDITION ; ELECT ; ELECTROACOUST ; ELECTROCHIM ; ELECTRON ; ELEV ; EMBRYOL ; ENTOM ; EQUIT ; ESP ; ETHNOL ; fauc ; FEOD ; FIN ; FISC ; FOREST ; FORTIF ; GENET ; GEOGR ; GEOL ; GEOM ; GEORMORPH ; GEOPH ; GEST ; GOLF ; GRAM ; GRAM GR ; GYM ; herald ; hippo ; HIST ; HISTOL ; HORL ; HORTIC ; HYDROL ; ICHTYOL ; IMPRIM ; INDUSTR ; INFORM ; ISLAM ; JEU ; LEGISL ; LING ; LITTER ; LITURG ; LITURG CATHOL ; LOG ; MAR ; MAR ANC ; MATH ; MECA ; MED ; MED BIOL ; MED VET ; METALL ; METEO ; METR ANC ; METROL ; MICROB ; MILIT ; MINER ; MINES ; MUS ; MYTH ; NEUROL ; NUCL ; OBSTETR ; OCEANOGR ; ŒNOL ; OPT ; ORNITH ; PALEONT ; PECHE ; PEDAG ; PEDOL ; PEINT ; PETROCHIM ; PETROG ; PHARM ; PHILO ; PHILO ANC ; PHON ; PHOTO ; PHYS ; PHYSIOL ; PHYS NUCL ; POET ; POLIT ; PREHIST ; PRESSE ; PROTOHIST ; PSYCHAN ; PSYCHIAT ; PSYCHO ; PSYCHOPATHOL ; PUB ; RADIOELECTR ; RELIG ; RELIG CATHOL ; RELIG CHRET ; RHET ; SC NAT ; sculp / SCULPT ; SOCIOL ; SPECT ; SPORT ; STATIS ; SYLVIC ; TECH ; TELECOM ; TENNIS ; TEXT ; THEAT ; THEOL ; TOPOGR ; TRANSP ; TRAV PUBL ; TRIGO ; TURF ; TYPO ; URBAN ; ven ; VERSIF ; VETER ; VITIC ; ZOOL ADMIN APIC Plus précises ci-dessus que dans T11, les descriptions des évolutions relatives aux explicitations des valeurs des marques ont permis d’observer les tendances repérables chez chacun des trois éditeurs majeurs. Concernant les autres évolutions, notre attention s’est principalement focalisée sur les dictionnaires dirigés par Alain Rey seul ou avec Josette Rey-Debove. 481 La présence de cette abréviation dans la liste des indicateurs de spécialités pourrait être une erreur éditoriale. 286 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Autres évolutions dans les dictionnaires généraux destinés à un large public Après la vue panoramique des §§ 1.1. et 1.2., les trois dernières subdivisions de T11 s’arrêtent sur certains aspects remarquables des pratiques actuelles de marquage des usages observés à partir des relevés effectués : – d’abord (§ 1.3.), la progression du diaphasique au détriment du diastratique observée en premier lieu dans les dictionnaires Robert puis chez des éditeurs concurrents, qui s’est accompagnée d’une graduation de familier à l’intensif très familier. Ce glissement non contrôlé du diaphasique au diaévaluatif est un indice de la fragilité théorique des révisions des dispositifs de marquage de nos dictionnaires ; – ensuite (§ 1.4.), la persistance d’arrière-plans normatifs à des marquages présentés comme diaphasiques, qui s’observe dans de nombreuses utilisations de la marque familier non pas pour caractériser les conditions d’emplois de certains mots mais pour stigmatiser certaines de leurs propriétés formelles ou sémantiques. Cette déviance, qui affecte de très nombreux usages lexicaux 482, mériterait en elle-même, au regard de son importance, une étude extensive spécifique ; – et enfin (§ 1.5.) la persistance de l’alternance, dans les pratiques de marquage, entre le recours à des marques proprement dites et des formulations textuelles intégrées aux définitions, qui est à la fois assez répandue et pas pleinement régulière, en dépit de principes de répartition avancés notamment dans la préface du Nouveau Petit Robert de 1993 483 à propos d’indications diatopiques 484. Il est aisé de remarquer que le marquage définitionnel n’est pas limité à cette seule variable, et il y aurait ici également une étude d’envergure à mener pour prendre la mesure exacte du phénomène. Dictionnaires pour allophones La deuxième partie de T11 se focalise sur l’étude des dictionnaires pour apprenants (§ 2.). Elle porte d’une part sur ceux destinés aux allophones et d’autre part sur ceux pour les élèves de l’école primaire. Concernant le français langue étrangère (§ 2.1.), pour lequel l’offre se limite au Dictionnaire du français (Le Robert et CLE International, 1999), dirigé par Josette Rey-Debove, et au Dictionnaire du français usuel (Picoche & Rolland (2002)), l’attention s’est concentrée sur le premier de ces répertoires, le second présentant peu d’intérêt pour l’étude des marquages. Le Dictionnaire du français, qui a des principes de description des usages explicites dans la tradition des dictionnaires Robert (cf. supra), pose que l’expression peut avoir trois valeurs marquées et une neutre, qui constituent un continuum 485 : TRÈS FAMILIER FAMILIER NEUTRE RECHERCHÉ 482 Cf. aussi P. Corbin (2006 : 112-114). 483 Cf. Rey-Debove & Rey (1993 : XIII). 484 C’est également au titre de cette variable que, comme cela a été noté précédemment, Hausmann (1977 : 117) avait souligné l’existence des deux pratiques de marquage considérées. 485 Cf. Rey-Debove (1999 : XI). Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 287 et sur cette base, afin de refléter l’usage, il décrit ce qui relève de chacun des niveaux permettant aux allophones de choisir le mode d’expression qui convient à chaque situation, fait rare dans un dictionnaire d’apprentissage, où une expression neutre est plus généralement encouragée, et comme tel également pointé dans T24 (§ 2.4.) 486. Ce dictionnaire présente par ailleurs des variations de marquage selon les lieux de mention des mots : en adresses ou comme items de renvoi postposés à une flèche au cœur des articles. L’interprétation la plus plausible de ces écarts est qu’il s’agisse d’un défaut de cohérence du dispositif global d’évaluation des usages proposé par le dictionnaire, ce que T11 inscrit dans le droit fil d’observations de même ordre faites par D. & P. Corbin (1980) concernant le Petit Robert et le Micro Robert. Une autre hypothèse est-elle envisageable ? On pourrait imaginer que certaines variations observées soient corrélées au fait que, quand un item marqué figure en adresse, il est décrit pour lui-même en référence au système linguistique considéré globalement, alors que, quand il est mentionné en tant que renvoi au sein de la description d’un autre item, sa valeur est évaluée relativement à celle de ce dernier. Selon cette hypothèse, si le verbe foutre (= « Faire ») est marqué comme relevant du STYLE TRÈS FAMILIER dans l’article qui lui est consacré mais ne se voit assigner que le STYLE FAMILIER s.v. fabriquer 4., qui est lui-même porteur de cette marque, ce pourrait être parce que la rédactrice a jugé que dans les contextes où fabriquer peut être employé (« Alors, qu’est-ce que tu fabriques ? […] »), son remplacement par foutre (Alors, qu’est-ce que tu fous ?) ne modifierait pas significativement le registre énonciatif. La valeur du marquage de foutre en tant que renvoi s.v. fabriquer serait ainsi relative et dépendante de celle de fabriquer, alors qu’elle serait à considérer en référence à la globalité des emplois du verbe foutre dans l’article qui lui est consacré. Il semble cependant inenvisageable de soutenir pour l’ensemble du dictionnaire cette hypothèse visant à chercher des principes de cohérence par-delà des apparences désaccordées, les contre-exemples étant trop aisés à mobiliser : il suffit à ce titre d’observer que s.v. fiche 1., affecté au STYLE FAMILIER, le renvoi à foutre à partir d’un contexte similaire à celui évoqué pour fabriquer (« Qu’est-ce que tu fiches ici ? ») s’accompagne de la marque STYLE TRÈS FAMILIER. Ceci étant, dans les limites des investigations menées pour la rédaction de T11, qui n’est pas dédié à l’étude du Dictionnaire du français, les distorsions de marquage n’ont pas donné lieu à un relevé systématique permettant leur appréciation quantitative et qualitative globale, qui mériterait un approfondissement. Dictionnaires scolaires Concernant les dictionnaires scolaires (§§ 2.2. et 2.3.), les données présentées reprennent le détail de ce qui peut être dit à propos des paratextes compte tenu de leur pauvreté (cf. figure 74), mais synthétisent ensuite les observations réalisées dans les textes de chaque répertoire avec une densité qui ne permet pas de les résumer ici intégralement, ce qui m’amènera à n’en retenir que quelques caractéristiques particulièrement saillantes. 486 Cf. aussi supra n. 465. 288 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia Figure 74. Analyse des présentations des modalités de marquage dans les paratextes des dictionnaires pour l’école primaire et l’entrée au collège TYPES D’OUVRAGES PRÉSENTATION DES MARQUAGES DANS LA PRÉFACE, LA TABLE DES CODES ET LE MODE D’EMPLOI OUVRAGES [DESTINATAIRES] Dictionnaire scolaire Hachette (2002) [CM-collège ; 9-14 ans] Monovolumes pour la frontière école primaire collège : environ 25 000 Larousse super major mots (2004) [CM-6e ; 9-12 ans] Dictionnaire Auzou junior (2006) [CE-CM ; 7-11 ans] Dictionnaire Hachette junior (2004) [CE-CM ; 8-11 ans] Larousse junior (2003) [CE-CM ; 7-11 ans] • • • pas de table des codes pas de présentation des marques dans la préface dans le mode d’emploi (« Présentation du dictionnaire », p. 4) : • • • pas de présentation des marques dans la préface pas de marque dans la table des codes dans le mode d’emploi (« Comment utiliser le Super Major : La partie des noms communs », p. VIII) : • • pas de préface ni de table des codes pas de présentation des marques dans le mode d’emploi • • • pas de table des codes pas de présentation des marques dans la préface dans le mode d’emploi (« Mode d’emploi », p. 5) : • pas de présentation des marques dans la préface ni dans le mode d’emploi pas de marque dans la table des codes pas de présentation des marques dans la préface pas de marque dans la table des codes dans le mode d’emploi : « Les registres de langue : comme on n’utilise pas toujours les mêmes mots selon que l’on écrit ou que l’on parle, ce dictionnaire précise les mots qui sont familiers (ceux que l’on utilise avec ses camarades) ainsi que ceux qui appartiennent à la langue littéraire (ceux que l’on trouve surtout à l’écrit). » (« À la découverte du Larousse junior », p. XI) • • • • Monovolumes pour le cycle 3 : autour de 20 000 mots Dictionnaire junior (Larousse, 2008) [CE-CM ; 7-11 ans] (« À la découverte du Larousse junior », p. XII) Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux TYPES D’OUVRAGES PRÉSENTATION DES MARQUAGES DANS LA PRÉFACE, LA TABLE DES CODES ET LE MODE D’EMPLOI OUVRAGES [DESTINATAIRES] • • Dictionnaire maxi débutants (Larousse, 1997) • [CE1-CM2 ; 7-10 ans] Monovolumes pour le cycle 3 : autour de 20 000 mots (suite) Robert junior illustré (2005) [CE-CM ; 8-11 ans] Dictionnaire Hachette benjamin (2004) [CP-CE ; 6-8 ans] Monovolumes Larousse des débutants pour le cycle 2 : (2005) entre 6 000 et [CP-CE ; 6-8 ans] 6 500 mots Robert benjamin (2005) [CP-CE ; 6-8 ans] 289 • • • • • • • • • pas de mode d’emploi présentation des marques dans la table des codes (« Liste des abréviations et des signes », p. XVIII : « fam., très fam. familier, très familier : le mot appartient à la langue familière ou très familière ; en principe on ne l’emploie pas quand on écrit ou si on surveille son langage » et dans la préface (« À la découverte du “Maxi débutants” », pp. VIIIIX) : « Le rôle du dictionnaire est surtout de t’apprendre le langage soigné, et si beaucoup d’expressions et de mots familiers s’y trouvent, c’est pour que tu remarques bien l’abréviation fam. et que tu apprennes comment on peut dire la même chose en langage soigné. » pas de marque dans la table des codes présentation de marques diatopiques dans la préface (p. VI) dans le mode d’emploi (« Comment utiliser le Robert junior », p. VIII) : pas de table des codes pas de présentation des marques dans la préface ni dans le mode d’emploi pas de table des codes pas de présentation des marques dans la préface ni dans le mode d’emploi pas de table des codes pas de présentation des marques dans la préface ni dans le mode d’emploi Le premier élément saillant que je retiendrai est la constance avec laquelle les dictionnaires pour la fin de l’école primaire posent dans leurs paratextes de présentation qu’ils ont un rôle éducatif à jouer. Ce projet induit deux types de postures distincts : alors que le Petit Robert des enfants revendiquait en 1988 l’exclusion de la nomenclature de ce qui ne relève pas de l’usage scolaire et qui ne fait pas progresser la maîtrise lexicale 487, le Dictionnaire maxi débutants de 1997 et le Dictionnaire junior Larousse de 2008, plus récents, se montrent plus accueillants en n’annonçant pas de proscription induite par le fait qu’un emploi est marqué mais en alertant sur la nécessité qu’il peut y avoir à choisir ses mots en fonction de ses interlocuteurs (certains items ne devant être utilisés qu’avec un sous-ensemble d’entre eux) pour le premier de ces répertoires ou en spécifiant le type de médium qui peut voir se réaliser certains emplois pour le second. Au-delà des sélections de nomenclatures, une des manières de jouer un rôle pédagogique consiste pour les répertoires scolaires à proposer des marquages (textuels ou, 487 Ce qui peut constituer également un critère pour le Dictionnaire Hachette benjamin, qui ne dit rien à ce sujet mais qui sélectionne une nomenclature qui appelle peu les marquages (cf. n. 159). 290 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia plus rarement, exprimés sous forme de marques) prescrivant des emplois linguistiques mais aussi parfois des comportements, ce que j’ai souhaité étudier plus en détail et qui a fourni la matière de T14, sur lequel je reviendrai au § 2.4.2. Une autre caractéristique frappante est le fait que, bien qu’ils soient économes en matière de marques proprement dites, les dictionnaires scolaires couvrent un large sous-ensemble des variables de la grille de Hausmann. Ceci est observable au premier chef pour les dictionnaires destinés au cycle 3, mais, comme le note T11, ceux pour le cycle 2, à leur échelle, ont aussi une certaine couverture, ainsi qu’en témoigne en particulier le Mini débutants, qui, dès sa première édition en 1985, a introduit quelques marquages diatextuels, diamédiaux et diaphasiques, puis a amplifié les premiers en 1999 en référant explicitement à des textes de la littérature enfantine 488. Bilan et perspectives Dans le travail préparatoire à la rédaction de T11, deux méthodes de dépouillement différentes ont été mises en œuvre en fonction des dictionnaires analysés dans chacune des deux parties. Pour les dictionnaires généraux destinés à un large public, dans la mesure où nous partions des analyses de Hausmann (1977 et 1989), D. & P. Corbin (1980) et P. Corbin (1989a) et où nous disposions de paratextes dictionnairiques consistants, l’étude empirique des marquages au sein des articles est restée relativement secondaire et a bénéficié du fait qu’il est possible de faire des recherches en plein texte portant sur les marques dans les versions électroniques disponibles pour la majorité des dictionnaires étudiés. En revanche, pour l’étude des dictionnaires pour apprenants allophones et natifs, dont les marquages n’ont pas fait, à ma connaissance, l’objet de publications antérieures et dont les paratextes n’ont majoritairement pas la consistance des précédents, les analyses des spécifications d’emplois formulées dans les articles ont joué un rôle central 489. Débutées solitairement, ces investigations ont été ensuite approfondies avec Pierre Corbin puis avec les étudiants des deux années de master qui ont suivi nos cours de lexicographie monolingue en 2006-2007. Comme pour les explorations structurelles évoquées au § 2.2.1., un travail de dépouillement collectif (cf. n. 229) des répertoires pris en compte a permis d’une part de consolider les principes de sélection des données pertinentes en évaluant la qualité relative de chacun des segments de texte dont les étudiants proposaient la sélection, et d’autre part de réaliser une moisson importante quoique non exhaustive. Les données ont été compilées dans une base (Rbd3) qui, comme le montre la figure 75, enregistre (dans les tables T_Unite_Linguistique, T_Adressage_Principal, T_Adres488 En 2005, dans l’édition refondue du Larousse des débutants, les citations ont été supprimées ou intégrées aux textes des définitions et contextualisations, mais une icône figurant un livre papillon marque les items en usage dans la littérature enfantine, qui sont ceux pour lesquels il en était proposé. 489 Les dépouillements de répertoires scolaires ont été particulièrement méthodiques, d’une part du fait de l’enregistrement de données dans la base des marquages (Rbd3) dont il va être question, et d’autre part parce que je souhaitais acquérir une bonne familiarisation avec ces produits éditoriaux afin d’asseoir sur des bases solides les travaux de conception dictionnairique auxquels je réfléchissais et dont les premiers éléments ont été développés à partir de 2009 dans T17 puis T21 et Tdr5 (cf. §§ 2.7.2. et 2.3.6.). Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 291 sage_Subordonne et T_pivot_ULing_AdPrin_AdSub, similairement à ce qui est fait dans Rbd5 (cf. § 2.3.2.)) quelles sont les unités linguistiques marquées et quels sont leurs modes d’adressages dans les dictionnaires. Pour chaque item marqué dans un répertoire, – la table T_Marquages • localise chaque segment textuel identifié comme exprimant un marquage, • repère en son sein l’opérateur de celui-ci, • en précise la portée en termes de subdivisions d’article et de texte contenu par ces dernières, • et en donne un typage selon les catégories de Hausmann (1989) ; – et la table T_Commentaires, enfin, permet de formuler les premiers éléments d’analyse relatifs au marquage ou à sa portée. Outre la mise à disposition des données triables en fonction des répertoires et des types de marquages, du fait du stockage de la double indication (de la subdivision et du texte) de ce sur quoi portent les spécifications d’emploi, cette base offre la possibilité de repérer les interdépendances de composants d’articles et les cas de marquage d’une sous-partie du contenu de l’un d’eux. Figure 75. Schéma de relations de la base des marquages textuels et codés des dictionnaires scolaires (Rbd3) Au terme de l’étude conduite dans ces conditions, les enseignements que dégage la conclusion de T11 apparaissent contrastés, les évolutions positives observées étant contrebalancées par la persistance de faiblesses nécessitant des améliorations, qu’il s’agisse – de l’adéquation descriptive des dictionnaires, qui dépend directement de la documentation métalinguistique sur laquelle peut prendre appui la connaissance des usages qu’ont les rédacteurs ; – de la cohérence des traitements, qui ne semble pas avoir aussi sensiblement progressé que l’outillage informatique le permettrait : par exemple, si les marquages sont balisés comme tels, un automate pourrait (i) contrôler (lors de la rédaction ou a posteriori) que si une marque est associée à un item de renvoi, un marquage de même valeur est 292 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia associé à l’item décrit pour lui-même et (ii) alerter les rédacteurs si ce n’est pas le cas, ce qui donnerait à ces derniers les moyens de corriger leur erreur ou de valider la différence de description 490 ; – ou du manque toujours patent de cadre théorique qui permette de dépasser les représentations aussi simplificatrices et réificatrices qu’idéologisées et normatives pour en concevoir une qui soit plus en adéquation avec les usages décrits 491. 492 Les recherches préparatoires à T11 ont suscité plusieurs projets d’études complémentaires, dont un petit nombre a été concrétisé. C’est à elles que se consacrent les développements suivants. 2.4.2. Analyse fonctionnelle des marquages interprétables comme prescriptifs [T14 (à paraître e)] Ayant observé, notamment en rassemblant la documentation utilisée pour la rédaction de T11, ce qui m’apparaissait comme une présence affirmée des marquages à vocation éducative (relatifs aux usages linguistiques mais aussi aux manières d’être) dans les dictionnaires scolaires, j’ai saisi l’occasion d’un colloque sur « la prescription en langue » organisé par Danielle Candel et Douglas Kibbee en 2007 pour élaborer C17 et rédiger T14 (dont la publication est toujours en attente) en prenant appui sur les données enregistrées dans la base des marquages (Rbd3). Une étude parmi d’autres relatives aux dictionnaires scolaires Le § 1. de T14 présente ce texte comme s’inscrivant dans une série de travaux sur les dictionnaires scolaires et incluant notamment les études qui seront présentées au § 2.5. (T12, T13, T15 et T16) relatives aux mots d’origine étrangère à propos desquels des informations diverses, en particulier phonographiques ou normatives, sont fournies plus souvent que pour d’autres items. Il inscrit également les analyses présentées dans une perspective plus large d’étude des modes de description des emplois lexicaux non neutres (qui avait motivé la création de la base des marquages (Rbd3)) et dans le cadre de laquelle, comme je l’indiquerai infra (cf. § 2.4.3.), je me suis d’abord concentrée sur les marquages concernant le “parler enfantin”, qui présentent la particularité d’être très peu présents dans les dictionnaires scolaires du fait d’un principe de sélection de nomenclature qui exclut assez souvent les items susceptibles d’être marqués à ce titre. 493 490 En l’absence d’automate de contrôle, il faut soit s’accommoder des incohérences, soit consacrer du temps de relecture à leur correction, ce qui a un coût financier. 491 Cf. P. Corbin (2006 : 45-47 et 110-114), qui fait notamment écho (p. 110) à la « représentation économiste des échanges verbaux » développée dans Bourdieu (1977 et 1982). 492 Dans l’ambitieuse perspective de la définition d’un cadre de marquage mieux fondé sur des analyses d’usages, une première tâche pourrait consister à circonscrire les domaines d’étude susceptibles de fournir de la bibliographie utile (cf. par exemple Gadet (2008) pour l’approche sociolinguistique et Adam (1997) pour celle de la typologie textuelle). 493 Cette caractéristique a impliqué que, dans T22, l’analyse de ce type de marquage soit envisagée contrastivement dans les dictionnaires scolaires et dans des répertoires généraux pour adultes (plus accueillants que Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 293 Le même paragraphe introductif focalise par ailleurs l’étude sur les dictionnaires scolaires imprimés, ce qui peut paraître en décalage avec le fait que je consacre une large part de mes spéculations à ce que pourraient être des éditions électroniques de qualité destinées aux jeunes lecteurs. Ce centrage est fondé sur la nature même de l’offre dictionnairique pour l’école primaire : il n’existe que deux dictionnaires électroniques pour le cycle 3 (cf. T23 n. 28) et ils dérivent de dictionnaires imprimés sans ajout concernant les marquages. Qu’est-ce que la prescription dans un dictionnaire scolaire ? Le § 1. accueille également une définition de la prescription adaptée au contexte d’étude et qui m’a semblé cohérente – d’une part avec les deux modes d’expression de la normativité envisagés par Glatigny (1989 : 700) : « Appartenant à la catégorie du discours pédagogique (Dubois 1971, 49), le dictionnaire monolingue a nécessairement un caractère normatif (Hausmann 1977, 139 ; Collignon / Glatigny 1978, 52). Dans un pays où règne la croyance qu’un “mot qui n’est pas dans le dictionnaire n’est pas français”, la normativité s’exprime “plutôt par la sélection, par l’exclusion que par un discours d’interdiction” (Rey 1983, 543). Il importe donc de distinguer l’inévitable normativité et le commentaire normatif facultatif. » l’auteur précisant quelques lignes plus bas la teneur du second mode en définissant ce qu’est un énoncé normatif dans un dictionnaire : « tout énoncé prédicatif qui formule explicitement des indications plus ou moins impératives concernant la forme ou l’emploi d’une entrée ou sous-entrée » – et d’autre part avec un projet pédagogique qui fait des dictionnaires scolaires des outils d’aide au contrôle de l’expression, ce qui peut être explicitement exposé comme dans l’« Avant-propos » du Robert benjamin (jusqu’en 2005) 494 : « le Robert Benjamin permet aussi à l’enfant de mieux s’exprimer, à l’oral comme à l’écrit. Il apprend à écrire dès qu’il apprend à lire et a besoin de vérifier l’orthographe des mots, d’en consulter le sens plutôt que de les employer à mauvais escient » (p. 6) 495 T14 prend en compte les textes des articles, afin d’y observer les lieux où sont insérées les prescriptions et leur mode discursif, mais pas les paratextes dictionnairiques. Afin de compléter le propos de T14, j’y ferai toutefois allusion ponctuellement dans le les premiers). L’étude des dictionnaires scolaires s’est ainsi poursuivie avec la création d’une seconde base, Rbd6, en partie intersective avec la première, qui amplifie l’inventaire envisagé et le spécialise tout à la fois en stockant les données relatives aux items du “parler enfantin” extraites d’une sélection de onze dictionnaires Robert, Larousse et Hachette. 494 Ce dictionnaire est le seul à le faire aussi explicitement parmi les dictionnaires pris en compte pour T14. Cette mention a disparu de l’« Avant-propos » des éditions de 2008 et 2009. 495 Selon la formulation employée, les emplois « à mauvais escient » évoqués sont limités aux choix lexicaux sémantiquement invalides. Il me semble néanmoins que le projet pédagogique présenté dans la phrase précédente justifie d’étendre leur portée à ceux qui ne donnent pas une image d’expression contrôlée et de qualité. 294 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia cadre de ce commentaire 496, et en premier lieu pour distribuer les répertoires dans l’une des trois classes de la typologie de Glatigny (1989) : « a) les dictionnaires peu explicites sur la norme et dont les articles ne comprennent aucune rubrique destinée à recevoir les jugement du lexicographe […] b) ceux qui […] présentent des “Remarques”, mais ne donnent aucune précision sur le statut et le contenu de celles-ci. c) les quelques dictionnaires qui fournissent quelques indications sur le contenu de leurs “Remarques”. » (p. 700) Puisqu’ils comportent des discours normatifs dans leurs articles mais n’évoquent pas nécessairement dans leurs paratextes les types de prescriptions et les lieux de leurs formulations ou bien ne le font que de manière très vague, comme le Dictionnaire Auzou junior : « Remarques : Hugo et Léa t’invitent à déjouer les pièges de la langue française ! Tu sauras tout des problèmes de grammaire et d’orthographe ! » (« Le mode d’emploi de ton dictionnaire », p. 4) 497 les dictionnaires scolaires relèvent pour la plupart de la seconde classe. Néanmoins, le Robert junior précise mieux que les autres dans son « Avant-propos » les contenus de ses articles et, partant, les types d’informations normatives qu’ils contiennent : « le Robert junior donne de nombreuses informations utiles, comme les pluriels difficiles ou irréguliers, le féminin des noms et des adjectifs (toujours indiqué en entrée) […]. La prononciation est indiquée à l’aide de l’alphabet phonétique pour les mots qui ne se prononcent pas comme ils s’écrivent […]. Des remarques […] donnent des informations utiles sur l’orthographe d’un mot quand celleci est difficile (ex. chrysanthème), sur les variantes quand un mot peut s’écrire ou se dire de plusieurs façons (ex. cacahuète, calmar), sur l’aire géographique où ce mot est employé (ex. chicon, huitante). Les particularités d’emploi et les difficultés grammaticales éventuelles sont clairement signalées. […] » (« Avant-propos », pp. V-VI) Ce qui fait l’objet de prescriptions Après l’introduction, qui situe et définit l’objet d’étude, le plan de T14 est organisé en fonction de cinq paramètres : (i) sur quels types d’objets portent les prescriptions (les formes des unités linguistiques (§ 2.) et leurs emplois (§ 3.), ou des éléments extralinguistiques (les comportements 498, § 4.)) ? (ii) sont-elles explicites ou implicites ? 496 Sauf mention contraire, je ne me réfère dans ce commentaire qu’aux paratextes des éditions étudiées dans T14. Dans leur ordre de mention ici, il s’agit du Robert benjamin de 2005, du Dictionnaire Auzou junior de 2006, du Robert Junior de 2005, du Dictionnaire junior Larousse de 2008 (appelé Larousse junior dans cet article par commodité dénominative, en référence à l’édition première de 2003), du Maxi débutants Larousse de 1999, du Larousse des débutants de 2005, du Dictionnaire Hachette benjamin de 2007 et du Fleurus junior de 2004. 497 Le § 1.3. de T12 signale que, dans Mon premier dictionnaire avec Martine, c’est le chat Moustache qui signale les difficultés. 498 Ceux-ci n’étaient pas pris en compte par Glatigny (1989), dont le propos ne concernait que des données linguistiques. Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 295 (iii) à propos de quoi mettent-elles en garde (pour les unités linguistiques : une forme graphique ou phonique, une combinatoire remarquable ou une particularité socioénonciative) ? (iv) dans quels composants d’articles figurent-elles (zone d’identification de l’unité linguistique traitée 499, définition, contextualisation, remarque ou marque au sein d’un composant précédent) ? et (v) quelle est la nature de l’information fournie ? Les données utilisées à chaque niveau pour illustrer le propos sont trop riches pour être reprises dans leur détail, mais certaines appellent des commentaires. – Prescriptions relatives aux formes graphiques et phoniques Parmi les prescriptions explicites portant sur les formes graphiques (§ 2.1.1.), celles relatives aux variantes méritent d’être distinguées de celles portant sur une règle d’orthographe, une graphie remarquable ou des confusions lexicales. Alors que les dernières guident vers l’emploi d’une forme explicitement posée comme étant celle qui doit être employée, la première fournit une forme qui peut l’être mais dont le statut n’est pas clair : si elle n’est retenue que comme variante, c’est que la forme réputée la plus standard n’est pas celle-ci mais celle qui figure dans le composant d’adressage ; en conséquence se pose pour une variante la question de savoir si elle est recommandable (c’est le cas de celles issues de la réforme de l’orthographe de 1990) 500 ou non 499 Cette terminologie est empruntée à Hausmann & Wiegand (1989), article de première importance concernant la structure des articles de dictionnaires monolingues. 500 La note 11 de T14 indique qu’en 2008 le Larousse junior était le seul à spécifier dans un paratexte la prise en compte de la réforme de l’orthographe et à exploiter des remarques pour introduire les formes graphiques qu’elle permet (ce qui les présente donc comme moins usuelles que celles qui figurent dans les composants d’adressage). Deux ans plus tard le Robert junior de 2010 consacre pour la première fois un paratexte (pp. 1140-1141) à cette réforme, mais rien n’est dit dans les articles au sujet des graphies réformées (y compris pour les mots figurant en exemple dans le paratexte). Par ailleurs j’évoque dans cette note le fait que la place faite à cette réforme dans les différents dictionnaires scolaires reste à évaluer. Jecjic (2006) constitue un premier pas qui n’épuise pas le sujet, puisqu’il n’est pas centré sur les dictionnaires scolaires et qu’il ne couvre pas les répertoires récents : Fabrice Jejcic a étudié la visibilité donnée aux nouvelles graphies dans quatre dictionnaires Robert disponibles en 2001 (le Grand Robert de 2001, le Nouveau Petit Robert de 2002, le Robert collège de 1997 et le Robert junior de 2001) à partir de ce qu’indiquent leurs paratextes et de ce qui est observable dans les articles des items en adresses débutant par la lettre a. Il conclut que le dictionnaire pour le cycle 3 est à la fois celui qui propose le moins de graphies rectifiées et qui a le système graphique le plus complexe. La comparaison des items listés en annexe 2 (ceux dont la graphie a été réformée et qui figurent avec l’ancienne ou la nouvelle graphie à la nomenclature de l’un au moins des quatre dictionnaires Robert étudiés) et de ceux qui figurent dans l’édition du Robert junior de 2005 – comme dans celle de 2010 (celle qui inclut un paratexte présentant la réforme), qui ne présente aucune évolution par rapport à la précédente – montre une grande stabilité : – concernant les mots composés : allume-cigare est entré avec son pluriel rectifié, à-pic n’est plus invariable, aéroclub a fait son entrée sans trait d’union ; – concernant les accentuations : asséner figure en remarque s.v. assener et allègement comme adresse subordonnée s.v. alléger (avec allégement présenté comme variante en remarque) ; – concernant les « anomalies » (comme absoudre traditionnellement écrit absous au participe passé et pour lequel la réforme propose absout) : aucune évolution ; – concernant les emprunts : arobase est entré à la nomenclature (dès 2003). D’autres travaux, comme celui de Martinez (2009), qui consacre de longs développements à la prise en compte de la réforme de l’orthographe dans les dictionnaires généraux (chap. 5.), et qui réfère à Jejcic (2006) mais 296 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia (c’est celui de celles qui sont marquées). La mention d’une autre forme au sein d’une remarque générant une incertitude, elle ne soutient pas directement l’acquisition d’une expression de qualité. Comme par ailleurs elle ne se fait pas dans le composant d’adressage, elle ne facilite pas la recherche de la forme 501, ce qui la rend peu aisément exploitable en situation de décodage et qui incite à penser qu’elle pourrait avoir une vocation plus culturelle que fonctionnelle. Les indications relatives aux variantes phoniques (libres ou fautives) (§ 2.1.2.) ne posent pas exactement le même problème : si le dictionnaire est consulté pour y trouver une aide à l’oralisation d’une forme graphique, et qu’une variante de prononciation accompagne celle qui est réputée standard, les deux peuvent être exploitées pour le déchiffrement de l’item. L’emploi de la variante peut néanmoins nécessiter une certaine vigilance : – si elle est libre, elle est alternative à la forme standard et ne pose pas de problème ; – si elle est fautive et signalée comme telle 502, le fait de la voir critiquée doit susciter une correction de l’expression orale afin que l’oralisation de la forme écrite non reconnue soit effectuée conformément à la prononciation standard. Par ailleurs, les transcriptions fournies pour représenter les formes phoniques 503 ne sont exploitables qu’à deux conditions : – savoir décoder les transcriptions écrites en alphabet phonétique international, alors que l’usage de cet alphabet n’est pas très courant dans les pratiques scolaires et que les valeurs de certains de ses caractères ne sont pas extrapolables à partir de celles des lettres de l’alphabet latin ; – et effectuer les adaptations contextuelles nécessaires : la forme graphique ayant dû être lemmatisée pour trouver l’article qui contient la forme phonique, celle-ci doit à son tour être enrichie de la prononciation des marques flexionnelles pertinentes, mais elle peut aussi devoir changer sous l’influence des items qui lui sont adjacents s’ils impliquent des liaisons ou d’autres ajustements (cf. T23 (§ 2.3.4.)). En complément de ces prescriptions explicites, des prescriptions implicites (§ 2.2.) sont exprimées, concernant les seules formes graphiques, dans divers composants des articles des dictionnaires scolaires : certaines définitions (quand elles prennent la forme d’énoncés du type un X (c’est + est) Y ) et les contextualisations (qui se prêtent aux variations, notamment flexionnelles, des graphies des mots). Concernant ces deux composants d’articles, il ne semble pas y avoir de gestion des redondances des formes fournies ni d’attention portée à la complétude du paradigme flexionnel présenté (pour les noms et les adjectifs au moins). aussi à Rebejkow (2001) et Honvault-Ducrocq (2006), informent sur l’intégration de nouvelles graphies mais ne traitent pas spécifiquement des dictionnaires scolaires. 501 La difficulté évoquée n’est fondée que pour les dictionnaires imprimés. 502 Sa mention témoigne de son usualité et valide l’hypothèse qu’elle puisse aider au déchiffrement. 503 Elles sont souvent accompagnées d’indications relatives à d’autres propriétés des items transcrits, comme en particulier des éléments étymologiques et historiques (cf. T13 et T16 (§ 2.5.2.)), sans qu’il soit toujours aisé de comprendre ce qui motive la coprésence des informations. Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 297 – Prescriptions socio-énonciatives Les prescriptions socio-énonciatives, déjà en partie décrites dans T11, peuvent être exprimées par des marques, qui ne sont pas toutes présentées aux lecteurs dans les paratextes, ou des marquages textuels, que ces derniers évoquent rarement (cf. § 2.4.1., figure 74). Deux dictionnaires Larousse se distinguent de tous les autres répertoires étudiés en consacrant un passage rédigé spécifique aux informations de cet ordre : – Le Larousse junior définit les registres de langue, mais il y mêle indûment les marquages diaphasique familier et diamédial littéraire, ce qui est également patent dans les dictionnaires généraux Larousse. – Le Maxi débutants adopte une démarche pédagogique afin de présenter le marquage diaphasique : 504 « Un mot différent pour une occasion différente […] On peut dire que vélo et bicyclette sont des synonymes, de même que copine et camarade, ou se balader et se promener. Mais tu te rends bien compte que ces synonymes ne sont pas exactement équivalents. Si tu racontes par écrit ce que tu as fait dans la journée, tu emploieras un langage soigné, et tu diras plutôt : “Nous nous sommes promenés à bicyclette avec des camarades” ; si tu parles dans un langage plus familier, par exemple à ton frère, tu diras tout naturellement : “On s’est baladés en vélo avec des copains”. Dans ton dictionnaire, les mots copain, balade et se balader, vélo, sont précédés de l’abréviation fam. Cela signifie qu’il s’agit de mots du langage familier et qu’on ne peut pas les employer dans toutes les circonstances. En général, on ne s’habille pas de la même façon quand on va jouer avec des copains ou des copines et quand on est invité à un anniversaire ou à une fête ; c’est exactement la même chose quand on parle ou quand on écrit : on adapte certains détails de son langage aux circonstances de la vie. Le rôle du dictionnaire est surtout de t’apprendre le langage soigné, et si beaucoup d’expressions et de mots familiers s’y trouvent, c’est pour que tu remarques bien l’abréviation fam. et que tu apprennes comment on peut dire la même chose en langage soigné. » (« À la découverte du “Maxi débutants” », pp. VIII-IX) Alors que dans les paratextes seul est évoqué le caractère formel ou non des énoncés produits, dans les articles les types de marquages sont variés, comme en témoignent les exemples mentionnés au § 3.1.2. et récapitulés ci-après en figure 76, mais la sélection de ceux présentés dans T14 est plus réduite que celle de T11 et tous les types n’y sont pas représentés. Figure 76. Types de marquages présentés comme exemples dans T14 accompagnés de la localisation de leurs attestations TYPE DE MARQUAGE diachronique diaévaluatif EXPRIMÉ SOUS FORME DE MARQUE EXPRIMÉ TEXTUELLEMENT DANS UNE DÉFINITION EXPRIMÉ TEXTUELLEMENT DANS UNE REMARQUE + + + + + 504 Seul le dernier paragraphe de la citation ci-dessous est reproduit au § 2.4.1. La reproduction d’un extrait plus large ici permet de présenter l’ensemble du développement pédagogique. 298 TYPE DE MARQUAGE diamédial dianormatif diaphasique diatextuel diatopique 505 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia EXPRIMÉ SOUS FORME DE MARQUE EXPRIMÉ TEXTUELLEMENT DANS UNE DÉFINITION + + + EXPRIMÉ TEXTUELLEMENT DANS UNE REMARQUE + + + + + – Prescriptions relatives aux rections verbales Concernant les contraintes relatives aux rections verbales telles qu’elles sont implicitement présentées dans certaines définitions et contextualisations (§§ 3.2.2. et 3.2.3.) se pose la question de la représentativité de ce qui est donné à voir : quand une prescription portant sur une sélection argumentale est explicite, l’attention des lecteurs est attirée sur une propriété particulière et peu importe que tout ne soit pas exprimé à propos de la construction du verbe traité puisque l’objet de la prescription est clairement circonscrit ; par contre, dans le cadre d’indications implicites, faut-il comprendre que ce qui n’est pas décrit ne doit pas être employé ? Dans ce cas, la définition proposée dans le Larousse des débutants s.v. empailler (« Empailler un animal mort, c’est remplir sa peau avec de la paille pour le conserver. ») joue bien son rôle, mais pas celle fournie s.v. emmêler (« Emmêler des cheveux, c’est les mettre en désordre. »), qui est trop restrictive, d’autres objets pouvant être emmêlés 506. La réponse à la question précédente est assurément négative dans son principe mais positive en pratique dans les cas de verbes ayant un paradigme d’arguments possibles limité (comme empailler) ou faisant l’objet d’une prescription normative en conflit avec certains usages que les rédacteurs transmettent implicitement plutôt que de formuler une remarque. Ces observations ont une relation directe avec deux autres sous-ensembles de mes travaux de recherche : d’une part ceux portant sur la détermination des emplois décrits des items traités (ce qui inclut les constructions syntaxico-sémantiques, cf. T9, T20 ou Tdr5 (§§ 2.3.5., 1.6.1. et 2.3.6.)) et d’autre part ceux qui ont trait à la mise en place de repères clairement identifiables pour les lecteurs des descriptions lexicales, qu’ils soient dans une situation de recherche d’aide pour le décodage d’un énoncé rencontré ou pour l’expression de leurs idées (cf. T17, prolongé respectivement dans chaque domaine par Tdr5 et T21 (§§ 2.7.2. et 2.3.6.)). 505 La remarque proposée dans le Dictionnaire Hachette junior pour week-end, que l’on ne devrait pas employer au Québec, fait partie d’un petit ensemble d’exemples que j’ai repris dans plusieurs textes (pour cette remarque spécifiquement : T12, T13 et T16), comme lien symbolique entre les développements, mais aussi naturellement en vertu de leur qualité illustrative là ils ont été insérés. La prescription évoquée aurait également pu illustrer dans T24 le passage consacré à la prise en compte des usages extra-hexagonaux (§ 2.2.) si cette contribution ne s’était pas focalisée sur les paratextes internes ou externes (cf. supra § 2.3.1.). 506 Le choix des cheveux comme entité emmêlée peut éventuellement être motivé par la fréquence de cooccurrence du verbe et du nom considérés dans l’espace enfantin. Les élastiques employés pour jouer dans les cours de récréation pourraient également être de bons candidats à l’emmêlement, mais ce jeu n’est pas autorisé partout. Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 299 – Prescriptions implicites par exclusion Les sélections de nomenclature et d’emplois décrits (§ 3.2.1.) constituent le premier mode d’expression de la normativité des dictionnaires 507, mais les exclusions sont discrètes et seuls les motifs de choix des items traités sont suggérés dans les paratextes afin d’appuyer sur les besoins d’acquisitions lexicales des élèves les évaluations quantitatives des nomenclatures 508 : « 6 000 mots […] les mots que l’enfant connaît et ceux qu’il doit apprendre pour progresser » (Dictionnaire Hachette benjamin, 4e de couverture) « 20 000 mots du vocabulaire de base qui doivent être connus des enfants de huit à douze ans » (Fleurus junior, « Avant-propos », p. 3) Par ailleurs, les éléments fournis dans les paratextes dictionnairiques concernant la pertinence des unités incluses dans la nomenclature sont trop vagues pour être réellement informatifs et seul le travail de relevé de nomenclature entrepris dans la base Rbd5 (cf. § 2.3.2.) permettra de comparer les choix des lexicographes les concernant, et ainsi d’étudier si les non-sélections d’items relèvent de principes de prescription par non-description, de sélections morphologiques (les mots construits pouvant ne pas être inclus à la nomenclature s’ils sont interprétables à partir du traitement de leur base par exemple) ou de divers autres critères, parmi lesquels il ne faut pas négliger la part de la gestion de l’espace imprimé 509 et celle du démarquage vis-à-vis de la concurrence. La conclusion de T14 propose des pistes de recherches (autres que les questions de sélection qui viennent d’être évoquées) auxquelles les explorations réalisées pour écrire ce texte ont donné une certaine actualité : – une étude de la systématicité des discours prescriptifs : sont-ils bien présents pour toutes les unités, tous les emplois qui en méritent ? sinon, peut-on déterminer des critères de choix des lieux de mention ? – et l’évaluation de leur interprétabilité par les élèves auxquels ils sont destinés 510. D’autres pistes seraient envisageables. En écho à ce qui a été présenté au début de ce commentaire, une recherche complémentaire pourrait consister à analyser les données de la base des marquages observés dans les dictionnaires scolaires (Rbd3) en prenant appui sur les six types de formulations prescriptives distingués par Glatigny (1989 : 700-701) en fonction des termes caractéristiques qu’il a observés dans les commentaires dictionnairiques : 507 Je mentionne alternative, au sens de “possibilité par opposition à une autre”, comme exemple d’item à propos duquel les dictionnaires scolaires optent volontiers pour une prescription par omission de traitement de l’emploi réprouvé. Cet exemple et d’autres, comme pallier, achalandé, etc., sont partagés par de nombreux ouvrages traitant du “bon usage” de la langue française, comme l’ont rappelé récemment Paveau & Rosier (2008 : 214) en référant à plusieurs d’entre eux. 508 À défaut de correspondre strictement aux besoins des élèves (cf. n. 353), les valeurs indiquées servent en tout état de cause à positionner les répertoires dans un segment du marché (cf. n. 205 et T24 n. 4). 509 Cf. § 3.2.1. et T24 § 1. 510 Cette question est récurrente dans mes recherches, comme en témoignent en particulier T9 (§ 2.3.5.) pour les constructions syntaxico-sémantiques et T15 (§ 2.5.3.) pour les identifications diachroniques. 300 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia « [1] les expressions empruntées au vocabulaire de la morale : faute, fautif, […] type de qualificatif […] plus fréquent au XIXe siècle qu’au XXe. [2] les termes qui dénotent la déviance par rapport à une règle : abusivement […] barbarisme […]. [3] les mots qui expriment un jugement de non-concordance : aberrant […]. [4] [l]es termes exprimant l’obligation […] on dit, on emploie […]. [5] des jugements positifs [qui] expriment le refus implicite ou explicite d’une interdiction virtuelle ou formulée : […] s’emploie indifféremment […]. [6] une série de commentaires qui expriment un jugement sur une forme de langue […] » Une autre investigation pourrait comprendre une prise en compte stricte des orientations du paratexte du Maxi débutants qui a été cité supra, pour déterminer parmi les items à la nomenclature les équivalences synonymiques neutres des items marqués et évaluer les implications de ces substitutions, d’une part du point de vue sémantique ou syntaxique, et d’autre part de celui de l’expressivité des énoncés. Ceci pourrait par exemple se faire en exploitant le corpus de textes de lecture (Rcorp13), qui doit déjà être enrichi de liens vers les articles décrivant les mots-occurrences (cf. § 2.3.6. et en particulier n. 418), pour en fournir une version alignée contenant chaque texte réécrit en respectant les prescriptions des dictionnaires scolaires et dans laquelle chaque substitution lexicale biaisant l’énoncé original serait commentée. 2.4.3. Étude du marquage des mots du “parler enfantin” [T22 (à paraître c) ; Rbd6] Parmi les prescriptions que les enfants d’âge scolaire entendent formuler, il peut y en avoir une qui touche leur expression et/ou leur comportement et qui leur enjoint de ne plus être des “bébés” mais des “grands”, alors même que les mots du “parler enfantin” occupent (encore) une certaine place dans les échanges verbaux que l’on a avec eux. C’est à ces mots qu’a été consacré le travail engagé, à l’occasion d’un colloque organisé à Amiens par Christophe Rey et Philippes Reynes, pour la rédaction de T22 et la communication C23 qui l’a précédé, dans laquelle j’ai présenté un plus large éventail de données examinées que celui qui est restitué dans l’article destiné aux actes. Plus précisément, – C23 s’est attachée aux unités linguistiques marquées comme relevant du “parler enfantin” dans les dictionnaires généraux et scolaires des trois éditeurs majeurs afin de définir les modalités de marquage de ces unités et de comparer les principes de sélection de celles qui sont caractérisées comme relevant des échanges observables entre les enfants et les adultes de leur entourage ; – T22 a limité l’échantillon dictionnairique précédent aux répertoires Robert. La continuité de ce travail avec ceux réalisés pour les rédactions de T11 et T14 se manifeste symboliquement par la reprise dans l’introduction de T22 (en n. 4) d’un exemple déjà exploité dans ces deux textes (respectivement au § 2.2. et en n. 24) : celui des remarques successivement présentées dans les articles joujou du Robert junior, dans lesquelles, à partir de 2005, l’indication « On utilise ce mot quand on s’adresse à de très jeunes enfants. » a été substituée à la notation « Ce mot est utilisé par les très jeunes enfants. » observable de 1993 à 2003. Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 301 Retour sur T22 T22 débute par l’explicitation du fait que la dénomination “parler enfantin” dont j’use pour évoquer mon objet d’étude n’est pas celle employée par les dictionnaires analysés, ce qui correspond au désir de ne pas donner a priori une position privilégiée à l’un d’eux en reprenant sa terminologie. Le § 1. de T22 présente le corpus dictionnairique pris en compte : le Nouveau Petit Robert électronique de 2001, deux versions du Robert junior (le texte de 1999 réédité en version électronique sous le titre de Robert des enfants en 2006 et l’édition imprimée refondue de 2005) et le Robert benjamin de 1997 (resté inchangé jusqu’à la révision de 2008 et la refonte de 2009 (cette dernière étant prise en compte en n. 48)). Ces répertoires ont été choisis pour représenter trois segments de marché – les dictionnaires généraux pour adultes et ceux destinés aux élèves des cycles 3 et 2 de l’école primaire –, pour la relative synchronie des textes d’un représentant de chaque ensemble, concentrés entre 1997 et 2001, et pour la disponibilité du texte amplement remanié de l’un d’eux, le Robert junior de 2005. La n. 7 stipule par ailleurs que des dictionnaires Hachette et Larousse ont également été pris en compte pour l’étude préalable à la rédaction de ce texte. Il s’agit des répertoires appartenant aux mêmes segments de marché : – Hachette proposait dans la même période deux dictionnaires généraux et deux scolaires : d’une part le Dictionnaire Hachette. Langue française & synonymes électronique de 2002 et le Dictionnaire Hachette encyclopédique 2002 (refonte parue en 2001), d’autre part le Dictionnaire Hachette junior de 1998 511 et le Dictionnaire Hachette benjamin de 1996 ; – Larousse n’ayant pour son compte produit de dictionnaire pour le cycle 3 comparable à ceux de ses concurrents qu’en 2003 512, les trois répertoires analysés – Petit Larousse illustré électronique (étudié dans sa version de 2005 513), Larousse junior de 2003 et Larousse des débutants de 2005 – sont plus tardifs que ceux des autres éditeurs. La méthode de dépouillement retenue pour ces répertoires a été aussi proche que possible de celle mise en place pour les dictionnaires Robert 514, décrite au § 1. de T22, et les données extraites des répertoires des trois éditeurs ont été stockées dans la même 511 Son texte n’a plus été revu avant cette année, pour une sortie à la rentrée scolaire 2010. 512 Larousse avait antérieurement publié le Maxi débutants (depuis 1986 sous ce titre, et 1977 pour la première parution en tant que Nouveau Larousse des débutants) à l’intention des élèves de même niveau, mais il avait un principe de description fondé sur les exemples glosés qui risquait d’introduire une distorsion dans les observations relatives aux répertoires de cette maison d’édition par rapport à ceux des autres éditeurs. Maintenant que les dictionnaires de facture plus classique ont été étudiés, il conviendrait de dépouiller également le Maxi débutants afin d’évaluer l’incidence effective des options pédagogiques qu’il valorise dans ses paratextes. 513 Le choix de cette version pour ce dictionnaire actualisé chaque année et dont l’édition électronique est vendue isolément depuis 1996 et avec le volume imprimé au moins depuis le millésime 2003 est dû au fait, contingent, qu’elle était la plus stable sur mon ordinateur parmi celles produites à partir de 2003. 514 Les dictionnaires Larousse, dépouillés juste après les Robert, l’ont été de manière tout à fait comparable (à ceci près que les données extraites des Robert ont aussi servi d’appui) : l’édition électronique a été explorée au moyen de la recherche en plein texte et les volumes imprimés exploités sur la base de ce qui avait été trouvé dans les éditions électroniques des deux éditeurs. Le dictionnaire électronique Hachette ne proposant pas de fonction de recherche dans les textes des articles, le dépouillement de l’ensemble des répertoires Hachette, qui s’est fait en dernier, a été manuel. 302 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia base (Rbd6), sommairement présentée en n. 6 de T22 et dont le schéma de relations reproduit en figure 77 permet de constater que sa structure est simple : – les tables T_Unite_Linguistique, T_Adressage_Principal, T_Adressage_Subordonne et T_pivot_ULing_AdPrin_AdSub enregistrent (pareillement à ce qui est fait dans Rbd5 (cf. § 2.3.2.) et Rbd3 (cf. § 2.4.1.)) quelles sont les unités linguistiques marquées et leurs modes d’adressage dans les dictionnaires ; – pour chaque item marqué dans un répertoire, la table T_Marquage stocke les expressions des marquages textuels ou exprimés sous forme de marques et leur lieu d’insertion ; – et la table T_Commentaires contient des notes analytiques portant sur les marquages observés. Figure 77. Schéma de relations de la base des mots du “parler enfantin” (Rbd6) Comme le pointe la conclusion de la présentation de la méthode de constitution du corpus d’étude, ce mode contingent de collecte des données, qui a permis de relever et de croiser beaucoup d’informations, ne peut cependant pas garantir leur exhaustivité, du fait que l’exploration des ressources électroniques se fait sur la base de mots-clés supposés (enfantin, enfant(s), adulte(s)…) dont on ne peut pas être assuré d’épuiser l’inventaire. Et de fait, la reprise des relevés pour la préparation du présent document m’a permis, par un élargissement de la liste des mots-clés potentiels à des items comme affection, d’observer dans le Nouveau Petit Robert le marquage de l’item bonhomme 515, non pris en compte dans T22 : « Terme d’affection en parlant à, d’un petit garçon. » (Nouveau Petit Robert, s.v. bonhomme II. 5.) Le § 2. expose les marques et marquages textuels observés dans les quatre dictionnaires Robert et leurs lieux d’insertion. Il en ressort que – le Robert benjamin ne propose qu’un marquage explicite (s.v. cocotte) et deux séquences définitionnelles jugées pertinentes (s.v. mamie et papi) au sein desquelles les locuteurs, incluant les jeunes lecteurs du dictionnaire mais ne se limitant pas à eux, sont représentés par le pronom on ; 515 L’extension de la recherche a été suggérée par la définition de loup 2. dans le même dictionnaire, qui associe affection à l’item enfant initialement utilisé comme motif de recherche : « Terme d’affection à l’égard d’un enfant […] ». Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 303 – seul le Nouveau Petit Robert emploie des marques proprement dites (enfantin, langage enfantin, appellatif enfantin et terme enfantin) ; – les marquages textuels, qui mobilisent régulièrement les items enfantin et enfant 516, peuvent figurer dans des remarques, des définitions, mais aussi dans des gloses d’expressions et une citation du Nouveau Petit Robert et dans des contextualisations du Robert junior ; – le Robert junior précise volontiers s’il s’agit de propos d’enfants, de ceux d’interlocuteurs leur parlant ou de ceux échangés par les uns et les autres et il est le seul à utiliser des contextualisations pour fournir des informations métalinguistiques : Cf. n. 41 : « Le mot « joujou » appartient au langage des enfants. » (s.v. langage 2. dans le Robert des enfants) et « Le mot « quenotte » appartient au langage des enfants. » (s.v. langage 3. dans le Robert junior de 2005) ; « Les enfants appellent les poules des cocottes. » (s.v. 1. cocotte dans le Robert des enfants) – le marquage étudié est parfois combiné à la marque diphasique familier et plus rarement, et seulement dans le Nouveau Petit Robert, aux marques diastratique et diachronique populaire et vieux ; – enfin, quelques marquages (principalement dans le Nouveau Petit Robert) ne concernent pas les emplois actuels mais sont proposés dans le composant d’identification diachronique. Les §§ 3. et 4. accueillent les comparaisons des marquages opérés dans le dictionnaire général et le dictionnaire junior d’une part et entre les deux éditions de celui-ci d’autre part. La tendance est nette : les scolaires incluent nettement moins de mots du “parler enfantin” à leur nomenclature, mais ils sont plus soigneux dans la description des emplois observés. Élargissements Dans le cadre de ce commentaire, je vais étendre les données observées afin de présenter un état concernant les trois éditeurs majeurs, en débutant par l’examen des dictionnaires généraux puis en décrivant les dictionnaires scolaires pour la fin de l’école primaire avant ceux destinés aux jeunes lecteurs. – Dictionnaires destinés à des lecteurs confirmés 1) Dans le Dictionnaire Hachette. Langue française & synonymes électronique de 2002, au sein duquel vingt-neuf marquages sont proposés, la distinction entre marques prédéfinitionnelles et marquages textuels au sein d’un autre composant d’article n’est pas toujours très nette : des parenthèses encadrent les premières comme parfois les seconds, et des variations de forme sont observables pour les deux. L’item enfantin figure une fois seul entre parenthèses (il est alors combiné à la marque familier placée avant cellesci 517), mais il peut également être précédé dans celles-ci (i) de langage avec ou sans la 516 S.v. bonhomme, le marquage au moyen de « petit garçon » semble être un cas exceptionnel, mais d’autres items dont les marqueurs sont aussi occasionnels peuvent encore ne pas avoir été identifiés. 517 « Fam. (enfantin) », 1 occurrence : s.v. quéquette. 304 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia mention de particulièrement et avec ou sans une autre marque ( familier ou populaire) combinée ou en disjonction 518, et plus exceptionnellement (ii) de dans le langage 519 ou (iii) de mot 520. L’item enfantin peut par ailleurs être précédé de dans le langage, de mot ou d’exclamation et figurer dans un marquage textuel inclus dans une définition 521 ou, une fois, être employé isolément dans une référence de citation 522. L’item enfant peut, lui, figurer dans une marque prédéfinitionnelle ou au sein de marquages textuels inclus dans une définition ou dans une glose d’expression, mais il appartient toujours à des formulations qui spécifient si les locuteurs sont des enfants 523, si ce sont les personnes plus âgées qui s’adressent à eux 524 ou si ce sont indifféremment les deux 525. 518 Avec ou sans majuscule initiale : – « (Langage enfantin.) », 1 occurrence : s.v. dodo, ce marquage étant mis en facteur commun pour les subdivisions de description 1. (relative à faire dodo) et 2. (relative à dodo ayant le sens de « Lit » dans aller au dodo) ; – « Fam. (Langage enfantin.) », 5 occurrences : s.v. caca, compter II. 3. – Compter pour du beurre, mémé, minou 1. et tata 1. ; – « Fam. 1. (Langage enfantin) » sans point après enfantin, 1 occurrence : s.v. coco (œuf ) 1., avec une marque diaphasique qui précède l’ordonnateur de subdivision de description portant sur les deux descriptions de sens (“œuf ” et “terme d’affection” (cf. n. 524)), alors que la marque de “parler enfantin” postposée à celui-ci a une portée limitée à la première ; – « Fam. (langage enfantin) », 2 occurrences : s.v. bisou et mamie, mammy ou mamy ; – « Fam. (Langage enfantin, partic.) » : 1 occurrence s.v. zizi (sexe) ; – « Pop. (Langage enfantin.) », 1 occurrence : s.v. pépé ; – « Pop. 1. (Langage enfantin.) », 1 occurrence : s.v. mémère 1., avec une marque diastratique antéposée à l’ordonnateur de subdivision de description qui porte sur les deux descriptions de sens, alors que la marque de “parler enfantin” qui est postposée à celui-ci a une portée limitée à la première ; – ou encore, dans un composant synonymique parenthésé associé à l’expression C’était pour rire, où les marques précèdent l’expression et sont articulées à elle par deux points, « (langage enfantin ou pop. : pour de rire) », 1 occurrence : s.v. rire (verbe) I. 3. pour de rire. 519 « (Dans le langage enfantin.) », avec majuscule initiale, 2 occurrences : s.v. joujou, oux et tonton. 520 « (Mot enfantin.) », avec majuscule initiale, 1 occurrence : s.v. dada (cheval) 1. 521 Quatre formes textuelles observées, avec ou sans parenthésage de l’expression du marquage : – « (dans le langage enfantin) », en fin de définition, 1 occurrence : s.v. cocotte 1. ; – « dans le langage enfantin », en fin de définition, 1 occurrence : s.v. nounou ; – « (mot enfantin) », en fin de définition, 1 occurrence : s.v. pépère I. 1. ; – « Exclamation enfantine », qui introduit la définition pour marquer et typer tout à la fois l’interjection décrite : 1 occurrence s.v. na !. 522 S.v. tapette, la référence approximative « (comptine accompagnant un jeu enfantin) » placée après la mention de l’extrait « Le premier de nous deux qui rira aura une tapette » explicite quels en sont les locuteurs potentiels. 523 Trois formes de marquage textuel observées : 1) inclus dans une définition : « Dans le langage des enfants », qui, placé en début de définition, identifie mieux les enfants comme étant les énonciateurs que ne le ferait “Dans le langage enfantin”, 1 occurrence : s.v. bobo (nom) 1. ; 2) incluses dans une glose d’expression : – « employée par les enfants », 1 occurrence : s.v. pouce 3. – – – Pouce ! ; – « interj. des enfants », 1 occurrence : s.v. coucou 7. Coucou !. 524 Deux formes textuelles observées, encadrées de parenthèses : – « (souvent à l’adresse d’un enfant) », 1 occurrence : s.v. coco (œuf ) 2. (cette subdivision de description de sens – relative à l’emploi comme terme d’affection – étant elle-même sous la portée de la marque familier, cf. n. 518) ; – « (Surtout en s’adressant à un enfant.), 1 occurrence : s.v. vilain, aine I. 4. 525 « utilisé par les enfants et ceux qui leur parlent », 1 occurrence : s.v. papa 1. Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 305 Enfin, comme dans le Nouveau Petit Robert, le nom bonhomme est marqué dans une définition par l’emploi de l’item garçon 526. 2) Dans le Dictionnaire Hachette encyclopédique 2002, qui pointe vingt-cinq unités linguistiques en employant des marques pour seulement cinq d’entre elles, deux marquages ne sont pas formulés à propos d’emplois actuels des items mais au sujet de leur mode de formation et figurent donc dans le composant d’identification diachronique 527. Les marques mobilisent l’item enfantin isolément ou associé à langage 528 et, dans le premier cas, éventuellement combiné aux marques familier et populaire 529. Dans les marquages textuels, l’item enfantin est employé dans une reprise en fin de définition de la forme « (langage enfantin) » déjà observée comme marque 530, dans une expression rédigée de même teneur 531 ou pour qualifier exclamation 532. L’item enfant figure, lui, dans des marquages définitionnels qui peuvent spécifier que les locuteurs sont les enfants 533 ou ceux qui leur parlent 534. 526 « (en parlant à un petit garçon) », s.v. bonhomme 5. 527 Deux formes textuelles observées : – « Onomat. enfantine pour canard. », 1 occurrence : s.v. 2 cancan, qui marque le mode de formation d’un item qui ne relève pas du “parler enfantin” ; – « Formation enfantine. », 1 occurrence : s.v. quéquette, qui marque la formation de l’item mais ne dit rien sur son usage actuel, qui n’est pas non plus marqué dans un autre composant d’article. 528 Deux formes observées : – « enfantin », 1 occurrence : s.v. tantine ; – « (langage enfantin) », 1 occurrence : s.v. mamie (le dictionnaire de langue propose en outre un marquage familier, cf. n. 518). 529 Deux combinaisons observées : – « fam, enfantin », 1 occurrence : s.v. caca (le dictionnaire de langue propose les mêmes marquages mais pas la même formulation, cf. n. 518) ; – « pop, enfantin », 2 occurrences : s.v. pépé et pépère A 1 (le dictionnaire de langue propose un marquage comparable pour pépé mais sans marque diastratique pour pépère, cf. nn. 518 et 521). 530 « (langage enfantin) », 2 occurrences : s.v. nounou et tata. 531 « dans le langage enfantin », toujours placé en fin de définition, avec ou sans virgule antéposée : – avec virgule, 6 occurrences : s.v. 2 coco 1 (“œuf ”), 1 cocotte 1, 1 dada 1 (“cheval”), joujou 1, mimi 1 et tonton ; – sans virgule, 2 occurrences : s.v. 2 dodo, minou 1. 532 « Exclamation enfantine », 1 occurrence : s.v. na (le dictionnaire de langue propose un marquage identique s.v. na !, cf. n. 521). 533 Trois formes textuelles observées : – « dans le langage des enfants » placé en début ou en fin de définition : • en début de définition et suivi d’une virgule, 1 occurrence : s.v. bobo 1 (le dictionnaire de langue marque bobo de la même manière, cf. n. 523) ; • en fin de définition sans virgule antéposée, 2 occurrences : s.v. mémé et mémère (le dictionnaire de langue ne précise pas que les locuteurs sont les enfants et il propose en outre un marquage familier pour mémé et populaire pour mémère, cf. n. 518) ; – « employée par les enfants », 1 occurrence : s.v. pouce B (le dictionnaire de langue marque pouce de la même manière, cf. n. 523) ; – « utilisé par les enfants », 1 occurrence : s.v. papa (le dictionnaire de langue ajoute, s.v. papa 1., « et ceux qui leur parlent » aux locuteurs mentionnés dans le dictionnaire encyclopédique, cf. n. 525). 534 Deux formes textuelles observées : – « en parlant à un petit garçon », 1 occurrence : s.v. bonhomme A 3 (le dictionnaire de langue le marque en mettant cette expression entre parenthèses, cf. n. 526) ; 306 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia 3) Dans le Petit Larousse illustré électronique 2005, les trente-huit marquages ne sont pas fournis sous forme de marques, même s’ils se présentent le plus souvent sous la forme dans le langage enfantin dans les définitions 535 comme dans une glose d’expression 536, et que sinon, dans les premières, ils mobilisent les items enfantin 537 ou enfant 538. Les contextualisations, quant à elles, ne marquent pas le “parler enfantin”, mais certaines évoquent des échanges verbaux entre enfants et adultes qui peuvent renforcer le marquage proposé en définition ou dans la glose d’expression 539. Le seul cas de marquage combiné impliquant familier présenté sous forme de marque en début de description de sens concerne une évocation du “parler enfantin” réalisée au moyen de l’item puéril et dont la prise en compte peut être discutée 540. Les marquages des dictionnaires généraux Hachette et Larousse sont moins consistants que ceux mis en place dans le Nouveau Petit Robert, ce qui est conforme au projet de chaque dictionnaire comme à la sociologie des destinataires de ces ouvrages, puisque, bien qu’ils soient tous conçus pour des lecteurs confirmés, le Nouveau Petit Robert vise plutôt les lettrés alors que les répertoires Hachette et Larousse sont destinés plus largement aux familles. Les combinaisons de marquages, pour leur part, y font une place bien moindre que dans le Robert à la marque diaphasique familier et, dans les seuls dictionnaires Hachette, ne mobilisent qu’un autre marquage (le diastratique populaire). L’élaboration de sous-ensembles en fonction des dictionnaires qui partagent la propriété de marquer les items comme relevant du “parler enfantin” (cf. figures 78 à 80) permet d’observer qu’outre les trente-huit items qui sont marqués par le seul Nouveau Petit Robert, dix-neuf le sont par les quatre dictionnaires généraux pris en compte, quatre le sont dans trois des répertoires, quinze dans deux et cinq dans un seul (autre que le Nouveau Petit Robert). Chacune de ces figures fournit une représentation des contenus de chacun des quatre répertoires par le jeu de quatre ensembles intersectifs : 535 536 537 538 539 540 – « souvent à l’adresse d’un enfant », 1 occurrence : s.v. 2 coco 3 (“terme d’affection” ; le dictionnaire de langue le marque en mettant cette expression entre parenthèses et en affectant au registre familier les deux emplois s.v. coco (“œuf ”), cf. n. 524). Placé en fin de définition, avec virgule antéposée, 29 occurrences : s.v. bobo n.m., bonne-maman, bon-papa, caca n.m., coco n.m. (“œuf ”) 1., cocotte (“poule”) 1., cui-cui, dada n.m. (“cheval”) 1., dodo (“lit”, “sommeil”), grand-maman, grand-papa, joujou 1., lolo, mamie, mamy ou mammy, mémé 1., mémère 1., mimi n.m. 1., minou 1., nounou, nounours, papy ou papi, pépé, pépère n.m., pouce interj., tantine, tata, tonton, toutou et zizi n.m. (“sexe”). « surtout dans le langage enfantin », avec virgule antéposée, s.v. personne n.f. 1. – grande personne. « Exclamation enfantine », 1 occurrence : s.v. na. « dans le langage affectif, surtout celui des enfants. », 2 occurrences : s.v. maman et papa. Elles peuvent simuler – des propos d’enfants : • « J’irai pas, na ! », s.v. na ; • « Pouce ! je ne joue plus ! », s.v. pouce interj. ; – ou certains de ceux qui peuvent leur être adressés : • « Tu as bobo à ton genou ? Ce n’est qu’un petit bobo. », s.v. bobo n.m. ; • « Laisse parler les grandes personnes ! », s.v. personne n.f. 1. – grande personne. « Familier. Affecter la niaiserie, s’exprimer d’une façon puérile. », s.v. bêtifier. Document de synthèse – 2.4. Étude des marquages ou prescriptions d’emplois lexicaux 307 – Nouveau Petit Robert électronique de 2001 (NPR) – Dictionnaire Hachette. Langue française & synonymes électronique de 2001 (DHL) – Dictionnaire Hachette encyclopédique 2002 (DH ) – Petit Larousse illustré électronique 2005 (PL) Les placements de ces ensembles permettent de créer des zones propres à chaque dictionnaire et sous-ensemble de deux, trois ou quatre dictionnaires. Dans chaque zone, les noms des dictionnaires sont symbolisés par leurs initiales, et le signe « ∩ » qui les réunit dans certaines cellules indique que le sous-ensemble délimité correspond à leurs intersections. La première de ces figures (figure 78) ne présente que le nombre d’items relevant du “parler enfantin” relevés dans les répertoires. Les deux suivantes, qui sont complémentaires, présentent pour chaque sous-ensemble les items et leur(s) marquage(s) : dans la figure 79, ce sont les sous-ensembles comptant 19 et 38 items qui sont traités, dans la figure 80, ce sont ceux qui en comptent de 1 à 8. Dans ces trois figures la taille de chaque zone varie en fonction de la place que prend l’expression de leur contenu, mais leurs positions relatives restent les mêmes. Figure 78. Répartition des items marqués comme relevant du “parler enfantin” (I) : sous-ensembles intersectifs d’items marqués dans un ou plusieurs des dictionnaires généraux NPR 38 items DHL 1 item NPR ∩ DHL 5 items NPR ∩ DHL ∩ PL 1 item DHL ∩ PL 0 item DHL ∩ DH 2 items NPR ∩ DHL ∩ DH 1 item NPR ∩ DHL ∩ DH ∩ PL 19 items DHL ∩ DH ∩ PL 0 item DH 0 item NPR ∩ DH 0 item NPR ∩ DH ∩ PL 2 items DH ∩ PL 0 item NPR ∩ PL 8 items PL 4 items Le relevé des marquages observés effectué pour élaborer les figures 79 et 80 permet de proposer une représentation synthétique de leurs formes et des repérages de locuteurs. Pour chaque item marqué sont indiqués, le cas échéant, l’expression dans laquelle il apparaît et qui donne lieu au marquage puis, entre accolades, les lieux et modes de marquage. Les lieux incluent les noms des dictionnaires (codés cette fois encore par leurs initiales), mais le composant d’article où figure le marquage n’est indiqué ensuite que s’il s’agit du composant d’identification diachronique (« étym. »), d’un renvoi (« renv. ») ou d’une citation (« cit. »). Les modes de marquage sont résumés au moyen d’un code qui spécifie conjointement s’il s’agit d’une marque ou d’un marquage textuel (respectivement « Mrq » ou « Txt ») et le repérage des énonciateurs (« » si les locuteurs sont les enfants, « » si les propos sont destinés aux enfants et « » si aucun énonciateur n’est identifié ou si ce peut être les enfants ou ceux qui s’adressent à eux). Quand une marque 308 Des usages en corpus aux descriptions dictionnairiques : HDR – N. Gasiglia diaphasique, diastratique ou diachronique est combinée à un marquage de “parler enfantin”, celle-ci est mentionnée après lui (« fam. » pour familier, « pop. » pour populaire et « vx » pour vieux) et quand elle lui est associée de manière disjonctive, un « ou » précède la marque. Enfin, quand dans un même répertoire l’item est marqué au sein de plusieurs composants, une esperluette sépare les marquages relevés. Figure 79. Répartition des items marqués comme relevant du “parler enfantin” (II) : focus sur les sous-ensembles comptant 19 et 38 items marqués NPR 38 items : attraper {NPR Txt } ; beau {NPR Mrq fam.} ; bébête {NPR Mrq } ; bibi {NPR étym. Mrq & pop. ou fam.} ; bon [Avoir tout bon, avoir bon (à un problème)] {NPR Mrq } ; boudin {NPR Mrq } ; boum [Faire boum] {NPR Mrq } ; brigand {NPR Txt} ; commission [La grosse, la petite commission] {NPR Mrq } ; croix [Croix de bois, croix de fer (si je mens, je vais en enfer)] {NPR Txt fam.} ; crotte {NPR Mrq fam.} ; cucul {NPR Mrq } ; cuillère [Une cuillère pour maman, une cuillère pour papa] {NPR Mrq } ; doudou {NPR étym. Mrq & fam.} ; doudoune {NPR étym. Mrq } ; doudounes {NPR étym. Mrq & fam.} ; faire [Faire caca, pipi] {NPR Mrq fam.} ; fifille {NPR Mrq } ; gentil {NPR Mrq } ; grand [Mon grand, ma grande] {NPR Txt fam.} ; guéguerre {NPR étym. Mrq & fam.} ; homme [ jeune homme] {NPR Txt fam.} ; laid {NPR Mrq au moral} ; loup {NPR Txt fam.} ; mater (n.) {NPR Mrq fam.} ; miam-miam {NPR Mrq & étym. Mrq } ; monsieur {NPR Mrq } ; monstre [Petit monstre ! ] {NPR Txtfam.} ; pépée {NPR Mrq } ; pioupiou {NPR étym. Mrq & fam. vx} ; pipi {NPR Mrq fam. & étym. Mrq } ; pouf {NPR Mrq } ; prout {NPR Mrq } ; quatreheures {NPR Mrq fam.} ; roudoudou {NPR étym. Mrq & fam.} ; sent-bon {NPR Mrq fam.} ; titi {NPR étym. Mrq } ; tutu {NPR étym. Mrq } DHL 1 item NPR NPR ∩ DHL ∩ PL DHL ∩ DHL 1 item ∩ PL 5 items 0 item DHL NPR NPR ∩ DHL ∩ DH ∩ PL DHL ∩ DH ∩ DHL 19 items : bobo (n.) {NPR Mrq ; DHL Txt ; DH Txt ; PL Txt } ; caca {NPR ∩ DH 2 items ∩ DH Mrq fam. ; DHL Mrq fam. ; DH Mrq fam. ; PL Txt } ; coco (“œuf ”) {NPR