57 corpora del parlato francese, spagnolo ed inglese le corpus de
Transcription
57 corpora del parlato francese, spagnolo ed inglese le corpus de
CORPORA DEL PARLATO FRANCESE, SPAGNOLO ED INGLESE CLAIRE BLANCHE-BENVENISTE * LE CORPUS DE FRANÇAIS PARLÉ DU GARS, GROUPE AIXOIS DE RECHERCHES EN SYNTAXE La linguistique orientée vers les corpus est devenue depuis quelques années une discipline à part entière et, dans toutes les grandes langues européennes, des corpus ont été établis, surtout pour la langue écrite (cf. Kennedy 1998; Habert / Nazarenco 1997). L’introduction de la langue parlée s’est généralement faite un peu plus tard que celle de la langue écrite, en raison de la difficulté et du coût beaucoup plus considérables des recueils de données. La consultation simultanée des deux sortes de corpus est en train, semble-t-il, de changer la conception même que l’on se fait de la description linguistique (cf. Sinclair 1991). On connaissait déjà des comparaisons modernes entre langue écrite et langue parlée, comme celle de Halliday (1985), par exemple, et on savait quel bénéfice la linguistique descriptive pouvait en tirer (cf. Miller / Weinert 1998). Mais les corpus contemporains apportent à cette comparaison de nouvelles dimensions et en particulier la très grande diversité des données, la possibilité de les quantifier finement et de les stocker par l’informatisation, ce qui a complètement changé la façon même de voir ces comparaisons. D. Biber et ses collaborateurs en ont fourni récemment une illustration frappante, en publiant une nouvelle grammaire de l’anglais «parlé et écrit», entièrement fondée sur les répartitions en «genres» que permettent maintenant ces nouvelles confrontations (cf. Biber / Johansson / Leech / Conrad / Finegan 1999). Les corpus de langue parlée permettront sans doute de nombreuses autres exploitations, encore inédites à ce jour. Le lancement des corpus de français parlé a été assez tardif – est-ce en raison des réticences normatives bien connues des Français?… Pour l’instant, le * Claire Blanche-Benveniste est actuellement professeur émérite à l’Université de Provence et à l’Ecole Pratique des Hautes Etudes à Paris. Son travail a porté sur la langue écrite (recherches sur l’orthographe) et sur la langue orale (corpus du GARS), particulièrement en ce qui concerne la morphologie et la syntaxe du français. 57 corpus le plus vaste (dix fois moins grand cependant que le corpus britannique!…) est celui qu’a constitué depuis une quinzaine d’années, à Aix-en-Provence, le Groupe Aixois de Recherches en Syntaxe (GARS). Le catalogue de ce corpus est partiellement consultable par le Web, sur le site DELIC1. Je propose de présenter les caractéristiques essentielles de ce corpus de français parlé et d’en développer trois aspects: l’intérêt des problèmes de transcription, l’exploitation des données à des fins d’analyse grammaticales et quelques considérations sur l’organisation des discours. 1. CARACTÉRISTIQUES GÉNÉRALES On calcule la dimension des corpus de langue parlée en comptant non pas le temps de parole mais le nombre de mots transcrits. En effet, le débit de parole est assez variable selon les personnes et selon les situations. Nous avons calculé que, pour le français, il peut aller du simple au triple: dans un débit lent, on compte environ 110 mots pour une minute d’enregistrement; un débit très rapide peut en contenir jusqu’à 350. En adoptant une moyenne basse, on estime que 100 heures d’enregistrement correspondent en gros à un million de mots transcrits. Le corpus collecté par le GARS contient 1.500.000 mots. Le grand corpus britannique du BNC en compte 10 millions. La disproportion est flagrante. Elle s’explique en partie par une histoire différente et par la disparité des moyens mis en œuvre. Le corpus de français parlé du GARS a été commencé dans les années 1980, avec des moyens réduits, par un groupe de linguistes qui s’intéressaient surtout à la grammaire et qui voulaient observer les mécanismes grammaticaux de la langue parlée dans une optique de linguistique descriptive. Il s’agissait d’une collecte de données ouverte, qui se complétait tous les ans, au fur et à mesure des besoins. La transcription des enregistrements – que certaines équipes avaient traitée comme un simple problème technique qu’on pouvait confier à des non-linguistes2 – a été comprise au contraire comme un défi d’ordre méthodologique et théorique. Il nous a semblé que, pour faire des transcriptions utilisables à des fins d’analyse grammaticale, il fallait résoudre un grand nombre de problèmes préalables concernant les relations entre la langue orale et sa représentation graphique: quel degré de réalisme choisir pour les transcriptions, quelle relation établir entre la fidélité à l’original et la lisibilité du 1 <http://www.up.univ-mrs.fr/delic/>. C’était le cas très souvent des recherches en socio-linguistique, par exemple pour le corpus Sankoff-Cedergren de Montréal, dont une partie a dû être retranscrite pour les études de morpho-syntaxe. 2 58 texte et, spécialement pour le français, comment rendre compte des différences entre la morphologie orale et l’orthographe. Vues dans cette orientation, les transcriptions ont été des opérations certes complexes et longues mais pleines d’enseignement. L’échantillonnage initial est une des grandes préoccupations de certains créateurs de corpus de langue parlée. Si l’on veut pouvoir comparer les locuteurs et leurs productions, il faut s’assurer qu’ils sont régulièrement représentés et, pour étudier les variations, il est bon d’avoir des échantillons de toutes sortes de situations de parole. Deux options: on peut prévoir ces choix dès le départ en construisant le corpus selon des proportions déterminées à l’avance; on peut les faire après coup, en découpant des échantillons dans un ensemble de données plus vastes. Les préoccupations de l’équipe du GARS n’impliquaient pas un échantillonnage au départ. Au contraire, c’est en cours de route que s’est formée l’expérience de ce qui constituait les «bonnes sources» grammaticales. Par exemple, il a fallu un certain temps pour comprendre que les formes de syntaxe les plus élaborées, avec le plus d’enchâssements de subordonnées, se rencontraient dans les situations d’explications techniques (et surtout pas dans les conversations); que les grandes organisations chronologiques ne se trouvaient pas dans les récits de vie mais bien davantage dans les récits d’accidents; qu’on obtenait de bons exemples d’un certain type de langage «formel» en questionnant les locuteurs sur leurs professions; que, pour étudier la syntaxe des enfants, il fallait éviter les situations de langage spontané et favoriser certains degrés d’artifice; que la situation de «porte-parole» (porte-parole d’une association ou d’autres types de groupes) favorisait des tournures grammaticales particulièrement intéressantes et rarement attestées ailleurs (appositions, par exemple). Autrement dit, nous ne savions pas, au départ, comment les locuteurs utilisaient les ressources grammaticales de la langue dans leurs différents actes de parole3. Nous ne pouvions donc pas fournir a priori les échantillonnages qui nous intéressaient. Nous pouvons le faire en partie maintenant. Les grands corpus établis dans les années 1990 ont généralement été fondés, dès le départ, sur les possibilités ouvertes par l’informatique. Le corpus du GARS, engagé bien antérieurement, a été en grande partie revu et informatisé à partir de cette époque. Nous avons fait le choix d’une informatisation «légère», 3 D. Biber avait pressenti ce problème en 1991, lorsque, sous le terme de «variation», il avait envisagé une répartition en «genres» (cf. Biber 1991). Une dizaine d’années plus tard, dans la grande grammaire de l’anglais parlé et écrit qu’il a dirigée, toutes les répartitions ont été soigneusement révisées, en tenant compte de l’expérience acquise par les corpus (cf. Biber / Johansson / Leech / Conrad / Finegan 1999). 59 avec un logiciel d’exploitation, XCOR, fourni par Jean-Pierre Adam4. Nous n’avons pas utilisé pour l’instant, de façon systématique, un étiqueteur grammatical, puisque, justement, une partie de notre travail consiste à vérifier les analyses grammaticales courantes. On peut tout à fait admettre les classements en adverbes, conjonctions, prépositions, fournis par les ouvrages de grand public, si l’objectif est de répondre à des demandes de grand public, en s’adaptant aux habitudes usuelles. Mais, comme l’objectif ambitieux du GARS consistait à raffiner et même à réformer une partie de la terminologie, nous ne pouvions pas adopter l’ensemble de l’étiquetage morpho-syntaxique. Nous n’avons donc indexé, prudemment, que les catégories «sans problèmes», comme par exemple les verbes conjugués (cf. Blanche-Benveniste / Adam 1999). Il faut préciser ce qu’on entend par «langue parlée». Pour beaucoup de Français – y compris certains linguistes de profession – le parlé se réduit au spontané et au fautif. Dès qu’une production orale comporte peu de fautes contre la norme et qu’en revanche elle contient des parties grammaticalement complexes, le soupçon leur vient qu’il ne s’agit pas vraiment de parlé, mais de quelque chose de mixte, comme «de l’écrit parlé» ou du «parlé écrit». Nous avons choisi au contraire de définir le «parlé» par le media utilisé, à savoir la parole articulée. Il nous paraît utile de collectionner toutes sortes de productions, depuis les plus spontanées jusqu’aux plus contraintes. C’est pourquoi, à part les conversations, récits, ou témoignages improvisés, le corpus contient des prises de parole formelles, discours publics, émissions de radio et télévision et même lectures de textes. Nous retenons comme locuteurs francophones ceux qui ont fait leur scolarité primaire en France et qui sont âgés de plus de 5 ans. En raison des difficultés à transcrire la parole lorsque les locuteurs sont trop nombreux, nous limitons le nombre des participants à six. Il est commode d’avoir à sa disposition plusieurs «longueurs» de textes. Pour le GARS, les enregistrements “longs” font entre 60 et 90 minutes; les “courts” durent de 10 à 15 minutes. Les enregistrements ont lieu à domicile, sur les lieux de travail, dans des magasins ou des bureaux, dans des institutions publiques, au téléphone. Nous ne faisons pas d’enregistrement avec «micro caché». Les règles de protection juridique de la parole sont beaucoup plus complexes qu’on ne pourrait le croire de l’extérieur. C’est pourquoi il n’est pas possible de communiquer des corpus de langue parlée pour lesquels il n’existe pas une autorisation explicite d’enregistrement et de transcription. Pour les 4 Par la suite, Jean Véronis (Véronis / Khuori / Meunier 1994) a proposé un codage standard, avec un dictionnaire MULTEX (lexique informatisé de 350.000 formes). 60 corpus de grande envergure, il a fallu généralement passer une année entière à régler les problèmes juridiques, avant de se mettre au travail. Faire un corpus de langue parlée qui corresponde aux exigences modernes revient très cher. Ce n’est pas un hasard si les corpus de langue anglaise sont actuellement les plus vastes; ils peuvent miser sur des financements considérables: le marché commercial ouvert par l’enseignement de l’anglais parlé est tel que les financiers peuvent raisonnablement espérer en tirer un profit. Les méthodes de travail, la taille et la composition même du corpus dépendent étroitement de l’objectif que l’on se fixe. Il serait illusoire de faire une recherche lexicale sur la langue parlée avec moins de dix millions de mots5, mais la recherche grammaticale peut commencer dès qu’on dispose d’un million de mots et il en faut encore moins pour faire les études phonologiques6. 2. TRANSCRIPTIONS Les débats sur les types de transcription mettent souvent aux prises les débutants – qui veulent généralement «tout» noter, avec une frénésie de réalisme; les techniciens, qui cherchent à suivre les consignes internationales des experts informaticiens, quels que soient les objectifs7; et les linguistes, qui, pour peu qu’ils aient réfléchi aux relations entre l’écrit et le parlé, savent qu’il faut adapter les transcriptions aux objectifs de la recherche. Pour s’intéresser aux réalisations grammaticales présentes dans un corpus, il faut pouvoir lire des quantités de textes et c’est pourquoi un minimum de lisibilité est requis. Les transcriptions phonétiques sont souvent indispensables – par exemple pour étudier certains phénomènes de liaison – mais nous ne connaissons aucun grand corpus qui serait entièrement transcrit phonétiquement, ce qui serait un obstacle trop grand à une lecture cursive. Les transcriptions surchargées de symboles sont, de ce fait, écartées. L’idéal est de trouver le bon compromis entre fidélité et lisibilité. L’équipe du GARS a mis au point, progressivement, un système de transcription “pauvre”, qui a été adopté par plusieurs équipes de recherche: sans 5 Il n’est donc pas envisageable de faire des dictionnaires fondés sur corpus, comme on a pu en faire pour les français régionaux, en collectionnant des questionnaires. 6 Une équipe de phonéticiens et phonologues entreprend à Toulouse, sous la direction de Jacques Durand, un corpus qui servira aux recherches dans le domaine phonologique et prosodique. 7 Par exemple la TEI, Text Encoding Initiative (<http://www.tei-c.org/>) ou les consignes données par le groupe EAGLES pour les grands corpus européens des différents projets PAROLE (<http://www.ilc.pi.cnr.it/ >). 61 surcharge pour noter les mimiques, rires et toux, ni les phénomènes d’interaction, ni les intonations. Cependant, dans les versions plus modernes, les intonations ne seront pas perdues. En effet, plusieurs procédés techniques permettent de réaliser des “corpus aligné”, qui couplent des segments de l’enregistrement sonore avec des segments correspondants de la transcription graphique. On peut, à tout instant, écouter l’enregistrement sonore qui correspond au segment de transcription et faire apparaître sur l’écran la notation prosodique du passage qu’on lit8. La transcription se fait en orthographe standard, sans aucun “trucage” d’orthographe9. J’estime, pour ma part, que l’écriture ordinaire nous sert à écrire des morphèmes et que, pour descendre au-dessous du niveau de notation des morphèmes, par exemple pour noter des réalisations phonétiques particulières de ces morphèmes, il faut choisir un système rigoureux, non orthographique. Impossible de noter les différentes prononciations de parce que avec des approximations douteuses comme parc’ que, parc’qu’, pa’ss’k ou d’autres. Il s’agit là, du reste, de prononciations d’une grande banalité, qui n’offrent aucun intérêt ni pour caractériser un locuteur ni pour faire une description grammaticale. Il suffit d’inscrire, dans la description générale du français, que des morphèmes comme parce que, il y en a, maintenant, etc. ont des réalisations phonétiques variables selon les débits, qu’il convient d’étudier en tant que telles10. Nous transcrivons les productions orales sans y mettre la moindre ponctuation: ni point, ni virgule, ni guillemets. Deux degrés de pause seulement ont été retenus: une pause courte et une longue. Nous pensons que la production orale ne procède pas par «phrases» et n’a pas d’équivalents de ponctuation qu’on pourrait calquer sur les règles apprises pour les productions écrites. Il arrive souvent qu’un complément de temps, comme le mois suivant dans l’exemple cité, puisse être rattaché aussi bien au verbe qui précède, il coulait, qu’au verbe qui suit, il était au chômage: 11 rien ne marchait plus - il coulait - le mois suivant - il était au chômage (Cl 89, 6) 8 Nous nous sommes beaucoup servis de l’expérience du Centre de Linguistique de Lisbonne, qui avait, en ce domaine, beaucoup d’avance. Nous avons utilisé le logiciel de Philippe Martin (1996), WINPITCH, sous ses différentes versions. 9 Nous en avons donné des justifications à de nombreuses reprises, dans différents articles publiés dans la revue Recherches Sur le Français Parlé (cf. Blanche-Benveniste 1988, 1990). 10 Les jeunes enfants représentent souvent des cas limites. Quand il semble que leur prononciation ne correspond pas à celles qu’on connaît couramment chez les adultes, on est en droit de se demander s’ils ont vraiment le même morphème. En ce cas, la transcription phonétique est de rigueur. 11 Les lettres et chiffres renvoient aux codages du corpus du GARS. 62 Ce double rattachement, étudié par B. Combettes (1998) pour des époques plus anciennes de la langue, nous paraît devoir être conservé dans les transcriptions. Des versions ponctuées peuvent être données, après analyse, pour les passages qui ne présentent pas ce type de phénomènes. Un transcripteur rencontre habituellement plusieurs sortes de difficultés qu’il ne soupçonnait pas avant de commencer. Certains passages des enregistrements sont parfois inaudibles. Nous avons décidé de faire figurer par un signe X chacune des syllabes qui ont été jugées incompréhensibles. D’autres passages peuvent recevoir plus d’une interprétation. C’est le cas par exemple pour une suite de syllabes qu’on peut comprendre aussi bien comme toujours dans que comme tout le long de. Les deux sont possibles dans le même contexte et il nous est arrivé de vérifier, dans des cas semblables que, si l’on fait écouter le passage à trente personnes, une partie comprend la première version et l’autre jure entendre la seconde. Le phénomène peut aller jusqu’à des sortes d’hallucinations auditives, comme le remarquait Goffman (1973). Nous avons décidé que ce type de «multi-interprétation», qui se produit fréquemment dans les échanges quotidiens, valait la peine d’être conservé. Nous notions les deux versions, séparées par une virgule, entre barres obliques: on prenait un orchestre / toujours dans, tout le long de / cette fameuse grande salle Une difficulté typiquement française vient du décalage entre la morphologie de la langue écrite et celle de la langue parlée. Quantité de finales flexionnelles, de genre, de nombre ou de flexion verbale, sont inaudibles. Nous écrivons cependant ces finales, lorsque l’organisation de l’énoncé indique une interprétation certaine. Par exemple nous écrivons: les commerçants avisés ouvrent le matin tôt, avec des marques de pluriel qu’on n’entend absolument pas sur commerçants, avisés et ouvrent, car cela fait partie du choix de l’orthographe standard. Mais il arrive que le contexte n’indique pas une interprétation plutôt qu’une autre et qu’on ne puisse pas décider si c’est singulier ou pluriel. En ce cas, les signes de pluriel de fin de mots peuvent être mis entre parenthèses (comme on le fait parfois dans l’écrit ordinaire): il(s) répare(nt) leur(s) maison(s). L’ensemble des difficultés fait que la transcription est un travail long, qui réclame, en moyenne, vingt minutes pour transcrire le contenu d’une minute d’enregistrement. Voici un tableau des conventions de transcription du GARS que nous communiquons à nos collaborateurs (cf. tab. 1): 63 Conventions de transcriptions 1. La transcription se fait en orthographe standard, sans aucun trucage orthographique. Les grands dictionnaires servent de référence pour les mots de la langue, les noms propres, les interjections et les onomatopées. 2. Aucun signe de ponctuation; pas de majuscule de début de phrase. Pas d’indication prosodique. 3. Notations phonétiques. Pour les textes “ordinaires”, un appel de note après un espace vide entre crochets, pour placer la transcription phonétique en note de bas de page (avec parcimonie) et sans aucune notation phonétique dans le corps du texte: Dans le corps du texte : [ ] 1 En bas de page: 1 [ wista] Pour les textes “particuliers” (jeunes enfants, pathologies, étrangers), des conventions spécifiques sont établies, selon les besoins, pour placer des notations phonétiques dans le texte. 4. Signes particuliers pause brève des clients qui sont particulièrement - désagréables pause longue -c’était une - - une assurance syllabe inaudible X c’est X c’est là suite de syllabes inaudibles XXX et elle XXX encore un petit peu plus loin chevauchements _____ L1 je rêve en permanence L2 c’est bien amorce de mot tiret collé il faut les rem- les remplacer multi-transcription / , / elle /a acheté, achetait / des meubles il y a / des, les / clients désagréables eh bien euh / je vais, il faut / pas regarder la différence quelque chose ou zéro / ,Ø/ et /alors, Ø / dans ce cas on s’en débarrasse hésitations orthographiques ( ) on (n’)en parle plus il(s) travaille(nt) 5. Mise en page 16 lignes à la page, en double interligne, numérotées. Pages numérotées en haut, au centre, titre courant en haut à droite. Retour à la ligne pour chaque changement de locuteur. Marges du haut, de droite et de gauche à 3,5 centimètres. Marge du bas à 5 centimètres. Le texte commence à 2 commerçants avisés ouvrent centimètres de la marge. Locuteurs mentionnés par L1, L2, L3, à la marge. tab. 1 3. OBSERVATIONS SUR LA GRAMMAIRE FOURNIES PAR LES CORPUS On doit tout de suite dissiper un malentendu: nous ne pensons pas qu’il y ait une grammaire spéciale de la langue parlée, à distinguer radicalement de celle de la langue écrite. Nous vivons tous, dans nos sociétés fortement lettrées, avec des relations complexes entre l’écrit et l’oral de notre langue. Nous utilisons des variantes, adaptées aux différentes situations linguistiques. Dans des situations orales très contraintes, les locuteurs français se surveillent, ce qui se voit à quantité d’indices normatifs caractéristiques: le fait de mettre le ne de négation, 64 d’utiliser la postposition du pronom sujet pour interroger, de changer parce que en car, on en nous ou quand en lorsque: Il était là / il n’était pas là Cette dame le faisait / cette dame le faisait-elle Elle avait peur parce que c’était la deuxième fois / elle avait peur car on l’avait prévenue On le fera / nous le ferons Il avance quand on le pousse /il avance lorsqu’on le pousse Les aspects normatifs ne constituent qu’une petite partie de la question. Une caractéristique moins apparente, mais que tous les spécialistes ont remarquée (cf. Sinclair 1991), est dans la corrélation entre le lexique et la grammaire. Dans la langue parlée, certains phénomènes grammaticaux sont fortement concentrés sur un petit nombre de formes lexicales, au point qu’ils forment des «collocations» particulières et paraissent presque devenir des «formules». C’est le cas par exemple pour l’utilisation du relatif dont. Lorsqu’on observe les emplois de dont dans des constructions relatives dépendant d’un verbe, comme c’est la chose dont je parle, on s’aperçoit que, par écrit comme par oral, les verbes les plus fréquents accaparent un très grand nombre de dont, ce qui paraît normal. Dans la langue de la presse, par exemple, les huit verbes les plus fréquemment attestés accaparent près de la moitié des emplois. Dans les deux cas, écrit comme oral, c’est le verbe parler qui en a le plus. Mais le phénomène est beaucoup plus marqué dans les productions orales, puisque les huit verbes les plus fréquents prennent, là, plus de 80% des emplois de dont. C’est au point que ces répartitions de la langue parlée pourraient être interprétées comme une quasi fixation de dont sur une dizaine de verbes français. Les professeurs de français pourraient en tirer argument pour n’enseigner dont que pour cette dizaine de verbes (cf. tab. 2). Des remarques analogues pourraient être faites pour les emplois de lequel relatif (cf. Branca 1988), pour certaines postpositions des sujets (cf. Cappeau 1999), pour l’emploi des participes passés détachés (cf. Blanche-Benveniste 1998), pour les appositions (cf. Caddéo 2000), etc. 65 Emplois de dont dans les constructions verbales du type la chose dont je parle Fréquence des verbes Productions orales 1. parler 48,4% 2. avoir besoin 12,9% 3. faire partie 08,1% 4. prendre conscience 04,8% 5. sortir 03,2% ........................................................................... total des emplois de dont avec les 8 verbes les plus fréquents 87% écrits de presse parler 08,0% faire preuve 08,9% avoir besoin 06,3% dire 05,1% disposer 05,1% ............................................................................ 44,4% tab. 2 L’observation d’un grand corpus permet aussi de faire des rapprochements entre tournures grammaticales qu’on ne ferait pas sans cela. Par exemple, on voit qu’un groupe de verbes, qui comporte à la fois des verbes dits «d’opinion», comme je crois, je pense, et de «dire» comme elle m’a dit, interviennent fréquemment dans deux types de constructions. Dans l’une, ils se comportent apparemment comme des verbes principaux, qui commandent une subordonnée introduite par que: je pense qu’ils vont souffrir elle m’a dit qu’elle le déteste Et l’on serait tenté de les classer, sans plus, dans le même lot que d’autres verbes «principaux» comme je sais que, elle me confie que, placés devant leur subordonnée: je sais qu’ils vont souffrir elle me confie qu’elle le déteste Mais ces mêmes verbes apparaissent également, et presque aussi souvent, dans des constructions en incises, placées après la séquence sur laquelle ils portent: il s’en fiche je pense ils sont vraiment fauchés elle m’a dit On rencontre même des exemples où cumulent les deux sortes d’emplois, une fois en tête et une fois après: Je crois que c’était Jean-Pierre qui la connaissait je crois Du coup, on est en droit de douter du statut de «verbe principal» qu’ils auraient quand ils sont suivis de que. Ce ne sont pas de vrais verbes subordonnants, ce qu’on vérifie doublement, d’une part par leur sens et d’autre part en constatant qu’ils ne laissent pas facilement réduire l’apparente «subordonnée» à un pronom, le, comme le feraient les «vrais» verbes subordonnants, savoir ou 66 confier. Je crois que c’était Jean-Pierre, avec la valeur de doute que transporte la tournure, n’est pas réductible à je le crois, qui serait, par contraste, très affirmatif: je crois que c’était Jean-Pierre qui la connaissait je le crois Précédés de que, ces verbes semblent avoir plutôt la valeur modale «atténuée» qu’ils ont dans la construction en incise: Je crois que ça lui est égal C’est vrai que les frais sont plus grands Il me semble qu’elle est revenue c’était une étrangère je crois c’est pas si facile que ça c’est vrai il fait moins froid qu’avant il me semble En somme, ce sont de «faux subordonnants», pour lesquels il faudrait dégager une catégorie spéciale12. La syntaxe et la sémantique gagneraient à acquérir cette catégorie supplémentaire, un peu comme on gagne en précision lorsqu’on analyse des verbes comme aller, pouvoir ou devoir: elle va être triste il peut avoir raté son train il doit pleuvoir en ce moment non comme des verbes qui commandent syntaxiquement un infinitif, mais plutôt comme des verbes qui «modalisent» le verbe à l’infinitif qui les suit (cf. Kronning 1996, Nølke 1993). Les corpus de langue parlée peuvent mener à renforcer des propositions dans le champ de la grammaire et éventuellement à en formuler de nouvelles. 4. RELATIONS ENTRE LES LOCUTEURS ET LEUR GRAMMAIRE L’étude des corpus de langue parlée montre – ce qu’on sait déjà avant de commencer – que certaines tournures grammaticales sont nettement liées à des situations formelles, comme c’est le cas, par exemple, pour le passé simple, qui se rencontre dans certaines narrations orales, mais uniquement en lien avec des sujets «sublimes»: récits sur la mort, narrations faites sur un ton scolaire de «rédaction», paroles électorales, sermons, récits de voyages de noces, etc. La question est plus intéressante et moins connue quand elle est liée à des sortes de «polysémies» moins souvent explorées. J’en donnerai deux exemples, pour les pronoms en et lequel. Ce qui m’intéresse ici, c’est que les formes en et 12 C’est ce que j’ai proposé dans une étude où je les appelais «recteurs faibles» (BlancheBenveniste 1988) et j’ai pris connaissance, ensuite, des analyses de Dixon (1996), qui envisagent le phénomène dans un grand nombre de langues différentes. 67 lequel sont «polysémiques». Elles ont d’une part un emploi très banal et très fréquent, que connaissent même les enfants assez jeunes, par exemple dans: ils en ont quatre j’en voudrais la moitié lequel est le sien ? dans laquelle faut-il aller? je ne sais pas lequel choisir Elles ont, d’autre part, un emploi beaucoup plus sophistiqué et plus rare, que certains locuteurs maîtrisent mal et que l’école s’efforce d’enseigner, sans toujours y parvenir: il en aime le goût j’en connais l’auteur c’est une personne avec laquelle il avait longtemps travaillé La différence entre les deux types est manifeste. Ce ne sont pas les mêmes outils syntaxiques. Le premier en cité fonctionne en français dans les expressions de quantification partielle: en… quatre, en… la moitié, alors que le deuxième est une sorte de succédané du possessif, (que les grammairiens ont cherché à imposer pour les «possesseurs non-humains»): en…le goût (= le goût de cela), en… l’auteur (= l’auteur de cela). Le premier lequel, celui qui fonctionne très facilement, est un interrogatif (dans des interrogations directes ou indirectes); le second est un relatif, employé la plupart du temps avec une préposition. Il me paraît difficile de mettre les deux types d’emplois dans la même catégorie et de les traiter comme s’ils mettaient en cause la même sorte de «compétence linguistique». Je dirais, en reprenant des termes qu’utilisaient les grammairiens du XVIIème siècle (Ménage, par exemple) que les uns appartiennent à la langue de tous les jours, nous en connaissons quelques uns on se demande avec laquelle il sort et les autres à la langue du dimanche le prix en est élevé la cheminée en est penchée voici le procédé auquel il faut recourir Les études de Miller et Weinert (1998) montrent que l’on a intérêt à distinguer ces deux formes de compétence, au lieu de les confondre dans un grand «magma» qui couvrirait l’ensemble. Les deux se rencontrent dans la langue parlée, mais pas avec la même fréquence et pas dans les mêmes types de situations. 68 De nombreux phénomènes gagneraient à ce classement. Citons-en un, d’ordre un peu différent, pour la forme des sujets. Nous avons observé que les sujets substantifs, comme Deux paysans passeront et vous paieront (exemple de Prévert) sont rares dans certaines prises de parole, rares en particulier dans les conversations entre adultes ou dans les histoires racontées par les enfants. C. Jeanjean (1981) estimait que, dans les conversations usuelles, cela ne dépassait pas 15% des sujets de verbes. Que trouve-t-on à la place? Non pas des sujets disloqués, Marie, elle est venue elle est venue, Marie comme on pourrait le croire et comme l’annonçait un peu facilement Harris (1978) mais plutôt des tournures impersonnelles: il y a trois paysans qui passeront et vous paieront il passera trois paysans il y a Marie qui est venue il est venu Marie Une forte concentration de sujets substantifs (certaines productions en contiennent 100% !) signale aussitôt un registre plus formel, une sorte de langue du dimanche, que chacun connaît et qui n’est pas adaptée indifféremment à toutes les situations. 5. LES MODES DE PRODUCTION DE L’ORAL On sait que, dans la langue parlée, les locuteurs font quantité de répétitions et d’hésitations. Pour certains linguistes, cela empêcherait même de saisir la grammaire de la langue, qui serait constamment «défigurée» par ces phénomènes de «performance». A y regarder de près, ces phénomènes nous donnent pourtant de précieux renseignements sur la fabrication de la syntaxe et sur la naissance des énoncés. L’important est de bien distinguer ce qui appartient au domaine de la syntaxe et ce qui appartient au mode de production de l’oral. Quand nous parlons, nous cherchons nos mots; nous les trouvons ou nous ne les trouvons pas, comme en témoigne par exemple ce passage, où un locuteur se débat pour trouver un adjectif bâti sur le radical de caractère, qui ne serait pas caractériel. Il ne le trouve pas: je pense que c’est pas évident parce qu’on a affaire à des gens qui ont des caractères différents - euh qui sont caractériels qui sont enfin ils sont pas tous caractériels mais chacun a son caractère (Lic98, Rei 9, 14). 69 On voit très bien comme il procède. La syntaxe est tout à fait en place. Le locuteur a lancé un syntagme nominal, des gens qui…, dont la fonction bien marquée est d’être le complément prépositionnel du verbe on a affaire à…., lequel est lui-même bien nettement le verbe d’une proposition circonstancielle de cause introduite par parce que: c’est pas évident parce que… Ce locuteur ne bute pas sur une question de grammaire, mais sur la qualification qu’il cherche pour des gens. Il en essaie trois sous forme de relatives: des gens qui ont des caractères différents qui sont caractériels euh qui sont enfin Il renonce finalement à ces relatives qui l’entraînaient à choisir un terme inadéquat, caractériel, et il repart sur une autre forme de qualification, directement avec un verbe: des gens qui ont des caractères différents qui sont caractériels euh qui sont enfin ……………………………… ils sont pas tous caractériels mais chacun a son caractère Ce n’est pas la grammaire qui provoque cet effet d’hésitation et de répétition, mais, comme cela arrive très souvent, la recherche du lexique. Nous dirons que, à l’intérieur d’un cadre syntaxique défini, les locuteurs procèdent par «bribes» pour résoudre des problèmes lexicaux. Certains de ces problèmes sont parfois à mi-chemin entre la grammaire et le lexique. Je prendrai deux exemples d’un procédé frappant, qui consiste à donner d’abord la tête d’un syntagme et ensuite, par bribes, des modifieurs qui s’adjoignent à cette tête syntagmatique. Les productions de langues parlées nous procurent un merveilleux observatoire qui nous permet de voir le développement des syntagmes à partir de leur premier lancement avec un spécifieur et une tête. Voici d’abord l’exemple de la fabrication des syntagmes verbaux. Le premier que je citerai est le plus simple. Il est lancé avec le sujet initial, on, et la tête lexicale verbale, retrouve: on retrouve Mais le locuteur s’interrompt avant de fournir le complément qui terminerait le syntagme, parce qu’il modifie la tête verbale en la modalisant avec le verbe pouvoir. Pour faire cette modification, il reprend le syntagme à partir du pronom sujet on: on peut retrouver 70 et ce n’est qu’ensuite qu’il place le complément, la puce dans toute l’électronique on retrouve on peut retrouver la puce (91-3, Roy 8, 6) On peut représenter graphiquement ce travail fait sur le syntagme nominal, en isolant chacun des constituants de l’énoncé, le circonstanciel de tête, le syntagme verbal et le complément. On voit que tout le travail consistait à revenir en arrière pour insérer un verbe modal: dans toute l’électronique on on peut retrouve retrouver la puce Dans ces bribes de syntagmes verbaux, on commence toujours par la tête lexicale, jamais par les verbes modaux qui l’accompagnent. Les sujets sont toujours repris si ce sont des pronoms clitiques comme on, je, il, mais jamais si ce sont des syntagmes nominaux, comme dans l’exemple suivant certains représentants, qui fonctionne pour les deux formules du syntagme verbal, ne comprenaient pas et n’arrivaient pas à comprendre: certains représentants ne comprenaient pas n’arrivaient pas à comprendre (91-3, Pozz 2, 5) On peut en donner une représentation graphique équivalente à la précédente: certains représentants ne n’ comprenaient pas comprendre arrivaient pas à Dans certains exemples, les locuteurs reviennent en arrière pour insérer deux verbes modaux, par exemple doivent pouvoir, rajoutés à être contrôlés: ces assemblées d’actionnaires font d’ailleurs l’objet de procès-verbaux lesquels sont consignés dans les registres - dont je t’ai parlé tout à l’heure - - lesquels registres sont très euh sont doivent être - doivent pouvoir être contrôlés (Hold 94, 13) lesquels registres doivent doivent pouvoir sont très sont être être euh contrôlés Les syntagmes nominaux sont fabriqués selon un procédé équivalent: d’abord le déterminant et la tête nominale lexicale, par exemple des bals: on faisait aussi des bals puis, dans un deuxième temps, une reprise de ce syntagme minimal avec adjonction de deux modifieurs, un adjectif avant et un après: on faisait aussi des bals des petits bals populaires (Vie 3, 9) 71 on faisait aussi des des petits bals bals populaires Les syntagmes nominaux peuvent aussi s’adjoindre, en cours de route, un complément prépositionnel, comme de chaque société, qui vient se rajouter sur le commissaire aux comptes: ensuite le commissaire aux comptes prépare - - le commissaire aux comptes de chaque société prépare un bilan (Hold 101, 9) ensuite le commissaire aux comptes le commissaire aux comptes de chaque société prépare - prépare un bilan Il arrive que le syntagme nominal soit enrichi de façon très complexe, sans rien perdre de sa bonne forme syntaxique, comme pour les sociétés qui deviennent, après enrichissement, une opération de fusion de sociétés ouvertes au public: nous devons quand même observer la réglementation - - qui de - qui est absolument qui apparaît logique et nécessaire dans une dans les sociétés dans une fusion - une opération de fusion de sociétés ouvertes au public (Hold 78, 3) dans dans une une opération de fusion fusion les sociétés --de sociétés ouvertes au public L’intérêt grammatical de ces «bribes» (que nous effaçons soigneusement de nos brouillons de l’écrit), nous semble évident. Nous avons beaucoup à apprendre de ces apparents «ratés» de la «performance». 6. CONCLUSIONS Les pratiques de la grammaire générative, qui utilise des données de l’introspection, ont permis des avancées incontestables de la syntaxe. Mais, comme le remarquent Miller et Weinert, ce recours à l’introspection a un défaut majeur, c’est de placer toutes les données sur le même plan, comme si elles participaient toutes de la même forme de compétence linguistique, sans distinction: It is our assertion that generative grammar, considered globally, deals with magnasyntax. The data taken into account ranges from (devised) spoken data (including non-standard structures, which some analysts handle systematically and some do not) through data that is neutral between spoken and written to data that is literary and even archaic (Miller / Weinert 1998: 377). 72 Plusieurs linguistes ont cherché à expliquer pourquoi les données de la langue parlée avaient été rejetées pendant si longtemps, et pourquoi, en France, il a été si difficile de faire accepter le travail sur des corpus de langue parlée: L’introduction des données orales dans la réflexion linguistique, […] leur impact sur les concepts grammaticaux de base (tels celui de “phrase” ou de “subordination”), ou sur certains concepts théoriques (tels ceux de “norme” ou de “compétence”), la prise en compte de la variation qu’elles exigent, expliquent, en partie du moins la réaction de rejet et de méfiance qu’elles ont longtemps suscitée tant de la part des grammairiens que des théoriciens de la langue (Willems 1998: 80). On peut estimer, maintenant, après les premiers résultats ouverts par ces recherches, que la prise en charge des données de la langue parlée est en train de changer notre perspective générale sur la langue et sur la pratique de description linguistique. BIBLIOGRAPHIE Abeillé, Anne (ed.): Dossier “corpus”. De leur constitution à leur exploitation. Numéro spécial de la Revue Française de Linguistique Appliquée 1-2, décembre 1996. Aijmer, Karin / Altenberg, Bengt (1991): English Corpus Linguistics. Studies in Honour of Jan Svartvik. London / New York: Longman. Ambrose, Jeanne (1996): Bibliographie des études sur le français parlé. Paris: Didier-Erudition. Bacelar do Nascimento, Maria Fernanda (1987) Português Fundamental. Métodos, documentos, 2 vol. Lisboa: Centro de Linguistica da Universidade de Lisboa. Berrendonner, Alain / Reichler-Béuelin, Marie-José (1989): “Décalages: les niveaux de l’analyse linguistique”, in: Langue Française 81: 99-125. Biber, Douglas (1991): Variations across Speech and Writing. Cambridge: Cambridge University Press. Biber, Douglas / Johansson, Stig / Leech, Geoffrey / Conrad, Susan (1999): A Grammar of Spoken and Written English. London: Longman. Bilger, Mireille / Eynde van den, Karel / Gadet, Françoise (1998): Analyses linguistiques et approches de l’oral (= Orbis Supplementa). Leuven / Paris: Peeters. Blanche-Benveniste, Claire (1988): “Construction verbale en incise et rection faible des verbes”, in: Recherches Sur le Français Parlé 9: 53-74. Blanche-Benveniste, Claire (1990): “Grammaire première et grammaire seconde: l’exemple de EN”, in: Recherches Sur le Français Parlé 10: 51-73. Blanche-Benveniste, Claire (1997): Approches de la langue parlée en français. Paris: Ophrys. Blanche-Benveniste, Claire (1998): Estudios sobre lengua escrita y lengua hablada. Barcelona: Gedisa. Blanche-Benveniste, Claire / Adam, Jean-Pierre (1999): “Conjugaison attestée, virtuelle, défective”, in: Recherches Sur le Français Parlé 15: 87-112. 73 Blanche-Benveniste, Claire / Bilger, Mireille / Rouget, Christine / Eynde van den, Karel (1990): Le français parlé: études grammaticales. Paris: CNRS Editions. Blanche-Benveniste, Claire / Jeanjean, Colette (1987): Le français parlé: édition et transcription. Paris: Didier -Erudition. Blasco, Mylène (1999): La Dislocation en français contemporain. Etude syntaxique (= Collection “Les Français parlés, textes et études”). Paris: Champion. Branca, Sonia (1977): “Quel lequel? A propos des forme en lequel / laquelle en français de Montréal”, in: Recherches Sur le Français Parlé 1: 170-184. Caddeo, Sandrine (2000): L’apposition en français contemporain écrit et parlé. Thèse de l’Université de Provence. Cappeau, Paul (1997): “Données erronées: quelles erreurs commettent les transcripteurs?”, in: Recherches Sur le Français Parlé 14: 115-126. Cappeau, Paul (1999): “Sujets éloignés. Esquisse d’une caractérisation des sujets lexicaux séparés de leurs verbes”, in: Recherches Sur le Français Parlé 15: 199-232. Combettes, Bernard (1998): Les Constructions détachées en français. Paris: Ophrys. Coppieters, René (1997): “Quelques réflexions sur la question des données: corpus et intuitions”, in: Recherches Sur le Français Parlé 14: 21-46. Cresti, Emanuela (ed.) (2000): Corpus di italiano parlato 2: Campioni. Firenze: Accademia della Crusca. Dixon, Robert M. W. (1996): A grammar of English on Semantic Principles. Cambridge: Cambridge University Press. Fernandez-Vest, Jocelyne M. M. (1994): Les Particules énonciatives. Paris: Presses Universitaires de France. Forsgren, Mats (1998): “L’emploi du passé simple dans la langue d’aujourd’hui”, in: Englebert, Annie/ Pierrard, Michel / Rosier, Irène/ Raemdonck van, Dan (eds.): Mélanges offerts à Marc Wilmet. Paris / Bruxelles: Duculot 199-208. Gadet, Françoise (1989): Le Français ordinaire. Paris: Colin. Gadet, Françoise (1998): “Le français avancé à l’épreuve de ses données”, in: Bilger, Mireille / Eynde van den, Karel / Gadet, Françoise (1998): Analyses linguistiques et approches de l’oral (= Orbis Supplementa). Leuven / Paris: Peeters 59-68. Goffman, Erving (1973): La mise en scène de la vie quotidienne. Paris: Éditions de Minuit. Habert, Benoît / Nazarenco, Adeline / Salem, André (1997): Les linguistiques de corpus. Paris: Colin. Halliday, Micheal A. K. (1985): Written and Spoken English. Oxford: Oxford University Press. Harris, Martin (1978): The Evolution of French Syntax. A Comparative Approach. London / New York: Longman. Ide, Nancy / Véronis, Jean (eds.) (1995): The Text Encoding Initiative. Background and Context. Dordrecht: Kluwer Academic Publishers. JeanJean, Colette (1981): “L’organisation des formes sujets en français de conversation: étude quantitative et grammaticale de deux corpus”, in: Recherches Sur le Français Parlé 3: 99-134. Kennedy, Graeme (1998): An Introduction to Corpus Linguistics. London / New York: Longman. 74 Kronning, Hans (1996): Modalité, cognition et polysémie: sémantique du verbe modal ‘devoir’. Uppsala / Stockholm: Almquist & Wiksell International. Labov, William (1972): “The logic of non-standard English”, in: Gigioli, Peter (ed.): Language and social context. Harmonworth: Penguin Books 179-215. Lambrecht, Knud (1994): The Pragmatics of syntax in spoken French. Cambridge: Cambridge University Press. Martin, Philippe (1996): winpitch.com. Martin, Philippe (1999): “Prosodie des langues romanes: analyse phonétique et phonologie”, in: Recherches Sur le Français Parlé 15: 233-254. Miller, Jim / Weinert, Regina (1998): Spontaneous Spoken Language. Syntax and Discourse. Oxford: Clarendon Press. Nølke, Henning (1993): Le regard du locuteur. Pour une linguistique des traces énonciatives. Paris: Kimé. Nølke, Henning (1994): Linguistique modulaire: de la forme au sens. Louvain / Paris: Peeters. Roubaud, Marie-Noëlle (2000): Les constructions pseudo-clivées (= Collection “Les Français parlés, textes et études”). Paris: Champion. Rouget, Christine (à paraître): Les constructions en N de N (= Collection “Les Français parlés, textes et études”). Paris: Champion. Sabio, Frédéric (1995): “Micro-syntaxe et macro-syntaxe: l’exemple des compléments antéposés en français”, in: Recherches Sur le Français Parlé 13: 11-156. Sinclair, John (1991): Corpus, Concordance, Collocation. Oxford: Oxford University Press. Véronis, Jean / Khuori, Liliane / Meunier, Christine (1994): Proposal for Morphosyntactic Encoding in MULTEXT. Aix-en-Provence Willems, Dominique (1998): “Données et théories en linguistique: réflexions sur une relation tumultueuse et changeante”, in: Bilger, Mireille / Eynde van den, Karel / Gadet, Françoise: Analyses linguistiques et approches de l’oral (= Orbis Supplementa). Leuven/ Paris: Peeters 79-87. Zribi-Hertz, Anne (1988): “L’oral, la syntaxe et l’astérisque: questions méthodologiques avec et sans réponse”, in: LINX 18: 33-45. 75