57 corpora del parlato francese, spagnolo ed inglese le corpus de

Transcription

CORPORA DEL PARLATO FRANCESE, SPAGNOLO ED
INGLESE
CLAIRE BLANCHE-BENVENISTE
*
LE CORPUS DE FRANÇAIS PARLÉ DU GARS,
GROUPE AIXOIS DE RECHERCHES EN SYNTAXE
La linguistique orientée vers les corpus est devenue depuis quelques années une discipline à part entière et, dans toutes les grandes langues européennes, des corpus ont été établis, surtout pour la langue écrite (cf. Kennedy 1998; Habert /
Nazarenco 1997). L’introduction de la langue parlée s’est généralement faite un
peu plus tard que celle de la langue écrite, en raison de la difficulté et du coût
beaucoup plus considérables des recueils de données. La consultation simultanée des deux sortes de corpus est en train, semble-t-il, de changer la conception même que l’on se fait de la description linguistique (cf. Sinclair 1991).
On connaissait déjà des comparaisons modernes entre langue écrite et langue parlée, comme celle de Halliday (1985), par exemple, et on savait quel bénéfice la linguistique descriptive pouvait en tirer (cf. Miller / Weinert 1998).
Mais les corpus contemporains apportent à cette comparaison de nouvelles
dimensions et en particulier la très grande diversité des données, la possibilité
de les quantifier finement et de les stocker par l’informatisation, ce qui a complètement changé la façon même de voir ces comparaisons. D. Biber et ses
collaborateurs en ont fourni récemment une illustration frappante, en publiant
une nouvelle grammaire de l’anglais «parlé et écrit», entièrement fondée sur les
répartitions en «genres» que permettent maintenant ces nouvelles confrontations (cf. Biber / Johansson / Leech / Conrad / Finegan 1999). Les corpus de
langue parlée permettront sans doute de nombreuses autres exploitations, encore inédites à ce jour.
Le lancement des corpus de français parlé a été assez tardif – est-ce en raison des réticences normatives bien connues des Français?… Pour l’instant, le
*
Claire Blanche-Benveniste est actuellement professeur émérite à l’Université de Provence
et à l’Ecole Pratique des Hautes Etudes à Paris. Son travail a porté sur la langue écrite (recherches sur l’orthographe) et sur la langue orale (corpus du GARS), particulièrement en ce qui concerne la morphologie et la syntaxe du français.
57
corpus le plus vaste (dix fois moins grand cependant que le corpus britannique!…) est celui qu’a constitué depuis une quinzaine d’années, à Aix-en-Provence, le Groupe Aixois de Recherches en Syntaxe (GARS). Le catalogue de ce
corpus est partiellement consultable par le Web, sur le site DELIC1.
Je propose de présenter les caractéristiques essentielles de ce corpus de
français parlé et d’en développer trois aspects: l’intérêt des problèmes de transcription, l’exploitation des données à des fins d’analyse grammaticales et quelques considérations sur l’organisation des discours.
1.
CARACTÉRISTIQUES GÉNÉRALES
On calcule la dimension des corpus de langue parlée en comptant non pas le
temps de parole mais le nombre de mots transcrits. En effet, le débit de parole
est assez variable selon les personnes et selon les situations. Nous avons calculé que, pour le français, il peut aller du simple au triple: dans un débit lent,
on compte environ 110 mots pour une minute d’enregistrement; un débit très
rapide peut en contenir jusqu’à 350. En adoptant une moyenne basse, on estime que 100 heures d’enregistrement correspondent en gros à un million de
mots transcrits.
Le corpus collecté par le GARS contient 1.500.000 mots. Le grand corpus
britannique du BNC en compte 10 millions. La disproportion est flagrante.
Elle s’explique en partie par une histoire différente et par la disparité des
moyens mis en œuvre. Le corpus de français parlé du GARS a été commencé
dans les années 1980, avec des moyens réduits, par un groupe de linguistes qui
s’intéressaient surtout à la grammaire et qui voulaient observer les mécanismes
grammaticaux de la langue parlée dans une optique de linguistique descriptive.
Il s’agissait d’une collecte de données ouverte, qui se complétait tous les ans, au
fur et à mesure des besoins. La transcription des enregistrements – que certaines équipes avaient traitée comme un simple problème technique qu’on pouvait confier à des non-linguistes2 – a été comprise au contraire comme un défi
d’ordre méthodologique et théorique. Il nous a semblé que, pour faire des
transcriptions utilisables à des fins d’analyse grammaticale, il fallait résoudre un
grand nombre de problèmes préalables concernant les relations entre la langue
orale et sa représentation graphique: quel degré de réalisme choisir pour les
transcriptions, quelle relation établir entre la fidélité à l’original et la lisibilité du
1
<http://www.up.univ-mrs.fr/delic/>.
C’était le cas très souvent des recherches en socio-linguistique, par exemple pour le corpus
Sankoff-Cedergren de Montréal, dont une partie a dû être retranscrite pour les études de morpho-syntaxe.
2
58
texte et, spécialement pour le français, comment rendre compte des différences
entre la morphologie orale et l’orthographe. Vues dans cette orientation, les
transcriptions ont été des opérations certes complexes et longues mais pleines
d’enseignement.
L’échantillonnage initial est une des grandes préoccupations de certains
créateurs de corpus de langue parlée. Si l’on veut pouvoir comparer les locuteurs et leurs productions, il faut s’assurer qu’ils sont régulièrement représentés
et, pour étudier les variations, il est bon d’avoir des échantillons de toutes sortes de situations de parole. Deux options: on peut prévoir ces choix dès le départ en construisant le corpus selon des proportions déterminées à l’avance; on
peut les faire après coup, en découpant des échantillons dans un ensemble de
données plus vastes. Les préoccupations de l’équipe du GARS n’impliquaient
pas un échantillonnage au départ. Au contraire, c’est en cours de route que
s’est formée l’expérience de ce qui constituait les «bonnes sources» grammaticales. Par exemple, il a fallu un certain temps pour comprendre que les formes
de syntaxe les plus élaborées, avec le plus d’enchâssements de subordonnées,
se rencontraient dans les situations d’explications techniques (et surtout pas
dans les conversations); que les grandes organisations chronologiques ne se
trouvaient pas dans les récits de vie mais bien davantage dans les récits d’accidents; qu’on obtenait de bons exemples d’un certain type de langage «formel»
en questionnant les locuteurs sur leurs professions; que, pour étudier la syntaxe
des enfants, il fallait éviter les situations de langage spontané et favoriser certains degrés d’artifice; que la situation de «porte-parole» (porte-parole d’une
association ou d’autres types de groupes) favorisait des tournures grammaticales particulièrement intéressantes et rarement attestées ailleurs (appositions, par
exemple). Autrement dit, nous ne savions pas, au départ, comment les locuteurs utilisaient les ressources grammaticales de la langue dans leurs différents
actes de parole3. Nous ne pouvions donc pas fournir a priori les échantillonnages qui nous intéressaient. Nous pouvons le faire en partie maintenant.
Les grands corpus établis dans les années 1990 ont généralement été fondés, dès le départ, sur les possibilités ouvertes par l’informatique. Le corpus du
GARS, engagé bien antérieurement, a été en grande partie revu et informatisé à
partir de cette époque. Nous avons fait le choix d’une informatisation «légère»,
3
D. Biber avait pressenti ce problème en 1991, lorsque, sous le terme de «variation», il avait
envisagé une répartition en «genres» (cf. Biber 1991). Une dizaine d’années plus tard, dans la
grande grammaire de l’anglais parlé et écrit qu’il a dirigée, toutes les répartitions ont été soigneusement révisées, en tenant compte de l’expérience acquise par les corpus (cf. Biber / Johansson
/ Leech / Conrad / Finegan 1999).
59
avec un logiciel d’exploitation, XCOR, fourni par Jean-Pierre Adam4. Nous
n’avons pas utilisé pour l’instant, de façon systématique, un étiqueteur grammatical, puisque, justement, une partie de notre travail consiste à vérifier les
analyses grammaticales courantes. On peut tout à fait admettre les classements
en adverbes, conjonctions, prépositions, fournis par les ouvrages de grand
public, si l’objectif est de répondre à des demandes de grand public, en
s’adaptant aux habitudes usuelles. Mais, comme l’objectif ambitieux du GARS
consistait à raffiner et même à réformer une partie de la terminologie, nous ne
pouvions pas adopter l’ensemble de l’étiquetage morpho-syntaxique. Nous
n’avons donc indexé, prudemment, que les catégories «sans problèmes»,
comme par exemple les verbes conjugués (cf. Blanche-Benveniste / Adam
1999).
Il faut préciser ce qu’on entend par «langue parlée». Pour beaucoup de
Français – y compris certains linguistes de profession – le parlé se réduit au
spontané et au fautif. Dès qu’une production orale comporte peu de fautes
contre la norme et qu’en revanche elle contient des parties grammaticalement
complexes, le soupçon leur vient qu’il ne s’agit pas vraiment de parlé, mais de
quelque chose de mixte, comme «de l’écrit parlé» ou du «parlé écrit». Nous
avons choisi au contraire de définir le «parlé» par le media utilisé, à savoir la
parole articulée. Il nous paraît utile de collectionner toutes sortes de productions, depuis les plus spontanées jusqu’aux plus contraintes. C’est pourquoi, à
part les conversations, récits, ou témoignages improvisés, le corpus contient
des prises de parole formelles, discours publics, émissions de radio et télévision
et même lectures de textes.
Nous retenons comme locuteurs francophones ceux qui ont fait leur scolarité primaire en France et qui sont âgés de plus de 5 ans. En raison des difficultés à transcrire la parole lorsque les locuteurs sont trop nombreux, nous
limitons le nombre des participants à six. Il est commode d’avoir à sa disposition plusieurs «longueurs» de textes. Pour le GARS, les enregistrements
“longs” font entre 60 et 90 minutes; les “courts” durent de 10 à 15 minutes.
Les enregistrements ont lieu à domicile, sur les lieux de travail, dans des magasins ou des bureaux, dans des institutions publiques, au téléphone. Nous ne
faisons pas d’enregistrement avec «micro caché».
Les règles de protection juridique de la parole sont beaucoup plus complexes qu’on ne pourrait le croire de l’extérieur. C’est pourquoi il n’est pas
possible de communiquer des corpus de langue parlée pour lesquels il n’existe
pas une autorisation explicite d’enregistrement et de transcription. Pour les
4
Par la suite, Jean Véronis (Véronis / Khuori / Meunier 1994) a proposé un codage
standard, avec un dictionnaire MULTEX (lexique informatisé de 350.000 formes).
60
corpus de grande envergure, il a fallu généralement passer une année entière à
régler les problèmes juridiques, avant de se mettre au travail.
Faire un corpus de langue parlée qui corresponde aux exigences modernes
revient très cher. Ce n’est pas un hasard si les corpus de langue anglaise sont
actuellement les plus vastes; ils peuvent miser sur des financements considérables: le marché commercial ouvert par l’enseignement de l’anglais parlé est tel
que les financiers peuvent raisonnablement espérer en tirer un profit.
Les méthodes de travail, la taille et la composition même du corpus dépendent étroitement de l’objectif que l’on se fixe. Il serait illusoire de faire une
recherche lexicale sur la langue parlée avec moins de dix millions de mots5,
mais la recherche grammaticale peut commencer dès qu’on dispose d’un million de mots et il en faut encore moins pour faire les études phonologiques6.
2.
TRANSCRIPTIONS
Les débats sur les types de transcription mettent souvent aux prises les débutants – qui veulent généralement «tout» noter, avec une frénésie de réalisme; les
techniciens, qui cherchent à suivre les consignes internationales des experts
informaticiens, quels que soient les objectifs7; et les linguistes, qui, pour peu
qu’ils aient réfléchi aux relations entre l’écrit et le parlé, savent qu’il faut adapter les transcriptions aux objectifs de la recherche.
Pour s’intéresser aux réalisations grammaticales présentes dans un corpus, il
faut pouvoir lire des quantités de textes et c’est pourquoi un minimum de lisibilité est requis. Les transcriptions phonétiques sont souvent indispensables –
par exemple pour étudier certains phénomènes de liaison – mais nous ne
connaissons aucun grand corpus qui serait entièrement transcrit phonétiquement, ce qui serait un obstacle trop grand à une lecture cursive. Les transcriptions surchargées de symboles sont, de ce fait, écartées. L’idéal est de trouver le
bon compromis entre fidélité et lisibilité.
L’équipe du GARS a mis au point, progressivement, un système de transcription “pauvre”, qui a été adopté par plusieurs équipes de recherche: sans
5
Il n’est donc pas envisageable de faire des dictionnaires fondés sur corpus, comme on a
pu en faire pour les français régionaux, en collectionnant des questionnaires.
6
Une équipe de phonéticiens et phonologues entreprend à Toulouse, sous la direction de
Jacques Durand, un corpus qui servira aux recherches dans le domaine phonologique et prosodique.
7
Par exemple la TEI, Text Encoding Initiative (<http://www.tei-c.org/>) ou les consignes
données par le groupe EAGLES pour les grands corpus européens des différents projets PAROLE (<http://www.ilc.pi.cnr.it/ >).
61
surcharge pour noter les mimiques, rires et toux, ni les phénomènes d’interaction, ni les intonations. Cependant, dans les versions plus modernes, les intonations ne seront pas perdues. En effet, plusieurs procédés techniques permettent de réaliser des “corpus aligné”, qui couplent des segments de
l’enregistrement sonore avec des segments correspondants de la transcription
graphique. On peut, à tout instant, écouter l’enregistrement sonore qui correspond au segment de transcription et faire apparaître sur l’écran la notation prosodique du passage qu’on lit8.
La transcription se fait en orthographe standard, sans aucun “trucage” d’orthographe9. J’estime, pour ma part, que l’écriture ordinaire nous sert à écrire
des morphèmes et que, pour descendre au-dessous du niveau de notation des
morphèmes, par exemple pour noter des réalisations phonétiques particulières
de ces morphèmes, il faut choisir un système rigoureux, non orthographique.
Impossible de noter les différentes prononciations de parce que avec des approximations douteuses comme parc’ que, parc’qu’, pa’ss’k ou d’autres. Il s’agit là,
du reste, de prononciations d’une grande banalité, qui n’offrent aucun intérêt
ni pour caractériser un locuteur ni pour faire une description grammaticale. Il
suffit d’inscrire, dans la description générale du français, que des morphèmes
comme parce que, il y en a, maintenant, etc. ont des réalisations phonétiques variables selon les débits, qu’il convient d’étudier en tant que telles10.
Nous transcrivons les productions orales sans y mettre la moindre ponctuation: ni point, ni virgule, ni guillemets. Deux degrés de pause seulement ont été
retenus: une pause courte et une longue. Nous pensons que la production orale
ne procède pas par «phrases» et n’a pas d’équivalents de ponctuation qu’on
pourrait calquer sur les règles apprises pour les productions écrites. Il arrive
souvent qu’un complément de temps, comme le mois suivant dans l’exemple cité,
puisse être rattaché aussi bien au verbe qui précède, il coulait, qu’au verbe qui
suit, il était au chômage:
11
rien ne marchait plus - il coulait - le mois suivant - il était au chômage (Cl 89, 6)
8
Nous nous sommes beaucoup servis de l’expérience du Centre de Linguistique de Lisbonne, qui avait, en ce domaine, beaucoup d’avance. Nous avons utilisé le logiciel de Philippe
Martin (1996), WINPITCH, sous ses différentes versions.
9
Nous en avons donné des justifications à de nombreuses reprises, dans différents articles
publiés dans la revue Recherches Sur le Français Parlé (cf. Blanche-Benveniste 1988, 1990).
10
Les jeunes enfants représentent souvent des cas limites. Quand il semble que leur prononciation ne correspond pas à celles qu’on connaît couramment chez les adultes, on est en droit de
se demander s’ils ont vraiment le même morphème. En ce cas, la transcription phonétique est de
rigueur.
11
Les lettres et chiffres renvoient aux codages du corpus du GARS.
62
Ce double rattachement, étudié par B. Combettes (1998) pour des époques
plus anciennes de la langue, nous paraît devoir être conservé dans les transcriptions. Des versions ponctuées peuvent être données, après analyse, pour les
passages qui ne présentent pas ce type de phénomènes.
Un transcripteur rencontre habituellement plusieurs sortes de difficultés qu’il
ne soupçonnait pas avant de commencer. Certains passages des enregistrements sont parfois inaudibles. Nous avons décidé de faire figurer par un signe
X chacune des syllabes qui ont été jugées incompréhensibles. D’autres passages
peuvent recevoir plus d’une interprétation. C’est le cas par exemple pour une
suite de syllabes qu’on peut comprendre aussi bien comme toujours dans que
comme tout le long de. Les deux sont possibles dans le même contexte et il nous
est arrivé de vérifier, dans des cas semblables que, si l’on fait écouter le passage
à trente personnes, une partie comprend la première version et l’autre jure entendre la seconde. Le phénomène peut aller jusqu’à des sortes d’hallucinations
auditives, comme le remarquait Goffman (1973). Nous avons décidé que ce
type de «multi-interprétation», qui se produit fréquemment dans les échanges
quotidiens, valait la peine d’être conservé. Nous notions les deux versions, séparées par une virgule, entre barres obliques:
on prenait un orchestre / toujours dans, tout le long de / cette fameuse grande
salle
Une difficulté typiquement française vient du décalage entre la morphologie
de la langue écrite et celle de la langue parlée. Quantité de finales flexionnelles,
de genre, de nombre ou de flexion verbale, sont inaudibles. Nous écrivons
cependant ces finales, lorsque l’organisation de l’énoncé indique une interprétation certaine. Par exemple nous écrivons:
les commerçants avisés ouvrent le matin tôt,
avec des marques de pluriel qu’on n’entend absolument pas sur commerçants,
avisés et ouvrent, car cela fait partie du choix de l’orthographe standard. Mais il
arrive que le contexte n’indique pas une interprétation plutôt qu’une autre et
qu’on ne puisse pas décider si c’est singulier ou pluriel. En ce cas, les signes de
pluriel de fin de mots peuvent être mis entre parenthèses (comme on le fait
parfois dans l’écrit ordinaire):
il(s) répare(nt) leur(s) maison(s).
L’ensemble des difficultés fait que la transcription est un travail long, qui
réclame, en moyenne, vingt minutes pour transcrire le contenu d’une minute
d’enregistrement.
Voici un tableau des conventions de transcription du GARS que nous
communiquons à nos collaborateurs (cf. tab. 1):
63
Conventions de transcriptions
1.
La transcription se fait en orthographe standard, sans aucun trucage orthographique. Les grands
dictionnaires servent de référence pour les mots de la langue, les noms propres, les interjections et les onomatopées.
2.
Aucun signe de ponctuation; pas de majuscule de début de phrase. Pas d’indication prosodique.
3.
Notations phonétiques. Pour les textes “ordinaires”, un appel de note après un espace vide entre
crochets, pour placer la transcription phonétique en note de bas de page (avec parcimonie) et sans aucune
notation phonétique dans le corps du texte:
Dans le corps du texte : [ ] 1 En bas de page: 1 [ wista]
Pour les textes “particuliers” (jeunes enfants, pathologies, étrangers), des conventions spécifiques sont
établies, selon les besoins, pour placer des notations phonétiques dans le texte.
4.
Signes particuliers
pause brève
des clients qui sont particulièrement - désagréables
pause longue
-c’était une - - une assurance
syllabe inaudible
X
c’est X c’est là
suite de syllabes inaudibles
XXX
et elle XXX encore un petit peu plus loin
chevauchements
_____
L1 je rêve en permanence
L2 c’est bien
amorce de mot
tiret collé
il faut les rem- les remplacer
multi-transcription
/ , /
elle /a acheté, achetait / des meubles
il y a / des, les / clients désagréables
eh bien euh / je vais, il faut / pas regarder la différence
quelque chose ou zéro
/ ,Ø/
et /alors, Ø / dans ce cas on s’en débarrasse
hésitations orthographiques
( )
on (n’)en parle plus
il(s) travaille(nt)
5.
Mise en page
16 lignes à la page, en double interligne, numérotées. Pages numérotées en haut, au centre, titre courant en
haut à droite. Retour à la ligne pour chaque changement de locuteur.
Marges du haut, de droite et de gauche à 3,5 centimètres. Marge du bas à 5 centimètres. Le texte commence
à 2 commerçants avisés ouvrent centimètres de la marge.
Locuteurs mentionnés par L1, L2, L3, à la marge.
tab. 1
3.
OBSERVATIONS SUR LA GRAMMAIRE FOURNIES PAR LES CORPUS
On doit tout de suite dissiper un malentendu: nous ne pensons pas qu’il y ait
une grammaire spéciale de la langue parlée, à distinguer radicalement de celle
de la langue écrite. Nous vivons tous, dans nos sociétés fortement lettrées, avec
des relations complexes entre l’écrit et l’oral de notre langue. Nous utilisons
des variantes, adaptées aux différentes situations linguistiques. Dans des situations orales très contraintes, les locuteurs français se surveillent, ce qui se voit à
quantité d’indices normatifs caractéristiques: le fait de mettre le ne de négation,
64
d’utiliser la postposition du pronom sujet pour interroger, de changer parce que
en car, on en nous ou quand en lorsque:
Il était là / il n’était pas là
Cette dame le faisait / cette dame le faisait-elle
Elle avait peur parce que c’était la deuxième fois / elle avait peur car on l’avait prévenue
On le fera / nous le ferons
Il avance quand on le pousse /il avance lorsqu’on le pousse
Les aspects normatifs ne constituent qu’une petite partie de la question.
Une caractéristique moins apparente, mais que tous les spécialistes ont remarquée (cf. Sinclair 1991), est dans la corrélation entre le lexique et la grammaire. Dans la langue parlée, certains phénomènes grammaticaux sont fortement concentrés sur un petit nombre de formes lexicales, au point qu’ils
forment des «collocations» particulières et paraissent presque devenir des «formules». C’est le cas par exemple pour l’utilisation du relatif dont. Lorsqu’on
observe les emplois de dont dans des constructions relatives dépendant d’un
verbe, comme c’est la chose dont je parle, on s’aperçoit que, par écrit comme par
oral, les verbes les plus fréquents accaparent un très grand nombre de dont, ce
qui paraît normal. Dans la langue de la presse, par exemple, les huit verbes les
plus fréquemment attestés accaparent près de la moitié des emplois. Dans les
deux cas, écrit comme oral, c’est le verbe parler qui en a le plus. Mais le phénomène est beaucoup plus marqué dans les productions orales, puisque les huit
verbes les plus fréquents prennent, là, plus de 80% des emplois de dont. C’est
au point que ces répartitions de la langue parlée pourraient être interprétées
comme une quasi fixation de dont sur une dizaine de verbes français. Les professeurs de français pourraient en tirer argument pour n’enseigner dont que
pour cette dizaine de verbes (cf. tab. 2).
Des remarques analogues pourraient être faites pour les emplois de lequel
relatif (cf. Branca 1988), pour certaines postpositions des sujets (cf. Cappeau
1999), pour l’emploi des participes passés détachés (cf. Blanche-Benveniste
1998), pour les appositions (cf. Caddéo 2000), etc.
65
Emplois de dont dans les constructions verbales du type la chose dont je parle
Fréquence des verbes
Productions orales
1.
parler
48,4%
2.
avoir besoin
12,9%
3.
faire partie
08,1%
4.
prendre conscience
04,8%
5.
sortir
03,2%
...........................................................................
total des emplois de dont
avec les 8 verbes
les plus fréquents
87%
écrits de presse
parler
08,0%
faire preuve
08,9%
avoir besoin
06,3%
dire
05,1%
disposer
05,1%
............................................................................
44,4%
tab. 2
L’observation d’un grand corpus permet aussi de faire des rapprochements
entre tournures grammaticales qu’on ne ferait pas sans cela. Par exemple, on
voit qu’un groupe de verbes, qui comporte à la fois des verbes dits «d’opinion»,
comme je crois, je pense, et de «dire» comme elle m’a dit, interviennent fréquemment dans deux types de constructions. Dans l’une, ils se comportent apparemment comme des verbes principaux, qui commandent une subordonnée
introduite par que:
je pense qu’ils vont souffrir
elle m’a dit qu’elle le déteste
Et l’on serait tenté de les classer, sans plus, dans le même lot que d’autres verbes «principaux» comme je sais que, elle me confie que, placés devant leur subordonnée:
je sais qu’ils vont souffrir
elle me confie qu’elle le déteste
Mais ces mêmes verbes apparaissent également, et presque aussi souvent, dans
des constructions en incises, placées après la séquence sur laquelle ils portent:
il s’en fiche je pense
ils sont vraiment fauchés elle m’a dit
On rencontre même des exemples où cumulent les deux sortes d’emplois, une
fois en tête et une fois après:
Je crois que c’était Jean-Pierre qui la connaissait je crois
Du coup, on est en droit de douter du statut de «verbe principal» qu’ils auraient quand ils sont suivis de que. Ce ne sont pas de vrais verbes subordonnants, ce qu’on vérifie doublement, d’une part par leur sens et d’autre part en
constatant qu’ils ne laissent pas facilement réduire l’apparente «subordonnée» à
un pronom, le, comme le feraient les «vrais» verbes subordonnants, savoir ou
66
confier. Je crois que c’était Jean-Pierre, avec la valeur de doute que transporte la
tournure, n’est pas réductible à je le crois, qui serait, par contraste, très affirmatif:
je crois que c’était Jean-Pierre qui la connaissait
je le crois
Précédés de que, ces verbes semblent avoir plutôt la valeur modale «atténuée»
qu’ils ont dans la construction en incise:
Je crois que ça lui est égal
C’est vrai que les frais sont plus grands
Il me semble qu’elle est revenue
c’était une étrangère je crois
c’est pas si facile que ça c’est vrai
il fait moins froid qu’avant il me semble
En somme, ce sont de «faux subordonnants», pour lesquels il faudrait dégager une catégorie spéciale12. La syntaxe et la sémantique gagneraient à acquérir
cette catégorie supplémentaire, un peu comme on gagne en précision lorsqu’on
analyse des verbes comme aller, pouvoir ou devoir:
elle va être triste
il peut avoir raté son train
il doit pleuvoir en ce moment
non comme des verbes qui commandent syntaxiquement un infinitif, mais
plutôt comme des verbes qui «modalisent» le verbe à l’infinitif qui les suit (cf.
Kronning 1996, Nølke 1993).
Les corpus de langue parlée peuvent mener à renforcer des propositions
dans le champ de la grammaire et éventuellement à en formuler de nouvelles.
4.
RELATIONS ENTRE LES LOCUTEURS ET LEUR GRAMMAIRE
L’étude des corpus de langue parlée montre – ce qu’on sait déjà avant de
commencer – que certaines tournures grammaticales sont nettement liées à des
situations formelles, comme c’est le cas, par exemple, pour le passé simple, qui
se rencontre dans certaines narrations orales, mais uniquement en lien avec des
sujets «sublimes»: récits sur la mort, narrations faites sur un ton scolaire de
«rédaction», paroles électorales, sermons, récits de voyages de noces, etc.
La question est plus intéressante et moins connue quand elle est liée à des
sortes de «polysémies» moins souvent explorées. J’en donnerai deux exemples,
pour les pronoms en et lequel. Ce qui m’intéresse ici, c’est que les formes en et
12
C’est ce que j’ai proposé dans une étude où je les appelais «recteurs faibles» (BlancheBenveniste 1988) et j’ai pris connaissance, ensuite, des analyses de Dixon (1996), qui envisagent
le phénomène dans un grand nombre de langues différentes.
67
lequel sont «polysémiques». Elles ont d’une part un emploi très banal et très
fréquent, que connaissent même les enfants assez jeunes, par exemple dans:
ils en ont quatre
j’en voudrais la moitié
lequel est le sien ?
dans laquelle faut-il aller?
je ne sais pas lequel choisir
Elles ont, d’autre part, un emploi beaucoup plus sophistiqué et plus rare, que
certains locuteurs maîtrisent mal et que l’école s’efforce d’enseigner, sans toujours y parvenir:
il en aime le goût
j’en connais l’auteur
c’est une personne avec laquelle il avait longtemps travaillé
La différence entre les deux types est manifeste. Ce ne sont pas les mêmes
outils syntaxiques. Le premier en cité fonctionne en français dans les expressions de quantification partielle: en… quatre, en… la moitié, alors que le
deuxième est une sorte de succédané du possessif, (que les grammairiens ont
cherché à imposer pour les «possesseurs non-humains»): en…le goût (= le goût de
cela), en… l’auteur (= l’auteur de cela). Le premier lequel, celui qui fonctionne très
facilement, est un interrogatif (dans des interrogations directes ou indirectes);
le second est un relatif, employé la plupart du temps avec une préposition.
Il me paraît difficile de mettre les deux types d’emplois dans la même catégorie et de les traiter comme s’ils mettaient en cause la même sorte de «compétence linguistique». Je dirais, en reprenant des termes qu’utilisaient les grammairiens du XVIIème siècle (Ménage, par exemple) que les uns appartiennent à
la langue de tous les jours,
nous en connaissons quelques uns
on se demande avec laquelle il sort
et les autres à la langue du dimanche
le prix en est élevé
la cheminée en est penchée
voici le procédé auquel il faut recourir
Les études de Miller et Weinert (1998) montrent que l’on a intérêt à distinguer ces deux formes de compétence, au lieu de les confondre dans un grand
«magma» qui couvrirait l’ensemble. Les deux se rencontrent dans la langue
parlée, mais pas avec la même fréquence et pas dans les mêmes types de situations.
68
De nombreux phénomènes gagneraient à ce classement. Citons-en un,
d’ordre un peu différent, pour la forme des sujets. Nous avons observé que les
sujets substantifs, comme
Deux paysans passeront et vous paieront (exemple de Prévert)
sont rares dans certaines prises de parole, rares en particulier dans les conversations entre adultes ou dans les histoires racontées par les enfants. C. Jeanjean
(1981) estimait que, dans les conversations usuelles, cela ne dépassait pas 15%
des sujets de verbes. Que trouve-t-on à la place? Non pas des sujets disloqués,
Marie, elle est venue
elle est venue, Marie
comme on pourrait le croire et comme l’annonçait un peu facilement Harris
(1978) mais plutôt des tournures impersonnelles:
il y a trois paysans qui passeront et vous paieront
il passera trois paysans
il y a Marie qui est venue
il est venu Marie
Une forte concentration de sujets substantifs (certaines productions en
contiennent 100% !) signale aussitôt un registre plus formel, une sorte de langue du dimanche, que chacun connaît et qui n’est pas adaptée indifféremment
à toutes les situations.
5.
LES MODES DE PRODUCTION DE L’ORAL
On sait que, dans la langue parlée, les locuteurs font quantité de répétitions et
d’hésitations. Pour certains linguistes, cela empêcherait même de saisir la
grammaire de la langue, qui serait constamment «défigurée» par ces phénomènes de «performance».
A y regarder de près, ces phénomènes nous donnent pourtant de précieux
renseignements sur la fabrication de la syntaxe et sur la naissance des énoncés.
L’important est de bien distinguer ce qui appartient au domaine de la syntaxe
et ce qui appartient au mode de production de l’oral.
Quand nous parlons, nous cherchons nos mots; nous les trouvons ou nous
ne les trouvons pas, comme en témoigne par exemple ce passage, où un locuteur se débat pour trouver un adjectif bâti sur le radical de caractère, qui ne serait
pas caractériel. Il ne le trouve pas:
je pense que c’est pas évident parce qu’on a affaire à des gens qui ont des caractères
différents - euh qui sont caractériels qui sont enfin ils sont pas tous caractériels
mais chacun a son caractère (Lic98, Rei 9, 14).
69
On voit très bien comme il procède. La syntaxe est tout à fait en place. Le
locuteur a lancé un syntagme nominal, des gens qui…, dont la fonction bien
marquée est d’être le complément prépositionnel du verbe on a affaire à…., lequel est lui-même bien nettement le verbe d’une proposition circonstancielle
de cause introduite par parce que: c’est pas évident parce que…
Ce locuteur ne bute pas sur une question de grammaire, mais sur la qualification qu’il cherche pour des gens. Il en essaie trois sous forme de relatives:
des gens
qui ont des caractères différents
qui sont caractériels
euh qui sont enfin
Il renonce finalement à ces relatives qui l’entraînaient à choisir un terme inadéquat, caractériel, et il repart sur une autre forme de qualification, directement
avec un verbe:
des gens
qui ont des caractères différents
qui sont caractériels
euh qui sont enfin
………………………………
ils sont pas tous caractériels
mais chacun a son caractère
Ce n’est pas la grammaire qui provoque cet effet d’hésitation et de répétition, mais, comme cela arrive très souvent, la recherche du lexique. Nous dirons que, à l’intérieur d’un cadre syntaxique défini, les locuteurs procèdent par
«bribes» pour résoudre des problèmes lexicaux.
Certains de ces problèmes sont parfois à mi-chemin entre la grammaire et le
lexique. Je prendrai deux exemples d’un procédé frappant, qui consiste à donner d’abord la tête d’un syntagme et ensuite, par bribes, des modifieurs qui
s’adjoignent à cette tête syntagmatique. Les productions de langues parlées
nous procurent un merveilleux observatoire qui nous permet de voir le développement des syntagmes à partir de leur premier lancement avec un spécifieur
et une tête.
Voici d’abord l’exemple de la fabrication des syntagmes verbaux. Le premier que je citerai est le plus simple. Il est lancé avec le sujet initial, on, et la tête
lexicale verbale, retrouve:
on retrouve
Mais le locuteur s’interrompt avant de fournir le complément qui terminerait le
syntagme, parce qu’il modifie la tête verbale en la modalisant avec le verbe
pouvoir. Pour faire cette modification, il reprend le syntagme à partir du pronom
sujet on:
on peut retrouver
70
et ce n’est qu’ensuite qu’il place le complément, la puce
dans toute l’électronique on retrouve on peut retrouver la puce (91-3, Roy 8, 6)
On peut représenter graphiquement ce travail fait sur le syntagme nominal,
en isolant chacun des constituants de l’énoncé, le circonstanciel de tête, le syntagme verbal et le complément. On voit que tout le travail consistait à revenir
en arrière pour insérer un verbe modal:
dans toute l’électronique
on
on peut
retrouve
retrouver la puce
Dans ces bribes de syntagmes verbaux, on commence toujours par la tête
lexicale, jamais par les verbes modaux qui l’accompagnent. Les sujets sont
toujours repris si ce sont des pronoms clitiques comme on, je, il, mais jamais si
ce sont des syntagmes nominaux, comme dans l’exemple suivant certains représentants, qui fonctionne pour les deux formules du syntagme verbal, ne comprenaient pas et n’arrivaient pas à comprendre:
certains représentants ne comprenaient pas n’arrivaient pas à comprendre (91-3,
Pozz 2, 5)
On peut en donner une représentation graphique équivalente à la précédente:
certains représentants ne
n’
comprenaient pas
comprendre
arrivaient pas à
Dans certains exemples, les locuteurs reviennent en arrière pour insérer
deux verbes modaux, par exemple doivent pouvoir, rajoutés à être contrôlés:
ces assemblées d’actionnaires font d’ailleurs l’objet de procès-verbaux lesquels sont
consignés dans les registres - dont je t’ai parlé tout à l’heure - - lesquels registres
sont très euh sont doivent être - doivent pouvoir être contrôlés (Hold 94, 13)
lesquels registres
doivent
doivent pouvoir
sont très
sont
être être
euh
contrôlés
Les syntagmes nominaux sont fabriqués selon un procédé équivalent:
d’abord le déterminant et la tête nominale lexicale, par exemple des bals:
on faisait aussi des bals
puis, dans un deuxième temps, une reprise de ce syntagme minimal avec adjonction de deux modifieurs, un adjectif avant et un après:
on faisait aussi des bals des petits bals populaires (Vie 3, 9)
71
on faisait aussi
des
des petits
bals
bals populaires
Les syntagmes nominaux peuvent aussi s’adjoindre, en cours de route, un
complément prépositionnel, comme de chaque société, qui vient se rajouter sur le
commissaire aux comptes:
ensuite le commissaire aux comptes prépare - - le commissaire aux comptes de
chaque société prépare un bilan (Hold 101, 9)
ensuite
le commissaire aux comptes
le commissaire aux comptes
de chaque société
prépare - prépare un bilan
Il arrive que le syntagme nominal soit enrichi de façon très complexe, sans
rien perdre de sa bonne forme syntaxique, comme pour les sociétés qui deviennent, après enrichissement, une opération de fusion de sociétés ouvertes au public:
nous devons quand même observer la réglementation - - qui de - qui est absolument qui apparaît logique et nécessaire dans une dans les sociétés dans une fusion - une opération de fusion de sociétés ouvertes au public (Hold 78, 3)
dans
dans
une
une opération de
fusion
fusion
les sociétés
--de sociétés
ouvertes au public
L’intérêt grammatical de ces «bribes» (que nous effaçons soigneusement de
nos brouillons de l’écrit), nous semble évident. Nous avons beaucoup à apprendre de ces apparents «ratés» de la «performance».
6.
CONCLUSIONS
Les pratiques de la grammaire générative, qui utilise des données de l’introspection, ont permis des avancées incontestables de la syntaxe. Mais, comme le
remarquent Miller et Weinert, ce recours à l’introspection a un défaut majeur,
c’est de placer toutes les données sur le même plan, comme si elles participaient toutes de la même forme de compétence linguistique, sans distinction:
It is our assertion that generative grammar, considered globally, deals with
magnasyntax. The data taken into account ranges from (devised) spoken data
(including non-standard structures, which some analysts handle systematically
and some do not) through data that is neutral between spoken and written to
data that is literary and even archaic (Miller / Weinert 1998: 377).
72
Plusieurs linguistes ont cherché à expliquer pourquoi les données de la langue parlée avaient été rejetées pendant si longtemps, et pourquoi, en France, il
a été si difficile de faire accepter le travail sur des corpus de langue parlée:
L’introduction des données orales dans la réflexion linguistique, […] leur impact sur les concepts grammaticaux de base (tels celui de “phrase” ou de “subordination”), ou sur certains concepts théoriques (tels ceux de “norme” ou de
“compétence”), la prise en compte de la variation qu’elles exigent, expliquent,
en partie du moins la réaction de rejet et de méfiance qu’elles ont longtemps
suscitée tant de la part des grammairiens que des théoriciens de la langue (Willems 1998: 80).
On peut estimer, maintenant, après les premiers résultats ouverts par ces
recherches, que la prise en charge des données de la langue parlée est en train
de changer notre perspective générale sur la langue et sur la pratique de description linguistique.
BIBLIOGRAPHIE
Abeillé, Anne (ed.): Dossier “corpus”. De leur constitution à leur exploitation. Numéro spécial
de la Revue Française de Linguistique Appliquée 1-2, décembre 1996.
Aijmer, Karin / Altenberg, Bengt (1991): English Corpus Linguistics. Studies in Honour of
Jan Svartvik. London / New York: Longman.
Ambrose, Jeanne (1996): Bibliographie des études sur le français parlé. Paris: Didier-Erudition.
Bacelar do Nascimento, Maria Fernanda (1987) Português Fundamental. Métodos, documentos, 2 vol. Lisboa: Centro de Linguistica da Universidade de Lisboa.
Berrendonner, Alain / Reichler-Béuelin, Marie-José (1989): “Décalages: les niveaux de
l’analyse linguistique”, in: Langue Française 81: 99-125.
Biber, Douglas (1991): Variations across Speech and Writing. Cambridge: Cambridge University Press.
Biber, Douglas / Johansson, Stig / Leech, Geoffrey / Conrad, Susan (1999): A Grammar of Spoken and Written English. London: Longman.
Bilger, Mireille / Eynde van den, Karel / Gadet, Françoise (1998): Analyses linguistiques
et approches de l’oral (= Orbis Supplementa). Leuven / Paris: Peeters.
Blanche-Benveniste, Claire (1988): “Construction verbale en incise et rection faible des
verbes”, in: Recherches Sur le Français Parlé 9: 53-74.
Blanche-Benveniste, Claire (1990): “Grammaire première et grammaire seconde:
l’exemple de EN”, in: Recherches Sur le Français Parlé 10: 51-73.
Blanche-Benveniste, Claire (1997): Approches de la langue parlée en français. Paris: Ophrys.
Blanche-Benveniste, Claire (1998): Estudios sobre lengua escrita y lengua hablada. Barcelona:
Gedisa.
Blanche-Benveniste, Claire / Adam, Jean-Pierre (1999): “Conjugaison attestée, virtuelle, défective”, in: Recherches Sur le Français Parlé 15: 87-112.
73
Blanche-Benveniste, Claire / Bilger, Mireille / Rouget, Christine / Eynde van den, Karel (1990): Le français parlé: études grammaticales. Paris: CNRS Editions.
Blanche-Benveniste, Claire / Jeanjean, Colette (1987): Le français parlé: édition et transcription. Paris: Didier -Erudition.
Blasco, Mylène (1999): La Dislocation en français contemporain. Etude syntaxique (= Collection “Les Français parlés, textes et études”). Paris: Champion.
Branca, Sonia (1977): “Quel lequel? A propos des forme en lequel / laquelle en français de Montréal”, in: Recherches Sur le Français Parlé 1: 170-184.
Caddeo, Sandrine (2000): L’apposition en français contemporain écrit et parlé. Thèse de
l’Université de Provence.
Cappeau, Paul (1997): “Données erronées: quelles erreurs commettent les transcripteurs?”, in: Recherches Sur le Français Parlé 14: 115-126.
Cappeau, Paul (1999): “Sujets éloignés. Esquisse d’une caractérisation des sujets lexicaux séparés de leurs verbes”, in: Recherches Sur le Français Parlé 15: 199-232.
Combettes, Bernard (1998): Les Constructions détachées en français. Paris: Ophrys.
Coppieters, René (1997): “Quelques réflexions sur la question des données: corpus et
intuitions”, in: Recherches Sur le Français Parlé 14: 21-46.
Cresti, Emanuela (ed.) (2000): Corpus di italiano parlato 2: Campioni. Firenze: Accademia
della Crusca.
Dixon, Robert M. W. (1996): A grammar of English on Semantic Principles. Cambridge:
Cambridge University Press.
Fernandez-Vest, Jocelyne M. M. (1994): Les Particules énonciatives. Paris: Presses Universitaires de France.
Forsgren, Mats (1998): “L’emploi du passé simple dans la langue d’aujourd’hui”, in:
Englebert, Annie/ Pierrard, Michel / Rosier, Irène/ Raemdonck van, Dan (eds.):
Mélanges offerts à Marc Wilmet. Paris / Bruxelles: Duculot 199-208.
Gadet, Françoise (1989): Le Français ordinaire. Paris: Colin.
Gadet, Françoise (1998): “Le français avancé à l’épreuve de ses données”, in: Bilger,
Mireille / Eynde van den, Karel / Gadet, Françoise (1998): Analyses linguistiques et
approches de l’oral (= Orbis Supplementa). Leuven / Paris: Peeters 59-68.
Goffman, Erving (1973): La mise en scène de la vie quotidienne. Paris: Éditions de Minuit.
Habert, Benoît / Nazarenco, Adeline / Salem, André (1997): Les linguistiques de corpus.
Paris: Colin.
Halliday, Micheal A. K. (1985): Written and Spoken English. Oxford: Oxford University
Press.
Harris, Martin (1978): The Evolution of French Syntax. A Comparative Approach. London /
New York: Longman.
Ide, Nancy / Véronis, Jean (eds.) (1995): The Text Encoding Initiative. Background and
Context. Dordrecht: Kluwer Academic Publishers.
JeanJean, Colette (1981): “L’organisation des formes sujets en français de conversation:
étude quantitative et grammaticale de deux corpus”, in: Recherches Sur le Français
Parlé 3: 99-134.
Kennedy, Graeme (1998): An Introduction to Corpus Linguistics. London / New York:
Longman.
74
Kronning, Hans (1996): Modalité, cognition et polysémie: sémantique du verbe modal ‘devoir’.
Uppsala / Stockholm: Almquist & Wiksell International.
Labov, William (1972): “The logic of non-standard English”, in: Gigioli, Peter (ed.):
Language and social context. Harmonworth: Penguin Books 179-215.
Lambrecht, Knud (1994): The Pragmatics of syntax in spoken French. Cambridge: Cambridge University Press.
Martin, Philippe (1996): winpitch.com.
Martin, Philippe (1999): “Prosodie des langues romanes: analyse phonétique et phonologie”, in: Recherches Sur le Français Parlé 15: 233-254.
Miller, Jim / Weinert, Regina (1998): Spontaneous Spoken Language. Syntax and Discourse.
Oxford: Clarendon Press.
Nølke, Henning (1993): Le regard du locuteur. Pour une linguistique des traces énonciatives. Paris: Kimé.
Nølke, Henning (1994): Linguistique modulaire: de la forme au sens. Louvain / Paris: Peeters.
Roubaud, Marie-Noëlle (2000): Les constructions pseudo-clivées (= Collection “Les Français
parlés, textes et études”). Paris: Champion.
Rouget, Christine (à paraître): Les constructions en N de N (= Collection “Les Français
parlés, textes et études”). Paris: Champion.
Sabio, Frédéric (1995): “Micro-syntaxe et macro-syntaxe: l’exemple des compléments
antéposés en français”, in: Recherches Sur le Français Parlé 13: 11-156.
Sinclair, John (1991): Corpus, Concordance, Collocation. Oxford: Oxford University Press.
Véronis, Jean / Khuori, Liliane / Meunier, Christine (1994): Proposal for Morphosyntactic
Encoding in MULTEXT. Aix-en-Provence
Willems, Dominique (1998): “Données et théories en linguistique: réflexions sur une
relation tumultueuse et changeante”, in: Bilger, Mireille / Eynde van den, Karel /
Gadet, Françoise: Analyses linguistiques et approches de l’oral (= Orbis Supplementa).
Leuven/ Paris: Peeters 79-87.
Zribi-Hertz, Anne (1988): “L’oral, la syntaxe et l’astérisque: questions méthodologiques
avec et sans réponse”, in: LINX 18: 33-45.
75

57 corpora del parlato francese, spagnolo ed inglese le corpus de

Transcription

Documents pareils

"Français parlé - oral spontané".

programme JE Chute du mur de Berlin

L`Equipex Ortolang

Corrigé sujet 2013 - Lettres-Histoire dans l`académie de versailles

Un corpus de français parlé (Acadie 2002

CHAMPAGNE (J. Higelin) transposé en Gm Gm Dm La nuit promet d

Sujet de type bac sur la poésie – séries technologiques Texte A

Youssef JHIOUI EXPERIENCES

ex. CV 2 - O Travail.com

choix d`un corpus de mots à travailler