Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco
Transcription
Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco
Actes du colloque de linguistique de doctorants et jeunes chercheurs du laboratoire Modyco (UMR 7114 CNRS) Traitement de corpus : outils et méthodes COLDOC 2012 Colloque organisé à la Sorbonne les 4 et 5 octobre 2012 Université Paris Ouest Nanterre la Défense Université Paris Descartes COLLOQUE DES DOCTORANTS ET JEUNES CHERCHEURS DU LABORATOIRE MODYCO Traitement de corpus linguistiques : outils et méthodes COLDOC 2012 Sommaire Appel à communications ........................................................................................... 4 Comité scientifique .................................................................................................... 6 Les articles Exploitation d’un corpus annoté pour l’analyse des relations causales ........................................... 7 Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo .......... 20 Enjeux, outils et méthodologie de constitution de corpus d’apprentissage ................................. 36 Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande ............ 53 Ce que le corpus nous enseigne sur le lexique des verbes des collégiens de Yaoundé ............ 68 Sémantique du discours scientifique de Pierre Bourdieu. Construction et classification d'un corpus de travail. ....................................................................................................................................... 83 Corpus et phraséologie : un catalogue de « prêt-à-parler » ? ............................................................. 95 Relatives narratives et relatives descriptives : entre corpus et théorie ...................................... 113 De l’analyse au partage des données, quel(s) format(s) choisir ? L’exemple d’un corpus d’interactions parents-enfant ...................................................................................................................... 128 Remerciements du comité d’organisation ............................................................. 143 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Appel à communications Le « COLDOC » est le colloque annuel organisé par les doctorants et jeunes chercheurs du laboratoire MoDyCo, selon une tradition qui a fait siennes les questions méthodologiques larges, et les problématiques ouvertes à l'ensemble des sciences du langage. Cette année notre objectif est de nous interroger sur les outils et méthodes qui émergent du travail de chacun d’entre nous sur les corpus linguistiques, et sur les outils que nous leurs associons. Durant les dernières décennies, notre discipline a traversé une évolution de l’objet d'étude de ses recherches : c'est dorénavant moins souvent la langue (objet a priori illimité et introspectif) et plus souvent le corpus (en tant qu'échantillon attesté de réalisations de cette langue) qui devient l'objet immédiat et central à étudier. Par ailleurs, l'essor d'internet et des ordinateurs a enrichi les perspectives sur les données linguistiques en entraînant une diversification des traitements possibles. Aujourd'hui, cette position centrale du traitement de corpus dans la recherche concerne sans doute la majeure partie de la communauté des chercheurs et doctorants en sciences du langage. Concrètement, cette évolution semble liée à un développement des outils informatiques (navigation, collecte, outils d'aide à la transcription, outils d'analyse) qui ont transformé l'accès aux sources et affecté la démarche d'étude linguistique. Les autres communautés de recherche en sciences humaines et sociales ont apparemment, elles aussi, vu leur facette « expérimentale » s'intensifier durant la période récente. Dans notre discipline, une partie des linguistes a continué à se pencher sur la description des structures de la langue, mais en utilisant dorénavant les possibilités d’un traitement toujours plus fin des données. D’autres linguistes travaillent à l'amélioration des outils de traitement et à leur application à des « tâches » concrètes. La question de la mutualisation se pose pour les deux communautés, et ce, soit pour les données directement, soit pour les travaux élaborés à partir d’elles. Cela s'accompagne d'une grande diversité d'approches selon les thèmes et les écoles, et d'une tendance des instances à accompagner ce mouvement (projets de constitutions de « grands » corpus, groupes de travail d'annotation). Cet essor des problématiques liées aux corpus alimente un débat latent. De façon informelle, le changement est souvent présenté sous deux aspects opposés : soit sous un angle exagérément négatif (comme une « mode » réductrice, qui convient mal à la nature de la langue et inhibe le débat théorique), soit sous un angle exagérément positif (comme une révolution qui doit rendre les sciences du langage plus scientifiques parce que plus proches du « réel »). Pour emmener la reflexion méthodologique au-delà de ces clivages, nous avons proposé aux doctorants et jeunes chercheurs qui le souhaitaient de prendre le temps d'examiner l'éventail des outils et des méthodes qui ont émergé dans cette « nouvelle vague » d'études de corpus. Nous nous inscrivons pleinement dans l'esprit de la complémentarité de l'empirique et du théorique, exprimée jadis par Francis Bacon : L'empirique, semblable à la fourmi, se contente d'amasser et de consommer ensuite ses provisions. Le dogmatique, telle l'araignée, ourdit des toiles dont la matière est extraite de sa propre substance. L'abeille garde le milieu ; elle 4 tire la matière première des fleurs des champs, puis, par un art qui lui est propre, elle la travaille et la digère. Novum Organum (1620), Livre I, 95 Le cœur de notre sujet est donc cet « art de l'abeille », ce travail face au corpus linguistique qui, du moment de la collecte des énoncés/textes jusqu'à l'interprétation théorique finale et aux éventuelles applications concrètes, apparaît bien comme une étape de « digestion » théorique des données empiriques du corpus. Nous appelons à toute présentation qui intéresse le thème du traitement de corpus linguistique, de sa conception à son traitement. Les problématiques associées comprennent, sans limitation, les points suivants : – – point de vue sur les textes ou énoncés selon le champ des sciences du langage niveau d'analyse pertinent et nature du corpus : o o o – – – – – – – – – corpus oraux en phonologie, syntaxe, prosodie, études des troubles de la parole, etc. corpus textuels en lexicographie, analyse de discours, syntaxe, «info-com» et les corpus multimodaux en acquisition, etc. constitution de corpus, corpus clos vs. ouvert, représentativité, taille du corpus transcription, alignement, structuration et organisation du corpus définition des phénomènes ou procédés linguistiques étudiés annotations ou autres traitements effectués, décomptes ou mesures et leur pertinence choix des entrées dans l'analyse : occurrences, constructions, catégories, environnements, etc. choix de formalisation des résultats : tables statistiques, graphiques, typologies, schémas, etc. interprétation des résultats (selon hypothèses ou question posée) extraction opérées, modèles formels, apprentissage automatique mutualisation des corpus, des traitements et/ou des résultats o o exploitation des bases existantes (grands corpus consultables) au-delà de la publication, vers un partage des résultats sur corpus ? Nous invitons les doctorants et jeunes chercheurs à venir exposer leur réflexion sur un de ces aspects à partir de leur propre pratique et quel que soit le degré d‘avancement de leur recherche. le comité d’organisation, Marine Damiani, Kaja Dolar, Carmen Lucia Florez-Pulido, Romain Loth, Julien Magnier et Anne Pegaz-Paquet 5 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Comité scientifique Jean-Michel ADAM (Université de Lausanne) Delphine BATTISTELLI (STIH, MoDyCo/CNRS, Université Paris Sorbonne) Annie BERTIN (MoDyCo/CNRS, Université Paris Ouest Nanterre) Caroline BOGLIOTTI (MoDyCo/CNRS, Université Paris Ouest Nanterre) Bernard COMBETTES (ATILF/CNRS, Université de Lorraine) Anne CONDAMINES (CLLE-ERSS/CNRS, Université Toulouse Le Mirail) Marcel CORI (MoDyCo/CNRS, Université Paris Ouest Nanterre) Flore COULOUMA (CREA, Université Paris Ouest Nanterre) Guillaume DESAGULIER (MoDyCo/CNRS, Université Paris Ouest Nanterre, Université Paris 8) Brigitte JUANALS (MoDyCo/CNRS, Université Paris Ouest Nanterre) Maria KIHLSTEDT (MoDyCo/CNRS, Université Paris Ouest Nanterre) Simon KREK (Institut Jozef Stefan, Ljubljana) Anne LACHERET (MoDyCo/CNRS, Université Paris Ouest Nanterre) Bernard LAKS (MoDyCo/CNRS, Université Paris Ouest Nanterre) Denis LE PESANT (MoDyCo/CNRS, Université Paris Ouest Nanterre) Danielle LEEMAN (MoDyCo/CNRS, Université Paris Ouest Nanterre) Sabine LEHMANN (MoDyCo/CNRS, Université Paris Ouest Nanterre) Sarah LEROY † (MoDyCo/CNRS, Université Paris Ouest Nanterre) Sylvain LOISEAU (LDI/CNRS, Université Paris 13 Nord) Dominique MAINGUENEAU (CEDITEC, Université Paris Est Créteil, IUF) Philippe MARTIN (CLILLAC- ARP, Université Paris Diderot) Sylvie MELLET (BCL/CNRS, Université Nice Sophia Antipolis) Jean-Luc MINEL (MoDyCo/CNRS, Université Paris Ouest Nanterre) Colette NOYAU (MoDyCo/CNRS, Université Paris Ouest Nanterre) Christophe PARISSE (MoDyCo/CNRS, INSERM, Université Paris Ouest Nanterre) Christiane PRENERON (MoDyCo/CNRS, Université Paris Ouest Nanterre) Sandrine REBOUL-TOURE (SYLED, Université Paris III Sorbonne Nouvelle) Fanny RINCK (MoDyCo/CNRS, Université Paris Ouest Nanterre) Clara ROMERO (MoDyCo/CNRS, Université Paris Ouest Nanterre) Frédérique SITRI (SYLED, Université Paris III Sorbonne Nouvelle) Ana ZWITTER VITEZ (Institut de Linguistique Slovène Appliquée Trojina, Ljubljana) 6 « Exploitation d’un corpus annoté pour l’analyse des relations causales » par Caroline Atallah Les articles Exploitation d’un corpus annoté pour l’analyse des relations causales Caroline Atallah CLLE-ERSS, CNRS & Université de Toulouse, 31058 Toulouse Cedex 9 [email protected] RÉSUMÉ____________________________________________________________________________________________________________________ Notre étude vise à proposer, à partir de l’observation d’énoncés attestés, une description des relations causales dans le cadre d’une théorie représentationnelle du discours, la SDRT. L’exploitation d’un corpus de textes enrichis d’annotations discursives nous a permis de confronter la théorie à la réalité des données. Constatant que la SDRT ne rendait pas compte de la diversité des relations causales présentes dans les textes, nous proposons d’enrichir le modèle à partir de nos observations. Pour la suite de nos analyses, nous envisageons d’élargir notre corpus de façon à le rendre plus représentatif. ABSTRACT__________________________________________________________________________________________________________________ Exploring an annotated corpus for the analysis of causal relations This study aims at offering, from the observation of attested data, a description of causal relations in the framework of a representational theory of discourse called SDRT. Exploring a corpus of texts, which are annotated at discourse-level, allowed us to confront the theory with real data. Upon realising that SDRT did not reflect the diversity of causal relations that could be observed in texts, we offer to enrich the theoretical model on the basis of our observations. For further analysis, we are planning on expanding our corpus in order to make it more representative. MOTS-CLES : discours, corpus annoté, relations causales, SDRT, genre textuel. KEYWORDS : discourse, annotated corpus, causal relations, SDRT, textual genre. 1 Introduction La causalité a fait l’objet de nombreuses études, et ce, depuis l’Antiquité et les travaux sur la rhétorique d’Aristote. A travers les siècles, la notion de cause est restée au cœur des préoccupations des philosophes (Hume, 1748, Russel, 1912, Lewis, 1973, Kistler, 2004) et il est encore aujourd’hui difficile de s’accorder sur la définition qui peut lui être attribuée : « nobody has provided a general definition of CAUSE, though causality has been the topic of centuries of debate. » (Hovy et Maier, 1993). L’ambition de notre étude n’est pas de proposer une définition de la notion-même de cause. Nous nous intéressons tout d’abord à la langue et à ses réalisations, avec l’objectif de parvenir à une description des relations dans lesquelles la cause intervient. En linguistique, la causalité est étudiée à des niveaux différents. Certains auteurs s’attachent à proposer une description syntaxico-sémantique de la causalité, envisageant celle-ci comme une relation liant une cause à son effet (Nazarenko, 2000, Gross, 2009). D’autres, en s’intéressant à l’argumentation, rendent compte d’un autre niveau dans lequel la causalité peut s’établir (Ducrot et Anscombre, 1983, Plantin, 1990). Par ailleurs, la plupart des travaux portant sur la causalité se concentrent principalement sur l’étude des connecteurs permettant d’inférer un lien causal : à cause de, alors, de ce fait, du coup, donc, etc. (Jayez et Rossari, 2001), ou encore des verbes causaux tels que provoquer, causer, occasionner (Gross, 2009). Ces travaux s’appuient souvent sur des exemples construits ou utilisent des exemples attestés à des fins d’illustration. Notre approche de la causalité se distingue de celles que nous venons de décrire. L’originalité 7 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco réside dans le fait que nous nous appuyons sur un corpus annoté spécifiquement pour l’étude des relations causales. Nous considérons ce corpus comme le point de départ de notre étude. Selon la distinction établie par (Tognini-Bonelli, 2001), nous préférons à une approche « corpus-based », une approche « corpus-driven »1. D’autre part, la présence des annotations nous permet d’aborder la causalité sous un autre angle : c’est la relation de causalité elle-même et non ses marqueurs potentiels qui constitue le point de départ de nos analyses. A partir de l’observation d’énoncés attestés, notre étude, qui s’inscrit au sein du projet EXPLICADIS2, vise à proposer une description des relations causales dans le cadre d’une théorie du discours particulière : la SDRT. Nous souhaitons enrichir la théorie afin que celle-ci puisse rendre compte de la réalité des données. Cet article s’articule en quatre sections. Nous présenterons tout d’abord le modèle théorique de la SDRT et le traitement qu’il propose pour les relations de discours causales. Nous décrirons ensuite notre corpus d’étude, corpus que nous avons constitué à partir d’un corpus annoté déjà existant. Puis, nous exposerons comment l’exploitation de ces données nous a permis d’envisager un enrichissement de la théorie. Enfin, nous ouvrirons une discussion sur la représentativité du corpus dans le but de définir des critères en vue d’un élargissement de notre corpus pour des analyses ultérieures. 2 Le modèle théorique de la SDRT et son traitement des relations causales La SDRT, Segmented Discourse Representation Theory (Lascarides et Asher, 1993, Asher et Lascarides, 2003), est une théorie représentationnelle du discours, développée dans la continuité de la DRT, Discourse Representation Theory, de (Kamp et Reyle, 1993) et des théories sur la cohérence du discours (Hobbs, 1985, Mann et Thompson, 1988). Nous présenterons brièvement cette théorie, puis nous nous attacherons aux traitements qu’elle propose pour les relations causales. 2.1 Présentation de la SDRT Afin de rendre compte de la cohérence du discours, la SDRT propose de représenter le discours comme un ensemble de segments du discours liés entre eux par des relations de discours. Cette représentation se construit selon une démarche ascendante. Il s’agit de : – segmenter le discours en unités minimales ; – définir les relations liant les segments entre eux, les segments reliés forment alors de nouvelles unités, dites complexes ; – définir les relations liant les segments complexes à d’autres segments. Selon la représentation proposée par la SDRT, chaque constituant, noté Kπ, est désigné par une étiquette, notée π. Les constituants correspondent aux représentations du contenu propositionnel des segments, alors que les étiquettes correspondent aux actes de langage. 1 Ce type d’approche consiste à s’appuyer sur l’observation de données attestées pour parvenir à une caractérisation théorique du phénomène étudié. Le projet EXPLICADIS, EXPLICation et Argumentation en DIScours, co-financé par le PRES toulousain et la région Midi-Pyrénées (2010-2013) implique les deux laboratoires toulousains CLLE-ERSS et IRIT. 2 8 « Exploitation d’un corpus annoté pour l’analyse des relations causales » par Caroline Atallah Les relations s’établissent entre les étiquettes des constituants. On notera R(α,β) une relation liant les étiquettes α et β. La SDRT ne propose pas de liste finie de relations. Cependant, elle propose des outils permettant de caractériser chaque relation à l’aide de règles formulées dans le langage de la Glue Logic. Parmi les relations envisagées par la SDRT, nous trouvons deux types de relations causales : la relation d’Explication et la relation de Résultat. Nous allons nous pencher à présent sur les caractéristiques propres à ces relations, telles que décrites dans (Asher et Lascarides, 2003). 2.2 Les relations causales en SDRT Selon les règles énoncées en SDRT, les relations causales Explication et Résultat ont pour effet sémantique de lier les éventualités (événements ou états) de deux segments, notées eα et eβ, par un lien causal : Explication_Conséquence Résultat_Conséquence ΦExplication(α,β) ⇒ cause (eβ,eα) ΦRésultat(α,β) ⇒ cause (eα,eβ) Les effets sémantiques de ces deux relations se différencient au niveau de l’ordre des arguments, la relation d’Explication (1) présente l’effet en premier alors que la relation de Résultat (2) présente une cause puis son effet : (1) (2) Max est tombé. John l’a poussé.3 John a poussé Max. Il est tombé. La SDRT distingue un niveau supplémentaire de relations. Ces relations, notées Explication* et Résultat*, se réalisent à niveau illocutoire. Il s’agit de relations d’ordre pragmatique. La relation d’Explication* (3) lie un premier segment correspondant à un acte de langage à un second segment contenant la justification de l’énonciation de cet acte. La relation de Résultat* (4) présente ces segments dans un ordre contraire : (3) (4) 3 Ferme la fenêtre. J’ai froid. J’ai froid. Ferme la fenêtre. Une approche empirique de la causalité La SDRT ne proposant à l’heure actuelle qu’une description succincte des relations causales, nous avons décidé de nous confronter à la réalité des données. Nous considérons le corpus comme point de départ pour nos analyses et procédons en deux temps : 1. observation des données, 2. enrichissement de la théorie à partir des observations. La ressource ANNODIS4 a été construite dans le but de permettre ce type d’exploitation. Nous décrirons dans cette section la méthodologie suivie pour la construction du corpus annoté issu du projet ANNODIS ainsi que le traitement qui a été fait des relations causales. Nous expliquerons ensuite comment nous avons exploité ces données pour procéder à l’analyse des relations de discours causales. 3 Les exemples (1) à (4) sont empruntés à (Asher et Lascarides, 2003). 4 Le projet ANNODIS (ANNOtation DIScursive de corpus), financé par l’ANR (2007-2010), a réuni des chercheurs des laboratoires CLLE-ERSS (Toulouse), IRIT (Toulouse) et GREYC (Caen). 9 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco 3.1 ANNODIS, un corpus annoté au niveau discursif Le projet ANNODIS (Péry-Woodley et al., 2009, Péry-Woodley et al., 2012) a donné naissance au premier corpus de textes en français enrichis d’annotations discursives. Ce corpus a été constitué selon deux approches. La première approche, dite approche macro, s’est intéressée aux structures discursives de hautniveau en proposant une annotation des marqueurs textuels relatifs à ces structures. La deuxième approche, dite approche ascendante, s’est attachée à construire une représentation de la structure du discours en liant les unités discursives entre elles par des relations rhétoriques. Dans le cadre de notre étude, nous nous concentrerons sur la seconde approche qui a abouti à l’élaboration d’un corpus enrichi avec des relations discursives. 3.1.1 Constitution du corpus selon une approche ascendante L’élaboration du corpus annoté a été réalisée en deux temps. Des textes ont d’abord été segmentés en Unités de Discours Elémentaires. La segmentation de ces textes a fait état d’un accord entre les annotateurs. Les segments constitués ont ensuite été liés entre eux par des relations de discours. Lorsque cela était pertinent, de nouvelles relations ont été annotées liant des segments complexes à d’autres segments. L’ensemble des textes segmentés et les relations associées constituent le corpus annoté. La segmentation ainsi que l’annotation des relations discursives ont été réalisées selon les recommandations fournies par un manuel rédigé spécifiquement pour le projet. Avant de trouver sa forme définitive, ce manuel a été testé et modifié lors d’une première phase d’annotation dite exploratoire. Le guide finalisé, la campagne d’annotation a pu débuter sur de nouveaux textes. Trois annotateurs naïfs 5 ont procédé à une double annotation de chaque texte après s’être mis d’accord sur la segmentation. Ces mêmes textes ont ensuite été annotés par des experts, de façon à obtenir un ensemble de textes triplement annotés. Le corpus ainsi enrichi est maintenant disponible pour être exploité6. 3.1.2 Les relations causales dans le corpus ANNODIS Le manuel d’annotation propose une liste de relations. Parmi celles-ci, nous retrouvons les deux relations qui nous intéressent : Explication et Résultat. Afin de guider les annotateurs, chaque relation est définie puis illustrée par des exemples, une liste de marqueurs potentiels est aussi donnée. Les relations d’Explication et de Résultat, codées respectivement explanation et result, ont été caractérisées comme suit : Explication (explanation) – Définition : « La relation d’explication lie deux segments dont le second (celui qui est attaché) explique le premier (la cible) de façon explicite ou non. » 5 Il s’agissait d’étudiants en Licence ne possédant pas de connaissances particulières sur les théories du discours. 6 La ressource ANNODIS est disponible sur le site REDAC (Ressources Développées à CLLE-ERSS : http://redac.univ- tlse2.fr/), sous licence « Creative Commons ». 10 « Exploitation d’un corpus annoté pour l’analyse des relations causales » par Caroline Atallah – Exemple : [Le chômage baisse en 2008]_1 [parce qu’il y a moins d’actifs.]_2 Explanation (1,2) – Marqueurs suggérés : car, parce que, à cause de, du fait de, par la faute de, grâce à, si 1 c’est parce que 2, depuis (si causalité évidente). Résultat (result) – Définition : « La relation Résultat caractérise des liens entre deux segments portant sur deux éventualités (événements ou états) dont la 2e résulte de la première. » – Exemple : [Nicholas avait bu trop de vin]_1 [et a donc dû rentrer chez lui en métro.]_2 Result (1,2) – Marqueurs suggérés : du coup, donc, par conséquent, en conséquence, par suite, à la suite de quoi. 3.2 Constitution d’un corpus annoté pour l’étude des relations causales Le corpus issu d’ANNODIS constitue le point de départ de notre étude. Nous avons choisi de nous intéresser aux textes annotés après finalisation du manuel d’annotation. Nous nous sommes donc concentrée sur 42 textes qui ont fait l’objet de plusieurs annotations : au moins une annotation naïve et une annotation experte. Ces textes sont des extraits d’articles issus de l’encyclopédie en ligne Wikipédia (27 textes) et du quotidien Est Républicain (15 textes). Les relations causales représentent 9% des relations annotées dans ces textes (dont 4,3% d’Explication et 4,7% de Résultat). Afin de faciliter l’exploitation du corpus pour l’étude des relations causales, nous avons procédé à une ré-annotation de l’ensemble des textes. Pour cela, nous nous sommes appuyée sur les annotations disponibles, confrontant les propositions des différents annotateurs et décidant pour chaque relation d’Explication et de Résultat repérée si nous maintenions l’annotation. Notre corpus ré-annoté compte 61 relations d’Explication et 57 relations de Résultat. Constatant que les constituants liés pouvaient être de nature différente, nous avons construit une typologie des relations causales. Chaque exemple issu de notre corpus ré-annoté a ensuite fait l’objet d’une classification selon des critères que nous décrirons dans la section 4. Les 42 textes segmentés enrichis de nos propres annotations constituent notre corpus d’étude, corpus adapté spécifiquement pour l’étude des relations causales. 4 Enrichissement de la théorie à partir de l’observation des données Alors que la SDRT s’est principalement concentrée sur la description des relations causales portant sur les éventualités contenues dans les segments liés, le corpus fait apparaître d’autres types de relations. Nous décrirons ici les différentes relations causales que nous avons distinguées tout en illustrant nos propos par des exemples tirés de notre corpus. Ces relations se distinguent par leurs effets sémantiques. Nous proposons d’enrichir la théorie en caractérisant chaque type de relation à travers la nature du lien causal établi. 4.1 Relations entre éventualités Selon la SDRT, les relations Explication et Résultat ont pour effet sémantique d’établir un lien causal entre deux éventualités. Nous retrouvons ce type de relation dans le corpus : (5) (6) [La tour 7 du WTC s’est effondrée dans l’après-midi]_11 [en raison d’incendies et des dégâts occasionnés par la chute des Twin Towers.]_12 Relation annotée : Explication (11,12) [le côté gauche de la voiture [qui doublait]_9 a mordu l'accotement.]_8 [L'automobile 11 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco (7) (8) a perdu sa roue gauche]_10 Relation annotée : Résultat (8,10) [son chef, [Gérard Pizzetti,]_8 [en désaccord avec le fonctionnement de l’association,]_10 démissionnait.]_9 Relation annotée : Explication (9,10) [Cette loi du silence règne]_8 [car elle joue sur la peur]_9 [que les mafieux ont de la mafia,]_10 [car ils connaissent les représailles]_11 [qui attendent celui]_12 [qui parlerait.]_13 Relation annotée : Explication (10,11) Nous pouvons distinguer quatre sous-types de relations selon la nature de l’éventualité (événement ou état) rapportée par chacun des deux segments : 1. 2. 3. 4. éventualité 1 : événement ; éventualité 2 : événement (exemples (5) et (6)) ; éventualité 1 : événement ; éventualité 2 : état (exemple (7)) ; éventualité 1 : état ; éventualité 2 : événement7 ; éventualité 1 : état ; éventualité 2 : état (exemple (8)). Lorsque la relation se présente sous la configuration 1., elle est soumise à des contraintes temporelles. En effet, l’événement expliquant précède toujours l’événement expliqué. (Asher et Lascarides, 2003) énoncent les règles suivantes : Explication_Contraintes_Temporelles Résultat_Contraintes_Temporelles ΦExplication(α,β) ⇒ (event (eβ) ⇒ (eβ < eα)) ФRésultat(α,β) ⇒ (event(eα) ⇒ (eα < eβ)) Les exemples (5) et (6) vérifient ces contraintes. Les relations d’Explication et de Résultat, telles que décrites par la SDRT, ne représentent en réalité qu’une moitié des relations causales observables dans le corpus. Nous proposons donc d’enrichir la théorie en introduisant deux types de relations causales supplémentaires : les relations épistémiques et les relations inférentielles. 4.2 Relations épistémiques Observons l’exemple suivant tiré de notre corpus : (9) [En ce qui concerne les programmes spatiaux hors MD,]_2 [il est difficile de faire le point des financements proposés à l’heure actuelle,]_3 [car les lignes budgétaires restent éparpillées et le plus souvent non-identifiables dans le projet de budget de la Maison Blanche.]_4 Relation annotée : Explication (3,4) Nous pouvons voir ici une simple relation entre deux états : la difficulté de faire le point s’explique par l’éparpillement des lignes budgétaires. La relation répondrait alors aux effets sémantiques décrits précédemment : Explication_Conséquence 7 ΦExplication(α,β) ⇒ cause (eβ,eα) Les relations causales présentant cette configuration sont absentes de notre corpus. Nous observons que lorsque le segment « expliquant » contient un état, celui-ci se trouve au sein du second argument d’une relation d’Explication. De même, lorsque l’état se trouve dans le segment « expliqué », ce dernier prend place en tant que second argument d’une relation de Résultat. Une relation établissant un lien causal entre un événement et un état se présenterait donc plus fréquemment sous la configuration décrite en 2. Nous considérons bien entendu ces observations avec la plus grande précaution, notre corpus nécessitant d’être élargi pour pouvoir vérifier la validité de celles-ci (voir section 5). 12 « Exploitation d’un corpus annoté pour l’analyse des relations causales » par Caroline Atallah Pour que cette règle soit respectée, il faut que la proposition décrite par le segment 3 soit vraie. Autrement dit, la difficulté évoquée doit être avérée et la valeur de vérité de la proposition ne peut être contestée. Or, nous pouvons interpréter l’énoncé autrement et comprendre que la proposition décrite par le segment 3 n’est vraie que pour le locuteur. Une seconde interprétation peut en effet être envisagée : à travers l'emploi de l’évaluatif il est difficile de, il est possible de percevoir la présence de l’énonciateur. Celui-ci exprimerait son point de vue. Les effets sémantiques de la relation ne sont alors plus les mêmes, le lien causal ne s’établit pas entre deux états. Il ne s’agit plus d’une simple Explication, mais de la justification d’une croyance propre à l’énonciateur : celui-ci n’explique pas pourquoi il existe une difficulté, mais pourquoi il pense que cette difficulté existe. Nous dirons qu’il s’agit d’une relation causale épistémique puisqu’elle renvoie à une attitude mentale. Dans notre corpus, nous avons relevé plusieurs relations de ce type. Bien que se présentant plus fréquemment sous l’ordre d’une relation d’Explication, nous avons relevé plusieurs relations de Résultat pouvant recevoir une interprétation épistémique. En voici un exemple : (10) [Ces attentats ont été vécus presque en temps réel par des centaines de millions de téléspectateurs à travers le monde,]_25 [les images de l’avion heurtant la deuxième tour du World Trade Center ayant été diffusées en direct,]_26 [ainsi que l’effondrement complet en quelques secondes des trois tours du WTC à Manhattan.]_27 [Le choc psychologique a été considérable au plan international.]_28 Relation annotée : Résultat (25,28) Tout comme pour l’exemple (9), si nous considérons l’énoncé comme un simple récit objectif, la relation sera alors une relation de Résultat liant deux éventualités entre elles. Or, l’adjectif considérable, en tant qu’évaluatif, peut être perçu comme exprimant un point de vue subjectif. Le contenu du segment 28 serait vrai pour le locuteur. Selon cette interprétation, la relation serait de type épistémique. Les exemples (9) et (10) peuvent donc recevoir deux interprétations différentes selon qu’on attribue la vérité du contenu propositionnel d’un segment (premier segment pour une relation d’Explication, second segment pour une relation de Résultat) au locuteur seul ou qu’on le considère vrai pour tous. Dans certains énoncés, l’ambiguïté est levée par la présence de marques explicites de subjectivité. C’est le cas notamment avec l’emploi de modaux tel que probablement : (11) [« La route moderne [(entre Mariana et Aleria),]_64 [au bas des collines,]_65 est probablement un tracé traditionnel,]_63 [car elle suit tout naturellement la limite du terrain ferme et du terrain alluvial]_66 [et l’Itinéraire a pu choisir ce parcours]_67 ... » Explication (63,[66,67]) L’emploi de probablement, appuyé par la présence des guillemets, indique que le segment 63 rapporte le point de vue du locuteur, celui-ci fait part de sa propre interprétation sur les origines de la route dont il est question. La relation est donc, sans ambigüité, une relation épistémique. Nous empruntons, pour les relations que nous venons de décrire, l’appellation épistémique à (Sweetser, 1990). Celle-ci distingue trois domaines dans lesquels un lien causal peut s’établir : le domaine du contenu propositionnel, le domaine épistémique et le domaine illocutoire. Les relations s’établissant au niveau du contenu propositionnel correspondent aux relations Explication et Résultat décrites par la SDRT, alors que celles s’établissant au niveau illocutoire correspondent aux relations Explication* et Résultat*. Sanders et al. (1992) ont fait le choix de ne pas établir de distinction entre les relations s’établissant au niveau épistémique et celles s’établissant au niveau illocutoire. Ils regroupent ces relations sous un seul type : les relations pragmatiques. Or, si nous nous intéressons aux 13 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco effets sémantiques des relations, nous constatons qu’ils sont différents. Une relation épistémique établit un lien causal entre un acte de penser et une éventualité. Cette éventualité décrite dans un segment explique pourquoi le locuteur pense le contenu exprimé dans le segment complémentaire. Nous proposons de rendre compte ci-dessous des effets sémantiques de ce type de relation : Explication_Epistémique_Conséquence ΦExplication_épistémique(α,β) ⇒ cause (eβ,eα') avec [eα': penser (loc_α,Kα)]8 Résultat_Epistémique_Conséquence ΦRésultat_épistémique(α,β) ⇒ cause (eα,eβ') avec [eβ': penser (loc_β,Kβ)] La relation pragmatique (Explication* et Résultat* en SDRT), que nous distinguons de la relation épistémique, établit, elle, un lien entre un acte de langage et une éventualité. Le locuteur explique pourquoi il accomplit cet acte : Explication*_Pragmatique_Conséquence Résultat*_Pragmatique_Conséquence ΦExplication*_pragmatique (α,β) ⇒ cause (eβ,α) ΦRésultat*_pragmatique (α,β) ⇒ cause (eα,β) Tout comme les relations décrites en 4.1, les relations épistémiques et les relations pragmatiques ont pour effet sémantique d’établir un lien entre deux éventualités. Cependant, une seule des éventualités liées correspond à une éventualité décrite dans le contenu propositionnel d’un segment. La seconde éventualité liée correspond à un acte : l’acte de penser, pour la relation épistémique, et l’acte de langage pour la relation pragmatique. 4.3 Relations inférentielles Nous avons mis en évidence l’existence de relations pouvant recevoir une interprétation épistémique. Nous avons vu que dans certains cas, l’énoncé pouvait être envisagé selon deux interprétations différentes : une interprétation épistémique ou une interprétation selon laquelle la relation s’établit au niveau du contenu propositionnel, entre deux éventualités. Nous avons trouvé dans le corpus d’autres relations pouvant recevoir une interprétation épistémique, mais celles-ci présentent des caractéristiques différentes sur le plan du contenu. En voici deux exemples : (12) [BITNET était différent d’Internet]_7 [parce que c’était un réseau point-à-point de type « stocké puis transmis ».]_8 Relation annotée : Explication (7,8) (13) [chaque ordre était égal à une voix.]_28 [Il y avait donc deux voix pour les privilégiés,]_29 [et une pour les non-privilégiés]_30 Relation annotée : Résultat (28,[29,30]) Sur le plan du contenu, les segments liés ne rapportent pas des éventualités, mais des faits. De plus, il existe un lien logique entre ces faits. En (12), le fait rapporté dans le segment 8 implique le fait rapporté dans le segment 7 : être un réseau point-à-point de type « stocké puis transmis » implique d’être différent d’Internet. L’inférence est ici permise par la connaissance de la définition d’Internet : Internet n’est pas un réseau point-à-point de type « stocké puis transmis ». 8 L’éventualité eα' (ou eβ') ne correspond pas nécessairement à penser. Elle peut renvoyer à d’autres attitudes mentales, comme : croire, réaliser, savoir, etc. 14 « Exploitation d’un corpus annoté pour l’analyse des relations causales » par Caroline Atallah L’énoncé (13) fait référence aux trois ordres suivants : le clergé, la noblesse et le tiers-état. Le clergé et la noblesse correspondent à la part privilégiée de la population, contrairement au tiers-état. Attribuer une voix à chaque ordre implique donc d’attribuer deux voix pour les privilégiés et une voix pour les non-privilégiés. L’inférence relève des mathématiques. Les exemples (12) et (13) font donc appel à des relations d’implication. La causalité ne pouvant se réduire à une simple implication logique, nous ne pouvons pas parler de lien causal entre les faits exposés. Cependant, nous avons bien affaire à des relations d’Explication et de Résultat. Il s’agit de relations épistémiques. En effet, tout comme pour les relations décrites en 4.2, le locuteur justifie ses croyances personnelles, à la seule différence que ces croyances sont ici fondées sur une implication dont la valeur de vérité est démontrée et qu’elles se situent donc à un niveau de certitude différent. Autrement dit, nous pouvons reformuler (11) en (14) et (12) en (15) : (14) Je pense que la route moderne (entre Mariana et Aleria), au bas des collines, est un tracé traditionnel, car elle suit tout naturellement la limite du terrain ferme et du terrain alluvial et l’Itinéraire a pu choisir ce parcours. (15) Je sais que BITNET est différent d’Internet parce que c’est un réseau point-à-point de type « stocké puis transmis ». Afin de distinguer les relations décrites précédemment de celles décrites ici, nous appellerons les relations qui s’appuient sur l’existence d’un lien logique entre deux faits des relations inférentielles. Ces relations ont en réalité déjà été introduites brièvement en SDRT. Bras, Le Draoulec et Asher (2009), dans une étude portant sur le connecteur alors, proposent une analyse d’un exemple issu de Jayez (1998). Nous le reprenons ci-dessous : (16) Ce nombre est égal à 4. Alors il est pair. Bras, Le Draoulec et Asher constatent que la relation qui s’établit entre K α et Kβ implique que si Kα est vrai alors normalement Kβ est vrai, soit (Kα > Kβ). Dans les exemples (12) et (13), nous sommes en présence du même type de relation. Ainsi, (13) respecte les effets sémantiques de la relation de Résultat Inférentiel, tels que décrits par Bras, Le Draoulec et Asher : Résultat_Inférentiel_Conséquence ΦRésultat_inférentiel(α,β) ⇒ (Kα ∧ Kβ ∧ (Kα > Kβ)) Explication_Inférentielle_Conséquence ΦExplication_inférentielle(α,β) ⇒ (Kα ∧ Kβ ∧ (Kβ > Kα)) Nous pouvons en déduire les effets sémantiques propres à la relation d’Explication Inférentielle auxquels satisfait (12) : 5 Discussion sur la représentativité du corpus Une première exploitation de notre corpus nous a permis de distinguer et de caractériser différents types de relations causales. Nous avons ainsi pu enrichir notre corpus d’annotations supplémentaires, déterminant pour chaque relation à quel type elle appartenait. La typologie établie et le corpus ré-annoté, nous envisageons de poursuivre notre étude en procédant à des analyses quantitatives et comparatives. A travers une réflexion sur la représentativité des corpus, nous présenterons les limites de notre corpus. Cette démarche nous amènera à envisager un élargissement de celui-ci pour la suite de nos analyses, élargissement qui devra être appréhendé selon des critères bien définis. 15 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco 5.1 Nouvelles perspectives d’exploitation du corpus L’étude de la répartition des différents types de relations causales, décrits dans la section 4, au sein du corpus semble indiquer des tendances différentes pour les relations d’Explication et les relations de Résultat : Figure 1 – Répartition des relations causales dans le corpus (en %) Figure 2 – Répartition dans le corpus des relations causales entre éventualités (en %) A partir de l’observation des figures 1 et 2, nous pouvons formuler les hypothèses suivantes : – Les relations inférentielles se présentent plus fréquemment sous la forme de relations de Résultat. – Les relations épistémiques se présentent plus fréquemment sous la forme de relations d’Explication. – Les liens causaux entre deux événements s’établissent le plus fréquemment sous la forme de relations de Résultat. – Les liens causaux entre un événement et un état s’établissent le plus fréquemment sous la forme de relations d’Explication. Autrement dit, il existerait un lien entre le type de relation causale et l’ordre des arguments respecté par cette relation. Etant donnée la petite taille de notre corpus (qui compte au total 118 relations causales), nous 16 « Exploitation d’un corpus annoté pour l’analyse des relations causales » par Caroline Atallah ne pouvons nous prononcer sur la validité de ces hypothèses. En effet, la question de la représentativité de notre corpus se pose. La taille d’un corpus doit satisfaire les exigences de l’exploitation envisagée. Le corpus en l’état actuel nous a permis, lors d’une première exploration, de distinguer et caractériser différents types de relations. Sa petite taille nous a autorisée à procéder à une analyse linguistique de chaque occurrence des relations causales repérées pour répondre à la nécessité d’enrichir la théorie. Or, pour des analyses quantitatives, la taille du corpus pose problème. Celle-ci doit être augmentée si l’on veut pouvoir obtenir des résultats statistiques pertinents. Habert (2000) parle d’incertitude pour désigner ce biais : « L’incertitude survient quand un échantillon est trop petit pour représenter avec précision la population réelle. » Pour les mêmes raisons, notre corpus ne permet pas une étude satisfaisante des marqueurs potentiels de la causalité. Chaque marqueur relevé présente un nombre d’occurrences bien trop faible dans le corpus. Pour la suite de nos analyses, la nécessité d’élargir notre corpus apparaît donc comme une évidence. L’intégration de nouveaux textes doit cependant se faire de façon réfléchie. 5.2 Un nouveau corpus pour une meilleure représentativité Pour qu’un corpus soit le plus représentatif possible, il faut veiller à ce qu’il associe deux caractéristiques (Habert, 2000) : il doit être de taille suffisante et il doit pouvoir rendre compte de la diversité des usages langagiers. Nous avons vu que notre corpus ne satisfaisait pas le premier critère. Qu’en est-il du second ? Notre corpus, permet-il de rendre réellement compte de la causalité et de la diversité de ses réalisations ? L’absence de relations causales pragmatiques dans notre corpus apporte une première réponse à nos interrogations : notre corpus ne rend pas compte de tous les types de relations causales. Les effets sémantiques des relations pragmatiques impliquent qu’un des constituants liés soit un acte de langage. Cet acte de langage peut se présenter sous la forme d’un ordre (forme impérative) ou d’une question (forme interrogative). Par conséquent, la relation sera observée de préférence dans un contexte de dialogue. Notre corpus étant exclusivement constitué d’extraits de textes issus de brèves de presse et d’articles encyclopédiques, les situations de dialogue en sont absentes. Nous pourrions donc envisager d’intégrer à notre corpus des textes rapportant ce type de situations. Cette réflexion sur le contexte d’apparition de relations causales spécifiques nous amène à envisager qu’il existerait un lien entre le genre textuel (ou type de texte) et le type de relation pouvant y être observé. Dans cette perspective, intéressons-nous aux autres types de relations causales. Les relations épistémiques faisant appel aux attitudes mentales du locuteur, nous émettons l’hypothèse selon laquelle nous devrions pouvoir observer un nombre plus important de relations de ce type dans des textes argumentatifs, textes dans lesquels les marques de subjectivité sont généralement fréquentes. De même, les relations causales s’établissant au niveau du contenu propositionnel (relations d’Explication et de Résultat) devraient être plus fréquentes dans des textes narratifs, textes rapportant des éventualités qui entretiennent entre elles un lien temporel. Il serait donc intéressant que notre corpus élargi puisse rendre compte de la diversité des genres textuels. Bien entendu, celui-ci ne pourra pas prétendre à l’exhaustivité (la notion de genre textuel étant de plus difficile à appréhender). Cependant, un corpus présentant une hétérogénéité interne permettrait d’envisager une confrontation inter-genres et donc de tester la validité des hypothèses que nous venons d’énoncer. 17 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco La construction d’un nouveau corpus, plus grand, plus diversifié et donc plus représentatif, devrait nous permettre de poursuivre nos analyses. Nous pourrons ainsi rendre compte des liens existant entre les quatre paramètres suivants : – – – – 6 type de relation ; ordre des arguments de la relation ; genre textuel ; marquage de la relation. Conclusion Nous avons présenté dans cet article la démarche suivie pour une étude des relations de discours causales dans le cadre de la SDRT. Cette démarche se veut originale puisqu’elle envisage le corpus comme point de départ. En nous appuyant sur le corpus issu du projet ANNODIS, nous avons constitué notre propre corpus de textes enrichis d’annotations dans le but de procéder à une étude approfondie des relations causales dans le discours. L’observation des relations repérées dans ce corpus nous a permis de constater que la SDRT ne rendait pas compte de la diversité des relations causales observables dans les textes. Nous avons pu par conséquent proposer un enrichissement de la théorie, en proposant notamment une description des relations dites épistémiques et des relations dites inférentielles. Les différents types de relations causales se distinguent par leurs effets sémantiques. Nous avons, dans la section 4, proposé des règles rendant compte de ces différences. Pour la suite de nos analyses, nous envisageons d’autres utilisations du corpus. Nous souhaitons en effet mettre en lumière les liens pouvant exister entre différents paramètres : le type de relation causale, l’ordre des arguments de la relation, les marqueurs associés à celles-ci et le genre textuel. Dans la section 5, nous avons évoqué les limites de notre corpus actuel pour de telles exploitations. Afin de rendre compte au mieux de la réalité du discours, notre corpus devra être élargi. Nous envisageons de constituer un nouveau corpus plus représentatif. Pour cela, il devra présenter une taille suffisante et être construit de façon à rendre compte au mieux de la diversité des usages langagiers. De plus, la construction d’un corpus selon ces critères devrait permettre à d’autres utilisateurs de l’exploiter pour leurs propres besoins. Par sa taille, la diversité des textes qui y seront représentés et les annotations proposées, notre corpus pourra faire office de corpus de référence pour l’étude des relations de discours causales. é érences ARISTOTE (2007). Rhétorique. Paris, Garnier Flammarion. ASHER, N. et LASCARIDES, A. (2003). Logics of Conversation. Cambridge, Cambridge University Press. BRAS, M., LE DRAOULEC, A. et ASHER, N. (2009). A formal analysis of the French Temporal Connective alors. In BEHRENS, B. et HANSEN, C. F. (éds.), Information structure and Explicit versus Implicit Information in Text across languages. Oslo, Osla. DUCROT, O. et ANSCOMBRE, J.-C. (1983). L’Argumentation dans la langue. Bruxelles, Mardaga. GROSS, G. (2009). Sémantique de la cause. Louvain-Paris, Peeters. HABERT, B. (2000). Des corpus représentatifs : de quoi, pour quoi, comment ? In BILGER, M. 18 « Exploitation d’un corpus annoté pour l’analyse des relations causales » par Caroline Atallah (éd.), Linguistique sur corpus. Études et réflexions. Perpignan, Presses Universitaires de Perpignan, pages 11-58. HOBBS, R. (1985). On the Coherence and Structure of Discourse. Report No. CSLI-85-37. Stanford, Center for the Study of Language and Information, Stanford University. HOVY, E. et MAIER, E. (1993). Parsimonious or Profligate: How Many and Which Discourse Structure Relations? Technical report. Los Angeles, USC Information Sciences Institute, University of Southern California. HUME, D. (1748). An Enquiry Concerning Human Understanding. Oxford, Clarendon Press. JAYEZ, J. et ROSSARI, C. (2001). The Discourse Level Sensitivity of Consequence Discourse Markers in French. Cognitive Linguistics, 12, pages 275-290. JAYEZ, J. (1988). Alors, descriptions et paramètres. Cahiers de Linguistique Française, 9, pages 135-175. KAMP, H. et REYLE, U. (1993). From Discourse to Logic. Dordrecht, Kluwer Academic Publishers. KISTLER, M. (2004). La causalité dans la philosophie contemporaine. Intellectica, 38, pages 139185. LEWIS, D. (1973). Causation. Journal of Philosophy, 70, pages 556-567. LASCARIDES, A. et ASHER, N. (1993). Temporal Interpretation, Discourse Relations and Commonsense Entailment. Linguistics and Philosophy, 16-5, pages 437-493. MANN, W. C. et THOMPSON, S. A. (1988). Rhetorical structure theory: Toward a functional theory of text organization. Text, 8-3, pages 243-281. NAZARENKO, A. (2000). La cause et son expression en Français. Paris, Ophrys. PERY-WOODLEY, M.-P., AFANTENOS, S.-D., HO-DAC, L.-M. et ASHER, N. (2012). Le corpus ANNODIS, un corpus enrichi d’annotations discursives. TAL, 53-2. PERY-WOODLEY, M.-P., ASHER, N., ENJALBERT, P., BANAMARA, F., BRAS, M., FABRE, C., FERRARI, S., HO-DAC, L.-M., LE DRAOULEC, A., MATHET, Y., MULLER, P., PREVOT, L., REBEYROLLE, J., TANGUY, L., VERGEZ-COURET, M., VIEU, L. et WILDÖCHER, A. (2009). ANNODIS : une approche outillée de l’annotation de structures discursives. TALN 2009, Senlis. PLANTIN, C. (1990). Essais sur l’argumentation : Introduction linguistique à l’étude de la parole argumentative. Paris, Kimé. RUSSEL, B. (1912). On the Notion of Cause. London, Routledge. SANDERS, T., SPOOREN, W. et NOORDMAN, L. (1992). Toward a taxonomy of coherence relations. Discourse Processes, 15-1, pages 1–35. SANDERS, T. (1997). Semantic and pragmatic sources of coherence: On the categorization of coherence relations in context. Discourse Processes, 24, pages 119-147. SWEETSER, E. (1990). From Etymology to Pragmatics. Cambridge, Cambridge University Press. TOGNINI-BONELLI, E. (2001). Corpus Linguistics at Work. Amsterdam et Philadelphia, John Benjamins. 19 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo Isabel Colón de Carvajal ICAR, ENS de Lyon, 69342 Lyon Cedex 07 [email protected] RÉSUMÉ____________________________________________________________________________________________________________________ Dans le cadre du projet LUDESPACE, nous proposons une méthodologie pour une analyse des interactions (sociales, spatiales, corporelles et langagières) entre les joueurs, et entre les joueurs et la console, dans le temps et l’espace d’une situation de jeu vidéo. L’étude de ce type d’interactions relève d’une situation complexe à documenter, nécessitant des données audio et vidéo. Selon la situation de jeu, nous avons défini une méthodologie d’enregistrement spécifique que nous présenterons. Pour une première étude, nous avons mené une analyse linguistique sur la manière dont les joueurs font référence à un avatar/ un personnage lorsqu’ils ne l’identifient plus sur l'écran, et le moment où les joueurs produisent ces références dans le déroulement de l’action du jeu. Nous avons constitué une collection d’extraits à partir de deux situations de jeu vidéo : l’une correspond à une partie en réseau sur ordinateur à huit joueurs, l’autre à une partie sur console (Wii) à quatre joueurs. ABSTRACT__________________________________________________________________________________________________________________ Methodological choices for a conversation analysis experiencing video games In the LUDESPACE project, we propose a methodology for analyzing interactions (social, spatial, bodily and linguistic) between players, and between players and the console, in time and space of a video game situation. The study of such interactions is a complex situation to document, requiring audio and video data. According to the game situation, we have defined a specific record methodology that we will present. For a first study, we conducted a linguistic analysis of how the players refer to an avatar/a character when they don't see him any more on the screen, and when players produce these references in the action progress of the game. For this, we created a collection of extracts from two video game situations: one is a computer network game with eight players, the other is a console game (Wii) with four players. MOTS-CLES : analyse conversationnelle, jeu vidéo, spatialité, interaction, pratiques, avatar, identification, joueurs, méthodologie KEYWORDS : conversational analysis, video game, spatiality, interaction, practices, avatar, identification, gamers, methodology 1 Introduction Avec quelques chercheurs 1 de mon laboratoire 2 , nous nous sommes intéressées à l’étude linguistique des interactions en situation de jeux vidéo depuis 2007, après avoir enregistré un premier corpus d’une situation de jeu sur Playstation entre deux joueurs, puis entre quatre joueurs, afin d’analyser les interactions sociales entre joueurs. Dans le cadre des séminaires du 1 Lorenza Mondada (Professeure de linguistique) et Sandra Teston-Bonnard (MCF en Sciences du langage). 2 Laboratoire ICAR (UMR 5191, CNRS – Université de Lyon). 20 « Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo » par Isabel Colón de Carvajal laboratoire junior « Jeux vidéo : pratiques, contenus, discours »3 crée en 2008 au sein de l’ENS de Lyon, nous avons mené une première étude sur les formes de segments répétés4 émergeant dans les interactions de jeux vidéo (Colón de Carvajal, 2011). Dans la continuité de ce laboratoire junior, un projet financé par le programme ANR « Jeunes Chercheurs » a été accepté en 2011, portant sur les espaces du jeu vidéo en France. Ainsi, nous présenterons dans une première partie le projet LUDESPACE, ses objectifs, l’équipe et ses thématiques de recherche. Dans un deuxième point, nous proposerons dans cet article la méthodologie mise en place pour construire une analyse linguistique à partir des données recueillies dans le cadre de ce projet. En partant d’un objet d’étude donné, ici l’identification des joueurs dans l’espace du jeu, nous montrerons comment nous avons établi une première collection d’extraits, puis nous expliquerons l’importance de travailler avec des transcriptions multimodales. Nous donnerons alors quelques résultats qui seront à développer dans la suite du projet. Enfin, nous conclurons notamment par la présentation d’une grille d’analyse ouverte offrant aux différents collaborateurs du projet des objets d’analyse divers. 1.1 Le projet LUDESPACE 1.1.1 Une brève présentation des objectifs principaux Le projet de recherche fondamentale LUDESPACE « Les espaces du jeu vidéo en France » est financé par le programme ANR « Jeunes Chercheurs » jusqu’en 2014. Nous proposons un panorama et une cartographie des pratiques des jeux vidéo en France. Ce projet fait appel à une approche du jeu vidéo comme système spatial pour analyser les interactions multi-échelles entre l’espace dans le jeu vidéo, l’espace du joueur et l’espace autour du jeu vidéo. Le choix d’une entrée spatiale vise à remettre les pratiques vidéoludiques dans leur contexte précis en faisant l’hypothèse que leurs spatialités multi-niveaux participent à la réticularisation 5 de l’espace et à la mise en réseau des territoires et des individus. Ce projet s’inscrit dans la continuité des efforts de l’équipe pluridisciplinaire du laboratoire junior « Jeux vidéo : pratiques, contenus, discours » (de l’ENS de Lyon) pour faire émerger et structurer un champ de recherche sur les jeux vidéo en France. Depuis 2008, leurs travaux ont montré l’importance de se démarquer des Video Game Studies6 pour recentrer les analyses sur les joueurs et leurs pratiques. Pour mieux cerner la population de joueurs de jeux vidéo (âge, sexe, catégorie socioprofessionnelle, lieu de résidence…) et leurs pratiques, mais aussi la population de non joueurs, nous avons réalisé une enquête quantitative portant sur un échantillon représentatif de la population française. Cette enquête représente une base de travail indispensable pour 3 Site Internet du labo junior : http://jeuxvideo.ens-lyon.fr/ 4 Nous définissons « segments répétés » comme l'occurrence d'un ou plusieurs mot(s) produit(s) par deux locuteurs en simultané (on parlera alors d'énoncés choraux) ou successivement (on parlera alors d'hétéro-répétitions). Lorsqu'il s'agit d'un seul locuteur qui répète un(e) même (suite) mot, on parlera alors d'auto-répétitions. 5 La réticularisation signifie la volonté de transformer toute pratique en pratique insérée dans des réseaux. Ici, cela concerne le travail en équipe, en réseau de l’espace du jeu. 6 Dans le monde anglo-saxon, les recherches sur les jeux vidéo se sont structurées en un champ transdisciplinaire, les Video Game Studies. Nous désignons par cette expression un ensemble de travaux assimilés au courant anglo-saxon des Game Studies mais qui s’intéresse plus particulièrement aux jeux vidéo et dont les partisans sont favorables à une autonomisation de leur propre champ de recherche. Ces travaux laissent cependant de côté la question des pratiques des joueurs, ou bien se centrent exclusivement sur l’addiction et la violence. 21 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco consolider les recherches sur les jeux vidéo en France et dépasser les débats convenus sur la violence et l’addiction. Afin d’approfondir l’analyse des enjeux de la production des territoires de la pratique vidéoludique et de la mise en interaction des représentations et des pratiques spatiales des joueurs dans le jeu avec celles de leur quotidien, l’enquête statistique est complétée par des études qualitatives : entretiens semi-directifs, cartes cognitives et enregistrements multimodaux de situations concrètes de jeu. Pour résumer, et de manière générale, nous avons comme objectifs principaux dans le projet LUDESPACE : 1. d'établir un portrait de la population de joueurs de jeux vidéo en France : c'est-àdire cerner les différents publics de joueurs de jeux vidéo dans toute leur diversité, pour fournir une géographie des joueurs de jeux vidéo en France. 2. de mettre en évidence la diversité des pratiques et des modes de subjectivation : une fois établie la pluralité des publics de joueurs, nous entendons mettre en évidence la diversité des pratiques elles-mêmes en tenant compte du fait qu’elles sont variables selon l’âge, le sexe, le milieu social, le lieu de résidence du joueur. Nous souhaitons aussi étudier le sens que les joueurs de jeux vidéo accordent à leurs propres pratiques en faisant porter l’analyse sur les régimes d’expériences produits par les pratiques vidéoludiques à travers les agencements spécifiques de l’espace qu’elles induisent. Il s’agit également d’appréhender l’action socialisatrice des jeux tout au long de la « carrière ludique » des joueurs. 3. de renouveler les travaux sur les jeux vidéo par une approche par l’espace : sur un plan plus méthodologique, nous visons à proposer une grille d’analyse des pratiques vidéoludiques dans des contextes sociaux, économiques et culturels, différents, à partir de l’approche spatiale multi-niveaux. Si cet outil d’analyse s’avère pertinent pour le cas français, nous pourrions envisager de le transposer ensuite à d’autres pays. 4. de réévaluer des notions clés des sciences sociales (espace, réseau, échelle, territoire) : sur un plan conceptuel, l’étude des pratiques du jeu vidéo en France est l’occasion d’apporter un nouveau regard sur certaines notions clés des sciences sociales. 1.1.2 L’équipe et ses thématiques de recherche Le projet LUDESPACE est composé de jeunes chercheurs en sciences humaines et sociales issus d’horizons disciplinaires multiples : la géographie (Hovig Ter Minassian, Manouk Borzakian, Samuel Rufat, Jérémie Valentin), la sociologie (Manuel Boutet, Samuel Coavoux), les sciences de l’éducation (Vincent Berry), la philosophie (Mathieu Triclot) et les sciences du langage (Isabel Colón de Carvajal). Ce choix scientifique de la pluridisciplinarité vise à éclairer toutes les facettes des pratiques vidéoludiques. La relative « jeunesse » du jeu vidéo comme objet d’étude en France explique que la plupart des thèses soutenues en France soient très récentes7. C’est pourquoi les chercheurs qui travaillent actuellement sur les jeux vidéo sont surtout de jeunes maîtres de conférences, de jeunes docteurs ou des doctorants. Grâce à la diversité de nos approches théoriques pour l’étude d’un même objet « les jeux vidéo », nous souhaitons explorer quatre problématiques de recherche : 7 On trouve des études précises sur les pratiques vidéoludiques, mais il s’agit d’analyses anciennes (Bruno, 1993), de travaux exclusivement qualitatifs (Trémel, 2001), ou encore d’études portant sur des publics ou des genres trop spécifiques tels que les jeux de rôle en ligne massivement multi-joueurs (Coavoux, 2009 et 2010, Berry, 2009). À l’exception des travaux de Laurent Trémel (1999), les thèses portant sur les jeux vidéo, sont à la fois rares et très récentes (Baczkowski, 2004, Boutet, 2006, Genvo, 2006, Alvarez, 2007, Cador Delcourt, 2007, Peter, 2007, Yan, 2007, Amato, 2008, Berry, 2009 et Blanchet, 2009). 22 « Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo » par Isabel Colón de Carvajal 1. Les publics de joueurs : qui joue aux jeux vidéo en France ? Dans cet axe, nous cherchons à dresser la « cartographie » des joueurs de jeux vidéo en France ; à faire apparaître les différenciations du public des joueurs ; à proposer une explication de la différenciation des styles de jeu en mettant en rapport les contextes culturels, sociaux et spatiaux, l’engagement ludique, et les pratiques du jeu vidéo ; et à appréhender les pratiques des populations les moins bien connues (les plus jeunes et les personnes plus âgées). 2. Les usages des joueurs : où, comment et dans quelle configuration spatiale les joueurs jouent-ils ? Dans cet axe, nos objectifs sont les suivants : mettre en évidence la diversité des configurations spatiales de la pratique du jeu vidéo (proposer une « microgéographie » des lieux du jeu) ; analyser les modalités du rapport à l’espace qui s’expriment à travers ces différentes configurations spatiales ; et produire une typologie des usages du jeu vidéo selon deux critères (l’espace matériel du joueur et le support du jeu). 3. L’engagement dans le jeu : quel rapport à l’espace et au temps les joueurs ont-ils à travers la pratique vidéoludique ? Dans cet axe, nous voulons comprendre la diversité des rapports à l’espace que les joueurs de jeux vidéo entretiennent par leurs pratiques ; clarifier la notion d’espace dans les jeux vidéo ; proposer une typologie des jeux vidéo selon une entrée spatiale ; mettre en évidence les enjeux des pratiques de collection et de retro-gaming8 ; et analyser le processus de patrimonialisation du jeu vidéo par les joueurs. 4. Les interactions : quelle est la nature des échanges entre les joueurs, et entre les joueurs et les machines/les jeux vidéo dans le temps et dans l’espace de jeu ? Dans cet axe, nous souhaitons mettre en évidence la pluralité des interactions entre joueurs (et spectateurs) de jeu vidéo au moment d’une partie ; étudier le langage spontané (non normé) qui s’exprime dans le temps de jeu ; analyser la réceptivité des représentations sociales et spatiales des jeux vidéo par les joueurs, entre acceptation passive, rejet, appropriation et détournement. Du point de vue méthodologique, nous avons réalisé une enquête statistique nationale par le CREDOC afin de répondre aux objectifs prévus dans les axes 1 et 2 du projet. Les résultats de cette enquête sont en cours de traitement. Nous pensons construire également des cartes cognitives pour illustrer certains points d’analyse abordés dans les axes 3 et 4. Parallèlement à ces deux outils méthodologiques, nous avons constitué des enregistrements multimodaux de situations de jeux vidéo afin de mener des analyses linguistiques et interactionnelles fines attendues dans l’axe 4. Enfin, pour l’ensemble des objectifs présentés dans les quatre axes, nous menons des entretiens semi-directifs avec des joueurs. 1.2 Les situations de jeux vidéo enregistrées Nous allons maintenant présenter les situations de jeux vidéo enregistrées dans le cadre du projet LUDESPACE. Pour cela, nous avons pris en compte certaines variables répondant à différentes interrogations qui sont centrales par rapport aux objectifs donnés dans notre projet. Après avoir présenté les situations d’enregistrement, nous expliquerons l’approche ethnographique du recueil des données que nous pratiquons souvent en linguistique interactionnelle. 1.2.1 Les interrogations et variables retenues L’utilisation d’enregistrements audiovisuels de situations naturelles de jeux vidéo nous permet d’apporter un matériau inédit afin de répondre à des questions qui ne peuvent être traitées 8 La notion de retro-gaming signifie jouer à un jeu ancien. 23 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco pendant les entretiens semi-directifs et au moment de l’enquête. Après une discussion commune au sein de l’équipe de recherche, nous avons privilégié douze situations de jeux vidéo à enregistrer en tenant compte de différentes variables et interrogations pertinentes pour notre objet d’étude. Nous avons conscience qu’avec ces douze enregistrements, il est impossible de faire varier toutes les variables géographiques ou sociologiques qui intéresseraient certains membres de l’équipe. C’est pourquoi, l’enregistrement audiovisuel de joueurs en situation de jeu vidéo vise principalement à faire émerger des styles de jeu, mais ne peut être utilisé pour établir des généralisations. Il s’agit ici d’une approche de type ethnographique. À partir de ces considérations générales, les enregistrements en situation de jeu vidéo visent à répondre à différentes interrogations : – – – – – – Les styles de jeu varient-ils selon les lieux du jeu ? Joue-t-on de la même façon seul dans sa chambre ou dans le salon avec un public ? Comment un espace quotidien peut être détourné par le jeu ? Comment, au fur et à mesure d’une session de jeu vidéo, le joueur s'approprie-t-il l’espace ? Quels affects primaires (moments de tension et de relâchement, rythmes) s’expriment à travers la pratique vidéoludique ? Comment le lieu du jeu fait-il varier ces affects ? Quelles sont les interactions langagières lorsque le joueur est plongé dans son « environnement domestique naturel » ? Ainsi, les principales variables retenues pour les choix de mise en situation sont les suivantes : – – – – – Lieux du jeu : lieu de travail ; salon ; chambre à coucher ; LAN domestique ; cybercafé. Localisation géographique du lieu : urbain, périurbain, etc. Nombre de joueurs : jeu en solo et jeu à plusieurs. Console/support matériel : Wii, PC, Playstation, Nintendo DS portable9, etc. Type de jeu : party-game, jeu à sauvegarde (Zelda, GTA, etc.), jeu en multi-joueurs (foot, FPS, etc.), etc. Lors de nos discussions, la question du moment du jeu a été également évoquée (jouer le soir, le week-end, etc.), mais elle n’a pas été retenue car des éléments de réponses étaient apportés par les résultats de l’enquête. De plus, cette variable aurait ajouté une contrainte supplémentaire dans l’accès au terrain. Par ailleurs, il nous semblait difficile de faire varier des indicateurs sociologiques (régions, catégories sociaux professionnelles, etc.) avec un échantillonnage réduit d’enregistrements. Suite à cette mise en commun des interrogations et des variables à prendre en compte pour notre étude, nous obtenons les douze situations de jeux suivantes : – – – – 9 un LAN domestique, sur PC à plus de 4 joueurs au travail, sur PC ou console portable (tablette, téléphone, etc…), en solo dans un cybercafé, sur PC, à plusieurs dans un salon o sur Wii et Kinect, entre 1 et 4 joueurs, avec des party games o sur Playstation, à 2 joueurs, avec des jeux de course et de foot o sur PC ou console, à 1 joueur, avec des jeux en solo à sauvegarde o sur Wii, à 1 joueur, avec des jeux en solo à sauvegarde o sur console (en ligne), à 1 joueur, avec des jeux multi-joueurs La Wii, la Playstation et la Nintendo DS sont trois consoles de jeux vidéo du fabricant Nintendo. Les deux premières sont des consoles de salon, qui se branchent sur un écran pour afficher le jeu, et auxquelles on connecte des manettes de jeu. La troisième est une console portable, qui possède son propre écran et ses propres boutons d'action. 24 « Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo » – par Isabel Colón de Carvajal dans une chambre (un seul joueur) o sur PC ou console, avec des jeux en solo à sauvegarde o sur PC ou console (en ligne), avec des jeux multi-joueurs o sur console portable ou téléphone mobile o dans les transports, sur téléphone mobile ou console portable. 1.2.2 Une approche ethnographique du recueil des données10 Qui dit « recueil de données » dit travail de terrain (fieldwork). L'exigence du travail de terrain émerge (à partir de 1880) dans le domaine de l'anthropologie, discipline voisine de la linguistique. Cette exigence de faire du terrain a été par la suite reprise dans de nombreuses disciplines des sciences humaines et sociales, avec des finalités diverses. Les pratiques ethnographiques se sont elles-mêmes diversifiées, il existe par exemple : – – l’ethnographie multi-site (Marcus, 1998), consistant à suivre en parallèle plusieurs terrains, plusieurs réseaux d’acteurs, plusieurs objets dans plusieurs lieux. Cette ethnographie multi-site est aussi facilitée par les allers-retours fréquents entre l’« académie » et le « terrain », contrairement à ce qui était le cas pour les longues permanences sur des terrains éloignés. l’ethnographie quick and dirty (Hugues et al., 1995), qui reconnaît que face aux permanences de plusieurs années sur le terrain des anthropologues traditionnels, les pratiques ethnographiques dans les sociétés contemporaines sont plus fragmentaires, plus rapides, plus mouvantes. Cette idée a surtout été reprise et développée dans le cadre de la conception d'innovations technologiques. En linguistique interactionnelle, les exigences du travail de terrain sont étroitement associées aux exigences de la constitution de corpus enregistrés (Mondada, 2011), ce qui rend spécifiques ces pratiques de terrain (par rapport à la « simple » prise de notes) ; le terrain est conçu en vue des enregistrements qu'il prépare, c'est-à-dire en tenant compte de : – – – – la sélection des activités à enregistrer, parmi les multiples événements qui se déroulent sur le terrain. la compréhension des activités, de leur représentativité, de leur sens dans le contexte et selon leurs interrelations, de leur structuration, de leur durée, de leurs cadres de participation. l’identification des spécificités du cadre et du site qui détermineront les choix techniques pour l'enregistrement, les conditions à observer pour la prise de vue et de son (de la qualité de l’ambiance sonore à la qualité de la lumière aux possibles cadrages). du contact avec les personnes concernées en vue d’obtenir leur accord pour être enregistrées. Par ailleurs, l’enregistrement des données est une opération matérielle et technique qui doit être conçue et réalisée en fonction d'objectifs et d'objets d'analyse11. Cette opération vise à capturer des données audio et vidéo afin de rendre disponibles, et donc analysables, les détails linguistiques, multimodaux et situationnels (regards, gestes, mouvements, actions, objets, cadre physique) pertinents pour l'interaction enregistrée. Ces détails pertinents sont à la fois : – – ceux que les participants exploitent de manière située pour produire et interpréter l'intelligibilité de leurs conduites. ceux que les analystes exploitent pour rendre compte de l'organisation de l'interaction, sur la base des orientations montrées par les participants. 10 Voir Groupe ICOR, 2006a. 11 Voir Groupe ICOR, 2006b. 25 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Les enregistrements sont donc régis par la nécessité de prendre en compte : – – – – le déroulement temporel de l’interaction. l’écologie de l’interaction, c'est-à-dire la manière dont elle se déploie dans l’espace. le cadre de participation qui caractérise l’interaction. les objets qui sont mobilisés par les interactants. Ces exigences posent toute une variété de problèmes pour la conception du dispositif d’enregistrement. La réussite de l'opération dépend fortement de la qualité de la phase de terrain réalisée avant l’enregistrement lui-même. Les choix à opérer pour l'enregistrement sont guidés par des considérations techniques et de savoir-faire qui sont elles-mêmes dépendantes d'exigences théoriques et analytiques. On peut également rappeler que les dispositifs d'enregistrement doivent aussi prendre en compte dans leur conception le degré d'intrusion qu'ils peuvent représenter et/ou que les participants sont prêts à accepter. Dans notre projet qui associe différentes approches théoriques, cette méthodologie de travail de terrain et de recueil de corpus donne à voir des expériences vidéoludiques variables selon les contextes. Elle permet aussi d’observer précisément l’évolution dans le temps et dans l’espace d’une ou plusieurs sessions de jeu, les interactions sociales et spatiales qui se nouent entre les joueurs et le support de jeu, entre les joueurs et leur environnement, et enfin entre les joueurs eux-mêmes. Le corpus ainsi recueilli peut être analysé en fonction des intérêts scientifiques de chacun, en utilisant également les outils d’analyses associés à chaque discipline concernée. Une première partie des enregistrements a été réalisée entre le printemps et l’automne 2012. Nous avons au minimum deux vues d’une même situation de jeux vidéo : i) le joueur dans son espace ; ii) l’écran du joueur. Pour certaines situations, nous avons la vue supplémentaire des mains du joueur manipulant le contrôleur de la console (ou le clavier et la souris de l’ordinateur). Dans cet article, nous présenterons deux situations de jeux : Une session de Mario à quatre joueurs sur console Wii : IMAGE 1 : Vue multiscope joueurs/écran Avec deux prises de vue : un plan général sur les quatre joueurs assis dans le canapé du salon (à gauche) ; un plan sur l’écran de la télévision (à droite). 26 « Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo » par Isabel Colón de Carvajal Une session de jeux en réseau local (LAN) à huit joueurs sur ordinateur : IMAGE 2 : Vue multiscope groupes/joueurs/écran Avec six prises de vue : un plan général sur les quatre joueurs installés dans le bureau (en haut à gauche) et un autre sur les quatre joueurs installés dans le salon (en haut à droite) ; un plan sur un des joueurs du bureau (au milieu à gauche) et un autre sur l’un du salon (au milieu à droite) ; un plan sur l’écran du joueur enregistré du bureau (en bas à gauche) et un autre sur l’écran de celui enregistré dans le salon (en bas à droite). Nous avons également disposé deux sources d’enregistrement audio dans chacune des pièces. Pour la situation de jeux en LAN, le dispositif d’enregistrements a été plus complexe que pour les autres situations enregistrées. En effet, la répartition des huit joueurs dans deux pièces séparées a nécessité un déploiement des prises de vues afin de couvrir l’ensemble des déplacements possibles des participants entre les deux espaces de l’appartement. De plus, il nous a semblé pertinent d’enregistrer l’activité de deux joueurs situés chacun dans une pièce afin d’observer plus finement leurs pratiques de jeux en train de se construire à l’intérieur d’une dynamique de groupe. 2 L’identi ication des joueurs dans l’espace du jeu : une première analyse linguistique A partir de ces deux situations de jeux vidéo en multi-joueurs, nous avons repéré un premier objet d’analyse linguistique portant sur les questions d’identification des joueurs dans l’espace du jeu. Nous avons listé différentes formes linguistiques que produisent les joueurs pour faire référence à un avatar, un personnage du jeu lorsqu’ils ne l’identifient plus dans l’espace du jeu, et le moment où les joueurs produisent ces références dans le déroulement de l’action du jeu. Ces formes linguistiques sont par exemple : « j` suis qui/ » ; « t` es où/ » ; « c’est qui le bleu » ; « j` suis où/ j` suis là\ » ; « j` suis avec toi » ; « c’est toi le jaune ». A partir de ce constat, nous avons problématisé la question d’identification des joueurs par les participants eux-mêmes au cours de l’activité de jeu afin de comprendre les enjeux et les conséquences que cela peut avoir dans la réussite (ou non) du jeu collectif. En analysant finement ces moments d’identifications, nous cherchons à répondre aux différentes interrogations suivantes : 27 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco – – – – – – Cela renvoie-t-il à un apprentissage du jeu plus ou moins expert ? Comment traiter une réponse immédiate vs. tardive à la question « c’est qui xx/ » ? Quel sens donné à la question « t’es où/ » ? Représente-t-elle de facto une demande d’identification explicite ? L’identification de l’autre (et de l’autre dans l’espace du jeu) fait-elle partie du jeu ? Qui résout l’identification ? et permet-elle de gagner le jeu ? Quels sont les moments d’identification dans le jeu et en fonction de quel type de jeu ? (plutôt au début dans Starcraft vs. de manière continue dans Mario). Pour mener à bien cette étude, nous avons construit une collection d’extraits représentant le même phénomène linguistique observé. Dans le point suivant, nous présentons brièvement la notion de collection telle qu’elle est définie en Analyse Conversationnelle. 2.1 L’établissement d’une collection d’extraits Dans les méthodologies analytiques issues de l’Analyse Conversationnelle, il est d’usage d’analyser un phénomène, une activité, une problématique à partir soit d’un exemple unique appelé single case (Schegloff, 1987) ; soit en établissant une collection d’extraits qui présente le même phénomène, la même activité, ou la même problématique (Schegloff, 1993). La constitution d’une collection se réalise de manière manuelle et peut être aidée par des outils de requêtes automatiques. En d’autres termes, une collection, ce n'est pas simplement la même action, mais c'est la même action, et/ou les mêmes ressources formelles (linguistiques, multimodales) dans le même environnement séquentiel. Après avoir constitué une collection d’extraits représentatifs pour notre analyse, nous sommes passée à la phase de transcription des tours de parole dans un premier temps, puis des informations multimodales dans un second temps. Nous présentons ci-après des exemples de transcriptions ainsi obtenues. 2.2 La transcription des interactions Il s’agit d’un travail essentiel dans le processus d’analyse de conversations et d’activités sociales. Grâce aux enregistrements et à une réécoute possible, nous réalisons des transcriptions très détaillées et exhaustives des énoncés échangés entre les participants. La transcription est une opération qui effectue une transformation des données orales, temporelles, en inscriptions écrites, spatiales, fixes. Cette transformation configure les données. Les systèmes de transcription diffèrent selon une disposition spatiale des tours par les différents participants ainsi qu’une disposition et représentation spatiale des commentaires sur le contexte, les gestes, la prosodie et les conventions de notation relatives aux énoncés (Edwards et Lampert, 1993). Dans un premier temps, nous transcrivons l’ensemble des productions langagières en indiquant certains éléments caractéristiques de l'oral en interaction tels que les chevauchements notés par les crochets « [ ] », les pauses en secondes quantifiées notées par exemple « (1.2) » ou les micro-pauses inférieures à 0.2 secondes notées « (.) (..) ou (…) », les intonations montantes et descendantes notées « / » ou « \ », les élisions notées par l’antiquote « ` », les allongements notés « : » « :: » ou « ::: » selon sa durée, etc12. L’extrait 01 ci-dessous présente un exemple de transcription des échanges produits par les participants pendant la partie de jeux en réseau (LAN). Il y a huit joueurs (Emma, Dominique, Vincent, Philippe, Romain, Mika, Etienne et Sylvain) repartis dans deux pièces adjacentes. 12 Pour une description plus détaillée des conventions de transcription, voir en fin d’article. 28 « Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo » par Isabel Colón de Carvajal L’une des difficultés ici est de représenter les conversations en parallèle en essayant de rendre compte de qui est le destinataire adressé dans chaque tour de parole. Dans notre système de transcription en liste (Selting et al., 1998), nous proposons d’indiquer les moments de schismes par un double encadré. Ainsi, il faut lire, par exemple, que des lignes 7 à 10, Philippe et Vincent interagissent ensemble, simultanément à l’échange entre Dominique et Romain (lignes 11 et 12). Nous avons également indiqué en caractère gras les mentions d’identification par les participants. Extrait 01 : LAN_003634 (j` suis bleu/ t` es rouge/) 1 EMM 2 DOM 3 VIN 4 EMM 5 VIN 6 7 PHI 8 VIN 9 PHI 10 11 DOM 12 ROM 13 DOM 14 15 PHI 16 DOM 17 EMM 18 DOM 19 20 MIK 21 EMM 22 PHI 23 24 ROM 25 PHI 26 27 DOM 28 PHI 29 30 EMM 31 DOM 32 33 DOM 34 35 PHI 36 37 MIK 38 PHI 39 40 EMM 41 42 EMM 43 44 45 DOM 46 47 ROM ouais/ ah ben [on s:` ] fait des équipes par couleur ou bien// [hi// ah//] [on n’a pas l` choix/ c’est aléatoire\ ] [j` suis bleu/ t` es quoi phil t` es rouge/] (0.2) j` suis rouge d’accord\ [ça] veut tout dire\ [je] (0.4) °nan nan mais tu p[eu::x ] tu peux choisir ta couleur& [nan tu peux choisir\] &en fait\° (0.2) [je n’entends plus/] [.h:: ] oh] la la// mais tu démarres direct par celle là/& [°°c’est quoi c` xx°° ] &c’est moche:/ (0.7) xxxx mais c’est quoi: le: but du jeu là/ ah ben::/ à: la bonne vieille/ ça ça marche bien\ (5.8) eh:: on est bleu connard/ mars/ j` suis avec toi/ (0.3) yes// j` suis à côté/ (0.3) [c’est pas compliqué/ t` es habillé en bleu//] [((rire)) ] (2.5) t` es rouge// (0.6) j` suis rouge ouais\ (2.7) faut prendre quel [x (le truc)] j` vois valdrek et another [voi:là\ ] (1.2) euh:: (0.4) on était dans la même équipe hein\ donc je sais pas qui a qui a qui est-ce qui m’a dégommé/ mais on est dans la même équipe là\ alors j` vous dis qu` c’est pas très glorieux hein\ nan nan\ celui qui t’a dégommé <il est pas là ((en riant))> (0.4) c’est philippe qui t’a mis une balle dans la tête\ 29 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco 48 VIN 49 50 51 oh non ça y est ça snippe\ c’est parti\ aller d’accord\ j’ai compris l` principe/ (0.3) vous voulez la jouer comme ça/ on peut la jouer comme ça\ y a pas d` problème\ .h:: ça va être lou:rd/ mai:s on peut\ (0.9) Dans un deuxième temps, nous transcrivons les contributions non-verbales à l’interaction produites par les participants tels que les gestes ou les regards. Dans notre situation de jeu vidéo, nous avons également pris soin de transcrire les actions des personnages observables sur l’écran – personnages qui sont contrôlés par les joueurs – et dont l’évolution a une importance au niveau du déroulement du jeu et de l’interaction entre les participants. La multimodalité introduit alors un cours d’action parallèle à celui de la parole. De fait, elle impose la multiplication de lignes de transcriptions qui ne sont pas successives aux tours de paroles mais simultanées. Dans l’extrait 02 ci-dessous, nous proposons une transcription multimodale d’un échange entre les quatre joueurs (Lucas, Véro, Dominique et Léa) de Mario sur Wii. Les descriptions non verbales sont transcrites en gris et les personnages visibles à l’écran sont nommés en fonction de leur couleur (mb pour mario bleu, mv pour mario vert, etc.). Les mentions d’identification sont toujours indiquées en caractère gras dans la transcription. Extrait 02 : Mario_002010 (t` es où véro/) 1 LUC mb mv 2 3 4 mr VER DOM mj 5 6 mj LEA mv mj ecr 7 8 9 mj mb LEA LUC ecr mv 10 11 LEA 12 mv 13 LUC §+ouh la/ §touche tortue et perd une taille +descend au sol sous une rangée de briques-->l.4 (0.2) %(0.3) %touche tortue et perd une taille @[c’est quoi/] [°°xx°° ] @sur une rangée de briques (0.4) @(0.6) @casse brique au-dessus +ne @#shoote pas @là d`dans/ +saute à gauche pour éviter carapace @shoote sur carapace tortue @casse brique au dessus #carapace descend au sol @§(0.2) @avance dans le jeu sur la droite §touche tortue et meurt ((rire)) #+ah:// j` suis mort// #carapace tue champi ennemi au sol +descend au sol sur une rangée de briques (..) ben oui parce que c’est pour ça qu` j` te disais de pas shooter d`dans parc` +qu’en fait euh:\= +immobile sur la rangée de briques =§et j’étais pas là 30 « Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo » mb 14 15 DOM 16 LEA §revient à l’écran par la droite dans une bulle (0.2) @[x xx ] x [t` es où véro/] mj 17 VER 18 mv 19 LEA 20 21 LEA @saute sur tuyau vert j` suis là\ +(1.2) +avance dans le jeu sur la droite bon alors allons-y\ (0.6) tiens petit là prends le drapeau/ par Isabel Colón de Carvajal L’analyse d’une interaction orale dans sa globalité demande au transcripteur de porter un intérêt à l’ensemble des phénomènes présents dans l’interaction. A partir du moment où il est nécessaire de représenter les phénomènes autres que la parole orale, l’analyste peut se heurter à des questions d’ordre théorique comme par exemple : – – – – – Le geste a-t-il une valeur d’unité analytique pertinente ? Le geste peut-il être considéré comme une unité de construction du tour ou comme un point pertinent de transition ? Les silences ont-ils une valeur en tant qu’unité de tour pertinent ayant des conséquences sur la construction de l’interaction ? Tous les actes non verbaux sont-ils suffisamment pertinents pour être représentés dans la transcription ? Quelles sont les limites de la description des phénomènes multimodaux ? A partir de cette collection d’extraits transcrits, nous avons dégagé quelques résultats concernant les formes d’identification produites par les participants au cours du jeu. Ces premiers résultats sont présentés au point suivant. 2.3 Quelques résultats Nous avons effectué une première typologie des formes d’identification des joueurs dans l’espace du jeu, en se focalisant sur la variation des structures syntaxiques que les participants produisent pour identifier un joueur au cours du jeu. Nous avons relevé des constructions syntaxiques similaires entre les deux situations de jeu étudiées (sur Wii vs. sur ordinateur en LAN). Cette typologie, que nous espérons affiner avec le temps, nous permet d’établir une répartition des différents types d’identification selon certaines caractéristiques associées à un joueur. En effet, nous avons observé que les participants peuvent chercher à identifier à la fois un joueur ou un personnage, mais également la position d’un personnage dans l’espace du jeu. Ils cherchent aussi à identifier l’appartenance d’un joueur à une équipe ou encore à identifier un joueur dans l’action du jeu. Afin de mieux se représenter les différentes formes d’identification produites par les participants, nous allons illustrer cette première typologie à travers quelques exemples (représentés en italiques) tirés de nos deux situations de jeu. 31 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco 2.3.1 Identifier un joueur ou un personnage L’identification des joueurs ou des personnages dans le jeu se fait souvent sous une forme interrogative avec l’emploi du pronom « qui » comme élément récurrent du tour. Les participants construisent différentes structures syntaxiques autour du pronom interrogatif « qui » comme par exemple : – – – – – – – C’est qui qui + Verbe : « C’est qui qui tape les murs » ; « c’est qui qui est tout en bas » Qui c’est qui + Verbe : « qui c’est qui l` prend » ; « qui c’est qui s’est fait découper en rondelle » Qui + Verbe : « qui n’a pas eu son champi » ; « qui a bouffé » C’est qui + Nom commun (avatar/couleur/…) : « c’est qui c` bolide » ; « c’est qui Valdrek » C’est + Nom propre (prénom joueur) + qui + Verbe : « c’est Vincent qui l’a » A qui + Pronom sujet + Verbe : « à qui tu parles » Pronom sujet + Etre + qui + Pronom tonique : « attends j` suis qui moi\ » ; « t` es qui toi/ » 2.3.2 Identi ier la position d’un personnage ou d’un objet dans l’espace du jeu Nous avons relevé de nombreuses occurrences d’identification dont l’objectif est de préciser la position spatiale du personnage dans le jeu. Ces formes d’identification sont syntaxiquement marquées par l’emploi du pronom interrogatif « où » placé en début ou en fin de tour, et conjugué au présent ou au passé comme par exemple : – – – – – (Pronom tonique) + Pronom sujet + Etre + où + (Pronom tonique) : « j` suis où » ; « toi t` es où » ; « on est où » ; « ils sont où » ; « vous êtes où » (Nom commun) + Pronom sujet + Etre + où + (Nom commun) : « t` es où Véro » ; « Phil t` es où » ; « il est où l` dernier counter » (Objet) + Pronom sujet + Etre + où + (Objet) : « il est où mars » ; « il est où l` drapeau » ; « bon notre drapeau il est où » ; « il était où » Où + Pronom sujet + Etre + Nom propre : « où t` étais Philippe » Où + Pronom sujet + Verbe + Nom avatar : « par où il est passé Kintarau » Les participants utilisent également différentes locutions prépositives marquant l’espace dans le jeu ou des déictiques spatiaux : – – – « j` suis en haut/là haut/à côté/en face/de l’autre côté » « t` es là toi » « on est côte à côte » 2.3.3 Identi ier l’appartenance d’un joueur à une équipe Nous avons aussi relevé un type d’identification permettant aux joueurs de connaître leur appartenance à une équipe donnée. Pour cela, les participants utilisent soit une construction syntaxique marquée par l’emploi des pronoms toniques « moi ; toi ; vous » comme par exemple : – « mars j` suis avec toi » ; « t` es avec moi ou pas toi » ; « j` suis avec vous bande de boulet » Ils utilisent parfois des formats syntaxiques plus explicites où les participants énoncent le nom du joueur, sa couleur ou encore le nom de l’équipe : – « t` es rouge » ; « ah mais attends t` es rouge toi » ; « il est bleu maintenant Vincent » ; « nous on est contre terroriste » 32 « Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo » par Isabel Colón de Carvajal 2.3.4 Identi ier un joueur dans l’action du jeu Dans cette dernière catégorie, certains participants identifient un joueur en utilisant soit sa couleur, soit le nom de son avatar dans une situation d’instruction bien précise. Ils emploient alors des verbes d’action associés à la couleur ou à l’avatar du joueur : – « attends le bleu » ; « le rouge la récupérait » ; « le bleu monte » De manière générale, les participants cherchent à identifier plus souvent la position d’un personnage ou d’un objet dans le jeu Mario sur console Wii ; alors qu’ils s’intéressent plus à l’identification d’un joueur ou d’un personnage lui-même ou à l’appartenance d’un joueur à une équipe dans les jeux en réseau LAN sur ordinateur. Enfin, nous avons observé que, dans les identifications d’un joueur ou de sa position dans le jeu, les énoncés interrogatifs marqués par les pronoms « qui » et « où » peuvent être suivis par une auto-réponse (produite par le même locuteur de la question), par une hétéro-réponse (produite par un locuteur différent de la question) ou par l'absence de réponse. Dans une analyse plus approfondie, nous souhaitons étudier ces constructions interactionnelles questions/réponses afin d’évaluer les conséquences que cela peut produire dans le déroulement de l’activité de jeu. 3 Conclusions et perspectives analytiques 3.1 Une grille d’analyse ouverte Un premier visionnage des enregistrements en situation de jeu nous a permis d’établir une grille d’analyse assez riche et ouverte afin de répondre aux problématiques proposées dans le projet LUDESPACE. Cette grille reprend des points d’intérêt pouvant être communs selon les approches théoriques de chacun. Ainsi, nous proposons d’étudier l’expérience vidéoludique lors de sessions de jeu vidéo en se focalisant particulièrement sur : – – – – – – – les moments de tension et de relâchement. le retour sur l’expérience par les joueurs. les moments de connexion et de déconnexion. la question du plaisir et du déplaisir dans le jeu. la perception de l’autre et de l’espace. les formes de compétence, de « savoir jouer ». les formes de compétition entre les joueurs. 3.2 Les requêtes semi-automatiques dans CLAPI Cette première analyse linguistique sur les types d’identification des joueurs dans l’espace du jeu a été réalisée manuellement, à la lecture des deux situations de jeu présentées ici. Dans le cadre du quatrième axe portant sur les interactions, nous pensons utiliser les outils de requêtes semi-automatiques proposés par la plateforme CLAPI13 développée par l’équipe médiathèque du laboratoire ICAR (CNRS, Université de Lyon). Ces outils de requêtes nous permettront d’obtenir rapidement, à partir d’un mot donné ou d’un phénomène linguistique (chevauchement, pause, allongement, etc.), des résultats quantitatifs intéressants à analyser, et ainsi développer des analyses qualitatives basées sur des extraits pertinents et représentatifs14. Nous aurons également accès à d’autres informations quantifiées automatiquement sur 13 Site Internet de la plateforme CLAPI : http://clapi.univ-lyon2.fr/ 14 Pour une présentation plus détaillée de la plateforme CLAPI : Groupe ICOR, 2008, 2009 et 2010. 33 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco l’ensemble des transcriptions en fonction de chaque locuteur. Celles-ci nous donneront des indications quant à la répartition des tours de parole entre les participants (avec et sans chevauchements) ainsi que les enchaînements de parole entre les locuteurs c'est-à-dire qui parle après qui. é érences ALVAREZ, J. (2007). Du jeu vidéo au serious game : approche culturelle, pragmatique et formelle. Thèse de doctorat, Universités de Toulouse-le-Mirail et Toulouse-Paul Sabatier. AMATO, É. A. (2008). Le Jeu vidéo comme dispositif d’instanciation. Du phénomène ludique aux avatars en réseau. Thèse de doctorat, Université Paris 8. BACZKOWSKI, S. (2004). La Contamination du cinéma américain contemporain par les jeux vidéo : convergence et divergences. Thèse de doctorat, Université de Toulouse-le-Mirail. BOUTET, M. (2006). De l’ordinateur personnel aux communautés en ligne. S’orienter dans les mondes informatiques. Thèse de doctorat, Université de Nice Sophia-Antipolis. CADOR DELCOURT, M. (2007). L’Addiction aux jeux vidéo : une activité autoérotique ? Approche des fonctions du jeu vidéo dans l’économie psychique des joueurs. Thèse de doctorat, Université de Toulouse-le-Mirail. BERRY, V. (2009). Les cadres de l’expérience virtuelle : jouer, vivre et apprendre dans un monde virtuel. Analyse des pratiques ludiques, sociales et communautaires des joueurs de jeux de rôles en ligne massivement multi-joueurs : Dark Age of Camelot et World of Warcraft. Thèse de doctorat, Université Paris 13. BLANCHET, A. (2009). Les synergies entre cinéma et jeu vidéo : histoire, économie et théorie de l’adaptation vidéoludique. Thèse de doctorat, Université de Paris-Nanterre. BRUNO, P. (1993). Les Jeux vidéo. Paris, Syros. COAVOUX, S. (2009). La différenciation sociale des pratiques du jeu vidéo en ligne. Le cas de World of Warcraft. Mémoire de Master 2, ENS de Lyon. COAVOUX, S. (2010). La carrière des joueurs de World of Warcraft. In CRAIPEAU S., GENVO, S. ET SIMONNOT, B. (éds.), Les jeux vidéo au croisement du social, de l’art et de la culture. Nancy, Presses Universitaires de Nancy, pages 43-58. COLON DE CARVAJAL, I. (2011). Les énoncés choraux : une forme de segments répétés émergeant dans les interactions de jeux vidéo. In RUFAT, S. et TER MINASSIAN, H. (éds.), Les jeux vidéo comme objet de recherche. Paris, Questions théoriques, pages 146–163. EDWARDS, J. A. et LAMPERT, M. D. (1993). Talking data: transcription and coding in discourse research, Hillsdale. New Jersey, Lawrence Erlbaum. GENVO, S. (2006). Le Game design des jeux vidéo : une approche communicationnelle et interculturelle. Thèse de doctorat, Université de Metz. GOODWIN, C. (2000). Action and Embodiment Within Situated Human Interaction. Journal of Pragmatics, 32, pages 1489–1522. GROUPE ICOR. (2006a). La démarche ethnographique. http://icar.univ-lyon2.fr/projets/ corinte/recueil/demarche_ethnographique.htm. [consulté le 18/07/2012]. GROUPE ICOR. (2006b). Enregistrement des corpus d’interactions. http://icar.univ-lyon2.fr/ projets/corinte/recueil/enregistrement.htm. [consulté le 18/07/2012]. GROUPE ICOR. (2008). Tool-assisted analysis of interactional corpora: "voilà" in the CLAPI database. Journal of French Language Studies, 18, pages 121–145. 34 « Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo » par Isabel Colón de Carvajal GROUPE ICOR. (2009). Exploitation de la plateforme CLAPI : Le cas de voilà dans les chevauchements. Cahiers de Linguistique, 33-2, pages 243–268. GROUPE ICOR. (2010). Grands corpus et linguistique outillée pour l’étude du français en interaction (plateforme CLAPI et corpus CIEL). Pratiques - Interactions et corpus oraux, 147–148, pages 17-34. HUGHES, J., KING, V., RODDEN, T. et ANDERSEN, H. (1995). The role of Ethnography in Interactive Systems Design. Interactions, 2-2, pages 56-65. MARCUS, G. E. (1998). Ethnography Through Thick and Thin. Princeton, Princeton University Press. MONDADA, L. (2011). Exigences analytiques pour l’enregistrement de la parole-en-interaction (version 3.0.2). Protocole pour les enregistrements vidéo. Lyon, Laboratoire ICAR. PETER, C. (2007). "Motricité virtuelle" et communication médiatisée : usages sociaux des jeux vidéo. Thèse de doctorat, Université Paris 5. SCHEGLOFF, E. A. (1987). Analysing single episodes of interaction: An exercise in conversation analysis. Social Psychology Quarterly, 50-2, pages 101–114. SCHEGLOFF, E. A. (1993). Reflections on Quantification in the Study of Conversation. Research on Language and Social Interaction, 26, pages 99–128. SELTING, M. et al. (1998). Gesprächsanalytisches Transkriptionssystem (GAT), pages 1-38. TREMEL, L. (1999). Les Faiseurs de mondes. Essai socio-anthropologique sur la pratique des jeux de simulation. Thèse de doctorat, EHESS. TREMEL, L. (2001). Jeux de rôle, jeux vidéo, multimédia. Les faiseurs de monde. Paris, Presses universitaires de France. YAN, C. (2007). Jeux vidéo multijoueurs ubiquitaires adaptatifs : principes de conception et architecture d’exécution. Thèse de doctorat, CNAM. 35 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Enjeux, outils et méthodologie de constitution de corpus d’apprentissage Ciara R. Wigham et Aurélie Bayle Clermont Université, Laboratoire de Recherche sur le Langage [email protected], [email protected] RESUME____________________________________________________________________________________________________________________ Notre recherche porte sur des interactions multimodales collaboratives issues de situations d’apprentissage de langue étrangère (L2) dans des mondes synthétiques (virtuels). Cet article décrit l'intérêt de construire des corpus d'apprentissage dans le cadre de nos travaux de thèses ainsi que la méthodologie employée. Un corpus d'apprentissage assemble un ensemble de données structurées issues d'une expérimentation de formation en ligne dont le contexte est décrit par un scénario pédagogique et un protocole de recherche. Nous présentons les étapes de constitution d'un tel corpus ainsi que les outils utilisés en s'appuyant sur des exemples concrets issus des recueils de nos données, de leur structuration et des analyses faites. Nous montrons que les analyses sont facilitées grâce à la vue d'ensemble donnée par un corpus structuré et qu'un tel corpus aide à la visibilité des travaux scientifiques de thèse. ABSTRACT__________________________________________________________________________________________________________________ Building a LEarning and TEaching Corpus: Issues, Tools and Methodology Our research focuses on multimodal, collaborative interactions during foreign language learning situations in synthetic (virtual) worlds. This article describes the benefits of building LEarning and TEaching Corpora (LETEC) in the framework of our doctoral studies and the methodology employed to do so. A LEarning and TEaching Corpus is defined as a structured entity containing all the elements resulting from an online learning situation, whose context is described by a pedagogical scenario and a research protocol. Through the use of concrete examples from our data collection, structuration and analyses, we present the stages and tools involved when building this type of corpus. We show that our analyses are facilitated due to the global view the structured corpus offers and how a LEarning and TEaching Corpus helps to increase the visibility of the scientific work undertaken during our doctoral studies. corpus d’apprentissage, didactique des langues-cultures, interactions multimodales en ligne, mondes synthétiques, outils KEYWORDS: LEarning and TEaching corpus (LETEC), language didactics, multimodal online interactions, synthetic worlds, tools MOTS-CLES : 1 Introduction Dans le domaine des sciences humaines et plus particulièrement des sciences du langage, un problème fréquemment soulevé est celui de l’importance de rendre les données de recherche visibles et les publications accessibles, dans le but d’accroitre la validité scientifique et la facilitation d’exploitation des publications (Reffay, Betbeder et Chanier, 2012). Dans le cadre de cette problématique, pour notre recherche portant sur des interactions multimodales collaboratives issues de situations d’apprentissage de langue étrangère (L2) dans des mondes synthétiques (virtuels), nous adoptons l’approche méthodologique des corpus d’apprentissage (LEarning and TEaching Corpora, LETEC). Dans cet article, nous présentons la notion de corpus d’apprentissage, le contexte de nos thèses et les raisons pour lesquelles nous optons pour l’approche LETEC avant d’entrer dans les détails des composants d’un corpus d’apprentissage et la structuration de ce dernier. Nous expliquons, à travers des exemples concrets issus de nos travaux de recherche, les processus de recueil, de structuration et d'analyse des données portant sur le rôle du clavardage dans les interactions multimodales et l’influence du comportement de l’animateur sur les interactions des étudiants. Nous montrons qu’une 36 « Enjeux, outils et méthodologie de constitution de corpus d’apprentissage » par Ciara R. Wigham et Aurélie Bayle méthodologie adoptant l'approche LETEC débute dès la mise en place du dispositif d'apprentissage et du protocole de recherche et se poursuit au-delà du processus d'analyse. Nous verrons également de quelle manière un corpus d'apprentissage facilite les analyses et les rend visibles grâce à la mise en parallèle des données ayant servi aux analyses avec les résultats de ces analyses présentés dans les publications scientifiques. 2 Corpus d'apprentissage (LEarning and TEaching Corpora, LETEC) : vue d'ensemble Un corpus d'apprentissage est un ensemble de données structurées composé de tous les éléments issus d'une situation de formation en ligne recueillis en fonction d'un protocole de recherche : Un corpus d'apprentissage en ligne assemble de façon systématique et structurée un ensemble de données, particulièrement d’interactions, et de traces issues d’une expérimentation de formation partiellement ou totalement en ligne, enrichies par des informations techniques, humaines, pédagogiques et scientifiques permettant leur analyse en contexte. (Mulce-documentation, 2011). Selon l'approche LETEC, un corpus n'est pas simplement une collection de documents numériques mais doit couvrir un paradigme composé de quatre facettes : le recueil systématique des documents, la description du contexte, l'organisation et l'instrumentalisation en vue de traitements et les dispositions en vue de l'échange et du partage (table 1). Recueil systématique des documents liés à l'objet d'étude - Productions des participants Dispositions en vue de l'échange et du partage - Aspects technologiques - Documents recueillis numérisés - Dépôt du corpus dans des formats ouverts en accès libre - Documents en rapport concernant le avec le protocole de contexte recherche d’élaboration - Métadonnées décrivant - Documents les caractéristiques de déroulement de la formation Organisation et instrumentalisation en vue de traitements - Aspects pédagogiques - Documents décrivant le Description du contexte l’œuvre, ses acteurs suivant les standards - Documents adaptés aux différents outils - Documents organisés dans des langages de balisage ouverts aux traitements (XML) et structurés suivant des schémas standards (TEI) ou accessibles à tous dans une banque de corpus qui a un serveur indexable - Règles du jeu de l’utilisation du corpus sous forme de licence TABLE 1- Quatre facettes d'un corpus (d'après Chanier et Ciekanski, 2010) Par rapport à un corpus d'apprenants (learner corpora, Granger, Hung et Petch-Tyson, 2002), un corpus d'apprentissage ne s'intéresse pas seulement aux apprenants mais considère tous les participants, y compris les tuteurs. Plutôt que de focaliser sur des productions, souvent issues de contrôles de connaissances (Reffay et al., 2008), et de comparer ces productions avec celles d'interlocuteurs natifs (Belz et Vyatkina, 2009), un corpus d'apprentissage comprend en plus les interactions entre participants durant la formation et le contexte dans lequel ces interactions ont lieu. 37 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco La notion de corpus d'apprentissage a été développée dans le cadre de l'ANR Mulce (Mulcedocumentation, 2011) dans le but de structurer et de contextualiser des données issues de formations en ligne. Elle répond aux critères énoncés dans la table 1 en rendant explicites les liens entre les données d'instanciation (en incluant les traces d'interactions), le contexte technique (décrit dans le protocole de recherche), le contexte d'apprentissage (décrit dans le scénario pédagogique) et éventuellement les analyses (figure 1). Etant donné que la réplication du contexte écologique d'une situation d'apprentissage collaboratif en ligne est pratiquement impossible en raison du nombre de variables incontrôlables (Reffay, Betbeder et Chanier, 2012), des analyses cumulatives et contrastives sont difficiles à réaliser. Même si le scénario pédagogique est réappliqué avec un groupe d'apprenants différents, les phénomènes observables ne seront pas nécessairement identiques. Un deuxième objectif est donc de rendre disponibles les données structurées à la communauté scientifique 1 pour permettre aux chercheurs extérieurs à l'expérimentation de conduire de nouvelles analyses facilitées par le fait que les données d'un corpus d'apprentissage sont structurées dans un formalisme indépendant (IMS-CP, 2007) et pérenne en éliminant les formats propriétaires des logiciels ou plateformes d'apprentissage. FIGURE 1 - Schéma des composants d'un corpus d'apprentissage (Mulce-documentation, 2011). 3 Contexte de notre recherche Dans cette partie, nous introduisons les mondes synthétiques, l'environnement qui est l'objet de nos études avant de présenter nos problématiques de recherche et l'intérêt d'utiliser un corpus d'apprentissage dans nos méthodologies. Nous présentons ensuite nos terrains de recherche. 3.1 Environnement d'apprentissage étudié Un monde synthétique, tel que Active Worlds (Active Worlds, Inc., 1997), Moove Online (Moove, 1999) ou Second Life (Rosedale, 2011) est un environnement synchrone auquel on accède à partir d’une interface graphique en trois dimensions, qui est persistant et interactif. Les utilisateurs se connectent à travers un réseau et interagissent par le biais d’un avatar (Book, 2004, Bell, 2008). Ces environnements sont nommés de différentes manières dans la littérature. 1 Les corpus sont disponibles dans la banque bpclermont.fr:8080/PlateFormeMulce/). 38 de données Mulce (http://mulce.univ- « Enjeux, outils et méthodologie de constitution de corpus d’apprentissage » par Ciara R. Wigham et Aurélie Bayle Le terme "monde virtuel" est peut-être le plus courant. Nous préférons opter pour le terme "monde synthétique" car dans ces environnements, l’interaction et l’apprentissage se produisissent réellement. Nous faisons donc le choix d’éviter le terme "virtuel" qui est souvent opposé au "réel". 3.2 Intérêt des mondes synthétiques pour la formation en langues étrangères Antonacci et al. (2008) suggèrent plusieurs potentialités des mondes synthétiques pour l'apprentissage. Ici nous les mettons en lien avec l’apprentissage d’une langue étrangère. Premièrement, ils suggèrent que ces mondes offrent des possibilités pour l'accomplissement de tâches considérées comme difficiles dans le premier monde2. Cela peut aider des apprenants à contextualiser la L2 et, à partir de la contextualisation, à transférer les connaissances acquises aux situations de communication authentiques dans le premier monde. Deuxièmement, pour Antonacci et al., l’accès persistant favorise les interactions sociales. Concernant l’apprentissage des langues, il permet des interactions avec des interlocuteurs natifs et donc les possibilités pour des tâches authentiques. La persistance de l’environnement permet également à un apprenant de retourner à l’environnement d’apprentissage pour interagir à nouveau avec des objets d’apprentissage. Finalement, Antonacci et al. soulignent l’intérêt de ces environnements pour la collaboration. En effet, dans ces mondes synthétiques, les apprenants peuvent être actifs mais également acteurs, participant à la co-construction du monde. Peterson (2011), qui s'intéresse à l’apprentissage de l’anglais L2, souligne que la possibilité de créer des objets qui ont une signifiance personnelle pourrait stimuler l’engagement et l’investissement dans l’environnement d’apprentissage et ainsi la motivation de l’apprenant. Dalgarno et Lee (2009) expliquent également que les multiples modes de communication favorisent la collaboration car le mode spatial et le non verbal augmentent le sentiment d’appartenance des apprenants et donc, les relations et la communication efficace entre eux. Le fait que la communication en L2 passe à travers un avatar a également été cité comme affordance de ce type d’environnement pour l’apprentissage de L2. Sanchez (1996) et Schweinhorst (2002) suggèrent que l'avatar peut réduire l’appréhension d’un apprenant à s’exprimer en L2. De ce fait, il pourrait se sentir plus à l’aise pour prendre des risques dans la L2 (Teoh, 2007) ; un comportement qui facilite l’apprentissage des langues (Peterson, 2011). 3.3 Problématiques communes à notre recherche et intérêt d'un corpus d'apprentissage dans nos travaux Nos thèses portent sur des interactions multimodales collaboratives issues de situations d’apprentissage de L2 dans des mondes synthétiques (virtuels), dans le cadre des projets Archi21 et Slic. Dans le projet Archi21, une formation a été conçue dans une approche Emile (Enseignement d'une Matière Intégré à une Langue Etrangère) pour mêler l'apprentissage en architecture et en langues étrangères (français et anglais). Le projet Slic a mis en relation des apprenants de L2 avec des futurs enseignants pour réaliser des tâches collaboratives sur des thématiques culturelles. Nos problématiques de recherche s'intéressent directement aux rapports entre les affordances des dispositifs pédagogiques dans ce nouveau type d’environnement d’apprentissage, le type de tâche mis en place et les interactions entre participants (apprenants, tuteurs, natifs). Il nous parait donc nécessaire de constituer un objet de recherche complet qui rassemble tous les éléments issus du dispositif de formation et dans lequel les interactions entre tous les 2 Nous utilisons la notion de "premier monde" en opposition à "monde synthétique", souvent appelé "deuxième monde". 39 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco participants, et pas seulement les productions des apprenants, sont mises en avant en prenant en compte leur contexte de réalisation. Le deuxième intérêt d'utiliser un corpus dans nos travaux de recherche vient du fait que la structuration des données dans un format XML facilite les analyses. La structuration permet à un chercheur de gagner du temps s'il veut employer des outils de traitement et d'analyse différents à partir du même ensemble de données. Les analyses sont également facilitées grâce à la vue d'ensemble donnée par un corpus structuré qui permet de faire des comparaisons entre séances, entre groupes et entre les différents outils utilisés par les apprenants. Finalement, nous voyons l'intérêt d'une approche par corpus du fait que nous travaillons dans des projets avec des partenaires extérieurs qui pourront être amenés eux aussi à travailler sur les données pour leur propres objectifs de recherche ou pour compléter nos analyses, par exemple dans le cadre du projet Archi21 avec des analyses dans le domaine de l'architecture. 3.3.1 Le projet Archi21 Le projet européen Archi21 a pour but d’étudier l’approche Emile pour pallier le manque de cours spécialisés dans le domaine de l’architecture en L2 généralement observé dans l’enseignement supérieur. Le projet cherche à aider les étudiants à maitriser une L2 pour valider leurs diplômes au niveau Master (Joint Quality Initiative, 2004) afin de faciliter leur mobilité. Dans le cadre de ce projet, une formation hybride appelée "Building Fragile Spaces" a été menée en février 2011. Comportant des séances en présentiel et à distance, la formation s’est déroulée sur 5 jours, de façon intensive, avec 17 étudiants qui avaient l’anglais ou le français comme L2. Ces étudiants étaient accompagnés par deux enseignants d’architecture en présentiel, un anglophone et un francophone, et deux tuteurs de langue à distance dont un enseignait l’anglais et l’autre le français. Lors de la formation, les étudiants travaillaient en petits groupes organisés par L2 et devaient créer un modèle dans le monde synthétique Second Life qui répondait à une problématique désignée par les enseignants d’architecture. Pour les accompagner dans cette tâche, des séances réflexives, entre autres (voir Rodrigues et al., à paraître), étaient menées par les tuteurs de L2. Les objectifs de ces séances étaient à la fois architecturaux et linguistiques. En L2, les étudiants devaient s’exprimer sur leur contribution personnelle au travail de groupe, sur les retours faits par les enseignants d’architecture sur leur modèle et sur la façon dont ils allaient les prendre en compte dans l’avancement de leur travail. Le point culminant de la formation était la présentation des modèles en L2 par chaque groupe le dernier jour de la formation, sur laquelle les étudiants étaient notés. 3.3.2 Le projet Slic Le projet Slic (Second Life InterCulturel) est le fruit d'une collaboration entre l'Université Blaise Pascal (UBP) à Clermont-Ferrand et Carnegie Mellon University (CMU) à Pittsburg, Etats-Unis (Bayle, Foucher et Youngs, 2012). Ce projet a mis en relation 21 apprenants de français de CMU avec 14 étudiants de Master en Didactique des Langues et Cultures, spécialité Français Langue Etrangère et Seconde (DLC-FLES) à l'UBP. L'expérimentation s'est déroulée entre septembre et décembre 2011. Sept groupes de 4 à 6 étudiants (dont 2 de l'UBP) ont mené des tâches collaboratives dans le monde synthétique Second Life. Le projet s'est structuré en 5 étapes précédées d'une introduction au monde synthétique. De plus, les participants avaient accès à la plateforme Moodle, utilisée comme espace de ressources, de consignes et d'échanges asynchrones entre les séances synchrones. L'objectif de la formation était, pour tous les participants, le développement de compétences interculturelles. Pour les étudiants de CMU, il s'agissait également de développer leurs compétences orales en français et d'approfondir le cours qu'ils suivaient à CMU. Slic a permis aux étudiants de l'UBP de découvrir l'utilisation pédagogique d'un environnement informatique, la FOAD, et d'avoir une première expérience de prise de responsabilités dans une situation pédagogique à distance et d'utilisation des moyens de communication. En effet, ils avaient la tâche supplémentaire, à tour de rôle, 40 « Enjeux, outils et méthodologie de constitution de corpus d’apprentissage » par Ciara R. Wigham et Aurélie Bayle d'animer les séances synchrones. Les tâches collaboratives ont été conçues à partir du programme de l'enseignante de français à CMU qui enseignait le module "Introduction to French culture". Les grandes thématiques de ce programme (langue, identité, symboles, actualités) ont constitué le canevas du projet Slic puisque chaque étape correspondait à une thématique. A la fin de chaque étape, les étudiants devaient collaborer pour produire divers documents (compte-rendu de séance, diaporamas, cartes conceptuelles, tableaux). 4 Démarche méthodologique L'adoption d'une approche par corpus d'apprentissage est constituée de quatre phases chronologiques : avant l'expérimentation, pendant l'expérimentation, post-expérimentation et post-recherche. Nous décrivons ici chaque phase de cette approche. 4.1 Avant l'expérimentation L'élaboration d'un dispositif de formation implique de réfléchir, en amont, aux objectifs, étapes, méthodes, modalités de travail, environnements, rôles des participants, etc. L'établissement d'une progression pédagogique prenant en compte tous ces éléments constitue le scénario pédagogique qui décrit et guide le déroulement de la formation. Si ce dispositif doit faire l'objet d'un travail de recherche, il est également nécessaire d'élaborer un protocole de recherche qui se compose des questions de recherche sur lesquelles vont se baser les analyses ainsi que du protocole de recueil de données. C'est en effet au moment où l'on conçoit le dispositif de formation que l'on définit quelles données seront recueillies et de quelle manière, quel sera le rôle des chercheurs et comment vont se dérouler les activités propres à la recherche. 4.2 Recueil de données pendant l'expérimentation Les protocoles de recherche élaborés pour suivre les formations dans le cadre des projets Archi21 et Slic impliquaient de recueillir des données à l'intérieur du monde synthétique ainsi qu'à l'extérieur de l'environnement d'étude. Les données d’interaction provenant des mondes synthétiques sont multimodales et donc très diverses (Wigham et Chanier, à paraître-a). Le mode verbal produit des données dans la modalité audio ainsi que dans la modalité clavardage. Dans le mode non verbal, il faut prendre en compte la modalité proxémique (l’orientation de l’avatar, mouvement de l’avatar vers un autre) et la modalité kinésique (le regard, les gestes et les expressions faciales des avatars) ainsi que les productions effectuées qui peuvent être la production et l'utilisation des artefacts dans l’environnement (apparition ou construction) ou la production d’un texte, par exemple dans un éditeur de texte collaboratif, sur une note ou sur un tableau blanc interactif (figure 2). Vu la diversité des données provenant du monde synthétique, leur gestion n’est pas facile. Leur mode de recueil peut être semblable à celui d’autres environnements ou peut nécessiter des compétences spécifiques pas forcement maitrisées par les chercheurs, telles que l’enregistrement vidéo ou la programmation d’objets dans le monde synthétique (Yee et Bailenson, 2008). Le recueil nécessite également la présence d’un avatar dans le monde synthétique pour capter les interactions. Bayle et Foucher (2011) soulignent les avantages et les contraintes générées par le choix d’avoir soit un avatar-chercheur présent dans le monde synthétique, soit de capter les données à partir des écrans des participants dans la formation. En ce qui nous concerne, dans les formations Building Fragile Spaces et Slic, nous avons opté pour le choix d’un avatarchercheur. Pour diminuer l’impact potentiel de "l’observation participante" (Blanchet, 2011) 41 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco sur les dynamiques entre participants (cf. "le paradoxe de l’observateur", Labov, 1972), nous avons choisi un avatar dont la forme était celle d’un petit animal (figure 3) pensant que les étudiants adresseraient moins la parole à un avatar non-morphologique (cf. Wigham et Chanier, à paraître-b) et de ce fait que le chercheur serait aussi discret que possible. FIGURE 3 - L’avatar-chercheur FIGURE 2 – Modalités de communication Avant les formations, dans le protocole de recherche, nous avons décrit la façon dont le chercheur allait positionner son avatar, en le plaçant à un endroit où il est possible de capter un maximum d’éléments. C'est primordial car le clavardage public n’apparait que dans la fenêtre de clavardage des avatars qui sont à 20 mètres autour de la personne qui communique et l’audio public ne peut être entendu que par les avatars à 60 mètres de l’interlocuteur. L’avatar-chercheur a procédé à des enregistrements des séances en utilisant des logiciels d’enregistrement vidéo d’écran : Fraps (Beepa, 2012) et Camtasia (TechSmith Corporation, 2010). Le compte de l'avatar-chercheur dans le monde synthétique a également été paramétré pour enregistrer le clavardage en texte brut. Nos dispositifs de formation ont également donné lieu à des données ne provenant pas des mondes synthétiques. Pour les besoins de la recherche, nous avons obtenu l'accord des participants pour utiliser les données qu'ils ont produites. Nous leur avons également soumis des questionnaires pré- et post- formation en ligne (KwikSurveys, n.d.) pour faciliter le recueil et le traitement des réponses. Certains étudiants ont participé à des entretiens après la formation, conduits dans un environnement audio-graphique synchrone et enregistrés en utilisant le logiciel SkypeRecorder (Nikiforov, 2011). S'ajoutent à ces données les descriptions des acteurs, des environnements utilisés ainsi que le scénario pédagogique. Pour le projet Slic, Moodle a été utilisé en complément de Second Life. Les données provenant de cette plateforme d'apprentissage (messages dans les forums, consignes, productions et ressources) ont été extraites au format XML. 4.3 Post-expérimentation : Constitution du corpus global Dans cette section, nous décrivons les composants d'un corpus d'apprentissage (section 4.3.1) avant d'expliquer comment ils sont structurés dans le corpus (section 4.3.2). Pour mieux comprendre cette section, le lecteur pourra télécharger un corpus global, par exemple celui d'Archi21 (Chanier et Wigham, 2011).3 Il verra que les composants du corpus correspondent à des répertoires et pourra explorer le "manifeste" en parallèle de sa lecture de la section 4.3.2 en ouvrant le fichier "imsmanifest.xml" dans un éditeur XML tel qu'Oxygen (SyncRO Soft SRL, 2012). 3 La création d'un compte sur Mulce-repository (2011) sera nécessaire. 42 « Enjeux, outils et méthodologie de constitution de corpus d’apprentissage » par Ciara R. Wigham et Aurélie Bayle 4.3.1 Composants du corpus Les données primaires d'un corpus d'apprentissage sont organisées au sein de quatre répertoires correspondant aux quatre constituants du corpus : instanciation, scénario pédagogique, licences, protocole de recherche. Ces données sont dites "primaires" car elles ne sont pas brutes, elles ont été extraites, anonymisées et converties dans un format ouvert (Reffay et al., 2008). 4.3.1.1 Instanciation Le composant "instanciation" est le noyau d'un corpus d'apprentissage. Premièrement, il regroupe les enregistrements des interactions des participants lors la formation, sous forme vidéo, audio ou textuelle, et les productions des participants de la situation d'apprentissage en ligne, par exemple, dans le cadre du projet Slic, les comptes rendus écrits à chaque séance par le groupe, ou dans le cadre du projet Archi21 les images des modèles finaux créés à partir de la problématique. Ce composant peut également rassembler les traces système, par exemple, dans le cadre du projet Slic, le temps de connexion des participants à la plateforme Moodle et les statistiques sur leur participation. Deuxièmement, le composant instanciation rassemble les questionnaires remplis, les enregistrements des entretiens post-formation et les documents utilisés lors de l'expérimentation. (par exemple, les grilles utilisées pour conduire les entretiens ou des images et vidéos utilisées lors des entretiens pour provoquer une réponse du participant). Dans le projet Archi21, nous avons montré des images d'avatars aux étudiants lors des entretiens en leur demandant d'expliquer leur choix d'apparence d'avatar et nous avons également montré des clips des activités dans une activité d'auto-confrontation pour solliciter leurs explications sur la non-réussite de la tâche. Avant de regrouper toutes les données et documents primaires (les ressources) dans la partie "instanciation", une phase de prétraitement est nécessaire. Ils sont tout d'abord anonymisés. L'anonymisation consiste à la fois à remplacer l'utilisation des patronymes par les codes acteurs et, si nécessaire, de modifier toutes les informations qui pourrait conduire à l'identification d'un participant ou qui pourraient biaiser l'interprétation des chercheurs. Ensuite, les données et documents sont convertis en formats ouverts et pérennes. L'élimination des formats propriétaires rend les ressources adaptables à différents outils que les chercheurs, à la fois à l'intérieur du projet et extérieurs à l'expérimentation, pourraient être amenés à employer. 4.3.1.2 Scénario pédagogique et protocole de recherche Ces éléments sont considérés comme des éléments de contexte. Ils sont décrits en se référant à la norme IMS Learning Design (2003) et permettent de comprendre et de pouvoir traiter les données issues d'une expérimentation dans une situation de formation en ligne. Nous avons choisi de modéliser nos scénarios pédagogiques et nos protocoles de recherche à l'aide du logiciel MotPlus (Paquette, 2009). MotPlus permet de créer des modèles correspondant à la norme IMS-LD. Il permet de décrire une situation d'apprentissage en faisant apparaitre les relations entre les micro-tâches, les environnements de communication où elle a lieu et le rôle des participants (tuteurs et apprenants) ainsi que d'exposer les étapes du protocole de recherche. De plus, comme MotPlus se réfère à la norme IMS-LD, la description dans ce format permet de rendre les scénarios pédagogiques et les protocoles de recherche interopérables et compréhensibles pour les chercheurs n'ayant pas participé à nos expérimentations. Dans le corpus, les scénarios pédagogiques et les protocoles de recherche peuvent être consultés en format html ou MotPlus. 4.3.1.3 Licences Le composant "licence" est constitué de deux parties, l'une privée, l'autre publique. La partie privée contient tous les contrats de consentement signés avant l'expérimentation par les participants. Elle contient également un fichier tableur dans lequel figurent les coordonnées des participants et les patronymes liés aux codes acteurs utilisés pour l'anonymisation des données. Comme cette partie privée de la licence concerne le respect des droits et de l'éthique des participants, elle n'est pas intégrée directement au corpus mais est conservée par le 43 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco responsable de ce dernier. La partie publique comprend un exemplaire du contrat de consentement remis aux participants et la licence d'utilisation du corpus qui indique les droits de l'éditeur du corpus et des futurs utilisateurs (chercheurs, praticiens). Pour les corpus déposés dans la banque de données Mulcerepository (2011), la licence Creative Commons est employée. Elle détaille les conditions sous lesquelles les analyses par des chercheurs extérieurs à l'expérimentation sont permises à partir du corpus. 4.3.2 Structuration du corpus Une fois les composants du corpus rassemblés et traités, ils sont structurés. Un corpus d'apprentissage s'organise en trois parties (figure 4). FIGURE 4 – Structuration du corpus d'apprentissage. Dans la partie 3 se trouvent les données primaires qui ont été prétraitées. A chaque ressource est attribué un identifiant. Un index regroupe chaque ressource avec un identifiant et un résumé de celle-ci (partie 2). Ce dernier est structuré dans le sens où les ressources sont regroupées dans l'index. Par exemple, l'ensemble de données concernant une activité ou concernant les entretiens se retrouveront ensemble. Finalement, les données sont structurées dans la partie 1 du corpus (le "manifeste"). Le manifeste est structuré en langage de balisage XML suivant plusieurs schémas. Nous avons utilisé le logiciel Oxygen (SyncRO Soft SRL, 2012). Le manifeste contient des informations sur chaque composant du corpus d'apprentissage vu dans la section 4.3.1. Il inclut un "memberlist" (voir figure 4) qui fournit des informations sur la biographie langagière de chaque participant et une liste de division des participants (apprenants-tuteurs-chercheurs/groupes de travail). La liste "platforms" décrit les environnements employés dans la formation. L'exemple 1 montre un exemple d'entrée dans le "memberlist" du corpus Archi21 (Chanier et Wigham, 2011). Le participant dont le code acteur est Tfrez1, est une tutrice de l'Université Blaise Pascal. Elle a 24 ans, le français est sa langue maternelle et l'anglais sa L2. Tous les autres participants sont décrits de la même manière dans le manifeste. (1) <actor id="Tfrez1" designation="xxx" status="teacher" institution="Université Blaise Pascal" country="fra" gender="female" age="24" L1="fra " L2="eng" L3="esp"/> La partie interactions est structurée de manière hiérarchique selon le "Structured Interaction Data model" (Mce_sid, 2011). Elle est organisée à partir de "workspace elements" qui correspondent à des "lieux" dans lesquels "des acteurs disposent d’outils (dotés de certaines fonctionnalités explicitées) et interagissent dans une période donnée" (Reffay et al., 2008) (voir Figure 4). Dans nos corpus, un "workspace" correspond à une structure d'activités définie dans le scénario pédagogique. 44 « Enjeux, outils et méthodologie de constitution de corpus d’apprentissage » par Ciara R. Wigham et Aurélie Bayle Dans chaque "workspace", la description de l'environnement technologique où l'activité a eu lieu est donnée à côté des dates de début et de fin de l'activité, des acteurs qui participaient et des outils à leur disposition. Les ressources qui correspondent à la structure d'activité (partie 3) sont liées. Un ensemble de métadonnées générales sur le corpus est aussi inclus dans le manifeste. Il contient les métadonnées concernant les contributeurs au corpus selon les standards déterminés par OLAC (Open Language Archives Community, Olac-metadata, 2008). Les trois parties du corpus d'apprentissage sont enveloppées dans un conteneur ("content packaging") qui correspond à un format prescrit par IMS. Cela permet le dépôt dans une banque de données, par exemple Mulce-repository (2011). L'intérêt de faire cela ne vient pas simplement des avantages du partage en libre accès des données structurées. Le dépôt permet également de rendre le travail visible par le référencement dans des réseaux tels que OLAC (2011) ou CLARIN (2012) et d'obtenir un identifiant OAI (Open Archives Initiative) permettant de le citer de la même façon qu'un article scientifique. 4.3.3 Post-recherche : Dans cette section, nous décrivons les opérations d'analyse ayant lieu suite à la constitution et au dépôt du corpus global et, à partir de ces analyses, la notion de corpus distinguable. Transcription des interactions 4.3.3.1 Transcription des interactions La transcription des données recueillies dans le monde synthétique a été faite sur le logiciel ELAN (Max Planck, 2001) et selon une méthodologie prédéterminée (Saddour, Wigham et Chanier, 2011). Ce logiciel est bien adapté pour la transcription de la langue des signes et nous intéresse particulièrement pour transcrire les aspects non verbaux des séances de travail. Nos transcriptions rendent compte de tous les actes verbaux et non-verbaux effectués par les participants dans l’environnement. Chaque transcription indique une modalité liée à un acteur. Pour les actes verbaux, le contenu de la production est transcrit. Pour les actes non-verbaux, un code d’annotation est attribué à chaque type d’acte. Par exemple, le code "move(arm_L)" est utilisé si un avatar fait l'acte kinésique de bouger son bras gauche. Chaque annotation est alignée temporellement à la source vidéo. Le contenu écrit des annotations est en Unicode et la transcription conservée dans un format XML. Tout fichier de transcription est lié à un fichier de métadonnées réalisé sur le logiciel IMDI MEtadata Editor (Max Planck, 2000-3). Il est conçu pour décrire des ressources et des données multimodales en format XML et permet de saisir plusieurs informations sur les acteurs (participants dans la séance vidéo, chercheurs, collecteurs, déposants, diffuseurs, éditeurs) et de fournir une description des différentes ressources (fichier vidéo, fichier clavardage, fichiers images). 4.3.3.2 Analyses Une fois que les données sont structurées au sein d'un corpus, elles sont reliées et contextualisées et peuvent être analysées. Le format XML permet d'utiliser différents logiciels d'analyse tels que Tatiana (2008) pour l'aide à l'analyse d'interactions ou Calico (2009) pour l'analyse de forums. Il permet également d'annoter facilement les données et d'effectuer un certain nombre de calculs et de requêtes complexes (voir exemples d'analyse dans la section 5). 4.3.3.3 Constitution de corpus distinguables A partir d'une analyse sur une question de recherche précise et à partir des données du corpus global, un chercheur peut produire un "corpus distinguable". L'intérêt de cette procédure est soit d'associer une publication avec les données analysées, soit de partager l'analyse dans laquelle les données sont mises en forme pour un outil employé lors de cette analyse. Chanier et Ciekanski (2010) expliquent qu'un corpus distinguable constitue, en même temps, un sous- 45 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco corpus du corpus global d'apprentissage et un corpus en soi. Il utilise le même format qu'un corpus global LETEC mais ne contient que les données modifiées lors de l'analyse. Une description structurée du corpus est donnée par rapport au corpus global. Elle prend la forme de "commentaires libres et d'index précis renvoyant sur chacune des sous-parties du corpus global" (Chanier et Ciekanski, 2010). Concernant nos projets, un corpus distinguable a été produit pour chaque séance transcrite. Le corpus contient dans son "manifeste" les données modifiées lors de la transcription. Dans la partie "workspace", pour la séance transcrite, chaque acte d'interaction est décrit par un identifiant, une référence à l'outil avec lequel il a été effectué (forum, clavardage), le type d'acte (modalité), une référence à l'auteur de l'acte et une date de début et de fin. Le contenu de l'acte est inclus. Pour les actes non verbaux, le code pour décrire l'acte figure à la place du contenu. Chaque acte, que l'interaction ait eu lieu dans l'audio, le clavardage ou dans une modalité non verbale, est donc encodé de façon homogène, ce qui permet la recherche ou la visualisation des données d'interaction de façon différente selon l'analyse à effectuer. Un corpus distinguable a également été produit à partir d'une analyse qui mettait en lien la communication non-verbale des avatars des apprenants avec la participation verbale en L2 dans le cadre du projet Archi21 (Wigham et Chanier, 2012) dans le but d'associer la publication de l'analyse (Wigham et Chanier, à paraitre-b) avec les données employées. Nous sommes actuellement en train de préparer des corpus distinguables concernant les analyses que nous allons maintenant présenter dans les sections 5.1 et 5.2. 5 Corpus d’apprentissage et acilitation d’analyse à travers des exemples Nous présentons dans cette section deux exemples d'analyses tirés des formations Building Fragile Spaces et Slic afin de montrer comment l'approche par corpus a facilité nos analyses. 5.1 L’utilisation des modes de communication par des groupes d’apprenants di érents Dans le cadre de la formation Building Fragile Spaces, nous avons étudié l'utilisation des modalités verbales (audio et clavardage) par les participants (Wigham et Chanier, 2012b). Nous nous sommes intéressés à la place et au rôle du clavardage dans un monde synthétique où cette modalité est non seulement en compétition avec l'audio mais également avec des modalités non verbales. Nos questions de recherche étaient les suivantes : - S'il est utilisé, pour quelles fonctions discursives le clavardage est-il employé ? - Le clavardage offre-t-il aux tuteurs la possibilité de proposer de la rétroaction ? - Vu la nature multimodale du monde synthétique, les étudiants arrivent-ils à répondre à la rétroaction éventuelle dans le clavardage ou cela présente-t-il une surcharge cognitive ? Nous avons analysé les données de 6 séances réflexives (voir 3.3.1) à partir de 5 corpus distinguables dans lesquels les interactions sont transcrites (Chanier, Saddour et Wigham, 2012e) et une ressource "resource-archi21-lact-slrefl-av-avi" du corpus global (Chanier et Wigham, 2011) qui a été transcrite mais pour laquelle nous mettons actuellement en place le corpus distinguable. 3 séances concernaient des groupes de travail dont la L2 était le français et 3 séances concernaient des groupes dont la L2 était l'anglais. Pour chaque séance nous avons, à partir des transcriptions des séances, annoté les données en XML. Trois couches d'annotation ont été effectuées. Pour répondre à notre première question de recherche, nous avons annoté chaque acte de clavardage selon sa fonction discursive. 5 46 « Enjeux, outils et méthodologie de constitution de corpus d’apprentissage » par Ciara R. Wigham et Aurélie Bayle catégories et codes ont été employés : socialisation (soc), technique (tech), gestion du discours (cm), forme (form) et activité (task). Ensuite, pour analyser l'utilisation du clavardage pour la rétroaction, pour chaque acte de clavardage concernant la forme, nous avons annoté la rétroaction selon leur type (à partir de la classification de Bower et Kawaguchi, 2011) et l'auteur de la rétroaction (tuteur, pair, étudiant). Nous avons également annoté le type de production non standard auquel la rétroaction répondait (erreur typologique, lexicale, grammaticale, pragmatique, idiomatique ou de prononciation). Finalement, pour établir si les étudiants répondaient aux rétroactions et comment, nous avons annoté chaque instance de réponse selon quatre catégories: répétition de la rétroaction, intégration réussie de la rétroaction dans le discours, intégration non-réussie de la rétroaction dans le discours et l'accusé de réception ('acknowledgement') de la rétroaction. L'exemple 2 illustre notre méthodologie d'annotation. Un participant, Arnaudrez, effectue un acte audio (tpa) d'une durée de 26 secondes. 12 secondes après le début de cet acte audio, le tuteur Tfrez2 intervient dans le clavardage (tpc). La fonction discursive de son acte concerne la forme. L'annotation 37 montre que le tuteur corrige une erreur de type grammaticale (ntl="gram") en utilisation une reformulation (cf="rec"). Cette reformulation concerne l'annotation 36 dans la production d'Arnaudrez. Nous notons, dans l'annotation 38, que l'étudiant répète la rétroaction offerte (type="cf-rpt"). (2) tpa, Arnaudrez [12:31-12:57]: and this is a very personal work so +++ Brad gave some ways to to begin and + then our reflection <anno id="an36">lead lead us</anno> hm + different different ideas <anno id="an38"type="cf-rpt" ref="an37">led us</anno> tpc, <form>, Tfrez2 [12:53-12:53]:<anno id="an37" function="form" ntl="gram" type="cf-rec" author="tut" ref="an36">led us</anno> Le fait d'avoir structuré nos données d'interaction dans un corpus LETEC nous a permis de les annoter en XML. De ce fait, nous avons pu utiliser un outil d'analyse quantitative de corpus, Comptage (Lotin, 2012), sur les données structurées de chaque séance ce qui a facilité les comparaisons des données entre séances, entre groupes (français/anglais) et les différentes approches employées par les tuteurs. Notre analyse a montré une différence entre l'utilisation des modalités audio et clavardage selon la L2 du groupe. Les groupes dont la L2 était l'anglais (sc et es) ont utilisé en moyenne 141 actes de clavardage par séance comparé à 150 actes audio en moyenne. Les groupes français (ls et av) ont utilisé en moyennne 21 actes de clavardage par séance comparé à 128 actes audio. Concernant la fonction discursive des actes de clavardage, le clavardage n'était pas simplement utilisé quand des problèmes techniques survenaient dans l'audio. Dans 5 des 6 séances analysées, la majorité des actes de clavardage concernaient l'activité. Dans les séances en anglais, en moyenne 22% des actes de clavardage étaient des interventions concernant la forme. En revanche, dans les séances en français, seulement 1 ou 2 actes de clavardage concernaient la forme lors d'une séance donnée. Nous nous sommes donc concentrés sur les groupes de L2 anglais pour poursuivre l'analyse. Pour les séances en anglais, la plupart de ces interventions faisaient suite à des erreurs de lexique (51%) ou de grammaire (36%). Nos données ont montré 3 exemples d'autocorrection dans le clavardage et 3 exemples de correction par un pair. 43 actes de rétroaction étaient offerts par le tuteur, dont 32 qui étaient une reformulation de la production audio d'un étudiant. 58% des rétroactions offertes par le tuteur d'anglais ont reçu des réponses de la part des étudiants. Le plus souvent, ces réponses prenaient la forme d'une répétition de la rétroaction (9) ou d'un accusé (9). Nos données ont montré 7 exemples de reprise de la forme corrigée dans le clavardage dont quatre étaient correctes. 20 des 25 réponses à la rétroaction étaient dans des actes audio. Cela montre la capacité des étudiants à jongler entre les deux modalités. Dans Wigham et Chanier (2012b) nous détaillons beaucoup plus cette étude. Ici, nous 47 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco souhaitons surtout souligner que l'analyse a été possible, voire facilitée, grâce à la vue d'ensemble donnée par le corpus structuré. Cela nous a permis, premièrement, de concevoir une méthodologie pour coder des séances en XML et donc, par la suite, d'utiliser des outils d'analyse de corpus et, deuxièmement, de faciliter la comparaison des analyses entre séances, groupes et tuteurs. L'utilisation d'un format d'annotation de balisage XML permet ensuite à d'autres chercheurs d'approfondir notre analyse. Par exemple, l'étude de Rodrigues et Wigham (2012) a repris les données annotées dans le cadre de cette étude sur le clavardage pour ajouter une quatrième couche d'annotations XML dans le but d'étudier l'aide à la résolution des points de vocabulaires problématiques. Nous voyons donc le gain d'un corpus structuré pour que dans une équipe de chercheurs, chacun avec ses propres questions de recherche puisse travailler ensemble : l'analyse de chacun enrichit le corpus et par la suite, des analyses croisées aident à mieux comprendre les interactions dans le monde synthétique. 5.2 Analyse des interactions animateur-étudiants A partir des données issues de la dernière étape du projet Slic, nous avons analysé et comparé les interactions entre animateurs et étudiants dans deux groupes différents (Bayle et Youngs, 2013). Notre hypothèse était que les animateurs avaient différentes "techniques" d'animation, plus ou moins similaires à la structure d'interaction "traditionnelle" enseignant-apprenant et que cela avait une influence sur les interactions des étudiants entre eux et avec l'animateur. Notre analyse a donc focalisé sur les différents styles d'animations de deux animateurs ainsi que sur l'influence de ceux-ci sur l'interaction dans le groupe entre l'animateur et les étudiants ainsi qu'entre les étudiants entre eux. Nos questions de recherche étaient les suivantes : - Quel comportement l'animateur adopte-t-il durant la séance étudiée ? - Comment se réalise l'interaction dans le groupe en fonction du comportement de l'animateur ? Nous avons analysé les données des transcriptions de la dernière séance du projet pour deux des sept groupes. Chaque acte de parole a été annoté en fonction de plusieurs critères. Dans un premier temps, nous avons annoté le destinataire de chaque acte de parole (animateur, groupe, étudiant). A un niveau plus précis, nous avons annoté la fonction de l'acte de parole (salutations, aspects techniques, contribution, nouvelle proposition, question de compréhension, réponse fermée, etc.). Nous avons également effectué des comptages généraux (nombre de mots, nombre de tours de parole, fréquence de prise de parole au cours de la séance, etc.) pour dresser un profil des séances et les comparer. Notre analyse a révélé une différence de style d'animation entre les deux animateurs ainsi qu'une différence dans la manière dont l'interaction se déroulait dans le groupe. En effet, dans le premier groupe étudié, les deux étudiants de master ont pris le rôle d'animateur, d'où un déséquilibre préalable. L'animateur "officiel" contrôlait totalement la discussion et l'interaction était du type de celle que l'on retrouve traditionnellement en classe : question de l'enseignant, réponse de l'étudiant, rétroaction de l'enseignant (McCarthy, 1991). De plus, les questions des animateurs étaient souvent directives, fermées et nominatives, ce qui empêchait les étudiants américains de développer leurs idées. A l'inverse, dans le deuxième groupe, l'animatrice donnait aux étudiants la liberté d'interagir entre eux, de prendre des responsabilités dans le déroulement des tâches, ses questions étaient souvent ouvertes et appelaient à un dialogue, une négociation. Son comportement se rapprochait de ce que Shrum et Glisan (2010) appellent un comportement positif de l'enseignant. Du côté des étudiants américains, on retrouve également des différences dans les manières d'interagir liées aux comportements des animateurs. Dans le premier groupe, des comportements directifs et dominants incluant des questions dirigées nominativement à un étudiant ont empêché les étudiants d'émettre de nouvelles idées, d'interagir entre eux. Les étudiants de ce groupe se sont également positionnés comme simples apprenants et non comme 48 « Enjeux, outils et méthodologie de constitution de corpus d’apprentissage » par Ciara R. Wigham et Aurélie Bayle membre d'un groupe et se sont contentés de répondre aux questions des animateurs sans prendre d'initiatives. Dans le deuxième groupe, les étudiants américains ont pu prendre des initiatives, s'exprimer librement et se sont adressés à la fois à l'animatrice et à leurs pairs. Il semblerait que les comportements directifs et dominants des animateurs ne créent pas un environnement dans lequel le travail collaboratif peut prendre forme. Des analyses sont en cours pour déterminer le lien entre les styles d'animation des animateurs de chaque groupe et la dimension collective, sinon collaborative de la réalisation des tâches dans les groupes. Le partage des données et des annotations effectuées par les deux chercheurs a été facilité par l'organisation des données. Les données de transcription au format XML ont pu être traitées par le logiciel Tatiana (2008) qui permet de visualiser les interactions et donc d'aider à l'analyse. Les analyses et comparaisons entre les deux groupes ont été facilitées grâce à la structuration préalable des données et la possibilité de lier données d'interactions, productions et scénario pédagogique. 6 Conclusion Nous avons montré dans cet article les différentes étapes de constitution d'un corpus d'apprentissage, de l'élaboration du dispositif d'expérimentation jusqu'aux phases d'analyse et de diffusion des résultats. La structuration des données en corpus permet de travailler à différents niveaux d'analyse en ayant une vue d'ensemble de la formation étudiée. L'approche par corpus d'apprentissage n'est pas encore totalement développée dans le domaine de la recherche en didactique des langues. Elle peut sembler coûteuse en temps, demander des compétences que tous les chercheurs n'ont pas nécessairement. Pourtant ses avantages sont nombreux, que ce soit au niveau des analyses mais également en ce qui concerne la diffusion, le partage des données, la visibilité et la continuité des travaux de recherche. En effet, le temps passé à s'approprier la méthodologie et à structurer les données est rapidement compensé par la possibilité d'effectuer des analyses à partir de différents outils sans avoir besoin d'un formatage spécifique à chaque fois et par la reconnaissance du travail du chercheur grâce à la mise à disposition du corpus à la communauté scientifique (Chanier et Ciekanski, 2010). Dans le cadre d'une thèse, la méthodologie à adopter n'est pas toujours évidente. L'approche LETEC accompagne le doctorant tout le long de son parcours et facilite donc son travail. Elle permet également de valoriser son travail de recherche par le dépôt en ligne du corpus. De plus, le fait de pouvoir mettre en parallèle les données utilisées avec les résultats dans les publications permet d'assurer la validité des analyses qui peuvent, grâce à la mise à disposition du corpus, être vérifiées par la communauté de chercheurs. Comme un travail de thèse s'inscrit aujourd'hui de plus en plus dans le cadre de projets incluant différents partenaires, au sein d'un même laboratoire ou avec différentes institutions, la constitution d'un corpus d'apprentissage permet également de faciliter l'accès aux données, le partage des analyses entre chercheurs et l'approfondissement d'analyses déjà effectuées. Références ANTONACCI, D., DIBARTOLO, S., EDWARDS, N., FRITCH, K., MCMULLEN, B., et MURCH-SHAFER, R. (2008). The Power of Virtual Worlds in Education: A Second Life Primer and Resource for Exploring the Potential of Virtual Worlds to Impact Teaching and Learning. http://www.angellearning.com/ products/secondlife/downloads/The%0Power%20of%20Virtual%20Worlds%20in%20Educatio n_0708.pdf. [consulté le 2 septembre 2012]. ACTIVE WORLDS INC. (1997). Active Worlds [logiciel]. http://www.activeworlds.com [consulté le 2 septembre 2012]. BAYLE, A., et FOUCHER, A. L. (2011). Comment étudier les interactions d’apprenants de langue 49 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco dans les mondes virtuels. Actes de EPAL 2012, Grenoble. BAYLE, A., FOUCHER, A. L., et YOUNGS, B. (2012). SLIC : Second Life as a Collaborative Tool for Graduate Teacher Training and Developing Intercultural Communicative Competences. Communication à CALICO 2012, South Bend. BAYLE, A., et YOUNGS, B. (2013). Patterns of Interaction Between Moderators and Learners during Synchronous Oral Discussions Online. In P. Hubbard, M. Schulz, & B. Smith (dir.). LearnerComputer Interaction in Language Education : A Festschrift in Honor of Robert Fischer. San Marcos, Computer Assisted Language Learning Instruction Contorsium (CALICO), pages 66-91. BEEPA, L. (2012). Fraps version 3.5.9 [logiciel]. http://www.fraps.com. [consulté le 2 septembre 2012]. BELL, M. (2008). Toward a Definition of “Virtual Worlds”. Journal of Virtual Worlds Research, 11. BELZ, J. A., et VYATKINA, N. (2009). The pedagogical mediation of a developmental learner corpus for classroom-based language instruction. Language Learning & Technology, 12-3. BLANCHET, P. (2011). Les principales méthodes et leurs techniques de construction des observables. In BLANCHET, P., et CHARDENET, P. (dir.), Guide pour la recherche en didactique des langues et des cultures. Paris, Editions des archives contemporaines, pages 73-192. BOOK, B. (2004). Moving Beyond the Game: Social Virtual Worlds. Communication à State of Play 2 Conference 2004, New York. BOWER, J., et KAWAGUCHI, S. (2011). Negotiation of meaning and corrective feedback in Japanese/English eTandem. Language Learning et Technology, 15-1, pages 41-71. CALICO (2009). Communautés d'apprentissage en ligne, instrumentation, http://woops.crashdump.net/calico. [consulté le 2 septembre 2012]. collaboration. CASTRONOVA, E. (2005). Synthetic Worlds: the Business and Culture of Online Games. Chicago, University of Chicago Press. CHANIER, T., et CIEKANSKI, M. (2010). Utilité du partage des corpus pour l'analyse des interactions en ligne en situation d'apprentissage : un exemple d'approche méthodologique autour d'une base de corpus d'apprentissage. ALSIC, 13. CHANIER, T., SADDOUR, I., et WIGHAM, C. R. (2012a). Distinguished Corpus: Transcription of Verbal and Nonverbal Interactions of the Second Life Reflection. oai : mulce.org:mce-archi21-slrefl-es-j3. http://repository.mulce.org. [consulté le 2 septembre 2012]. CHANIER, T., SADDOUR, I., et WIGHAM, C. R. (2012b). Distinguished Corpus: Transcription of Verbal and Nonverbal Interactions of the Second Life Reflection. oai : mulce.org:mce-archi21-slrefl-av-j2. http://repository.mulce.org. [consulté le 2 septembre 2012]. CHANIER, T., SADDOUR, I., et WIGHAM, C. R. (2012c). Distinguished Corpus: Transcription of Verbal and Nonverbal Interactions of the Second Life Reflection. oai : mulce.org:mce-archi21-slrefl-ls-j3. http://repository.mulce.org. [consulté le 2 septembre 2012]. CHANIER, T., SADDOUR, I., et WIGHAM, C. R. (2012d). Distinguished Corpus: Transcription of Verbal and Nonverbal Interactions of the Second Life Reflection. oai : mulce.org:mce-archi21-slrefl-sc-j2. http://repository.mulce.org. [consulté le 2 septembre 2012]. CHANIER, T., SADDOUR, I., et WIGHAM, C. R. (2012e). Distinguished Corpus: Transcription of Verbal and Nonverbal Interactions of the Second Life Reflection. oai : mulce.org:mce-archi21-slrefl-sc-j3. http://repository.mulce.org. [consulté le 2 septembre 2012]. CHANIER, T., et WIGHAM, C. R. (2011). Learning and Teaching Corpus (LETEC) of ARCHI21. oai : mulce.org:mce-Archi21-letec-all. http://repository.mulce.org. [consulté le 2 septembre 2012]. CLARIN (2012). Virtual language observatory [banque de données]. http://catalog.clarin.eu. 50 « Enjeux, outils et méthodologie de constitution de corpus d’apprentissage » par Ciara R. Wigham et Aurélie Bayle [consulté le 2 septembre 2012]. DALGARNO, B., et LEE, M. J. W. (2010). What are the learning affordances of 3-D virtual environments? British Journal of Educational Technology, 41-1, pages 10–32. GRANGER, S., HUNG, J., et PETCH-TYSON, S. (2002). Computer Learner Corpora, Second Language Acquisition and Foreign Language Teaching. Amsterdam, Benjamins. IMS-CP (2007). Schema for IMS Content http://www.imsglobal.org/xsd/imscp_v1p1.xsd. [consulté le 2 septembre 2012]. Package. JOINT QUALITY INITIATIVE INFORMAL GROUP (2004). Shared ‘Dublin’ descriptors for Short Cycle, First Cycle, Second Cycle, and Third Cycle Awards. http://www.jointquality.org/content/ descriptors/CompletesetDublinDescriptors.doc. [consulté le 2 septembre 2012]. LABOV, W. (1972). Sociolinguistic patterns. Oxford, Blackwell. LOTIN, P. (2012). Comptage. Clermont-Ferrand, Clermont Université. MAX PLANCK INSTITUTE (2003). IMDI Editor. http://www.lat-mpi.eu/tools/imdi/editor. [consulté le 2 septembre 2012]. MAX PLANCK INSTITUTE (2001). ELAN. http://www.lat-mpi.eu/tools/elan. [consulté le 2 septembre 2012]. MCE_SID_LETEC (2011). Schéma décrivant les différentes structures d’interactions. http://lrldiffusion.univ-bpclermont.fr/mulce/metadata/mce-schemas/mce_sid.xsd. [consulté le 2 septembre 2012]. MCCARTHY, M. (1991). Discourse Analysis for Language Teachers. Cambridge, Cambridge University. PRESS.MOOVE (1999). Moove Online [logiciel]. Köln : Moove. http://www.moove.com. [consulté le 2 septembre 2012]. MULCE-DOCUMENTATION (2011). Site web expliquant la méthodologie Mulce et les informations autour du projet Mulce . http://mulce.org. [consulté le 2 septembre 2012]. MULCE-REPOSITORY (2011). Banque de données Mulce. http://repository.mulce.org. [consulté le 2 septembre 2012]. NIKIFOROV, A. (2011). MP3 Skype Recorder http://voipcallrecording.com. [consulté le 2 septembre 2012]. version 1.9.0 [logiciel]. OLAC (2011). OLAC: Open Language Archives Community. http://www.language-archives.org. [consulté le 2 septembre 2012]. PAQUETTE, G. (2009). Mot Plus version 1.6.7. Québec, Télé-Université. PETERSON, M. (2011). Towards a Research Agenda for the Use of Three- Dimensional Virtual Worlds in Language Learning. Calico Journal, 29-1, pages 67–80. REFFAY, C., CHANIER, T., NORAS, M., et BETBEDER, M.-L. (2008). Contribution à la structuration de corpus d'apprentissage pour un meilleur partage en recherche. Sciences et Technologies de l'Information et de la Communication pour l'Education et la Formation,15. REFFAY, C., BETBEDER, M.-L., et CHANIER, T. (2012). Multimodal learning and teaching corpora exchange: lessons learned in five years by the Mulce project. International Journal of Technology Enhanced Learning, 4-12, pages 11-30. RODRIGUES, C., et WIGHAM, C. R. (2012). Second Life et apprentissage d’une langue étrangère dans une approche Emile : quels apports d’un environnement synthétique pour l’apprentissage du vocabulaire ? Actes du Colloque ACEDLE 2012, Nantes. RODRIGUES, C., WIGHAM, C. R., FOUCHER, A.-L., et CHANIER, T. (à paraître). Architectural design 51 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco and language learning in Second Life. In GREGORY, S., LEE, M. J. W., DALGARNO, B., et TYNAN, B. (éds.), Virtual Worlds in Online and Distance Education. Edmonton, Athabasca University Press. ROSEDALE, P. (2011). Second Life, version 2.7.2 (233432) [logiciel]. http://www.secondlife.com. [consulté le 2 septembre 2012]. SADDOUR, I., WIGHAM, C. R., et CHANIER, T. (2011). Manuel de transcription de données multimodales dans Second Life. http://halshs.archives-ouvertes.fr/edutice-00676230. [consulté le 2 septembre 2012]. SANCHEZ, B. (1996). Moving to a new frontier in language teaching. In WARSCHAUER, M. (éd.), Telecollaboration in foreign language learning. Honolulu, University of Hawaï. SCHWIENHORST, K. (2002). Why virtual, why environments? Implementing virtual reality concepts in computer-assisted language learning. Simulation et Gaming, 33-2, pages 196-209. SHRUM, J. L., et GLISAN, E. W. (2010). Teacher’s Handbook: Contextualized Language Instruction. Boston, Heinle Cengage Learning. SYNCRO SOFT SRL (2012) Oxygen XML Editor http://www.oxygenxml.com. [consulté le 2 septembre 2012]. version 14.0 [logiciel]. TATIANA (2008). Trace Analysis Tool for Interaction ANAlysts [logiciel]. http://lead.emse.fr. [consulté le 2 septembre 2012]. TECHSMITH CORPORATION (2010). Camtasia Studio version http://www.techsmith.com/camtasia.html. [consulté le 2 septembre 2012]. 8.0 [logiciel]. TEOH, J. (2007). Second Life, a simulation: barriers, benefits, and implications for teaching. Technology, Colleges & Community (Tcc) Worldwide Online Conference 2007 Proceedings, Amsterdam. WIGHAM, C. R., et CHANIER, T. (à paraître-a). A study of verbal and nonverbal communication in Second Life - the ARCHI21 experience. ReCALL, 25-1. WIGHAM, C. R. et CHANIER, T. (à paraître-b). Architecture students' appropriation of avatars – relationships between avatar identity and L2 verbal participation and interaction. In LAMY, M. N., et ZOUROU, K. (éds.), Social Networking for Language Education. Basingstoke, Palgrave Macmillan. WIGHAM, C. R., et CHANIER, T. (2012). Distinguished Corpus: Influence of nonverbal communication on verbal production in the Second Life Reflective Sessions. oai : mulce.org:mce-Archi21-modalityinterplay. http://repository.mulce.org. [consulté le 2 septembre 2012]. WIGHAM, C. R., et CHANIER, T. (2012b). Interactions between text chat and audio modalities for L2 communication in the synthetic world Second Life. 15th International CALL Research Conference 2012, Taichung, Taiwan. YEE, N., et BAILENSON, J. N. (2008). A method for Longitudinal Behavioural Data Collection in Second Life. Presence: Teleoperators and Virtual Environments, 17-6, pages 594-596. 52 « Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande » par Cécile Viollain Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande Cécile Viollain CLLE-ERSS, UMR 5263 [email protected] RÉSUMÉ___________________________________________________________________________________________________________________ L’ambition fondatrice du programme PAC (Phonologie de l’Anglais Contemporain : usages, variétés et structure) est de faire un portrait précis de la pratique de l’anglais oral à travers le monde, dans son unité et sa diversité géographique, historique, sociale, en s’inscrivant dans une démarche de constitution de corpus, nécessaires à l’analyse détaillée du langage et à la validation ou la remise en question des cadres théoriques existants. L’objectif de cet article est de présenter le programme PAC et d’expliquer ses choix méthodologiques sur le terrain à partir de son enquête la plus récente, conduite à Dunedin, Otago, dans l’île du Sud de la Nouvelle-Zélande. Nous montrerons les résultats que cette méthodologie permet d’obtenir sur deux questions phonologiques fondamentales : la rhoticité et les phénomènes de ‘r’ de sandhi, et réfléchirons à la dynamique interne à la langue, et en l’occurrence, à une possible démotivation du ‘r’ en anglais néo-zélandais contemporain. ABSTRACT________________________________________________________________________________________________________________ Perspectives on rhoticity and sandhi-r phenomena from the PAC New Zealand corpus The PAC project (the Phonology of Contemporary English: usage, varieties and structure) basically aims at giving a better picture of spoken English in its unity and its geographical, social, historical and stylistic diversity. Based on Labovian methods, the project seeks to build corpora of spoken English all around the world in order to provide a detailed linguistic and phonological analysis of language and to validate or bring into question existing theories. The purpose of this article is to describe the PAC project and explain its methodological choices in the field in the light of its most recent survey, conducted in Dunedin, Otago, in the South Island of New Zealand. We will present the results that these methodological choices have granted on two fundamental phonological phenomena: rhoticity and sandhi ‘r’, and look closely at the internal dynamics of language, and in this case, at a potential demotivation of ‘r’ in contemporary New Zealand English. MOTS-CLES : variétés de l’anglais, phonologie, corpus, rhoticité, codages KEYWORDS: varieties of English, phonology, corpora, rhoticity, codings 1 Introduction Les spécialistes s’accordent à dire que les variétés de l’anglais sont scindées en deux grandes familles, avec d’un côté les variétés dites non-rhotiques, dans lesquelles les ‘r’ post-vocaliques, à savoir les ‘r’ dans les rimes des syllabes, ne sont pas réalisés (comme dans bar, board ou marvel), et de l’autre les variétés dites rhotiques, dans lesquelles ces ‘r’ sont maintenus. Parmi les variétés non-rhotiques établies on compte la RP (Received Pronunciation), qui est la variété britannique standard et le dialecte de prestige en Angleterre, et la variété d’anglais parlée en Australie (AusE). Parmi les variétés rhotiques établies on compte le General American (GA), qui est la variété standard de l’anglais américain, ainsi que l’anglais écossais, appelé Standard Scottish English (SSE). Un double processus est à l’œuvre à travers le monde anglophone contemporain : d’un côté, la montée en puissance de la rhoticité sur des terres historiquement non-rhotiques, par exemple à Boston, Massachusetts, où la non-rhoticité décline, comme a pu le montrer l’enquête PAC menée en 2009 (Viollain, 2010) ; de l’autre, la progression de la norme non-rhotique dans des territoires précédemment décrits comme 53 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco rhotiques, par exemple dans le Lancashire, une région au nord-ouest de l’Angleterre dans laquelle la rhoticité recule, comme a pu le montrer l’enquête PAC menée en 2002. Aussi, l’étude de la rhoticité, et des phénomènes qui y sont liés, est-elle fondamentale afin de comprendre la dynamique interne à la variété étudiée, mais aussi la dynamique globale des systèmes des variétés de l’anglais à travers le monde. Au sein de ce processus, l’anglais néozélandais, appelé NZE (New Zealand English), joue un rôle intéressant dans la mesure où historiquement, des variétés rhotiques et non-rhotiques y ont été implantées au moment de la colonisation. En effet, lorsque les premières vagues d’immigration arrivent en NouvelleZélande au milieu du 19ème siècle, le phénomène que Wells appelle « r-dropping », à savoir la disparition du ‘r’ post-vocalique, s’était déjà assez répandu pour que les colons venus d’Angleterre emportent avec eux une variété non-rhotique de l’anglais. Cependant, simultanément, une large proportion de colons venus d’Ecosse s’installait dans les régions à l’extrême sud de l’île du Sud de la Nouvelle-Zélande, y implantant par conséquent une variété rhotique de l’anglais (Campbell, 2004). Aujourd’hui, cette différence historique se traduit par de la variation géographique dans la mesure où l’anglais néo-zélandais est généralement décrit comme une variété non-rhotique, à l’exception de deux régions, l’Otago et le Southland, à l’extrême sud de l’île du Sud, qui sont décrites comme ayant maintenu une prononciation rhotique. La question est donc de savoir si cette rhoticité se maintient toujours ou si elle perd du terrain face à la norme non-rhotique. Il s’agit également de déterminer, s’il s’avère que la rhoticité est désormais récessive, à quel stade de dérhoticisation se trouvent les locuteurs du corpus constitué dans cette région et si certains de ces locuteurs ont un système « hybride », c’est-à-dire un système instable, ni complètement rhotique, ni complètement non-rhotique. Notre démarche sera donc la suivante : nous esquisserons d’abord en §2 une synthèse des questions sur la rhoticité et les phénomènes qui y sont liés, c’est-à-dire les phénomènes de sandhi, afin de présenter les cadres théoriques existants pour ensuite pouvoir les confronter aux résultats obtenus à partir de l’analyse de corpus. Nous présenterons ensuite le programme PAC (§3), en détaillant le protocole et les outils méthodologiques permettant d’obtenir des données précises sur la rhoticité et les phénomènes de ‘r’ de sandhi, et particulièrement les systèmes de codage utilisés pour la variable ‘r’ et la liaison en ‘r’. Finalement nous illustrerons en §4 les descriptions de la rhoticité et de la liaison en ‘r’ à partir de l’enquête PAC NouvelleZélande. Nous offrirons en §5 quelques conclusions provisoires et établirons les prochaines étapes de recherche et d’analyse. 2 hoticité et ‘r’ de sandhi : quelques aspects théoriques Comme nous l’avons souligné dans l’introduction de ce chapitre, la rhoticité, et plus précisément le maintien ou la disparition des ‘r’ post-vocaliques, permet de décrire et de catégoriser les systèmes phonologiques des variétés de l’anglais à travers le monde. A cette rhoticité sont liés des phénomènes phonologiques importants, et notamment le phénomène de sandhi le plus étudié en anglais, à savoir la liaison en ‘r’ attestée dans les variétés nonrhotiques de cette langue. 2.1 Qu’est-ce que le ‘r’ de sandhi en anglais ? Un ‘r’ dans la rime d’une syllabe peut se maintenir dans une variété non-rhotique de l’anglais si le mot qui le suit directement a une attaque vocalique : par exemple, the car[r] is in the garage. Le ‘r’ de sandhi en anglais désigne donc ce segment [r] qui n’est pas prononcé dans un mot isolé mais qui peut l’être dans la chaîne parlée. Ce phénomène de ‘r’ de sandhi est luimême généralement scindé en deux sous-phénomènes, avec d’un côté le ‘r’ dit de liaison, appelé « linking ‘r’ » en anglais, et de l’autre le ‘r’ dit intrusif, appelé « intrusive ‘r’ » en anglais. Un ‘r’ de liaison implique un ‘r’ étymologique présent dans la graphie et reflété dans la composition, la dérivation et la flexion : par exemple le verbe flower, le gérondif flowering et le nom composé flower-arrangement. Le ‘r’ intrusif, quant à lui, est un ‘r’ absent de la 54 « Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande » par Cécile Viollain graphie, comme dans draw[r] in the crowd, qui peut également être attesté au niveau lexical sous la forme d’une consonne épenthétique interne, comme dans draw[r]ings. Cette dichotomie entre les deux phénomènes, fondée exclusivement sur la graphie, ne s’avèrera peut-être pas pertinente pour certaines variétés ou certains locuteurs, c’est pourquoi dans le présent article, et plus largement dans le programme PAC, nous utiliserons invariablement le terme de ‘r’ de sandhi pour désigner la présence ou l’absence du ‘r’ dans les contextes pertinents, et ce afin de ne rien présupposer à ce sujet. 2.2 Modéliser le ‘r’ de sandhi en anglais De nombreuses propositions théoriques ont été avancées dans divers modèles afin de rendre compte des phénomènes décrits ci-avant et nous n’aurons pas le loisir dans le présent article de détailler ces propositions. Toutefois il nous semble important de souligner que ces propositions théoriques sont formulées le plus souvent sur la base de variétés idéalisées et non sur la base de données recueillies selon un protocole précis puis annotées de façon systématique. Ceci explique la démarche du programme PAC qui consiste en l’élaboration de corpus qui permettront potentiellement de valider ou d’invalider ces propositions. Si l’on devait maintenant synthétiser brièvement les propositions théoriques qui ont tenté de rendre compte de la rhoticité et du phénomène de ‘r’ de sandhi nous nous arrêterions d’abord sur les propositions faites par les phonologies multi-linéaires, et en premier lieu sur une règle d’effacement du /r/ en position de rime de la syllabe (Mohanan 1986), qui prend en compte l’évolution diachronique du phénomène d’effacement du /r/ (« ‘r’ dropping ») mais ne rend compte que des variétés d’anglais dans lesquelles la liaison est catégorique, c’est-à-dire réalisée systématiquement dans les contextes appropriés. Dans un deuxième temps nous nous arrêterions sur la proposition de règle d’insertion du /r/ après schwa (/e/) en position de rime de la syllabe (Venneman 1972), qui rend compte des variétés d’anglais dans lesquelles non seulement la liaison mais aussi l’intrusion sont catégoriques. Enfin il faudrait s’arrêter sur les propositions avancées dans le sillage de la Théorie de l’Optimalité (Mc Carthy 1993), qui sont fondées sur l’existence de contraintes incompatibles qui régissent la coda (rime) des mots liaisonnants. Ces propositions reposent sur le principe de la sélection d’une forme optimale, c’est-à-dire la forme (« output ») qui viole le moins de contraintes possibles, ou alors la ou les contraintes placées plus bas que les autres dans une hiérarchie donnée (cf. Uffman 2007). Ces propositions théoriques parviennent à rendre compte du phénomène de liaison mais ont du mal à rendre compte du phénomène d’intrusion ou à justifier le choix de la consonne [r] pour résoudre un hiatus après une voyelle non-haute (par exemple /e/). Evidemment, cette synthèse est beaucoup trop succincte pour illustrer la complexité du phénomène étudié de même que la complexité des propositions qui sont faites. Néanmoins, cette synthèse nous permettra d’illustrer, à partir de l’analyse du corpus PAC Nouvelle-Zélande, le fait que les variétés d’anglais telles qu’elles sont pratiquées par les locuteurs au quotidien présentent rarement de rhoticité, de liaison ou d’intrusion catégoriques et résolvent souvent les hiatus après voyelles non-hautes par d’autres stratégies que l’insertion de la consonne [r]. L’analyse de corpus nous poussera donc sans doute à formuler de nouvelles propositions théoriques, ou du moins à redessiner les contours des cadres existants. C’est dans cette perspective que le programme PAC a établi sa méthodologie, que nous allons maintenant détailler. 3 Le programme PAC : méthodologie, outils et codages Le programme PAC (« Phonologie de l’Anglais Contemporain : usages, variétés et structure ») est un programme sociolinguistique coordonné par Philip Carr, Jacques Durand et Anne Przewozny. Son ambition première est d’établir une grande base de données sur l’anglais tel qu’il est parlé à travers le monde, dans son unité et sa diversité, exploitable par la communauté des chercheurs. Ainsi, même si le programme PAC s’intéresse en premier lieu à des questions phonétiques et phonologiques, les corpus d’enregistrements qu’il crée se prêtent 55 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco aux analyses d’autres domaines de la linguistique, allant du lexique au discours. Dans cet article nous nous limiterons toutefois aux questions phonologiques liées à la rhoticité et au ‘r’ de sandhi. La méthodologie mise en place au sein du programme PAC s’inspire des nombreux travaux de William Labov (1966, 1972, 1994, 2001) et repose, par conséquent, sur la constitution de corpus d’enregistrements sur le terrain, censés fournir un nombre de données suffisant pour devenir des « corpus de référence » (Habert 1999) et garantir « une information en profondeur [de la] langue ». En cela, le programme PAC espère atteindre les résultats obtenus par le programme PFC (« Phonologie du Français Contemporain », voir (Durand, Laks et Lyche 2003, 2009), dont il est l’équivalent pour l’étude des variétés de l’anglais. 3.1 Le protocole PAC Le protocole appliqué par les enquêtes PAC s’organise autour de quatre axes. Le premier de ces axes est la lecture à haute voix de deux listes de mots centrées sur la phonologie lexicale de l’anglais. Ces deux listes de mots sont respectivement conçues pour l’étude des phénomènes vocaliques et consonantiques et comptent 192 items au total. Elles ne visent pas à accéder à la parole la plus spontanée du locuteur, puisque la lecture à haute voix n’est pas à proprement parler un exercice naturel, mais permettent de mettre en évidence si le système du locuteur est rhotique ou non-rhotique et par là-même d’étudier l’impact de cette présence/absence du phonème /r/ sur le système vocalique. Le deuxième axe du protocole PAC est à nouveau une tâche de lecture à haute voix mais cette fois d’un texte, adapté d’un article de presse. Ce texte permet d’approfondir les questions de phonologie lexicale en contexte de lecture continue et aussi d’étudier les phénomènes caractéristiques de la chaîne parlée, relevant donc de la phonologie post-lexicale, comme la rhoticité du système étudié et le ‘r’ de sandhi. Le texte a été calibré de façon à fournir de nombreux sites potentiels de ‘r’ de sandhi, qu’ils soient du type ‘r’ de liaison ou ‘r’ intrusif, ce qu’il n’est évidemment pas possible de faire dans des tâches autres que celles de lecture à haute voix. Enfin, les deux derniers axes du protocole PAC sont, d’une part, une conversation guidée entre l’enquêteur et le locuteur recruté pour les besoins de l’enquête, et, de l’autre, une conversation libre, informelle, en l’absence de l’enquêteur, entre le locuteur recruté et un intime (membre de la famille ou ami proche). C’est ce dernier contexte qui rend le protocole PAC complet par rapport aux méthodologies employées par d’autres programmes car il permet d’approcher au plus près la langue naturelle, spontanée, avec le minimum de phénomènes d’auto-surveillance ou d’hypercorrection. Ces deux contextes conversationnels étant l’objectif premier des enquêtes PAC sur le terrain, le protocole PAC essaie donc d’obtenir des enregistrements les plus écologiques possibles. Néanmoins, PAC accorde beaucoup d’importance à la qualité acoustique de ses enregistrements sur le terrain, en vue du traitement futur des données et de la validité des analyses. Les quatre axes du protocole qui viennent d’être détaillés sont impérativement et scrupuleusement mis en place dans chaque point d’enquête PAC, ce qui ne veut pas dire que des tâches annexes ne peuvent pas être ajoutées à cette base méthodologique commune afin d’approfondir certaines analyses ou d’étudier des traits spécifiques à une variété en particulier. Une tâche supplémentaire a par exemple été créée pour le corpus PAC NouvelleZélande afin notamment de fournir des sites potentiels de ‘r’ de sandhi supplémentaires et donc d’obtenir des résultats quantitatifs plus significatifs. En effet, le problème de la rareté des sites potentiels de ‘r’ de sandhi, ayant déjà émergé lors d’enquêtes précédentes, notamment dans le corpus PAC Boston et en particulier dans les conversations, ne garantissait pas de pourcentages fiables quant au taux de réalisation ou de non-réalisation de ces ‘r’. Cette tâche supplémentaire ajoutée au protocole pour l’enquête PAC Nouvelle-Zélande consiste à lire à haute voix quatorze phrases conçues pour fournir sept sites potentiels de ‘r’ de liaison, treize sites potentiels de ‘r’ intrusif et deux sites potentiels de liaisons épenthétiques internes dans des contextes phonologiques très divers. Son objectif est de pallier les disparités qui 56 « Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande » par Cécile Viollain apparaissent nécessairement entre les locuteurs de ce même corpus quant au nombre de sites de ‘r’ de sandhi dans les conversations. Grâce au texte et à ces phrases, chaque locuteur est testé sur un nombre minimum commun de sites potentiels de ‘r’ de sandhi. 3.2 Transcription et codages Une fois les données recueillies et enregistrées sur support numérique, celles-ci sont transcrites à l’aide du logiciel PRAAT (Boersma et Weenink, 2009). Ce logiciel d’analyse du discours est largement reconnu au sein de la communauté des chercheurs et permet d’aligner manuellement à une séquence sonore la transcription orthographique correspondante. En effet, le traitement des données, quel que soit le domaine de la linguistique concerné, nécessite des repères textuels que fournit la transcription orthographique des enregistrements. Les listes de mots, le texte, dix minutes de conversation guidée et dix minutes de conversation libre, ainsi que toute autre tâche annexe potentiellement ajoutée au protocole de base, sont donc transcrits selon les règles de la TOS (Transcription Orthographique Standard). Le choix de la TOS est un choix mûrement réfléchi au sein de la communauté PAC qui s’explique notamment par le fait qu’elle convient bien aux larges corpus, qu’elle minimise le risque d’erreurs de transcription et ne présuppose pas de réalisation, phonologique par exemple. Elle permet également d’assurer la portabilité des données et de favoriser la création d’outils d’indexations robustes et performants. Pour ce faire, les chercheurs au sein du programme PAC ont établi des conventions de transcription simples permettant de rendre compte et de noter l’ensemble des phénomènes caractéristiques de la langue parlée et de l’interaction linguistique1. Par ailleurs, le logiciel PRAAT permet la multiplication des niveaux de traitement des données, au-delà de la transcription orthographique constituant une sorte de couche zéro, à travers un système de « tires » d’annotation successives, portant chacune des informations spécifiques, et par exemple des codages. Dans la perspective d’une étude systématique de la rhoticité et du ‘r’ de sandhi chez les locuteurs des corpus PAC, et en particulier du corpus PAC Nouvelle-Zélande, deux systèmes de codage distincts ont vu le jour. D’abord, un codage de la variable ‘r’ qui vise à établir si le système du locuteur concerné est rhotique, non-rhotique ou hybride. Ensuite, un codage du ‘r’ de sandhi, ou de la liaison en ‘r’, inspiré du codage de la liaison en français créé par le programme PFC, qui vise non seulement à établir le taux de réalisation de la liaison pour chaque locuteur, mais aussi à identifier les contextes favorisant ou démotivant cette liaison. Il faut souligner que ces deux codages fonctionnent de pair et sont appliqués dans cet ordre bien précis. De fait, si, dans un premier temps, le codage de la variable ‘r’ révèle que le système du locuteur est non-rhotique, alors le second codage, pour la liaison en ‘r’, peut être appliqué puisque, comme nous l’avons rappelé en §2, le ‘r’ de sandhi est un phénomène qui ne peut s’observer que dans les variétés non-rhotiques de l’anglais. Au contraire, si le premier codage révèle que le système d’un locuteur est invariablement rhotique, alors il est vain de tenter d’analyser son taux de réalisation de la liaison en ‘r’ puisque ce locuteur prononcera systématiquement les ‘r’ post-vocaliques, que le mot suivant ait une attaque vocalique ou non. Un troisième cas de figure est possible : si le premier codage révèle que le système du locuteur concerné est hybride, c’est-à-dire variablement rhotique, alors le second codage, pour la liaison en ‘r’, peut permettre d’évaluer à quel stade de rhoticisation ou de dérhoticisation ce locuteur se trouve. Nous reviendrons sur ce cas de figure, forcément plus complexe, à partir des données recueillies dans le corpus PAC Pour plus de détails sur les conventions de transcription spécifiques au projet PAC voir Carr, P., Durand, J., Navarro, S., Pukli, M. et Viollain, C. (2009). PAC : Main Transcription Conventions. PAC Workshop 2009: models, variation and phonological corpora. 1 57 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Nouvelle-Zélande (§4.2). 3.2.1 Le codage de la rhoticité : la variable ‘r’ Le codage de la variable ‘r’ pour les corpus PAC s’effectue à partir de la transcription orthographique en dupliquant cette dernière sur une tire indépendante. Ce codage est mis en place pour chaque locuteur pour le texte lu et au minimum cinq minutes de conversation guidée et cinq minutes de conversation informelle, en n’oubliant pas les tâches annexes pouvant se prêter à ce type de codage, et par exemple les phrases créées pour le corpus PAC Nouvelle-Zélande. Deux critères principaux ont conduit à l’élaboration de ce codage : il doit être accessible à la communauté des chercheurs, et notamment aux non-spécialistes du domaine concerné, en l’occurrence la phonologie, et permettre une approche globale des données. C’est pourquoi le codage de la variable ‘r’ est un codage simple, qui ne note pas de détails trop précis, mais essaie de dégager des contextes ou des cas de figure distincts, pouvant se soumettre à des interprétations ultérieures plus poussées. Le codage de la variable ‘r’ est un codage alphanumérique qui prend en compte les deux paramètres fondamentaux suivants : (a) présence ou absence d’un [r] et (b) position de ce /r/ en attaque (ex: raspberry) ou en rime de la syllabe (ex : more). A ces deux paramètres fondamentaux correspondent les deux premiers champs du codage. Champ 1 : Champ 2 : 1 : /r/ réalisé 2 : /r/ dans rime de syllabe 0 : /r/ non réalisé 1 : /r/ dans attaque de syllabe 2 : /r/ incertain Le codage de la variable ‘r’ comprend deux champs supplémentaires (3 et 4) qui servent à donner plus d’informations sur le contexte des /r/ en position de rime de la syllabe, et viennent donc compléter les informations élémentaires fournies par les champs 1 et 2. En effet, dans les variétés rhotiques ou non-rhotiques de l’anglais, les /r/ en position d’attaque de syllabes sont systématiquement réalisés (sauf dans quelques variétés d’anglais comme les variétés du Sud des Etats-Unis, et notamment la variété texane) et suivis d’une voyelle puis d’une ou plusieurs consonnes. Ce n’est donc pas la réalisation de ces /r/ qui détermine la rhoticité ou la non-rhoticité du système d’un locuteur, ce sont les /r/ en position de rime des syllabes ou ‘r’ post-vocaliques. C’est pourquoi le codage de la variable ‘r’ pour les corpus PAC a voulu noter des informations sur le contexte droit des /r/ post-vocaliques: sont-ils suivis par une frontière de mot (ex : far), par une ou plusieurs consonnes (ex : farm) ou encore par une consonne ou plusieurs consonnes elles-mêmes suivies d’une ou plusieurs voyelles (ex : forty) ? C’est précisément ce que code le champ 3. Champ 3 : 1 : /r/ suivi d’une frontière de mot (notée #) 2 : /r/ suivi de C1-n# 3 : /r/ suivi de C1-nV Le champ 4 est lui conçu pour fournir des informations encore plus précises sur les /r/ postvocaliques qui sont suivis par une frontière de mot. En cela, le champ 4 est optionnel car il ne peut être utilisé que si l’indice ‘1’ a été attribué à la séquence étudiée dans le champ 3. Le champ 4 se focalise sur ce qui suit le /r/ analysé. Ce <r> est-il suivi par un mot ayant une attaque vocalique (ex : far out), et dans ce cas il s’agit d’une liaison en ‘r’, ou par un mot ayant une attaque consonantique (ex : for me), ou encore constitue-t-il une fin de groupe, et dans ce cas il est suivi par une frontière forte (ex : staying here.) ? Le champ 4 code ces 58 « Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande » par Cécile Viollain différents cas de figure : Champ 4 (seulement si indice ‘1’ dans le champ 3) 1 : _V (liaison) 2 : _C 3 : _# (fin de groupe ou frontière forte) Considérons un exemple concret, soit la séquence « isn’t there ? » prononcée /qznt DeF/. Elle serait codée <isn’t there0213 ?> où le ‘0’ indique que le /r/ n’est pas réalisé, le ‘2’ que ce /r/ est positionné dans la rime de la syllabe (c’est un /r/ post-vocalique), le ‘1’ que ce /r/ post-vocalique est suivi d’une frontière de mot (#), et enfin le ‘3’ que cette frontière de mot constitue une frontière forte, en l’occurrence la fin d’une phrase interrogative. 3.2.2 Le codage du ‘r’ de sandhi : la liaison en ‘r’ Qu’en est-il du second codage, pour le ‘r’ de sandhi ? Tout comme le codage de la variable ‘r’ que nous venons de présenter, le codage du ‘r’ de sandhi prend en compte des paramètres simples pour constituer un premier outil de triage des données. Ces paramètres sont les suivants : (a) présence ou absence d’un ‘r’ de sandhi, (b) nombre de syllabes du mot liaisonnant ou M1, (c) nombre de syllabes du mot déclencheur ou M2, (d) possibilité de nonenchaînement et/ou d’une zone de turbulence. Ce codage utilise également une notation alphanumérique qui comporte quatre champs dont les trois premiers sont obligatoires et le quatrième facultatif. Champ 1 : Champ 3 : 1 : présence d’un ‘r’ de sandhi 2 : M2 est polysyllabique 0 : absence d’un ‘r’ de sandhi 2 : incertitude 3 : présence d’un ‘r’ nonorthographique à l’intérieur d’un mot (ex. draw[r]ings) Champ 2 : 1 : M1 est monosyllabique 2 : M1 est polysyllabique 1 : M2 est monosyllabique Champ 4 : Le champ 4 désigne l’ajout de <h> ou de <rh> aux chiffres des champs précédents avec les interprétations ci-dessous : <h> indique une zone de « turbulence », à savoir un coup de glotte, une pause ou une hésitation. <rh> indique la présence d’un [r] avant pause, hésitation ou coup de glotte comme dans la liaison non enchaînée du français. Comme cela a été souligné précédemment, notre codage ne formalise pas de distinction a priori entre les phénomènes de liaison et les phénomènes d’intrusion. Des analyses approfondies peuvent être faites ultérieurement pour comparer le comportement ou la fréquence de ces deux phénomènes, notamment grâce à la tire de transcription orthographique qui permet de récupérer facilement l’information nécessaire, à savoir la présence ou non du ‘r’ dans la graphie. Si l’on prend maintenant un exemple concret, soit la séquence « China in February » présente dans le texte lu à haute voix et prononcée /)tHaqnFrqn )febjuFri/, on obtient le codage suivant : <China121 in February>. Le premier chiffre ‘1’ indique la présence d’un ‘r’ de sandhi, le chiffre ‘2’ indique que M1 (China) est polysyllabique et le deuxième ‘1’ indique que M2 (in) est monosyllabique. En conclusion, ces deux codages, par le fait qu’ils s’appuient sur une transcription orthographique complète, qu’ils visent à être compréhensibles et applicables par la 59 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco communauté des chercheurs et qu’ils permettent de noter des informations de façon systématique sur deux phénomènes liés, s’inscrivent dans une vraie démarche cumulative et participent à l’élaboration et à la consolidation d’un véritable corpus phonologique. Il s’agit maintenant de montrer les résultats que ces deux codages permettent d’obtenir, et les interprétations qu’ils permettent de développer, une fois qu’ils sont mis en œuvre dans un corpus d’enregistrements pour répondre à de réelles questions. 4 Le corpus PAC Nouvelle-Zélande Le corpus PAC Nouvelle-Zélande, constitué d’enregistrements réalisés en 2010 à Dunedin, Otago, dans l’île du Sud de la Nouvelle-Zélande, est l’une des enquêtes les plus récentes menées au sein du programme PAC. En cela, elle a pu bénéficier de l’expérience accumulée grâce aux précédentes enquêtes réalisées sur le terrain pour le même programme. L’enquête à Dunedin nous donnera l’occasion de montrer le programme PAC en action : depuis le recueil des données auprès des locuteurs recrutés pour l’enquête, jusqu’à l’exploitation, l’analyse et l’interprétation de ces données. La méthode utilisée sur le terrain pour recruter et enregistrer des locuteurs ne présage pas des phénomènes qui seront observés ni des résultats qui pourront être obtenus sur telle ou telle question, car la démarche de PAC n’est pas une démarche prescriptive mais bel et bien une démarche descriptive. En revanche, la méthode utilisée sur le terrain, que ce soit le choix de la localisation d’une enquête, les critères de sélection des locuteurs, le matériel d’enregistrement utilisé, est une collection de paramètres décisifs en vue de construire un corpus représentatif, valide et de qualité. C’est pourquoi la manière avec laquelle se prépare une enquête en amont, et notamment la manière dont elle se déroule sur le terrain, n’est jamais le fruit du hasard et mérite d’être expliquée. 4.1 L’enquête à Dunedin, Otago L’enquête à Dunedin, Otago a été menée par l’auteur de ces lignes en décembre 2010 grâce à la mobilisation de « réseaux », ou « networks » en anglais (Milroy et Milroy 1985), pour le recrutement de locuteurs sur place. Grâce à cette méthode qui permet à l’enquêteur (« fieldworker » en anglais) de se reposer sur ses contacts sur place et de ne jamais être un parfait étranger auprès des locuteurs qu’il enregistre, 21 locuteurs ont pu être enregistrés à Dunedin par le biais de deux réseaux différents. Le corpus PAC Nouvelle-Zélande compte 17 locuteurs dans sa version finale. Les enregistrements n’atteignant pas une qualité acoustique optimale ainsi que les enregistrements ne respectant pas le protocole PAC (conversations libres trop courtes ou inexistantes par exemple) sont automatiquement exclus et ne font donc pas partie du corpus final. Sur ces 17 locuteurs on compte 10 femmes et 7 hommes, ce qui fait du corpus PAC Nouvelle-Zélande un corpus assez équilibré par rapport à d’autres corpus, quand bien même il n’atteint pas la parité. Sur ces 17 locuteurs, on compte 3 femmes et 2 hommes âgés de 18 à 25 ans, 4 femmes et 3 hommes âgés de 25 à 60 ans, et 3 femmes et 2 hommes âgés de plus de 60 ans, si bien que le corpus final comprend un échantillonnage générationnel représentatif. Une majorité des locuteurs de ce corpus a été enregistrée dans le même quartier résidentiel : Maori Hill, situé à la frontière nord de la ville de Dunedin. Ce quartier est considéré aujourd’hui comme un quartier exclusif regroupant des gens aisés, mais il ne l’a pas toujours été. Nombre de ses résidents, et notamment des locuteurs du corpus PAC Nouvelle-Zélande, s’y sont installés bien avant que Maori Hill ne devienne un quartier huppé. Ce quartier a été choisi car les familles y sont souvent installées depuis des générations, ce qui permet à l’enquêteur d’enregistrer potentiellement des unités familiales complètes (enfants, parents, grands-parents). Il a aussi été choisi car les habitants de Maori Hill forment une communauté soudée et à part, car le quartier, situé en hauteur, n’est pas facilement accessible et n’est pas desservi par les transports en commun. Les liens au sein de cette communauté expliquent que l’enquêtrice n’ait pas eu de difficultés à recruter des locuteurs puisqu’elle était systématiquement présentée et accueillie chez les voisins des locuteurs qu’elle venait de finir 60 « Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande » par Cécile Viollain d’enregistrer. Ces liens suscitent aussi l’intérêt en termes linguistiques puisqu’il s’agira de déterminer par exemple si les locuteurs enregistrés à Maori Hill ont une identité linguistique et phonologique spécifique et forment en cela une sous-communauté linguistique à Dunedin. La ville de Dunedin a elle été choisie car c’est le deuxième plus grand centre urbain de l’île du Sud de la Nouvelle-Zélande, après Christchurch, et c’est aussi le siège de l’Université d’Otago, qui accueille une large proportion d’étudiants venus de la région du Southland, au sud. La ville de Dunedin, qui est la plus grande ville de la région d’Otago, n’est située qu’à 200 kilomètres de la ville d’Invercargill, le plus grand centre urbain de la région de Southland. Cet axe constitue l’isoglosse de la rhoticité en Nouvelle-Zélande puisqu’historiquement c’est dans ces deux régions que se sont majoritairement installés les immigrants venus d’Ecosse. Il faut souligner par ailleurs que tous les locuteurs du corpus PAC Nouvelle-Zélande sont « Pakeha ». Ce terme désigne en Nouvelle-Zélande les personnes de descendance européenne qui ne sont donc pas des Maoris. La question de l’influence de la langue maori sur l’anglais néo-zélandais contemporain constitue un objet de recherche à part entière, c’est pourquoi le choix de locuteurs exclusivement Pakeha a été fait afin que les analyses ne soient pas faussées par un facteur ethnique non maîtrisé dès le départ. Tous les locuteurs du corpus ne sont pas nés à Dunedin, seuls 47% le sont et 23% sont nés ailleurs dans l’île du Sud de la Nouvelle-Zélande (et notamment dans le Southland). En revanche, tous les locuteurs du corpus sont arrivés avant l’âge de 7 ans à Dunedin et y ont donc grandi et fait leurs études. Certains locuteurs ont également quitté Dunedin, mais jamais avant l’âge de 19 ans, pour y revenir ultérieurement, si bien que l’on peut considérer ces locuteurs comme authentiquement représentatifs de la variété d’anglais parlée à Dunedin, Otago et plus largement de la variété d’anglais parlée dans l’extrême sud. L’origine des parents des locuteurs du corpus n’est pas un critère susceptible de les exclure de ce corpus, toutefois c’est une information qui est inscrite dans le profil sociologique qui est dressé de chaque locuteur des corpus PAC. En ce qui concerne les locuteurs du corpus PAC Nouvelle-Zélande, 32% de leurs parents sont nés à Dunedin et 29% sont nés ailleurs dans l’île du Sud. Certains locuteurs du corpus représentent par conséquent la première génération née en Nouvelle-Zélande tandis que d’autres sont issus d’une longue lignée de néo-zélandais et représentent parfois jusqu’à la sixième génération. 4.2 Rhoticité et liaison dans le corpus PAC Nouvelle-Zélande Même si d’autres corpus existent sur l’anglais néo-zélandais, et notamment le corpus ONZE1 qui dispose d’enregistrements des premiers locuteurs néo-zélandais, arrivés lors des premières vagues d’immigration au 19ème siècle, aucun corpus, à part le corpus PAC Nouvelle-Zélande, n’a été construit en Otago ou dans le Southland alors même que ces deux régions sont décrites comme les seules censées avoir une identité linguistique, un « accent » à part. Il s’agit donc de développer les résultats obtenus à partir de notre enquête et de tenter de les expliquer à la lumière de la recherche qui a été menée ces dix dernières années sur ce que nous appellerons le General NZE, c’est-à-dire l’anglais néo-zélandais standard. Il s’agit aussi de confronter ces résultats aux théories qui ont été formulées sur la rhoticité et surtout sur le ‘r’ de sandhi à partir, le plus souvent, d’états idéalisés de la langue et non de variétés attestées. L’extraction des données contenues dans les codages ainsi que les analyses quantitatives, sous la forme de graphiques et de pourcentages, sont possibles dans le programme PAC grâce à un outil appelé DOLMEN, conçu par Julien Eychenne2. Les résultats présentés dans les sections suivantes ont donc été obtenus par extraction automatique des données sous DOLMEN. 1 2 http://www.lacl.canterbury.ac.nz/onze/index.html http://julieneychenne.info/dolmen 61 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco 4.2.1 Perspectives sur la rhoticité à partir du corpus PAC Nouvelle-Zélande Les enregistrements faits avec les 17 locuteurs du corpus PAC Nouvelle-Zélande, à savoir le texte, les phrases et approximativement dix minutes de conversation guidée et de conversation informelle, ont été codés pour la variable ‘r’ sur la base du codage présenté en §3.2.1. Ce codage des données a révélé que sur les 17 locuteurs du corpus, 16 ont un système non-rhotique stable et un locuteur seulement a un système variablement rhotique. Ce locuteur, identifié sous le nom de LB1 dans notre corpus, est un homme de 20 ans, né à Invercargill dans le Southland, qui faisait ses études à l’université d’Otago au moment de l’enquête. Ses deux parents, également nés dans le Southland, n’ont pas fait d’études supérieures et n’ont donc jamais quitté Invercargill. La famille de ce locuteur s’est établie en Nouvelle-Zélande à la fin du 18ème siècle si bien que LB1 représente la 6ème génération de NéoZélandais dans sa famille. Il a été enregistré sur le campus de l’université d’Otago en compagnie d’une camarade de classe, identifiée sous le nom de CC1. Le codage de la variable ‘r’ chez LB1 a révélé que son système est « hybride », ou variablement rhotique, c’est-à-dire qu’un pourcentage non négligeable de ‘r’ post-vocaliques est réalisé, contrairement aux autres locuteurs du corpus chez qui ce pourcentage est infime. Si l’on prend la conversation informelle, censée s’approcher au maximum d’une pratique spontanée de la langue, l’écart qui existe entre le taux de réalisation des ‘r’ post-vocaliques chez LB1 et chez un autre locuteur du corpus, BG1, est flagrant. Le graphique (figure 1, ci-dessous) représente le pourcentage de réalisation des ‘r’ en position d’attaque de syllabe (colonne de gauche) et en position de rime de syllabe (colonne de droite) chez BG1, un homme de 76 ans, né et ayant passé sa vie à Dunedin. Il apparaît clairement sur ce graphique que 100% des ‘r’ en position d’attaque des syllabes sont réalisés par BG1 dans la conversation informelle, comme nous pouvions nous y attendre. En revanche, seulement 17,6% des ‘r’ post-vocaliques sont réalisés par BG1, ce qui fait de son système un système non-rhotique stable. 82,4% 100,0% 17,6% Initiale syllabe Coda syllabe R réalisé R non réalisé FIGURE 1: variable ‘r’ dans la conversation informelle de BG1 (système non-rhotique stable) Regardons maintenant le taux de réalisation des ‘r’ en position d’attaque et de rime de syllabe chez LB1 (figure 2). De même que chez BG1, 100% des ‘r’ à l’initiale des syllabes sont réalisés. En revanche, LB1 réalise approximativement deux fois plus de ‘r’ post-vocaliques que BG1, soit 34,9%. Il ne s’agit donc plus d’un pourcentage négligeable, mais bien d’un système instable, variablement rhotique. Si l’on s’intéresse aux contextes spécifiques de ces ‘r’ post-vocaliques, c’est-à-dire aux informations fournies par les champs 3 et 4 du système de codage de la variable ‘r’ établi pour PAC, on observe un contraste encore plus frappant entre le système de BG1 et le système de LB1 (figure 3). En effet, chez BG1, 89,7% des ‘r’ post-vocaliques réalisés le sont en contexte de liaison, c’est-à-dire lorsque ces /r/ sont suivis directement par un mot ayant une attaque vocalique. Cela confirme que le système de BG1 est un système non-rhotique stable, avec un 62 « Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande » par Cécile Viollain pourcentage infime de variation, qui s’explique par les quelques incohérences qui émergent typiquement en contexte conversationnel. Au contraire, chez LB1, les ‘r’ post-vocaliques réalisés en contexte de liaison ne représentent que 60% du total des /r/ post-vocaliques réalisés par ce locuteur. Il apparaît clairement sur le graphique (en rouge dans la colonne de droite), qu’une proportion significative de ‘r’ post-vocaliques réalisés le sont lorsqu’ils sont suivis d’une ou plusieurs consonnes elles-mêmes suivies d’une ou plusieurs voyelles (C1-n# ou C1-nV). Or, ces réalisations sont prototypiques des variétés rhotiques de l’anglais, ce qui tendrait à faire penser que le système de LB1 est basilectalement rhotique, c’est-à-dire que la pratique spontanée de la langue par LB1 laisse émerger une variété rhotique, mais tendrait vers un acrolecte non-rhotique, soit une variété de prestige proche du General NZE. 65,1% 100,0% 34,9% Initiale syllabe Coda syllabe R réalisé R non réalisé FIGURE 2: variable ‘r’ dans la conversation informelle de LB1 (système hybride) 3,4% 6,9% 16,7% 23,3% 89,7% 60,0% BG1 Liaison LB1 C1-n# ou C1-nV _C ou _# FIGURE 3: analyse comparative des /r/ post-vocaliques réalisés dans la conversation informelle chez BG1 et LB1 63 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco 4.2.2 Perspectives sur la liaison à partir du corpus PAC Nouvelle-Zélande L’interprétation que nous venons de formuler semble être appuyée par l’analyse du taux de réalisation du ‘r’ de sandhi chez LB1, que l’on peut toujours comparer à celle du taux de réalisation du ‘r’ de sandhi chez BG1, notre locuteur non-rhotique de référence. Il faut noter en premier lieu que le ‘r’ de sandhi a un comportement général similaire chez BG1 et LB1, et chez l’ensemble des locuteurs du corpus PAC Nouvelle-Zélande d’ailleurs, dans la mesure où il est significativement plus réalisé dans les contextes conversationnels que dans les tâches de lecture à haute voix, ce qui peut facilement s’expliquer par la nature des tâches en elles-mêmes. En effet, les tâches de lecture à haute voix où les locuteurs découvrent un texte ou des phrases qu’ils n’ont jamais vus auparavant favorisent les pauses et les hésitations : facteurs qui démotivent les phénomènes d’enchaînement et donc la liaison en ‘r’. En revanche, il apparaît clairement que LB1 (figure 5, page suivante) a un taux de réalisation du ‘r’ de sandhi nettement supérieur à celui de BG1 (figure 4 ci-dessous), notamment dans le texte (44% de réalisation du ‘r’ de sandhi chez BG1 contre 76,5% chez LB1) et la conversation guidée (71,4% de réalisation du ‘r’ de sandhi chez BG1 contre 90% chez LB1). Ces pourcentages confirment que l’étude du ‘r’ de sandhi chez LB1 est compliquée par l’hybridité de son système et sa rhoticité variable car il devient difficile de dire si les ‘r’ de sandhi codés sont bel et bien réalisés ou si ces ‘r’ post-vocaliques seraient également réalisés devant un mot à attaque consonantique et non plus vocalique. 3,6% 6,2% 25,0% 9,4% 56,0% 77,3% 71,4% 84,4% 44,0% 22,7% Texte Phrases R Guidée Non R Informelle Incertain FIGURE 4: taux de réalisation du ‘r’ de sandhi chez BG1 Ce qui est peut-être plus intéressant encore est de noter que LB1 présente beaucoup moins d’intrusion que les autres locuteurs du corpus PAC Nouvelle-Zélande, et notamment BG1, notre locuteur non-rhotique de référence. De fait, si l’on prend en compte le texte lu, la conversation guidée et la conversation informelle, LB1 ne réalise qu’une intrusion, dans le texte lu, et ne réalise pas d’intrusion dans les deux autres sites potentiels codés, soit un pourcentage de réalisation de 33,3%. Pour sa part, BG1 réalise trois intrusions sur les 7 sites d’intrusion codés au total dans le texte, la conversation guidée et la conversation informelle, soit un taux de réalisation de l’intrusion de 42,9%. LB1 présente donc à la fois de la rhoticité et de l’intrusion, dans une proportion infime, ce qui tend à suggérer que son système est en voie de dérhoticisation. L’intrusion serait conditionnée stylistiquement chez LB1 comme un trait superposé dans le texte lu car caractéristique des variétés non-rhotiques de l’anglais, comme le General NZE. On peut donc supposer qu’il y a une double évolution opposée chez 64 « Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande » par Cécile Viollain LB1 avec, d’un côté, une rhoticité toujours présente mais en déclin et, de l’autre, un phénomène d’intrusion encore peu fréquent mais en progression. En cela, LB1 serait l’image miroir d’un locuteur recruté pour l’enquête PAC Boston réalisée en 2009 et identifié sous le nom de FB1, dont le système était alors en voie de rhoticisation puisque le dialecte bostonien est lui basilectalement non-rhotique. 5,0% 5,0% 23,5% 4,3% 21,7% 63,6% 90,0% 76,5% 74,0% 36,4% Texte Phrases R Guidée Non R Informelle Incertain FIGURE 5: taux de réalisation du ‘r’ de sandhi chez LB1 5 Conclusions Nous avons tenté de montrer dans cet article que la rhoticité et le phénomène de ‘r’ de sandhi, tels qu’ils sont étudiés à partir des corpus PAC et en l’occurrence à partir du corpus PAC Nouvelle-Zélande, grâce à des outils de transcription, de codage et d’extraction automatique des données, révèlent que la pratique de l’anglais à travers le monde n’est pas monolithique et que les variétés de l’anglais elles-mêmes sont des objets d’étude en mouvement. En effet, nos résultats ont montré qu’il n’était pas si simple de catégoriser les systèmes phonologiques des locuteurs comme rhotiques ou non-rhotiques et que donc de nouvelles variétés, hybrides ou instables, émergent et ce, à différents moments de l’histoire et à différents endroits du monde. Le cas de dérhoticisation du locuteur du corpus PAC Nouvelle-Zélande identifié sous le nom de LB1 a par-là même pu être corrélé avec le cas de rhoticisation d’un locuteur du corpus PAC Boston. Le fait qu’un seul locuteur du corpus PAC Nouvelle-Zélande présente cette hybridité, qui plus est un locuteur né dans le Southland de parents également nés dans le Southland, suggère que la norme non-rhotique gagne du terrain en Nouvelle-Zélande, de la même façon qu’il a été suggéré qu’à Boston, la norme rhotique incarnée par le General American prend le pas sur l’identité historiquement non-rhotique de Boston. Toutefois, les corpus PAC étant de petits corpus d’environ une douzaine ou une quinzaine de locuteurs pour chaque localisation, il est difficile de déterminer si l’hybridité caractérise le système phonologique de nombreux locuteurs en Otago car, pour cela, il faudrait recruter de nouveaux locuteurs et élargir le corpus. C’est sans doute là que les corpus PAC atteignent leurs limites. Néanmoins, ce sont des limites fixées délibérément : en effet, l’enregistrement de petits corpus offre la possibilité d’effectuer un travail d’analyse, de codage, d’annotation plus exhaustif et plus systématique. C’est ce travail, fondé sur une méthodologie commune et stable, qui permet au programme PAC de produire des comparaisons et de formuler des parallèles entre différents corpus et finalement d’avancer dans la compréhension des dynamiques internes, mais également 65 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco globales, des systèmes de l’anglais dans le monde. En cela, ils permettent aussi d’amorcer une réflexion théorique nécessaire pour parvenir à rendre compte de ces systèmes hybrides qui ne sont pour l’instant pas intégrés aux modélisations théoriques de la rhoticité et du ‘r’ de sandhi. Les prochaines étapes d’analyse et de recherche à partir du corpus PAC Nouvelle-Zélande incluent une étude plus poussée, chez les 16 locuteurs non-rhotiques attestés, du comportement respectif de la liaison et de l’intrusion. Il s’agira également de déterminer, chez ces 16 locuteurs, l’influence du système vocalique, et notamment de la qualité des voyelles en contexte de ‘r’ de sandhi, sur la rhoticité et le ‘r’ de sandhi. Le poids syllabique et la nature grammaticale des mots en contexte de ‘r’ de sandhi sont des facteurs sur lesquels nous sommes actuellement en train de travailler, même s’ils ne se sont pas toujours avérés décisifs dans la réalisation ou la non-réalisation du ‘r’ de sandhi dans les enquêtes précédentes. Pour ce qui est des cas dans lesquels les ‘r’ de sandhi ne sont pas réalisés, une étude approfondie des stratégies autres que la liaison en /r/ utilisées pour résoudre le hiatus nous permettra de remettre en perspective les travaux d’Uffman par exemple, mentionnés en §2.2, ou de Mompean et Gomez (2010) sur les réalisations laryngées. En ce qui concerne LB1, une étude poussée des contextes phonologiques, et notamment vocaliques, qui favorisent la réalisation des ‘r’ post-vocaliques nous permettra sans doute d’affiner notre analyse quant au processus de dérhoticisation qui est en cours chez ce locuteur et notamment de dresser une chronologie des phénomènes, selon qu’ils connaissent une évolution rapide ou lente. Enfin, une analyse statistique de la pertinence de certains facteurs sociologiques, comme l’âge, le niveau d’éducation ou l’origine géographique des parents, devrait nous permettre d’évaluer leur impact respectif ou combiné sur les productions des locuteurs, et par exemple d’établir si les locuteurs enregistrés dans le quartier de Maori Hill exhibent les traits d’un système ou d’une identité linguistiques communs. Références BAUDE, O. (éd.) (2006). Corpus oraux. Guide des bonnes pratiques. Paris, CNRS Editions. BILGER, M. (éd.) (2008). Les enjeux de la transcription de la langue parlée. Perpignan, Presses Universitaires de Perpignan. BOERSMA, P. et WEENINK, D. (2009). Praat: doing phonetics by computer. (Version 5.1.05). http://www.praat.org/. [consulté le 04/10/2012]. BROADBENT, J. (1991). Linking and intrusive ‘r’ in English. University College London Working Papers in Linguistics, 3, pages 281-302. CAMPBELL, L., GORDON, E. M., HAY, J., MACLAGAN, M., SUDBURY, A. et TRUDGILL, P. (2004). New Zealand English: its Origins and Evolution. Cambridge, Cambridge University Press. CARR, P., DURAND, J. et PUKLI, M. (2004). The PAC project: principles and methods. La tribune internationale des langues vivantes, 36, pages 24-35. CHOMSKY, N. et HALLE, M. (1968). The Sound Pattern of English. New York, Harper & Row. CRUTTENDEN, A. (2008). Gimson’s Pronunciation of English. London, Hodder Education. DURAND, J. (1997). Linking ‘r’ in English : Constraints, Principles and Parameters or Rules?. Histoire Epistémologie Langage, 19-1. DURAND, J., B. LAKS, B. CALDERONE, et TCHOBANOV, A. (2011). Que savons-nous de la liaison aujourd’hui ? Langue française, 169, pages 103–126. DURAND, J., LAKS, B. et LYCHE, C. (2002). La phonologie du français contemporain: usages, variétés et structure. In PUSCH, C. et RAIBLE, W. (éds.), Romanistische Korpuslinguistik - Korpora und gesprochene Sprache/Romance Corpus Linguistics - Corpora and Spoken Language. Tübingen, Gunter Narr Verlag, pages 93-106. 66 « Perspectives sur la rhoticité et le ‘r’ de sandhi dans le corpus PAC Nouvelle-Zélande » par Cécile Viollain DURAND, J., LAKS, B. et LYCHE, C. (éds.) (2009). Phonologie, variation et accents du français. Paris, Hermès. DURAND, J. et LYCHE, C. (2008). French liaison in the light of corpus data. Journal of French Language Studies, 18-1, pages 33–66. DURAND, J., NAVARRO, S. et VIOLLAIN, C. (à paraître). Le ‘r’ de sandhi en anglais : corpus et méthodologie. IN SOUM, C. et COQUILLON, A. (éds.), La liaison : approches contemporaines. Berlin, Peter Lang. DURAND, J. et PRZEWOZNY, A. (2012). La phonologie de l’anglais contemporain : usages, variétés et structure. Revue Française de linguistique appliquée, 17-1, pages 25-36. DURAND, J. et PUKLI, M. (2004). How to construct a phonological corpus: PRAAT and the PAC project. La tribune internationale des langues vivantes, 36, pages 36-46. DURAND, J. et TARRIER, J. (2008). Deux thèses sur la transcription et le codage d’un grand corpus oral : le cas de PFC. In BILGER, M. (éd), Les enjeux de la transcription de la langue parlée. Perpignan, Presses Universitaires de Perpignan, pages 48-77. ENCREVE, P. (1988). La liaison avec et sans enchaînement. Phonologie tridimensionnelle et usages du français. Paris, Editions du Seuil. FOULKES, P. (1997). English [r]-sandhi: a sociolinguistic perspective. Histoire, Epistémologie, Langage, 19-1, pages 73-96. GORDON, E., MACLAGAN, M. A. et HAY, J. (2004). The ONZE Corpus. In BEAL, J. C., CORRIGAN, K. P. et MOISL, H. (éds.), Models and Methods in the Handling of Unconventional Digital Corpora, Volume 2: Diachronic Corpora. Hampshire, Palgrave. HARRIS, J. (1994). English Sound Structure. Oxford, Blackwell. HUGHES, A., TRUDGILL, P. et WATT, D. (2005). English Accents and Dialects. London, Edward Arnold. JONES, D. (1956). The Pronunciation of English. Cambridge, Cambridge University Press. LABOV, W. (1966). The social stratification of English in New York City. Washington D.C., Center for Applied Linguistics. LABOV, W. (1972). Sociolinguistic Patterns. Philadelphia, University of Pennsylvania Press. LABOV, W. (1994). Principles of Linguistic Change, Vol. 1. Internal Factors. Oxford, Blackwell. LABOV, W. (2001). Principles of Linguistic Change, Vol. 2. Social Factors. Oxford, Blackwell. LAKS, B. (2008). Pour une phonologie de corpus. Journal of French Language Studies, 18, pages 3-32. MCCARTHY, J. J. (1993). A Case of Surface Constraint Violation. Canadian Journal of Linguistics, 38, pages 169-195. MILROY, J. (1980). Language and Social Networks. Oxford, Blackwell. MILROY, J. (1987). Observing and Analysing Natural Language. A critical account of sociolinguistic method. Oxford, Blackwell. SCOBBIE, J. M. (2006). (R) as a Variable. In BROWN, K. (éd.), Encyclopedia of Language & Linguistics, Second Edition, Volume 10. Oxford, Elsevier, pages 337-344. UFFMAN, C. (2007). Intrusive [r] and Optimal Epenthetic Consonants. Language Sciences, 29, pages 451-476. VIOLLAIN, C. (2010). Sociophonologie de l’anglais à Boston : Une étude de la rhoticité et de la liaison. Mémoire de Master 2, Université de Toulouse-Le Mirail. WELLS, J. C. (1982). Accents of English. Cambridge, Cambridge University Press. 67 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Ce que le corpus nous enseigne sur le lexique des verbes des collégiens de Yaoundé Tony Onguéné Mete MoDyCo, Université Paris Ouest Nanterre, 92000 Nanterre [email protected] RÉSUMÉ___________________________________________________________________________________________________________________ Cette recherche est partie du constat que les collégiens de Yaoundé s’appuient à l’oral sur un nombre restreint de verbes. L’usage qu’ils font de ces verbes diverge du français normatif et central enseigné par leur professeur. Dans le but de voir plus clair dans leur répertoire du lexique des verbes, un travail de corpus a été effectué auprès de cette population de préadolescents et d’adolescents scolarisés. Il a fallu au préalable maîtriser la complexité du milieu d’enquête, neutraliser l’influence des langues locales, et proposer des tâches langagières qui permettent aux apprenants de déployer dans leur corpus le lexique verbal à leur disposition. Le traitement du corpus en laboratoire (transcription, repérage, codage, liste de fréquence des verbes) montre un recours massif aux verbes de base et à ceux du camfranglais. Cela signifie que ce lexique des verbes du français normatif est en cours de construction, mais qu’il est fortement influencé par le milieu. ABSTRACT________________________________________________________________________________________________________________ This research started from the observation that the students of Yaoundé rely orally on a number of restricted verbs. The use that they make of these verbs differs from the normative and standard French taught by their professor. To understand and explain their verb lexicon, a corpus research was performed on a population of students, both children and adolescents. It was first necessary to understand the complexity of the investigation area, to explain the influence of the local languages and to propose the linguistic tasks that allow the students to use in their communication, the verbal vocabulary at their disposition. The study performed using the resulting corpus (transcription, location, coding, list of frequency of the verbs) shows a very significant recourse to basic verbs and to those of the camfranglais. MOTS-CLES : acquisition, plurilinguisme, lexique verbal, corpus, CLAN KEYWORDS : acquisition, multilingualism, verbal lexicon, corpus CLAN Introduction L’acquisition et le développement du lexique verbal sont au centre de nombreuses interrogations. Gentner (1978), par exemple, mène une étude comparative de l’acquisition de cette partie du discours avec celle des noms dans l’acquisition précoce du langage. Labrell et al. (2005), quant à eux, évaluent le développement du lexique des verbes entre 1 et 4 ans. Pour cette même période, Duvignau (2005) cible l’articulation entre le développement précoce des verbes et l’apprentissage de ce lexique. La plupart des recherches sur le lexique des verbes portent sur une langue première (L1). On entend par L1 la langue de première socialisation de l’apprenant : la langue par laquelle il découvre le monde. Certains linguistes reprennent pour cela le terme courant de langue maternelle (LM) qui peut être trompeur notamment en situation plurilingue. D’autres études sur le lexique verbal sont plus proches de celle qui va être menée dans cet espace. Noyau (2005) et Kihlstedt (2005) se sont penchées sur l’appropriation des verbes du français, langue seconde, par les enfants scolarisés de l’Afrique de l’Ouest francophone. Elles se sont, toutes deux, appuyées sur les travaux de Viberg (1998, 2002) pour montrer le rôle des verbes de base dans le développement de ce lexique. Alors qu’ils ne sont qu’un petit nombre, Viberg présente ces verbes comme fréquents dans le répertoire de cette classe de mot chez les apprenants. Ces jeunes locuteurs ont recours à ces verbes parce qu’ils sont abstraits, ont une large extension sémantique, et surtout parce 68 « Ce que le corpus nous enseigne sur le lexique des verbes des collégiens de Yaoundé » par Tony Onguéné Mete qu’ils sont polysémiques. Ce sont donc des verbes qui se caractérisent par le caractère peu spécifique de leur sens. Ce sens polysémique peut s’appliquer à plusieurs procès. A la différence des études ci-dessus, notre étude se caractérise par le fait que la construction du corpus se fait dans un milieu linguistique complexe. La population ciblée a au moins 6 à 7 ans d’apprentissage du français L2 derrière elle. Les résultats de l’enquête vont intégrer à la fois l’emploi des verbes en milieu ouvert et en milieu scolaire. Il s’agira de se demander comment un travail basé sur le corpus peut aider à dresser le répertoire lexical des jeunes collégiens de Yaoundé. L’hypothèse de départ est que, compte tenu de l’universalité des verbes de base dans l’acquisition du langage, ceux-ci seront majoritaires dans le corpus à constituer. En revanche, au vu de la situation linguistique complexe de l’enquête, ces verbes se trouveront concurrencés par d’autres verbes plus caractéristiques du milieu. Pour vérifier ce postulat, la réflexion s’appuiera sur la psycholinguistique et la méthode de la sociolinguistique pour expliquer les phénomènes d’acquisition des verbes et comprendre la nature de l'exposition aux langues de l'environnement. 1 Statut du français au Cameroun et parlers du milieu L’écologie linguistique de cette étude est fort complexe parce qu’elle est tributaire d'un environnement langagier camerounais lui-même assez particulier. Dans ce pays, en effet, se côtoient environ trois cent langues autochtones. A ces langues s’en ajoutent deux autres, de nature exogène, l'anglais et le français. Cette situation fait du Cameroun un pays plurilingue. Le français y bénéficie d'un statut complexe: il est langue officielle, langue seconde, langue étrangère et, pour les jeunes citadins, langue maternelle. A ce titre, il sert de langue de scolarisation et aussi de lingua franca (Onguéné Essono, 1999, 2011). En plus de ces langues, il été constaté, empiriquement, que des adolescents recourent à d'autres parlers. Il s’agit en l'occurrence du pidgin-english et du camfranglais. Ces parlers sont des codes linguistiques mixtes. Le mot valise camfranglais, désormais, CFG met en évidence le fait que l'anglais est en contact avec le français au Cameroun (de Féral, 2004) et que ses locuteurs y intègrent le pidgin-english et les langues autochtones (Echu, 2008). 2 Matériel d’investigation et méthodologie Le matériel d’investigation et la méthodologie influence en grande partie les résultats de l’enquête. 2.1 La place du corpus dans l’enquête Le corpus est le principal observable de cette étude. Celle-ci vise une analyse explicative des usages verbaux des collégiens de Yaoundé. C’est la raison pour laquelle l’étude prévoit le repérage et l’observation des verbes, leur codage, et leur analyse automatique. Dans les rubriques à venir, nous allons décrire le mode de codage et de repérage des verbes dans le corpus étudié. Pour rappel, le corpus est oral et constitué des productions langagières d’une population d’élèves. Dans le cas présent, partir d’un corpus ne présente que des avantages. Sa stabilité facilite son traitement par un logiciel informatique. Une telle procédure fait gagner en temps et permet d’obtenir des résultats chiffrés. A cela, il faut ajouter que le corpus évite toute subjectivité dans le traitement des occurrences. Il reflète les usages possibles des verbes par les apprenants, et permet d’ailleurs de découvrir des phénomènes d’emploi qui n’étaient pas prévus. C’est par exemple le cas pour les verbes du camfranglais. Pour que le corpus soit opérant, il faut que soit respecté un protocole de travail qui tienne 69 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco compte de toutes les variables retenues. 2.2 Description du protocole de recherche Cette partie s’attache à présenter tous les paramètres qui ont été choisis, imposés ou orientés lors de la constitution du corpus. Elle décrit la population dont sont issues les productions langagières étudiées. Mais aussi, elle brosse un tableau du milieu où a été collecté le corpus. Car ce corpus est naturellement influencé par les habitudes linguistiques de l’environnement. De la même manière, l’hypothèse de départ suggère certes un répertoire du lexique des verbes pauvre, mais ce répertoire peut s’enrichir au fur et à mesure que les paliers scolaires sont franchis. Pour découvrir les stratégies de communication provisoires évoquées en hypothèse, il faut cibler la population représentative du phénomène à décrire. 2.2.1 Présentation de la population cible Les élèves qui sont observés en vue d’alimenter le corpus oral sont tous des jeunes scolarisés. Ce sont des jeunes francophones, pouvant ou pas s’exprimer dans leur langue d’origine. Opter pour l’expression langue d’origine amène à garder une forme de neutralité vis-à-vis de l’influence de la L1 sur le corpus et, subséquemment, sur le lexique verbal. En effet, la L1 implique qu’au préalable, est identifiée avec exactitude la langue la mieux connue de l’enquêté. Celle qui fonctionne comme sa langue de référence ou sa langue source (Moirand, 1982). Tel n’est pas le cas dans cette enquête. Les apprenants n’indiquent pas toujours leur L1. Pourtant cette information leur est demandée explicitement. Les raisons de cette attitude sont nombreuses. Soit ils oublient simplement de mentionner ce détail, soit ils ignorent quelle est leur L1, soit ils ont honte ou peur de révéler à l’enquêteur la langue de leurs parents. La langue des parents est très souvent la langue de première socialisation. Mais il peut arriver que le père et la mère ne parlent pas la même langue locale, le français s’impose alors dans ce cas, comme la L1 de la famille. L’âge des enquêtés varie entre 9 et 17 ans. Ce sont donc des pré-adolescents et des adolescents qui composent la population étudiée. Ces collégiens, filles et garçons, vont de la sixième à la troisième. Ils habitent tous la zone urbaine de Yaoundé. Tous ont donné leur accord pour faire partie de l’enquête. Certains l’on fait spontanément, d’autres simplement pour imiter leurs camarades. 2.2.1.1 Échantillonnage et justification du choix de la population Klein (1989) explique qu’après la puberté, la maîtrise de la langue ne se développe plus que peu, même si sur plusieurs aspects, le processus d’acquisition n’est jamais arrêté - par exemple en ce qui concerne le lexique - précise-t-il. Dans l’intervalle d’âge choisi, le lexique des verbes du français normatif est donc encore en cours de construction et les lectes des apprenants sont eux–mêmes, à cette période, évolutifs. Ces lectes sont propres à chaque apprenant. On entend par lectes, les états provisoires de la langue de l’apprenant (Klein, 1989). D’une manière générale, l’évolution du système est due à son utilisation d’une part, à la pression de l’environnement linguistique sur le lecte d’autre part. Pour le lexique des verbes, cela signifie que le collégien de Yaoundé est influencé, pour l’extralinguistique, par son environnement culturel et par son besoin d’employer des verbes spécifiques ou pas. Pour les connaissances linguistiques, il a comme référence la langue de ses professeurs, les enseignements reçus à l’école, et la somme du lexique acquis dans les médias ou dans des lectures diverses. En revanche, tout enfant non scolarisé a été exclu de l’enquête. Noyau (2006) conseille que l’idéal est de trouver des individus avec un même degré d’exposition à la langue. Elle propose aussi d’opter pour des représentants ayant un même degré de scolarisation en français. De 70 « Ce que le corpus nous enseigne sur le lexique des verbes des collégiens de Yaoundé » par Tony Onguéné Mete telles précautions homogénéisent en effet les données du corpus. Notre étude porte sur l’usage du lexique des verbes en L2 ou français de scolarisation chez les collégiens. Les jeunes scolarisés présentent l’avantage d’avoir un lexique des verbes à priori plus vaste. Ils ont à la fois la possibilité de l’acquérir de manière informelle hors de l’école et de manière formelle dans cette institution. Leur acquisition des verbes est donc à la fois non guidée et guidée. On entend par acquisition non guidée l’apprentissage de la langue en milieu ouvert. C’est un apprentissage inconscient des verbes. L’input des verbes est ici reçu naturellement. L’acquisition guidée se fait inversement en milieu scolaire. L’apprentissage des verbes y est conscient et l’input des verbes y est choisi par un enseignant. Pour aller vite, l’input ou l’entrée, c’est ce que le locuteur entend dans son environnement. Parce que les apprenants peuvent manifester leur différenciation en registres de langue formelle et informelle, les lieux de collecte ont été contrastés. 2.2.1.2 Présentation des lieux de constitution du corpus Le corpus a été collecté dans la seule ville de Yaoundé. Yaoundé est la capitale du Cameroun. C’est une ville cosmopolite où se rencontrent plusieurs langues autochtones. C’est aussi une ville universitaire, à majorité francophone. Voilà pourquoi cet environnement linguistique est le lieu de l’enquête. Ce choix se justifie surtout par la volonté de minimiser l’impact des langues locales dans le corpus des verbes. Yaoundé est donc l’espace idéal pour la constitution du corpus comparativement aux zones rurales. Des précautions d’enquête supplémentaires méritent d’être signalées en ce qui concerne Yaoundé. Cette ville s’agrandit administrativement et géographiquement. Il existe de ce fait un Yaoundé ancien et cosmopolite et un Yaoundé rural ou périphérique. Cette dernière zone est exclue de l’enquête. L’influence des langues locales y est réelle. Dans un quartier comme Afan Oyoa (la forêt endormie), situé aux portes de l’ancienne ville, les habitants ne parlent pratiquement pas le français. Y procéder à des enregistrements pouvait introduire des biais dans le corpus. 2.2.1.3 Constitution des sous-corpus et choix des lieux d’enquête Compte tenu des modes d’acquisition des verbes du français, le corpus a été enregistré en milieu formel, c’est-à-dire à l’école, et en milieu informel, entre jeunes et sans la présence de l’enquêteur. Pour ce dernier terrain d’enquête, les enregistrements ont été effectués chez les enquêtés, dans la rue ou dans la cours de récréation, aux abords des stades de footballs, etc. Le souhait est que l’adolescent se sente dans son environnement habituel, que l’exercice s’assimile à du jeu. Il ne s’agit pas de comparer les types de verbes mobilisés dans ces deux milieux. Il s’agit plutôt de placer les apprenants dans des milieux d’enregistrement différents, avec l’espoir qu’ils déploieront un lexique verbal manifestant des registres diversifiés. Par exemple, il est possible que hors de la salle de classe, l’apprenant convoque moins de verbes spécifiques et plus de verbes du camfranglais ou de verbes de base, alors qu’en milieu scolaire, l’effort de recourir aux verbes plus spécifiques serait observé. Pour les mêmes raisons, nous avons diversifié les tâches langagières. 2.3 L’enregistrement du corpus Les productions langagières de la population d’enquêtés ont été provoquées. Deux types de tâches langagières sont conseillés à cet effet. Pour Noyau (2005), le domaine de référence aux procès, fortement représenté dans les récits, favorise l'étude du développement du lexique verbal. Sanz Espinar (2002), allant dans le même sens, souligne que la compétence narrative orale peut se trouver très influencée par la 71 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco compétence lexicale, plus précisément par la disponibilité ou non d'un lexique riche des procès ou par l'acquisition partielle ou idiosyncrasique de celui-ci. C'est donc naturellement que les apprenants ont eu à effectuer des récits, mais nous leur avons aussi proposé des discussions de groupe. Même si ces deux types d’activités langagières concourent à la constitution d'un même corpus oral, il y a plus de liberté dans la verbalisation des procès dans une discussion de groupe que dans un récit, au cours duquel l'apprenant peut procéder à un auto-contrôle. L’ensemble du corpus enregistré n’est pas recueilli par la même personne. Pour les récits, nous jouons le rôle d’enquêteur, évoquant parfois le visage de l’enseignant, mais pour les discussions de groupe, ce rôle est confié à un élève. Les thèmes ne sont pas imposés, mais suggérés. Les seules consignes sont de ne pas parler tous en même temps. Après cela, les élèves sont laissés seuls. De la même manière, aucune restriction de temps n’est imposée. Plus les récits et les débats sont longs, plus il y a la possibilité de recueillir un maximum de verbes. 2.3.1 Outils d’enregistrement du corpus et outils de traitement des données Pour constituer un corpus, il est nécessaire de s’armer de certains outils spécifiques. Ceux-ci doivent faciliter le passage du travail de terrain à celui du laboratoire. 2.3.1.1 Outils d’enregistrement Les productions langagières des apprenants sont recueillies grâce à un enregistreur numérique. Pendant les discussions de groupe ou les récits, il est mis en évidence devant les locuteurs. Cet outil, loin de les effrayer, est plutôt une source de motivation pour eux. Ce point mérite d’être souligné. Un grand nombre d’élèves n’accepte de se faire enregistrer que parce qu’il est attiré par cet objet curieux. Cet outil numérique permet aussi d’enregistrer de longues heures de discours oral, et les fichiers son, MP3 ou wav, sont tout de suite pris en charge par un logiciel de traitement des données orales comme CLAN. 2.3.1.2 Traitement du corpus Le corpus est traité grâce à CLAN. Ce logiciel est conçu pour traiter des langues orales en acquisition. Comme l’expliquent Chenu et al. (2005), il s’agit d’un outil adapté à l’étude des données naturelles en interaction ; il comporte des modules développés pour l’analyse de la morphologie et de la syntaxe ; le système est assez souple pour permettre des statistiques sur les transcriptions brutes, et aussi des codages pour des analyses spécifiques. Grâce à CLAN, les transcriptions de la présente étude sont alignées avec les enregistrements (son ou vidéos). L’alternative vidéo n’est pas exploitée ici, l’ensemble du corpus étant sonore. Avec CLAN, nous avons pu repérer, coder et quantifier les verbes à partir du corpus. La transcription de corpus (20 heures dans notre cas) est une étape de traitement longue et minutieuse. Les évènements para-linguistiques demandent parfois à être codés. Les gestes, les grimaces, les hésitations, les longs silences, etc. peuvent témoigner de l’embarras à sélectionner un verbe et à l’insérer dans son discours. Il est souhaitable aussi que le transcripteur soit familier du ton, de l’accent, de la phonétique et même de la structure des phrases employées au Cameroun. Cela évite des pertes de temps dans les efforts de déchiffrage du texte sonore. Lorsque cette bande sonore est voilée par des parasites, comme cela arrive très souvent pour les corpus enregistrés dans les salles de classe ou les lieux publics, il faut réécouter des séquences de voix plusieurs fois. Dans les discussions de groupe, les chevauchements sont nombreux, et il est difficile de reproduire exactement les tours de paroles. Il faut enfin s’assurer qu’il existe dans CLAN la grammaire de la langue, ou du parler qui est 72 « Ce que le corpus nous enseigne sur le lexique des verbes des collégiens de Yaoundé » par Tony Onguéné Mete transcrit. Dans le cas de cette étude, il n’existe pas de grammaire du CFG. C’est la raison pour laquelle tous les verbes de ce parler sont codés spécifiquement. 3 Méthode de codage des verbes du camfranglais par CLAN Plusieurs paramètres peuvent être codés dans CLAN : les actions, la phonétique, la langue dominante de transcription du corpus, les mots inventés, etc. Nous avons opté pour coder ceux du CFG et non les verbes du français. Les lignes principales des fichiers CLAN sont celles qui contiennent la transcription orthographique des corpus. C’est sur ces lignes qu’on repère le verbe que l’enquêté mobilise pour exprimer son procès. Les codages peuvent être portés dans la ligne principale. Cette action permet d’étudier le fonctionnement des verbes du CFG. Sur la ligne principale, les verbes du CFG sont codés orthographiquement et directement suivis d’un symbole (sans espace). Pour rappel, puisque la grammaire de ce parler est inexistante, ses verbes sont codés comme des formes particulières du français ou comme des mots inventés par l’enfant. L’extrait qui suivra infra est une transcription des paroles d'un adolescent de quinze ans. Cet enregistrement est effectué aux abords d'un stade de football. *SP3, spectateur trois, élève en classe de troisième, se moque, au cours d'une discussion de groupe, d'un footballeur incapable de s'exprimer en français. L'extrait laisse voir que le locuteur s'appuie en priorité sur l'ensemble du lexique français. Mais il lui arrive aussi de se servir concurremment des verbes du CFG et des noms de ce parler. Dans notre corpus (voir exemple ci-dessous), seuls les verbes du CFG sont codés. Ceux du français seront pris en charge par un autre programme décrit ci-dessous. L'ensemble des codages feront l’objet d’analyses statistiques, par CLAN ou d’autres programmes extérieurs à CHILDES. Les occurrences verbales du CFG en gras sont donc repérées et codées par un symbole @c. Celles des noms en CFG le sont par @f. Même si les substantifs ne sont pas intéressants pour ce corpus, ils sont traités au passage, d'autres linguistes ou des recherches ultérieures peuvent éventuellement s'en servir. Le logiciel CLAN ambitionne de rendre compte au maximum de la réalité de l'oral. C'est dans ce sens que les hésitations ou les reprises sont matérialisées par des symboles précis. Dans cet extrait, où s’observent des échanges suivis, les < > et les [///] matérialisent une reprise avec reformulation. *SP3: fréquente un peu *SP3: même si tu trained@c non fais les cours du soir mon frère *SP3: oui bien <il faut avoir> [///] il faut beaucoup lire *SP3: après je me dis que si tu lis là il y'a flop@f de ways@f qui came@c donc il faut lire *SP3: les gars sont là maintenant tu vois on l'interroge il fait sa mère? *SP1: donc le français là ne le sort pas hein? 4 Traitement des verbes du français par CLAN Les explications qui vont suivre s’inspirent fortement de celles de Chenu et Jisa (2005), qui se proposent de montrer que l’input maternel influence les verbes observés dans la production de l’enfant. Non seulement leurs travaux portent sur la fréquence des verbes (types et tokens), mais surtout, elles s’aident de CLAN pour la calculer. Comme elles, avant d’obtenir le répertoire des verbes du français observés dans le corpus, il a fallu procéder à des aménagements dans la transcription, selon les conventions de base 73 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco établies par MacWhinney (2000). L’un de ces aménagements est la désambiguïsation manuelle des fichiers à l’aide de la version française des commandes « mor et post » de CLAN (Parisse et Le Normand, 2000). Cette désambiguïsation passe par trois étapes. On part d’un fichier .cha pour générer un premier fichier intermédiaire .cex, puis un deuxième fichier mor.cex. et enfin un troisième fichier pst.mor.cex. (Pour plus d’explication, voir http://childes.psy.cmu.edu; MacWhinney, 2000). La désambigüisation ou lemmatisation permet d’obtenir pour chaque mot sa classe morphologique ainsi que des informations sur les morphèmes flexionnels qui en font partie. Voici ci-dessous un exemple tiré du corpus. Les lignes secondaires 36 et 37 %mor, indiquent les informations grammaticales portées sur la ligne principale 35 *JBR, (abréviation de Jean Brice, le locuteur). Les lemmes de ces lignes révèlent deux verbes. 35 *JBR: nous sommes partis (.) en quart de final 37 %mor: adj|final 36 %mor: pro:subj|nous v:aux|être v|partir-PP prep:art|en n|quart prep:art|de Occurrences du corpus Lemmatisation Signification Sommes v:aux|être Verbe auxiliaire être Partis v|partir-PP Verbe partir participe passé TABLE 1 – Lemmatisation des verbes. Après cette étape, les commandes de Childes permettent notamment d’établir des listes de fréquences. 5 La liste des verbes les plus fréquents dans le corpus Ci-dessous est présentée une liste partielle de verbes issue de 7 heures 15 minutes de transcriptions. Pour les besoins de mise en page, ce répertoire est présenté dans deux tables. Les deux tables montrent que sur une liste de 3244 verbes répertoriés par CLAN, les collégiens s’aident de 544 verbes différents. Les verbes de base sont les plus fréquents. Pour précision, les auxiliaires avoir et être sont également des verbes de base. Nombre d’occurrences Verbes lemmatisés 1 378 v:aux|avoir 2 251 v:exist|c'est 3 189 v:exist|être 4 119 v|dire 5 97 v:mdl|aller 74 « Ce que le corpus nous enseigne sur le lexique des verbes des collégiens de Yaoundé » 6 78 v|dire-PP 7 74 v:aux|être 8 62 v:poss|avoir 9 58 v:exist|être&IMPF 10 54 v:aux|avoir&IMPF 11 50 v|partir 12 41 v:mdllex|faire 13 36 v:exist|il+y+a 14 33 v:mdl|vouloir 15 33 v|dire-INF 16 31 v:mdl|pouvoir 17 29 v:mdl|venir 18 28 v:exist|c'est&IMPF 19 26 v:mdllex|faire-INF 20 25 v|partir-PP 21 24 v:mdl|savoir 22 24 v:poss|avoir&IMPF par Tony Onguéné Mete TABLE 2 – Fréquence des verbes français dans le corpus (1). Dans cette première vague de verbe, outre les auxiliaires, les verbes de base les plus fréquents sont : dire, aller, partir et faire. Puis, suivent venir et savoir. Rang Nombre d’occurrences Verbes lemmatisé 23 24 v|voir 24 23 v|prendre-PP 25 23 v|voir&INF 26 22 v|voir&PP 27 21 v|appeler 28 17 v|attendre 29 17 v|donner-PP 30 16 v|parler 31 15 v|arriver-PP 32 15 v|prendre 33 14 v|connaître 34 13 v:mdl|falloir 75 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco 35 13 v|mettre 36 13 v|prendre-INF 37 13 v|trouver-PP 38 12 v|aimer 39 12 v|chercher-INF 40 12 v|commencer 41 11 v:mdllex|faire-PP 42 11 v|regarder 43 11 v|passer-PP 44 11 v|penser 45 11 v|raconter TABLE 3 – Fréquence des verbes français dans le corpus (2). Pour rappel, « v » symbolise le verbe. Il est chaque fois suivi de l’occurrence repérée par CLAN dans le corpus. Ils sont regroupés par sous-classes, selon leurs domaines d’emplois. Exemple, faire, employé comme un verbe modal lexical, (v:mdllex) au participe passé, (PP). « v:mdl » correspond aux emplois de verbes modaux, « v:aux » aux verbes auxiliaires (avoir ou être), v:exist à la copule et « v:poss » au verbe avoir utilisé en verbe lexical (possession). IMPF correspond à l’imparfait, INF à l’infinitif. Dans cette deuxième vague, voir est largement dominant. Puis suivent les verbes de manipulation et de transfert tels : prendre, donner et mettre. 6 Classement des verbes les plus fréquents par domaine sémantique En suivant les regroupements par domaines sémantiques effectués par Noyau (2005) sur l’index des verbes du Français Fondamental, on obtient la table ci-dessous. *Aux./Cop. Verbes de mouvement Verbes d’activité Verbes de communication Verbes de transfert Verbes de cognition Verbes de perception Verbe de manipulation avoir partir faire dire donner connaître voir mettre être venir aimer parler prendre savoir regarder trouver falloir aller attendre raconter pouvoir arriver commencer appeler penser passer TABLE 4 – Domaine sémantique des verbes fréquents. *Aux. et Cop.sont les abréviations respectives de auxiliaire et copule. 76 chercher « Ce que le corpus nous enseigne sur le lexique des verbes des collégiens de Yaoundé » 7 par Tony Onguéné Mete Répertoire des verbes du camfranglais Ces listes brutes de verbes français sont analysées puis regroupées par domaines sémantiques. Voici le répertoire des 20 verbes du camfranglais, classé par domaines sémantiques. On indique à chaque fois leur nombre d'occurrences dans le corpus. Les résultats bruts de CLAN révèlent que la population d’élèves étudiés s’appuie sur 80 verbes du camfranglais. Tous ces verbes sont issus des enregistrements en situation informelle, à l’exception de wanda, s’étonner. Les garçons sont ceux qui emploient le plus ce type de verbe. Sont écartés de la liste ci-dessous les lemmes dont le sens est ambigu. Les verbes inspirés des langues africaines camerounaises sont marqués d’un signe. La transcription de certains d'eux demande encore à être harmonisée. Le chiffre de gauche indique le nombre d’occurrences dans le corpus. Domaines sémantiques Verbes de mouvement Verbes de transfert Verbes de perception Verbes de manipulation Verbes de communication Verbes d’activité Verbes 10 Go 2 Run 1 Travel 1 Trained 1. Shaw 1 Sent 1 Buy 1 Show 1 Gift 5 Yâ 1 Loush 1 Mimba* 1Makam* 2 Lep 1 Joss* 2 Ndem* 1 Tell 1 Ask 7 Wanda 1 Tchop * 1 Nang* Equivalence Partir Courir Voyager S’entraîner Prendre Envoyer Acheter Prêter Donner Entendre Regarder Croire/Penser Remarquer Laisser Parler Laisser Dire Demander S’étonner Manger Dormir TABLE 5 – Verbes du camfranglais regroupés par domaines sémantiques. 8 Fréquence des verbes, implication pour les méthodes de collecte Rang Nombre d’occurrences 493 1 v|ridiculiser 494 1 v|rire 495 1 v|rire&PP 496 1 v|risquer 77 Verbe lemmatisé Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco 497 1 v|réagir 498 1 v|résider-INF 499 1 v|résister 500 1 v|réunir-PP 501 1 v|réussir-INF 502 1 v|réussir-PP 503 1 v|révolter-PP 504 1 v|salir-INF 505 1 v|saluer 506 1 v|sauter 507 1 v|sauver-PP 508 1 v|sentir-IMPF 509 1 v|signer 510 1 v|signer-PP 511 1 v|sombrer 512 1 v|sortir&PP 513 1 v|soumettre-PP 514 1 v|suivre TABLE 6 – Verbes spécifiques n’apparaissant qu’une fois. Rang Nombre d’occurrence 521 1 v|tirer 522 1 v|tirer-PP 523 1 v|tomber-INF 524 1 v|toucher 525 1 v|tourner 526 1 v|tricher-PP 527 1 v|tromper 528 1 v|troubler 529 1 v|tuer-IMPF 530 1 v|témoigner-INF 531 1 v|uriner-PP 532 1 v|utiliser 533 1 v|verser-PP 78 Verbe lemmatisé « Ce que le corpus nous enseigne sur le lexique des verbes des collégiens de Yaoundé » 534 1 v|visionner-INF 535 1 v|vivre-IMPF 536 1 v|voiler 537 1 v|voler-FUT 538 1 v|vomir-PP 539 1 v|élever 540 1 v|énerver-PP 541 1 v|épouser-INF 542 1 v|éteindre-PP 543 1 v|étonner 544 1 Eviter par Tony Onguéné Mete TABLE 7 – Verbes spécifiques n’apparaissant qu’une fois (2). Les résultats ci-dessus présentent des similitudes avec d’autres études sur l’acquisition de verbes en L2. Ces résultats montrent surtout qu’outre les verbes de base, le répertoire des verbes des jeunes de Yaoundé est étoffé par les verbes du camfranglais. Comme le montre le tableau 4, ces verbes remplacent ceux du français dans plusieurs domaines. Ils se retrouvent dans les procès liés aux mouvements, dans ceux liés à la communication, ils sont mobilisés pour exprimer les actions liées aux transferts, celles liées à la perception, à la manipulation et à l’activité. Ce déploiement des verbes du camfranglais s’explique au vu de certains paramètres. En premier, le contexte linguistique de constitution du corpus. Le plurilinguisme et le bilinguisme influencent la majorité des verbes de ce parler. Pour le bilinguisme officiel français-anglais, une grande partie des verbes s’inspire de la langue anglaise : go, travel, run, trained, etc. Du fait du plurilinguisme, une autre partie provient des langues locales : nang, ndem, mimba et plus encore. Travailler avec les jeunes scolarisés plutôt qu’avec les adultes a certainement motivé ces résultats. De Féral (2005) explique que le camfranglais est un parler (1) spécifiquement jeune (2) urbain (3) francophone. Les résultats auraient donc été différents si une autre population avait été choisie et si l’enquête avait été menée en zone rurale. Reste cependant à se demander si les verbes du camfranglais jouent le même rôle que les verbes de base. En d’autres termes, l’apprenant convoque-t-il les verbes de ce parler pour suppléer ceux du français ? Sur la base des résultats, la réponse est négative. Les verbes du camfranglais sont presque inexistants à l’école. L’élève de la L2 peut se débrouiller sans puiser dans ce répertoire lexical lorsqu’il se trouve en situation formelle. Tel est justement le cas au Togo, où il n’est point question des verbes du camfranglais (Noyau, 2005, Kihlstedt, 2005). Les verbes de base occupent une place centrale dans le lexique des apprenants de ce pays. Pourtant les auteurs qui l’on montré ont adopté un protocole de recherche différent du nôtre. Pour aboutir aux résultats présentés plus haut, les élèves de Yaoundé se sont appuyés sur les seuls verbes présents dans leur mémoire à long terme. Car les apprenants n’ont pas eu, au préalable, à écouter un conte pour le restituer. En revanche, il était important de minimiser le rôle de la L1 dans le corpus. En plus de raisons évoquées plus haut, il est difficile d’étudier individuellement la centaine de langues que compte le Cameroun en vue de caractériser l’influence dans les productions des élèves. 79 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Les résultats de Paprocka et al. (2004), Noyau (2005) et Kihlstedt (2005), qui ne postulent d’ailleurs pas ce facteur soit unique dans l’acquisition des verbes en L2, sont similaires aux nôtres, d’où l’intérêt de considérer davantage les processus généraux d’acquisition que l’influence de la L1 dans un milieu d’enquête plurilingue. Pour comparer nos résultats avec ceux d’autres travaux acquisitionnels, mentionnons que Paprocka et al. (2004 : 55) s’appuient sur le logiciel Clan pour analyser leur corpus et montrent que les apprenants polonais de L1 et de L2 misent en priorité sur les verbes de mouvement, le verbe dire, les verbes de perception et les verbes de phase. D’une manière générale, les verbes de mouvement comme : aller (+ venir), les verbes de transfert comme : donner et prendre, les verbes de perception tels voir sont toujours fréquents en L2. Pour les verbes de mouvement, leur présence s’explique en grand nombre parce qu’ils font avancer le récit. Pour les verbes de communication et les verbes de perception, ils sont très sollicités car les jeunes narrateurs recourent au style direct (Paprocka . 2000). En ce qui concerne les verbes de transfert, il faut rappeler qu’ils sont également très précoces dans le lexique des verbes. Par exemple, prendre et donner sont plus précoces que le verbe de manipulation mettre, rappelle Martinot (1998). Pour terminer, il a été constaté dans cette enquête que la fréquence du verbe de base faire était largement plus élevée que dans les autres études similaires. Les enregistrements de discussions de groupe ont certainement influencé cette fréquence. En l’absence d’une injonction normative, les débatteurs n’ont pas ressenti la nécessité de recourir à des verbes plus spécifiques. Conclusion provisoire Dans cet espace nous avons montré comment les objectifs de notre recherche déterminaient la construction du corpus. Cet objectif, pour l'instant, se limite à la phase de description du lexique verbal français dans les lectes d'apprenants en milieu plurilingue. Le paramètre clef de l’étude a été que l’ancrage sociocognitif de l'enquêté était essentiel à l’orientation de la constitution du corpus. La sociolinguistique et la psycholinguistique ont fourni les méthodologies utiles pour mettre en évidence, au plan cognitif, les stratégies qui présidaient au choix et à l'usage des verbes, en tenant compte du milieu plurilingue (au plan macro-) et à la situation d'enregistrement (au plan micro-). La reconstitution des données a posteriori après écoute, transcription et codage des verbes du corpus, a révélé que les collégiens de la ville de Yaoundé s'aident de deux microsystèmes verbaux dans leur activité langagière : l'un issu du CFG, qui s'emploie exclusivement hors de la salle de classe, et l'autre constitué de verbes de base, qui s'emploie autant en milieu formel qu'en milieu informel. Ces verbes n’assument cependant pas la même fonction dans le processus d’acquisition. Les verbes de base ne sont pas particuliers aux jeunes de Yaoundé. Les apprenants d’une L1 et d’une L2 les mobilisent une fois le processus d’acquisition enclenché. La présente enquête a simplement souligné le rôle plus important du verbe faire dans la verbalisation des procès. Pour observer les différences dans l’usage de ces verbes de base et préciser la particularité lexicale de cette catégorie de mot au Cameroun, il faut procéder à une analyse lexicosyntaxique des énoncés. Les verbes du camfranglais en revanche sont représentatifs de la réalité linguistique du milieu. Leur présence n’était pas envisagée au départ. C’est le corpus qui a révélé leur emploi par les jeunes pourtant scolarisés. Ces verbes ne sont pas là pour suppléer ceux du français. La preuve en est qu’on en rencontre très peu en milieu scolaire. Des études ont montré qu’en général, le CFG a fonction une cryptique et ludique. Ce parler permet aux apprenants de 80 « Ce que le corpus nous enseigne sur le lexique des verbes des collégiens de Yaoundé » par Tony Onguéné Mete s'insérer dans des groupes de jeunes et d’y trouver une identité sociale. Il marque un refus de l'autorité normative du français scolaire. Références DE FERAL, C. (2005). Décrire un « parler jeune » : le cas du camfranglais (Cameroun). Des inventaires lexicaux du français en Afrique à la sociolinguistique urbaine. http://www.unice.fr/ILF-CNRS/ofcaf/21/Jeune.pdf.[consulté le 2 septembre 2012]. DUVIGNAU, K. (2005). Pour un apprentissage-enseignement du lexique verbal calqué sur l’acquisition : revisite et apport des « métaphores / erreurs » des enfants de 2- 4 ans. In GROSSMANN, F., PAVEAU, M.-A., et PETIT, G. (éds.), Didactique du lexique : langue, cognition, discours. Grenoble, ELLUG, pages 37-49. ECHU, G. (2008). Dynamique du pidgin-english dans l’espace littéraire camerounais. http://www.inst.at/trans/17Nr/2-12/2-12_echu17.htm. [consulté le 2 septembre 2012]. GENTNER, D. (1978). On relational Meaning: the acquisition of verb meaning. Child Development, 49, pages 988-998. CHENU, F., et JISA, H. (2005). Impact du discours adressé à l’enfant sur l’acquisition des verbes en français. http://lidil.revues.org/index133.html. [consulté le 2 septembre 2012]. LABRELL, F., BASSANO, D., CHAMPAUD, C., BONNET, P., et LEMETAYER, F. (2005). L’évaluation du développement lexical entre 1 et 4 ans : présentation du DLPF. In GROSSMANN, F., PAVEAU, M.A., et PETIT, G. (éds.), Didactique du lexique : langue, cognition, discours. Grenoble, ELLUG, pages 51-62. KLEIN, W. (1989). L'acquisition de langue étrangère. Paris, Armand Colin. MACWHINNEY, B. (2000). The CHILDES Project: Tools for Analyzing Talk. Mahwah NJ, Lawrence Erlbaum Associates. KIHLSTEDT, M. (2005). Stratégies compensatoires dans l’acquisition du lexique verbal en français. In GROSSMANN, F., PAVEAU, M.-A., et PETIT, G. (éds.), Didactique du lexique : langue, cognition, discours. Grenoble, ELLUG, pages 85-105. MARTINOT, C. (1998). Le développement de la construction argumentale de trois verbes essentiels : mettre, prendre, donner. Langue française, 118, pages 61-83. MOIRAND, S. (1982). Enseigner à communiquer en langue étrangère. Paris, Hachette. NOYAU, C., et KIHLSTEDT, M. (2002). Développements récents de la recherche sur les locuteurs en action et les processus de traitement de la langue dans l'activité textuelle. Revue française de linguistique appliquée, 7, pages. 5-6. NOYAU, C. (2005a). Le lexique verbal dans l’acquisition d’une langue seconde : verbes de base, flexibilité sémantique, granularité. In GROSSMANN, F., PAVEAU, M.-A., et PETIT, G. (éds.), Apprentissage du lexique : langue, cognition, discours. Grenoble, ELLUG, pages 65-84. ONGUENE ESSONO, L.-M. (2011). La presse écrite dans la dynamique du français au Cameroun : essai d'analyse de l'information écrite et produite dans les journaux camerounais. Thèse HDR, Université M. de Montaigne, Bordeaux 3. PAPROCKA-PIOTROWSKA, U., et DEMAGNY, A.-C. (2004). L’acquisition du lexique verbal et des connecteurs temporels dans les récits de fiction en français L1 et L2. Langages, 155, pages 5275. PARISSE, C., et LE NORMAND, M.-T. (2000). Automatic disambiguation of morphosyntax in spoken language corpora. Behavior Research Methods, Instruments and Computers, 32-3, pages 468-481. 81 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco SANZ ESPINAR, G. (2002). Lexique des procès: rôle textuel et rôle dans l'acquisition des langues. Revue Française de Linguistique Appliquée, 7-2, pages 71-88. VIBERG, Å. (1998a). Crosslinguistic perspectives on lexical acquisition: the case of languagespecific semantic differentiation. In HAASTRUP, K., et VIBERG, Å. (éds.), Perspectives on lexical acquisition in a second language. Lund, Lund University Press pages 175-208. VIBERG, Å. (2002). Basic verbs in second language acquisition. Revue française de Linguistique Appliquée, 7-2, pages 51-69. 82 « Sémantique du discours scientifique de Pierre Bourdieu. » par Ali Belghanem Sémantique du discours scientifique de Pierre Bourdieu. Construction et classification d'un corpus de travail. Ali Belghanem CREM, Université de Lorraine [email protected] RESUME__________________________________________________________________________________________________________________ Quelle classification adopter dans le cadre d’une lecture sémantique visant à décrire un corpus de Pierre Bourdieu ? Faudrait-il prendre pour base les disciplines, les problématiques traitées, le facteur diachronique ou les terrains empiriques ? Le parcours que nous présentons ici se divise en deux étapes principales. Premièrement, nous avons questionné les présupposés d’une hypothèse largement dominante dans les études sur le sociologue. Elle consiste à catégoriser la production bourdieusienne en fonction des disciplines (sociologie, ethnologie, anthropologie). Cette perspective pose plusieurs problèmes de classification. C’est pourquoi nous avons essayé de la dépasser. Nous lui substituons, dans le deuxième stade de ce parcours, une perspective sémantique référentielle qui consiste à prendre pour base les terrains empiriques étudiés par Bourdieu (Kabylie, Algérie, Béarn, France). Préalablement à cette mise en perspective critique, nous donnons un aperçu des principes et concepts de la sémantique interprétative qui nous sert de modèle de référence. ABSTRACT________________________________________________________________________________________________________________ Semantics of the scientific discourse of Pierre Bourdieu. Construction and classification of a corpus. Which classification has to be adopted within a semantic framework aiming at describing a corpus of Pierre Bourdieu? Shall we consider, as a basis, the disciplines, the issues dealt with, the diachronic factor or fieldwork? This work is divided into two main stages. First, we have questioned the assumptions underlying a highly-prominent hypothesis in the sociological studies. It consists in categorizing Bourdieu’s writings according to disciplines (sociology, ethnology, anthropology). This perspective raises several problems of classification. For this reason, we have attempted to go past it and substitute it, in the second stage of this work, with a referential semantic perspective based on fieldwork research conducted by Bourdieu (Kabylia, Algeria, Bearn, France). Prior to this critical review, we provide an overview of the principles and concepts of interpretative semantics which will serve as a model of reference. MOTS-CLES : Bourdieu, classification, corpus, terrain empirique, sémantique interprétative, univers sémantique KEYWORDS: Bourdieu, classification, corpus, fieldwork, interpretative semantics, Semantic universes 1 Contexte et problématique Le programme de recherche dans le cadre duquel se situe cette réflexion vise à appliquer le modèle descriptif de la sémantique interprétative1 au discours scientifique de Pierre Bourdieu, à travers un corpus constitué des travaux suivants : Sociologie de l’Algérie (Bourdieu, 1961), Le déracinement (Bourdieu, 1964), Esquisse d'une théorie de la pratique (Bourdieu, 1972), Algérie 60 (Bourdieu, 1977), Le sens pratique (Bourdieu, 1980), Homo academicus (Bourdieu, 1984), Pour un aperçu des principaux concepts de la sémantique interprétative, sémantique interprétative. 1 83 voir infra : annexe, résumé de la Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Les règles de l'art (Bourdieu, 1992), La domination masculine (Bourdieu, 1998) et Le bal des célibataires (Bourdieu, 2002). Avant de procéder à la construction de parcours interprétatifs dans les textes, à l’identification d’isotopies ou à la mise en lumière d’univers sémantiques, l’élaboration et la classification critique du corpus de travail constituent un préalable. Ce sont les étapes et les procédures qui ont conduit à la concrétisation de ce préalable qui font ici l’objet de notre propos. C’est donc en amont de la description sémantique proprement dite que se situe ce travail. 1.1 La sémantique interprétative : concepts et principes méthodologiques La sémantique interprétative développée par François Rastier est, selon le mot de Hébert (2001), une synthèse de « deuxième génération » de la sémantique structurale développée diversement, mais conformément au programme saussurien, par Hjelmslev, Coseriu, Pottier et Greimas. Elle emprunte également à Humboldt et à Cassirer : au premier, son objectif de caractérisation des langues et des cultures, au deuxième, son programme d’une philosophie des formes symboliques. Le projet d'une herméneutique matérielle, formulé par Schleiermacher et poursuivi par Szondi, est par ailleurs une source d’inspiration théorique de la sémantique interprétative. Comme ses prédécesseurs, Rastier propose une méthode de décomposition du sens linguistique en unités plus petites appelées sèmes2. Le sémème est l'ensemble des sèmes d'une unité linguistique et correspond à son contenu sémantique. La récurrence, dans une suite linguistique, d'un sème appartenant à des sémèmes différents induit une isotopie 3 . L'interprétation est alors l’ensemble des opérations consistant à actualiser (identification en contexte) ou à virtualiser (neutralisation en contexte) les composants des sémèmes apparaissant dans la suite linguistique considérée. Le contexte occupe dans ce cadre une place importante. En général, les suites linguistiques étudiées en sémantique interprétative sont de l'ordre d'un texte. Avec le principe que le global détermine le local, aucune interprétation, c’est-à-dire aucune lecture, n'est possible hors contexte (texte ou corpus). Le texte défini comme « une suite linguistique empirique attestée, produite dans une pratique sociale déterminée, et fixée sur un support » (Rastier, 2001, p.21) constitue à la fois « le palier de complexité supérieur4 de l’usage linguistique » (Rastier et al., 1994, p.171) et le contexte immédiat, minimal et indispensable, de l’activité interprétative dont le contexte global est constitué par tout le corpus. Dans cette optique, les textes, considérés dans leurs structures transphrastiques, constituent l’objet empirique de la linguistique. La sémantique des textes s'occupe de l'étude du plan du contenu et définit le texte comme l’interaction non séquentielle de quatre composantes sémantiques : la thématique (contenus investis), la dialectique (états et processus), la dialogique (énonciation représentée) et la tactique (disposition des contenus) (Rastier et al., 1994). Plaidant pour une conception non antinomique de la dualité langue / parole (Rastier, 2004), elle postule que l’espace des normes (génériques, discursives, ou plus généralement sociales) constitue un niveau intermédiaire entre les virtualités qu’offrent la langue (le système) et les actualisations que permet de réaliser la parole (le procès) :« Chaque texte procède d’un genre, et chaque genre est relatif à un discours5 (politique, religieux, scientifique, littéraire, etc.) » (Rastier, 1996 b, Pour une typologie des sèmes (ou composants sémantiques), cf. Rastier, 1987, chap. II cf. Rastier, id. chap. IV sur le concept d'isotopie, et chap. V pour une typologie des isotopies. 4 Dont les paliers inférieurs sont, en simplifiant, le mot et la phrase. 5 Il convient de rappeler que le discours n'est pas considéré ici comme une dimension du langage (phrase, texte, langue, parole, etc.) mais comme la partie sémiotique d'une pratique sociale. Dans cet usage le concept de discours 2 3 84 « Sémantique du discours scientifique de Pierre Bourdieu. » par Ali Belghanem p.16). Le programme d'une praxéologie linguistique, considérant que chaque pratique sociale comporte une instance linguistique, prend alors forme et occupe une place dans l'édification d'une sémiotique des cultures. Le cadre d'analyse ici esquissé est à la fois une théorie sémantique unifiée du mot au texte et une poétique généralisée6, puisqu’elle vise à rendre compte de la diversité des textes qu’ils soient littéraires ou non littéraires. De fait les textes théoriques, dont relèvent les textes scientifiques, y trouvent une place. Cette généralisation est d'autant plus nécessaire que les théories scientifiques sont pour une sémiotique des cultures des phénomènes culturels. Notre projet voudrait, à travers le cas de Pierre Bourdieu, apporter une contribution dans le cadre de cette généralisation de la sémantique au discours scientifique. 1.2 Le corpus L’ensemble des travaux effectués par Bourdieu constitue une masse énorme de matériaux. C’est pourquoi un travail de sélection méthodiquement outillé pour délimiter un corpus de travail est nécessaire. Un corpus est « un regroupement structuré de textes intégraux », construit « de manière réflexive », en vue « d’une gamme d’applications» et d’un besoin pratique (Rastier, 2004). La construction d’un corpus est ainsi le résultat d'une série de choix et d'opérations. L'explicitation de ces opérations et de ces choix représente un enjeu majeur dans le processus d'objectivation scientifique. Tout le problème consiste alors à établir les critères les plus adaptés pour orienter ce travail de construction, mais surtout de classification, en vue de légitimer tel regroupement plutôt que tel autre. La question est donc d’abord et avant tout la suivante : quelle classification adopter dans le cadre d’une lecture sémantique visant à décrire un corpus de Pierre Bourdieu ? Faudrait-il prendre pour base les disciplines (sociologie/ethnologie…), les problématiques traitées (domination/reproduction…), le facteur diachronique (années 1960/années 1970…), les terrains empiriques (Algérie/Béarn…) ? Nous avons choisi de présenter deux types de regroupements ou de classifications, le premier prenant pour base les étiquettes disciplinaires, le second les terrains empiriques. Nous commencerons notre enquête en rappelant la conception de Claude Lévi-Strauss des rapports entre sociologie/ethnologie/ethnographie/ anthropologie. Nous montrerons ensuite, à partir de quelques commentateurs de Bourdieu, que c’est la classification de Lévi-Strauss qui sert le plus souvent, implicitement ou explicitement, de modèle de référence dans la catégorisation de la production bourdieusienne. Après avoir constaté les limites de cette conception par disciplines et les difficultés auxquelles elle se heurte dans une transposition sur le cas de Bourdieu, nous présentons de nouvelles catégories de classement qui se fondent sur les terrains empiriques auxquels se réfèrent les textes. 2 Le mode de classement par disciplines Selon Jean-Claude Passeron, « Une frontière longtemps balisée, celle qui sépare l’ethnologie de la sociologie, a […] survécu à ses conditions initiales» (Passeron, 1996, p .79). Bourdieu de son côté aimait à rappeler l’unité de la science sociale et le caractère fictif de la séparation entre les disciplines : « je voudrais essayer de montrer, écrit-il, que l’on peut, avec les mêmes renvoie à un ensemble de genres liés à une pratique sociale : au sein du discours scientifique, par exemple, l’on rencontre des articles, des thèses, des comptes rendus, des monographies, etc.). Cette acception tient en sémantique interprétative à une perspective praxéologique, visant à décrire les performances sémiotiques au sein de situations sociales réelles. 6 cf. Rastier, 2001, chap. VIII. 85 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco instruments, penser des choses aussi différentes que les échanges d’honneur dans une société précapitaliste, ou, dans des sociétés comme la nôtre, l’action de fondations comme la Fondation Ford ou la Fondation de France, les échanges entre les générations au sein de la famille et les transactions sur les marchés des biens culturels ou religieux, etc. » (Bourdieu, 1994, p. 177). Qu’en est-il dans ce cas des distinctions devenues classiques qu’avait proposées autrefois Lévi-Strauss dans ce domaine? Peut-on les appliquer dans la classification d’un corpus de Pierre Bourdieu ? Telles sont les questions auxquelles tentera de répondre cette section. 2.1 Les définitions de Lévi-Strauss C’est principalement dans deux études célèbres que Claude Lévi-Strauss a donné la forme la plus aboutie à sa classification des disciplines au sein des sciences sociales : (1958a) et (1958 b). La seconde étude, « L’anthropologie dans les sciences sociales », date de 1954 et se présente comme un prolongement de la réflexion initiée dans la première, « Histoire et ethnologie », qui date de 1949. C’est dans ces deux textes que l’auteur propose des définitions pour les termes d’ethnographie, d’ethnologie, d’anthropologie et de sociologie, dans le but de délimiter le territoire de chaque discipline, ses tâches, son objet d’étude et sa méthode propre. Nous rappelons dans cette section les principales étapes du raisonnement lévi-straussien. Pour Lévi-Strauss, si « l’ethnographie consiste en l’observation et l’analyse de groupes humains considérés dans leur particularité », l’ethnologie (ou, dans l’acception anglo-saxonne, l’anthropologie) utilise de son côté à des fins de comparaison les matériaux que lui offre l’ethnographie (1958 a, p. 5). Alors que l’ethnographie apparait comme la science du particulier, l’ethnologie se présente comme la science du général, indépendamment du type de société étudiée, complexe ou élémentaire, moderne ou traditionnelle, proche ou lointaine : « Dans tous les cas, précise Lévi-Strauss, l’ethnologie comprend l’ethnographie comme sa démarche préliminaire et elle en constitue le prolongement. » (1958b, p. 388). En fait, l’ethnologie représente un premier stade vers la synthèse globalisante des savoirs sur les sociétés humaines, laquelle synthèse parvient, dans la conception anglo-saxonne, à son dernier stade grâce à l’anthropologie : «Dans les pays anglo-saxons, l’anthropologie vise à une connaissance globale de l’homme […] une connaissance applicable à l’ensemble du développement humain depuis, disons les hominidés jusqu’aux races modernes ; et tendant à des conclusions, positives ou négatives, mais valables pour toutes les sociétés humaines depuis la grande ville moderne jusqu’à la plus petite tribu mélanésienne. » (1958 b, p. 388). Si donc l’ethnographie est la science qui enregistre le particulier, l’ethnologie la science comparative qui vise à accéder au général, l’anthropologie, elle, est la science qui accède, également par comparaisons, à l’universel. Et Lévi-Strauss de conclure : « Ethnographie, ethnologie et anthropologie ne constituent pas trois disciplines différentes, ou trois conceptions différentes des mêmes études. Ce sont, en fait, trois étapes ou trois moments d’une même recherche, et la préférence pour tel ou tel de ces termes exprime seulement une attention prédominante tournée vers un type de recherche, qui ne saurait jamais être exclusif des deux autres. » (1958b, pp. 388-389). La définition de la sociologie n’est en revanche pas aisée. Les terminologies française et anglosaxonne, à son propos, ne se recoupent pas. Pour la tradition française, c’est à la sociologie que revient la tâche de la grande synthèse des savoirs sur les sociétés humaines, alors que pour la tradition anglo-saxonne, elle n’est qu’une spécialisation de l’anthropologie, science de l’universel : « L’équivoque qui domine les rapports entre anthropologie et sociologie […] tient d’abord à l’ambiguïté qui caractérise l’état actuel de la sociologie elle-même. Son nom de sociologie la désigne comme la science de la société par excellence, celle qui couronne – ou en laquelle se résument – toutes les autres sciences sociales. Mais, depuis l’échec des grandes ambitions de l’école durkheimienne, en fait, elle n’est plus cela nulle part ». (1958 b, p. 395). Si donc le statut de corpus général de l’ensemble des sciences sociales qu’avait rêvé pour elle Durkheim n’est pas atteint par la sociologie, celle-ci se ramène, selon Lévi-Strauss, à « la 86 « Sémantique du discours scientifique de Pierre Bourdieu. » par Ali Belghanem philosophie sociale » et se trouve exclue, par lui, du champ de ses définitions (1958 a, p. 4). Par contre, lorsqu’elle est envisagée, à la manière des Anglo-saxons, comme « un ensemble de recherches positives portant sur l’organisation et le fonctionnement des sociétés du type le plus complexe, la sociologie devient une spécialité de l’ethnographie» (1958 a, p. 4). Avec l’introduction du terme de sociologie dans le champ de ses définitions, nous remarquons que Lévi-Strauss a recours à un trait nouveau, « société plus complexe ». Ce trait n’intervient pas dans les définitions de l’ethnologie et de l’ethnographie. Il permet de caractériser la sociologie, pour délimiter sa place au sein de l’anthropologie, par le type de société spécifique qu’elle vise à décrire : « la sociologie […] étudie les rapports sociaux dans les groupes contemporains sur une base largement expérimentale, et ne se distingue en apparence de l’anthropologie, ni par ses méthodes, ni par son objet : sinon peut-être que ce dernier (agglomérations urbaines, organisations agricoles, Etats nationaux et communautés qui les constituent, société internationale même) est d’un autre ordre de grandeur, et d’une complexité plus grande, que les sociétés dites primitives. » (1958 b, p. 396) Si la sociologie devient, au sein de l’anthropologie, une spécialité de l’ethnographie, cela implique que cette dernière se subdivise en deux branches, l’une ayant pour objet d’étude les sociétés simples (« sociétés dites primitives », écrit Lévi-Strauss), l’autre les sociétés complexes. En définitive, bien que la sociologie renvoie à une double pratique, bien qu’elle soit considérée « tantôt comme un cas particulier de l’anthropologie […] tantôt comme la discipline placée au sommet de la hiérarchie des sciences sociales » (1958 b, p. 397), LéviStrauss retient la première définition et considère la sociologie comme une branche de l’anthropologie, spécialisée dans l’étude des sociétés complexes. Pour résumer, l’anthropologie, selon Lévi-Strauss, est la science universelle qui vise à rendre compte de tous les types de sociétés humaines. Elle se subdivise en deux spécialités, la sociologie et l’ethnologie. La première rend compte des sociétés complexes, alors que la seconde s’occupe des sociétés simples. Toutes les deux, sociologie et ethnologie, impliquent au préalable un moment ethnographique, d’enquête, de recueil de données, d’observation, et constituent deux étapes complémentaires dans la construction d’un savoir universel anthropologique. Telle nous semble être la classification lévi-straussienne des disciplines et qu’on retrouve, parfois sous une forme radicalisée, chez de nombreux commentateurs de Bourdieu. 2.2 Application au cas de Bourdieu Les catégories de classement par disciplines sont-elles transposables à la production scientifique de Pierre Bourdieu ? Permettent-elles de rendre compte de toutes les études réalisées par ce dernier ? Autrement dit, peut-on distinguer au sein de celles-ci deux parties, une première qui serait sociologique et une seconde qui serait ethnologique ? En tout cas, ce mode de classement est à l’arrière-plan de plusieurs commentaires portant sur le travail de Bourdieu. Nous présenterons dans cette section deux exemples : L. Addi et E. Martin-Criado. Lhouari Addi (2002) se réfère explicitement à Lévi-Strauss dans son étude sur Bourdieu : « Si l'on accepte, avec Claude Lévi-Strauss, la définition selon laquelle l'anthropologie se préoccupe de l'homme dans sa condition humaine, et la sociologie de la condition sociale née de l'industrialisation, il serait aisé de conclure que Bourdieu est anthropologue dans sa démarche. Certes, anthropologie et sociologie partagent le même objet, mais elles n'ont pas la même approche : la première recherche l'universel dans le local, tandis que la seconde est plus concernée par ce qui est particulier à telle société. L'une étudie l'homme dans son universalité, l'autre analyse le lien social dans sa singularité. » (Addi, 2002, p.22). En réalité, Addi radicalise une distinction très nuancée, voire relativisée, par Lévi-Strauss, car, comme on l’a vu, selon ce dernier, la sociologie est une spécialisation de l’anthropologie, et non une discipline distincte de celle-ci. Ainsi, d’après Addi, Pierre Bourdieu aurait écrit trois livres de sociologie sur l’Algérie : 87 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Sociologie de l’Algérie, Le déracinement, Travail et travailleurs en Algérie, et deux livres d'anthropologie : Esquisse d’une théorie de la pratique et Le sens pratique. Dans le même temps, Addi cite Les Héritiers, La Reproduction, La Distinction comme des travaux relevant de la sociologie (Addi, 2002, p.38). En fait, il classe les travaux portant sur l’Algérie en période coloniale et la France métropolitaine dans la discipline sociologique, alors qu’il réserve à ceux qui portent sur la Kabylie ancienne l’étiquette anthropologique. Outre l’opposition stricte qu’il fait entre les deux démarches, cet auteur ne prend pas en compte, dans sa classification, les travaux réalisés par Bourdieu sur le Béarn. Martin-Criado (2008) de son côté procède selon le même schéma. La structure même de son ouvrage en porte la trace. Ainsi, son deuxième chapitre est-il intitulé « Devenir sociologue dans une colonie insurgée », alors que le quatrième porte le titre de « Bourdieu anthropologue : la Kabylie traditionnelle ». On retrouve ainsi la même opposition entre deux figures de Bourdieu, l’un sociologue et l’autre ethnologue. Sans se référer explicitement à Lévi-Strauss, cet auteur n’en radicalise pas moins les distinctions opérées par ce dernier dans la reconstruction de ces deux figures de Bourdieu : « Bourdieu, écrit-il, affirme vouloir dépasser la distinction entre anthropologie et sociologie, alors même qu’il la reproduit dans ses analyses algériennes : en faisant de la sociologie dans Travail et Le déracinement, et en développant une version très classique de l’anthropologie […] dans ses études d’ethnographie kabyle » (p. 119). L’objectif de cet auteur est donc de montrer, en adoptant un point de vue radicalement critique, que l’effort de Bourdieu pour transcender les frontières entre disciplines est resté sans résultat. Ce qui est en cause d’après lui, ce n’est pas l’existence de ces frontières, mais l’inaptitude de Bourdieu à les dépasser. En fin de compte, tout en retournant la critique de Bourdieu à l’encontre de Bourdieu lui-même, il reproduit les catégories de classement par disciplines. Les critiques que nous émettons à l’égard de ces auteurs s’appliquent en vérité à notre propre projet tel qu’il a été formulé dans les premières étapes de sa construction. Suivant les propositions de Claude Lévi-Strauss, nous avons en effet, à un moment de notre recherche, opté pour une classification par disciplines. Cette dernière nous a d’abord permis d’élaborer une structure binaire (textes ethnologiques/textes sociologiques), ensuite une structure ternaire (textes ethnologiques/ textes anthropologiques/textes sociologiques). Selon le schéma binaire, les études sur la Kabylie et le Béarn constitueraient la partie ethnologique, alors que les travaux sur l'Algérie et ceux consacrés à la société française représenteraient la partie sociologique : 1. Textes sociologiques : Sociologie de l’Algérie, Le déracinement, Algérie 60, Homo academicus, Les règles de l'art, La domination masculine. 2. Textes ethnologiques : Esquisse d'une théorie de la pratique, Le sens pratique, Le bal des célibataires. La description sémantique avait pour objet les rapports entre disciplines sous la forme de liens intertextuels. Il s’agissait alors de montrer comment Bourdieu réécrivait son ethnologie pour élaborer sa sociologie. 3 Dépassement du mode de classement par disciplines : vers une classification thématique Très vite, nous avons constaté que la structure binaire se heurte à une série de difficultés. Le sens pratique (1980) dans son Livre 1 ou Esquisse d'une théorie de la pratique (1972) dans sa deuxième partie, comme l’a souligné Addi à juste titre, peuvent être appréhendés comme des traités théoriques présentant un modèle général de la vie sociale (anthropologie). On peut d’ailleurs ajouter à ces deux livres Méditations pascaliennes (1997).C’est pourquoi, tout en 88 « Sémantique du discours scientifique de Pierre Bourdieu. » par Ali Belghanem restant dans le cadre de la classification par disciplines, nous avons tenté de corriger, en la complexifiant, la structure binaire (ethnologie/sociologie) en mettant en place un système ternaire : textes ethnologiques vs. textes anthropologiques vs. textes sociologiques : 1. Textes sociologiques : Sociologie de l’Algérie, Le déracinement, Algérie 60, Homo academicus, Les règles de l'art, La domination masculine. 2. Textes ethnologiques : Esquisse d’une théorie de la pratique (première partie), Le sens pratique (Livre 2), Le bal des célibataires. 3. Textes anthropologiques : Esquisse d’une théorie de la pratique (deuxième partie), Le sens pratique (Livre 1). Il s’agissait avec cette restructuration de montrer comment l’anthropologie sert à Bourdieu d’espace de médiation dans son passage de l’ethnologie à la sociologie. Mais cette structure, bien que plus sophistiquée, nous semble pareillement insuffisante, car les démarches ethnologique et sociologique ne s’excluent pas systématiquement, et sont régulièrement convoquées ensemble dans une même étude. C’est, précisément, la raison pour laquelle il convient de parler à leur propos, non pas en termes de disciplines autonomes, mais de démarches participant d’une même science. En définitive, l'obstacle de l’impossibilité d’assigner une étiquette disciplinaire univoque et définitive, sociologie/ethnologie, à chacun des travaux réalisés par Bourdieu ne peut être franchi. La domination masculine serait par exemple ethnologique dans son premier chapitre, alors qu'elle serait sociologique dans le deuxième ; Sociologie de l’Algérie serait, pareillement, sociologique dans son dernier chapitre et ethnologique dans les quatre autres ; les mêmes remarques valent pour Le bal des célibataires (2002) et La distinction (1979) qui résistent également à ces catégories de classement. C'est alors que nous adoptons, comme nouvelle solution classificatoire, une perspective qui part des terrains empiriques étudiés par Bourdieu (Kabylie, Algérie, Béarn, France). Ce qui implique ainsi de retenir comme critère classificatoire le monde social étudié, c’est-à-dire les univers de référence auxquels correspondent les terrains empiriques. Sémantiquement, cela se traduit sous forme d’isotopies, au niveau de composante thématique, d’acteurs, d’états et de processus, sur le plan de la composante dialectique. Le nouveau classement est ainsi le suivant : 1. Sous-corpus/Kabylie : Esquisse d’une théorie de la pratique (Bourdieu, 1972), Le sens pratique (Bourdieu, 1980) ; 2. Sous-corpus/Algérie : Sociologie de l’Algérie (Bourdieu, 1961) ; Le déracinement (Bourdieu, 1964) ; Algérie 60, (Bourdieu, 1977) 3. Sous-corpus/Béarn : Le bal des célibataires (Bourdieu, 2002); 4. Sous-corpus/France : Homo academicus (Bourdieu, 1984), Les règles de l'art (Bourdieu, 1992), La domination masculine (Bourdieu, 1998). Le corpus se répartit donc, en fonction des terrains empiriques, en quatre groupes. Chaque groupement est caractérisé par une unité thématique qui oblige à ranger ensemble des textes portant sur un seul monde social. Il s’agit, dans les termes de la sémantique interprétative, de privilégier comme point d’entrée le régime mimétique des textes, ou leur impression référentielle. Ce dépassement, outre d’être un geste de bon sens méthodologique, se trouve également consolidé, d’une part, par les critiques épistémologiques de Jean-Claude Passeron et, d’autre part, par les propres positions de Bourdieu à propos des frontières entre disciplines. Le premier (Passeron, 1996, ch. 1) a très bien montré le caractère artificiel et épistémologiquement fragile de la séparation faite entre sociologie et ethnologie. Reprenant le raisonnement mis en œuvre par Lévi-Strauss, il conclut ainsi que « ni la généralité du propos, ni l’objet d’étude, ni, souvent, la méthodologie ne permettent plus de discerner un sociologue d’un anthropologue, voire d’un historien des mentalités sauf à s’en remettre à l’autoappellation de chacun» (Passeron, 1996, p.78). Le deuxième (entre autres, Bourdieu, 1994) insiste sur la validité universelle de son modèle praxéologique :« En réalité, écrit-il ainsi, 89 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco l’analyse de la relation entre l’agent et le monde, entre les structures mentales et les structures sociales, avec, d’un côté, l’incorporation des structures du monde social à travers la socialisation et, de l’autre, la construction du monde social par la mise en œuvre de ces structures, me paraît être dotée d’une validité universelle : elle s’applique aussi bien à des sociétés traditionnellement traitées par l’ethnologie qu’à des sociétés ordinairement étudiées par la sociologie (ce qui contribue à fonder l’abolition de la frontière entre ces deux disciplines). La praxéologie est une anthropologie universelle qui prend acte (entre autres choses) de l’historicité, donc de la relativité, des structures cognitives, tout en enregistrant le fait que les agents mettent en œuvre universellement des structures historiques» (p.171). La classification thématique que nous proposons a pour mérite d’offrir un cadre cohérent au sein duquel l’activité interprétative est en mesure de proposer plusieurs hypothèses de lecture. Par exemple, il est possible de reconstruire, grâce à notre méthode sémantique, les microunivers associés à chacun des quatre terrains, les rapports qu’ils entretiennent, opposition, analogie, identité, homologie. On peut également déterminer, dans le même esprit, les contenus investis, les réseaux sémantiques, les isotopies, les acteurs, états ou processus dominants dans les textes associés à un terrain particulier, ou leurs transferts d'un terrain à l'autre. Ainsi, elle permet donc d’adopter un double point de vue, le premier intratextuel, le second intertextuel. 3.1 Le point de vue intratextuel Cette perspective permet de rendre compte de l’univers sémantique propre à chacun des quatre sous-corpus. Elle vise notamment à établir les isotopies génériques dominantes, les séquences dialectiques (narratives ou argumentatives) et les relations entre des éléments indexés sur des isotopies différentes. Par exemple, dans le sous-corpus/Algérie, nous avons rencontré une fonction dialectique récurrente. Nous l’avons dénommée la transformation. Elle se présente sous la forme d’une structure méta-dialectique transversale qui se répète d’un domaine à l’autre, d’une dimension du réel à l’autre, avec des lexicalisations particulières selon les domaines sémantiques. Cette fonction est sans cesse accompagnée d’une incohérence, d’une discordance entre les différentes couches du réel (subjective/objective), ainsi qu’à l’intérieur d’une même couche. Il est question dans tous les cas du passage d’un acteur (Le monde social) d’un premier état (/ancien/) à un deuxième état (/nouveau/). Le passage ne s’effectuant pas de façon définitive et univoque, les attributs de l’ancien état subsistent sous forme de reliquats dans le nouvel état. La situation se caractérise alors par un conflit généralisé opposant l’ancien (traditionnel) et le nouveau (moderne). L’analyse d’un extrait permet d’éclairer davantage cet exemple. En fait, les textes qui constituent le sous-corpus /Algérie (Bourdieu, 1961,1964 et 1977) rendent compte du passage, en train de se faire, d’une société précapitaliste à une société capitaliste. C’est ce passage, de la première vers la deuxième, qui dessine et épouse les traits d’une fonction narrative. Celle-ci est lexicalisée diversement en fonction des domaines sémantiques : transformation, passage, changement, transition, mutation, conversion, adaptation, évolution sont ainsi autant de dénominations pour référer au même processus. L’extrait suivant, qui contient une des occurrences de cette fonction, est particulièrement riche du point de vue de sa structure textuelle. C’est pourquoi il est un bon candidat pour exemplifier ce parcours interprétatif : « […] le nouveau système de dispositions ne s’élabore pas dans le vide ; il se constitue à partir des dispositions coutumières qui survivent à la disparition ou à la désagrégation de leurs bases économiques et qui ne peuvent être adaptées aux exigences de la nouvelle situation objective qu’au prix d’une transformation créatrice. » (Bourdieu, 1977, p. 15) 90 « Sémantique du discours scientifique de Pierre Bourdieu. » par Ali Belghanem Cet extrait s’organise sur deux axes7 . D’abord, l’axe de la réalité oppose deux dimensions, /l’intériorité/ (cf. « dispositions ») et /l’extériorité/ (cf. «bases économiques »). Ensuite, chacun des éléments indexés dans l’une de ces deux dimensions est projeté sur un axe chronologique, qui distingue un avant, /ancien/, et un après, /nouveau/. Le parcours qui vient d’être résumé brièvement se diffuse dans de nombreux autres extraits : – – « […] dans cet univers économique, le passage de l’activité de production [/extériorité/] tournée vers des fins traditionnelles [/ancien/] à l’activité de gain “rationnelle’’ [/extériorité/, /nouveau/] ne s’effectue que de façon lente et progressive » (Bourdieu, 1977, p. 45) ; « S’il ne fait pas de doute que l’arrachement à l’ordre traditionnel [/ancien/] et l’entrée, souvent brutale, dans le monde de l’économie moderne [/extériorité/, /nouveau/] entraînent et supposent des transformations systématiques de l’habitus [/intériorité/], c’est prendre l’effet pour la cause que de réduire à sa dimension psychologique le processus d’adaptation à l’économie moderne. » (id, P.46) En résumé, tout se passe comme si une intériorité (réalité subjective) ancienne survivait à la disparition de son extériorité (réalité objective), si bien que l’on rencontre dans une nouvelle extériorité une intériorité inadaptée. Plus simplement, il convient de dire que si le monde change, les individus qui y vivent ne suivent pas le cours des choses, c’est-à-dire ne s’adaptent pas ou seulement lentement. Il résulte de cette situation un décalage qui configure une rupture de la cohérence liant les hommes à l’univers dans lequel ils vivent. 3.2 Le point de vue intertextuel Une fois les phénomènes saillants propres aux univers sémantiques des textes constituant notre corpus sont caractérisés, le travail peut viser la description de relations qui lient un sous-corpus à un autre. Un univers sémantique propre à un terrain peut entretenir avec un univers propre à un autre terrain toute une série de rapports, analogie, opposition, identité. La méthode comparative, sur le plan sémantique, traduit ces rapports en termes d’assimilation, de dissimilation ou de métaphorisation. Par exemple, un rapport d’analogie s’établit entre l’univers sémantique du sous-corpus algérien et l’univers du sous-corpus béarnais. En fait, la transformation dont nous avons parlé plus haut (3.1) est commune aux deux univers. Ils ont également en partage d’autres phénomènes comme les isotopies de la crise, le décalage entre réalité intérieure et réalité extérieure, la coexistence conflictuelle de l’ancien et du nouveau. Dans le Bal des célibataires (Bourdieu, 2002) l’extrait suivant, par exemple, est très proche dans sa structure sémantique des extraits que nous avons relevés plus haut dans Algérie 60 (Bourdieu, 1977) : « Le célibat apparait comme le signe le plus manifeste qui affecte l’ordre social. Alors que dans l’ancienne société, le célibat était étroitement lié à la situation de l’individu dans la hiérarchie sociale, reflet elle-même de la répartition de la propriété foncière, il apparait aujourd’hui comme liée, avant tout, à la distribution de l’espace géographique» (p. 56). Le trait /ancien/ est ici réalisé dans le sémème de « l’ancienne société » et le trait /nouveau/ dans « aujourd’hui ». Les temps verbaux (imparfait vs. présent) renforcent la présence des deux traits. La transformation n’est pas lexicalisée, dans ce passage, mais elle peut-être reconstruite par catalyse. En revanche, dans l’extrait suivant, la En fait, il s’agit dans la terminologie de la sémantique interprétative de deux dimensions sémantiques. La sémantique interprétative distingue trois classes sémantiques : les dimensions, les domaines et les taxèmes. Les dimensions sont les classes de la plus grande généralité. Elles s’organisent en petites catégories fermées et s’opposent deux à deux : nature/culture, humain/divin, animé/inanimé, etc. Pour plus de détails, voir Rastier (1987, ch. 3 et 1989, pp. 55-65). 7 91 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco transformation est lexicalisée par restructuration : « Cette restructuration du système des échanges matrimoniaux pourraient être corrélative d’une restructuration globale autour de l’opposition entre le bourg et les hameaux » (p. 86). Détaillons ce parcours. Dans la société ancienne, seuls les ainés se mariaient. Les cadets y sont condamnés soit au célibat, soit à l’émigration (p. 17). Dans cet univers, le mariage n’était pas une affaire privée engageant des individus, mais une question collective qui concerne tout le groupe : « C’est la famille qui mariait et l’on se mariait avec une famille » (p. 19). Le mariage joue un rôle important dans la préservation de la propriété foncière, car c’est d’elle que dépend avant tout le statut social de la famille. C’est pourquoi les ainés ont le droit de tout hériter et de se marier, droit dont sont exclus les cadets. Dans la nouvelle situation, créée à la faveur de l’urbanisation, l’opposition ainés/cadets est remplacée par l’opposition habitants des hameaux/habitants du bourg. Dans le nouveau système, le mariage est bien une affaire privée, conclue par deux individus. Or, les habitants des hameaux ne maitrisent pas les nouvelles règles, car ils ont gardé leurs anciennes dispositions et les habitudes liées à l’ancien système. C’est que la transformation qu’a connue la réalité extérieure (règles de mariage) n’a pas été accompagnée de la transformation nécessaire de la réalité intérieure (dispositions du paysan). C’est la raison pour laquelle ces dernières ne sont pas adaptées à la nouvelle réalité, d’où l’isotopie de la discordance et du décalage entre les deux ordres de la réalité. Dans l’extrait suivant, issu également du sous-corpus béarnais, le même parcours interprétatif se confirme : « Dans la société d’autrefois, la dispersion de l’espace n’était pas vécue comme telle, en raison de la forte densité sociale liée à l’intensité de la vie collective. Aujourd’hui, les travaux communs et les fêtes de quartiers ayant disparu, les familles paysannes ressentent concrètement leur isolement » (Bourdieu, 2002, p. 95). « La société d’autrefois » s’oppose donc à la société « d’aujourd’hui ». C’est la transformation de la première, avec la disparition « des travaux communs et des fêtes de quartiers », qui produit l’isolement que ressentent les paysans. Si entre les sous-corpus algérien et béarnais s’établit un rapport d’analogie, l’analyse distingue, en revanche, entre l’univers du sous-corpus kabyle et celui du sous-corpus français, un double rapport. Le premier rapport est une relation d’opposition : la Kabylie est /traditionnelle/, caractérisée exclusivement par le trait /intériorisation/ (« histoire faite corps »), alors que la France est /moderne/, massivement caractérisée par le trait /extériorisation/ (« histoire faite chose »). Le deuxième rapport est une relation d’identité : l’univers kabyle et l’univers français, bien différents par l’absence ou la présence du trait /extériorisation/, ont cependant en commun le trait /intériorisation/. En définitive, la France moderne apparaît comme le résultat de la transformation de la Kabylie traditionnelle par le biais de l’extériorisation, où l’on passe indissociablement, de l’ancien vers le nouveau, d’une cohérence traditionnelle vers une cohérence moderne ; d’une indifférenciation initiale vers une différenciation finale ; du continu vers le discret. 3.3 Un parcours interprétatif global En contrastant les différents portraits sémantiques qui se dégagent de l’examen des textes consacrés aux différents terrains, en croisant les différents parcours interprétatifs dégagés localement, une hypothèse de lecture globale se précise progressivement et se trouve de plus en plus consolidée. Les mondes en crise (Béarn des années 50 et Algérie coloniale) occupent une place intermédiaire entre l’ancien et le nouveau, le traditionnel et le moderne, c’est-à-dire entre deux types-idéaux : Kabylie traditionnelle et France moderne. Quand on sait que les premiers travaux de Bourdieu ont porté sur les mondes en transformation, tout se passe comme si sa production scientifique avait consisté en une sorte de récit anachronique en trois temps. Premièrement : description de la logique du monde en transformation. Deuxièmement : reconstruction idéaltypique du monde avant la 92 « Sémantique du discours scientifique de Pierre Bourdieu. » par Ali Belghanem transformation. Troisièmement : description du résultat de la transformation. Nous obtenons ainsi les trois moments suivants : – – – Avant la transformation: cohérence + indifférenciation (statique, inchoative) → Kabylie (Le tout symbolique) Pendant la transformation : incohérence + processus de différenciation (dynamique, durative) → Béarn/Algérie (Tout se transforme) Après la transformation : cohérence + différenciation (statique, terminative) → France (La pluralité des univers) Conclusion La logique de la recherche ne consiste donc pas en une seule entreprise cumulative où, à d’anciennes découvertes, s’ajouteraient des résultats régulièrement nouveaux. Dans la pratique, nous constatons que le travail d’un chercheur est un itinéraire sinueux remplis de retours en arrière, de rectifications, d’améliorations. La pratique réelle conduit ainsi à revoir aussi bien l’appareil méthodologique et le corps des hypothèses que l’observable et les catégories qui servent à le désigner. Loin de constituer une entrave à l’entreprise scientifique, cet exercice de réflexivité s’avère être une condition nécessaire pour interroger des hypothèses implicites ou des présupposés imperceptibles. Une hypothèse insuffisamment explicitée ou une catégorie non soumise à un travail critique deviennent ainsi des moments nécessaires, et nécessairement provisoires, pour éviter qu’elles ne se transforment en obstacles méthodologiques. En définitive, l’enjeu majeur de ce parcours est de satisfaire aux exigences de l’objectivation scientifique. Si, comme le fait remarquer François Rastier, « un corpus n’est pas une macrounité, mais une collection qui dépend d’un point de vue, d’un faisceau d’hypothèses qui peut voire doit varier au cours de la recherche » (Rastier, 2011, p. 237), il est donc clair que la mise en lumière de ce point de vue et de ces hypothèses est une priorité, sans quoi une lecture scientifique, linguistiquement et épistémologiquement outillée, ne saurait se distinguer d’une lecture profane ou idéologiquement orientée. De ce point de vue, la sémantique ou plus généralement toutes les branches de la linguistique, lorsqu’elles vont au-delà du palier de la phrase pour appréhender des observables plus complexes, les textes et les corpus, sont en mesure de renouveler les instruments de lecture des œuvres scientifiques ou littéraires. Dans le cas de leur application au discours scientifique, si la difficulté est plus grande, l’intérêt et l’utilité le sont tout autant. é érences ADAM, J. M. et al. (1995). Le discours anthropologique. Lausanne, Payot. ADDI, L. (2002). Sociologie et anthropologie chez Pierre Bourdieu. Le paradigme anthropologique kabyle et ses conséquences théoriques. Paris, La Découverte. BOURDIEU, P. (1958). Sociologie de l’Algérie. Paris, PUF. BOURDIEU, P. (1961). Sociologie de l’Algérie (nouvelle édition revue et corrigée). Paris, PUF. BOURDIEU, P. (1964). Le déracinement, la crise de l’agriculture traditionnelle en Algérie (avec A. Sayad). Paris, Minuit. BOURDIEU, P. (1972). Esquisse d'une théorie de la pratique. Genève, Droz. (réédition, 2000, Paris, Seuil). BOURDIEU, P. (1977). Algérie 60, structures économiques et structures temporelles. Paris, Minuit. BOURDIEU, P. (1979). La distinction. Critique sociale du jugement. Paris, Minuit. 93 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco BOURDIEU, P. (1980). Le sens pratique. Paris, Minuit. BOURDIEU, P. (1984). Homo academicus. Paris, Minuit. BOURDIEU, P. (1992). Les règles de l’art. Genèse et structure du champ littéraire. Paris, Seuil. BOURDIEU, P. (1994). Raisons pratiques. Sur la théorie de l’action. Paris, Seuil. BOURDIEU, P. (1997). Méditations pascaliennes. Paris, Seuil. BOURDIEU, P. (1998). La domination masculine. Paris, Seuil. BOURDIEU, P. (2002). Le bal des célibataires. Crise de la société en Béarn. Paris, Seuil. BOURDIEU, P. (2008). Esquisses algériennes (Textes édités et présentés par T. Yacine). Paris, Seuil. GREIMAS, A. J. (1966). Sémantique structurale. Paris, Seuil. GREIMAS, A. J. et LANDOWSKI, E. (1979). Introduction à l’analyse du discours en sciences sociales. Paris, Hachette. HEBERT, L. (2001). Introduction à la sémantique des textes. Paris, Honoré Champion. LEVI-STRAUSS, C. (1958 a). Histoire et ethnologie, In Anthropologie structurale, Paris, Plon, pages 3-33 (réédition, 1996). LEVI-STRAUSS, C. (1958 b). L’anthropologie dans les sciences sociales, In Anthropologie structurale, Paris, Plon, pages 377-418 (réédition, 1996). MARTIN-CRIADO, E. (2008). Les deux Algéries de Pierre Bourdieu. Broissieux, éditions du croquant. PASSERON, J. C. (1996). Le raisonnement sociologique. Paris, Albin Michel. RASTIER, F. (1987). Sémantique interprétative. Paris, PUF. RASTIER, F. (1989). Sens et textualité. Paris, Hachette. RASTIER, F. (1996 a). Pour une sémantique des textes – questions d’épistémologie, In Rastier (éd.), Textes et sens. Paris, Didier Érudition, pages 9-35. RASTIER, F. (1996 b). La sémantique des textes : concepts et applications. Hermes, 16, pages 15-37. RASTIER, F. (2001). Arts et sciences du texte. Paris, PUF. RASTIER, F. (2004). Enjeux épistémologiques de la linguistique de corpus. http://www.revuetexto.net/Inedits/Rastier/Rastier_Enjeux.html. [consulté le 01/06/2008]. RASTIER, F. (2007). Pour une sémantique des textes théoriques . http://www.revuetexto.net/Inedits/Rastier/Rastier_Textes.html. [consulté le 01/06/2008]. RASTIER, F. (2011). La mesure et le grain. Sémantique de corpus. Paris, Honoré Champion. RASTIER, F. et al. (1994). Sémantique pour l’analyse, de la linguistique à l’informatique. Paris, Masson. 94 « Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat Corpus et phraséologie : un catalogue de « prêt-à-parler » ? Marine Espinat CoVariUs (UMS 3323), Université Paris-Sorbonne [email protected] RÉSUMÉ___________________________________________________________________________________________________________________ La phraséologie, sous-discipline étudiant les séquences polylexicales figées, a connu un essor important ces dernières décennies et très tôt, les chercheurs ont voulu confronter leurs intuitions et théories à des corpus écrits. Le recours à ces corpus a permis de délimiter et/ou d’élargir certaines frontières de la phraséologie. Cependant, la prise en considération exclusive des corpus écrits a mené à des présuppositions hâtives sur l’usage réel de ce « prêt-àparler ». Si la constitution et l’exploitation de corpus oraux est complexe, y chercher et étudier des séquences polylexicales figées représente encore un tout autre défi. Une telle étude se limite-t-elle à la recherche d’occurrences phraséologiques ? Puisque beaucoup d’encre a déjà coulé sur le comportement syntaxique ou le détournement des phrasèmes, quels peuvent être les apports spécifiques d’un corpus oral à la phraséologie ? Se limite-t-il au statut de « catalogue » dans lequel chercher le « prêt-à-parler » de la langue ? ABSTRACT________________________________________________________________________________________________________________ Corpus and Phraseology: a catalog of “ready-to-talk”? Phraseology studies multi-word lexical units and has expanded significantly in recent decades. Very early, researchers confronted their intuitions and theories to written corpora. Using such corpora allowed to mark out and/or to widen some of the phraseology borders. Nevertheless, considering exclusively written corpora has led to hasty assumptions on the actual use of that “ready-to-talk”, that phraseology represents in language. Building oral corpora up and exploiting them may be considered as complex, but searching for and parsing multi-word lexical units on them represents a completely different challenge. Does such a study only serve to look for phraseological occurrences? Since the syntactical behavior or deviation of phrasemes caused a lot of ink to flow, what may be the specific contributions of an oral corpus to phraseology? Is such a corpus limited to the status of “catalog” in which the “readyto-talk” of language gets collected? MOTS-CLES : phraséologie, corpus oral, analyse conversationnelle, cognition KEYWORDS : phraseology, oral corpus, conversational analysis, cognition 1 Introduction « Ce qui intéresse l’observateur, ce sont les données langagières authentiques : plus il en a, mieux il se porte. Les théories qu’il échafaude reposent sur l’observation de ces données. Ces données, qu’il n’a de cesse de renouveler, le conduisent soit à maintenir, soit à abandonner ses thèses et hypothèses. L’observateur s’adresse surtout à ses collègues pour leur parler des observations intéressantes qu’il a faites. Sinon, il passe le plus clair de son temps devant son ordinateur. La représentation à laquelle il souhaite aboutir grâce à ces observations se doit d’être aussi complète que possible. Et pour cette raison, il s’attache à ces phénomènes que l’on trouve dans notre usage quotidien du langage » (Lemnitzer et Zinsmeister, 2006).1 Voici deux chercheurs qui dressent un autoportrait caustique du linguiste « apte au travail sur 1 Par souci d’accessibilité, toutes les citations en allemand ont fait l’objet d’une traduction par l’auteure. 95 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco corpus » dans les pages liminaires de Korpuslinguistik : eine Einführung, en l’opposant au personnage du penseur, qui fonde la théorie directement et exclusivement issue de son cerveau sur des exemples aberrants. Sous ses aspects caricaturaux, il y a pourtant beaucoup de vérité dans cette description de la position d’observateur du langage, de la quête obsédante de (nouvelles) données, de l’opiniâtreté à une tâche souvent ingrate et de l’assujettissement à ces données. Mais ce qui ressort en toile de fond, c’est la volonté de dresser une image la plus fidèle possible de ce qu’est le langage dans sa réalité parfois imparfaite, mais bien réelle. Sommes-nous sur la voie du « progrès de la connaissance », pour reprendre le titre d’un des multiples ouvrages récents dédiés aux corpus 2 ? Aboutit-on en tant que linguiste à la connaissance par la confrontation au(x) corpus ? Si la collecte de données exploitables représente bien un défi perpétuellement renouvelé, on est en droit de se demander si le risque n’est pas celui du catalogue, dangereux par la masse et l’hétéroclisme des données qu’il met à disposition. Nous nous interrogerons ici sur cette dualité entre données et connaissances déjà acquises et à acquérir dans le cadre d’une sous-discipline relativement récente de la linguistique : la phraséologie, dont l’objet d’étude pourrait être qualifié de « prêt-à-parler » de la langue. Dans un premier temps, nous retracerons les acquis de la phraséologie avant l’avènement du corpus en linguistique : quel a été le parcours de cette discipline alors qu’elle cherchait précisément à se constituer en tant que telle ? Nous verrons en quoi son association avec la recherche sur corpus a été décisive dans la suite de son évolution, puisqu’il s’agissait pour la phraséologie de prouver sa raison d’être – confrontation qui a conduit à rendre certaines de ses frontières très floues. Dans ce même souci d’étudier les apports réciproques possibles et souhaitables entre phraséologie et corpus, nous nous pencherons sur la question des corpus oraux et sur leur complexité, en termes de collecte et de traitement. Enfin, nous expliquerons en quoi la recherche de phénomènes phraséologiques au sein d’un corpus oral permettra d’ouvrir encore de nouveaux horizons à cette discipline du « prêt-à-parler ». Pour ce faire, nous confronterons – puisque c’est là un des objectifs premiers de la recherche sur corpus – des présupposés concernant le fonctionnement cognitif des phrasèmes à l’empirie de conversations « authentiques »3. 2 Avant le corpus, il y avait... la théorie. Étant donné son statut de sous-discipline relativement récente dans l’histoire de la linguistique, les premiers ouvrages sur le sujet partaient d’une réflexion définitoire et théorique sur ces séquences figées. L’un des phraséologues germanistes les plus réputés, W. Fleischer (1997), retrace dans Phraseologie der deutschen Gegenwartssprache toute l’histoire de la phraséologie se constituant petit à petit en discipline et constate que jusque dans les années 70, toutes les recherches quelque peu complètes portant sur la phraséologie étaient consacrées à la détermination de l’objet d’étude et à la classification des phrasèmes (Fleischer, 1997 : 20). Les premières recherches en phraséologie pouvant se prévaloir de l’appui sur un corpus visaient principalement à observer le rôle des phrasèmes au sein d’un texte. Ainsi, W. Koller 2 « Sprachkorpora – Datenmengen und Erkenntnisfortschritt » (Kallmeyer et Zifonun, 2006) = Corpus langagiers, masses de données et progrès de la connaissance. 3 Le travail de recherche présenté ici s’inscrit dans les sciences du langage, et plus précisément dans la linguistique germaniste. L’auteure tient donc à prévenir ses lecteurs que les références seront principalement empruntées à des chercheurs germanistes. Loin de rejeter la recherche française sur ce sujet, cet article se comprend aussi comme l’occasion de présenter les conceptions ayant cours Outre-Rhin. 96 « Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat (1977) s’interrogeait sur la fonction et l’effet des expressions figées quand elles servaient à la description de faits politiques au sein d’articles de journaux. Toutefois, c’est dans la relation qu’entretiennent phraséologie et discours de spécialité que s’est illustré le recours aux corpus, même si ces derniers n’ont trouvé leur droit de cité quasi systématique au sein des titres que depuis la fin des années 90/début des années 2000. Le recours à des corpus dans une perspective quantitative, principalement dans la phraséologie anglo-saxonne, a aussi considérablement ouvert les limites de la discipline en réactualisant la notion de « collocation » à laquelle nous reviendrons ultérieurement. 2.1 Définition de la phraséologie Il convient en effet de préciser ici plus explicitement ce qu’englobe la phraséologie et quels sont les faits définitoires à peu près fixés sur lesquels nous pourrons nous appuyer. La phraséologie a connu ses débuts sous l’impulsion de Charles Bally et de son Traité de stylistique française (Bally, 1909). Cependant, seule la recherche soviétique sembla, dans les décennies suivantes, en mesure d’en estimer l’intérêt et ce n’est que dans les années 70 que la phraséologie refit surface dans la sphère européenne occidentale et anglo-saxonne. Le fait qu’elle ne fut pas constituée en Europe dès le début en discipline autonome, mais rattachée systématiquement à la lexicologie, a contribué au chaos terminologique qui est le sien (Pilz, 1978) et que nous nous attacherons ici à clarifier brièvement. 2.1.1 Polylexicalité et figement Les critères définitoires de la phraséologie sont au nombre de trois, dont deux seulement sont absolument nécessaires. Il s’agit de la polylexicalité et du figement. Ne peuvent prétendre au titre de phrasèmes que des séquences comprenant deux lexèmes au minimum et présentant un certain degré de fixité, pouvant aller du figement véritable (« Rira bien qui rira le dernier ») à une simple stabilité (« perdre la tête/la boule/la raison »). La coexistence de ces deux critères permet la délimitation de la catégorie des phrasèmes. 2.1.2 Idiomaticité Le troisième critère de l’idiomaticité, facultatif, n’en est pas moins important, puisqu’il permet de définir une sous-catégorie particulièrement connue des phrasèmes : les idiomes. Là aussi, de nombreuses définitions se sont fait ou se font encore concurrence. Nous retiendrons la dernière en date issue de la recherche germaniste : Piirainen et Dobrovol’skij (2005) parlent d’« image requirement » et d’« additional naming », à savoir « nécessité du recours à l’image » et « dénomination supplémentaire ». Selon cette conception, on ne considère comme idiomatiques que les phrasèmes où l’on recourt à une image4 et qui peuvent faire l’objet d’une reformulation non-idiomatique. Nous citerons ici comme exemple l’expression « ne pas casser trois pattes à un canard » où l’on utilise l’image assez improbable d’un canard à trois pattes, pour parler de quelque chose qui ne convainc pas ou qui n’a pas de quoi impressionner quiconque. Cet exemple a de plus le mérite d’illustrer que l’opacité, à savoir la difficulté ou non à reconstituer le lien motivant entre l’image « choisie » et la signification réelle, n’est pas considérée comme déterminante dans la définition de l’idiome. 4 Leur structure sémantique est donc plus complexe, car la composante imagée vient s’inclure entre la structure lexicale et la signification lexicalisée, figurée (Dobrovol'skij et Piirainen, 2009). 97 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco 2.1.3 Enjeux Ces trois critères définitoires une fois postulés, les particularités des phrasèmes deviennent manifestes. Sur le plan syntaxique, tout d’abord, la combinaison de la polylexicalité et du figement laissent entrevoir des comportements syntaxiques qui sortent de l’ordinaire. Sur le plan sémantique, ensuite, le figement apporte aussi son lot d’incongruités. Mais c’est clairement l’idiomaticité qui attise le plus la curiosité des chercheurs, puisqu’on en vient à dire que, dans une expression idiomatique, au moins un élément, si ce n’est la séquence entière, ne désigne pas ce à quoi l’expression réfère littéralement. Ainsi, il n’est jamais réellement question d’un canard à trois pattes quand on utilise l’expression « ne pas casser trois pattes à un canard ». On s’aperçoit aisément à quel point ces trois critères se coupent et se recoupent sans cesse, faisant de chaque catégorie de phrasèmes mise en exergue par l’effet de tel critère ou de la combinaison de certains d’entre eux, un sujet de recherche aux facettes multiples. 2.2 Questionnements sans réponse à l’heure actuelle Malgré le développement fulgurant de la discipline et le nombre toujours croissant de chercheurs d’horizons très divers s’intéressant aux phénomènes phraséologiques5, il reste de multiples zones d’ombres au sujet de ces phénomènes langagiers. Tout d’abord, force est de constater que terminologies et typologies ne sont toujours pas concordantes à l’heure actuelle (Burger et al., 2007). Ceci est dû avant tout au fait que la phraséologie a connu un grand essor à une époque où le monde, y compris celui de la recherche, était divisé en deux blocs et où il était difficile, voire inconcevable, de partager connaissances et théories6. Aujourd’hui encore, on constate que les chercheurs anglophones, germanophones, francophones, russophones, etc., adoptent des perspectives très différentes sur la phraséologie7 et que les centres d’intérêt divergent. Mais si le fait historique peut expliquer en grande partie ces divergences, il ne paraît pas absurde de penser qu’elles sont aussi dues à la multiplicité de facettes de l’objet d’étude. Un effort d’uniformisation et d’unanimité paraît donc souhaitable et ne sera sans doute possible qu’une fois que toute son étendue et toutes ses frontières auront pu être explorées. Parmi les domaines qui restent à exploiter, nous pourrons aussi citer celui de la perspective culturelle sur la phraséologie. Confronter des phrasèmes issus de langues et de sphères culturelles extrêmement différentes permet d’accéder à la fois au particulier et à l’universel concernant ces phénomènes. Dobrovol’skij et Piirainen (2005) ont ainsi tenu à prendre en considération les langues suivantes pour l’étude « trans-culturelle et trans-linguistique» qu’ils se proposaient d’en faire : cinq variétés de langues germaniques (anglais, allemand, néerlandais, suédois et un dialecte issu d’une région bien précise de la Westphalie), quatre variétés de l’indo-européen (français, russe, lithuanien et grec moderne), et deux langues agglutinantes (finnois et japonais). Ce souci d’ouvrir la phraséologie à des considérations plus larges et plus fondées sur la/les notion(s) de symbole, de culture est indéniablement prometteur. 5 Nous évoquerons brièvement les grandes orientations récentes de la phraséologie : perspectives didactique (notamment, didactique des langues étrangères), cognitive, pragmatique, etc. 6 Nous renverrons ici à la présentation très complète de l’évolution de la discipline dans l’ouvrage de W. Fleischer (Fleischer, 1997), qui donne à la recherche de l’ex-bloc soviétique toute la place qui lui revient. 7 Ceci n’est pas tout à fait vrai en ce qui concerne la phraséologie germanophone, car elle a pu asseoir sa recherche sur la recherche soviétique antérieure, russophone, qui s’était intéressée à l’allemand, puisqu’une moitié de l’Allemagne appartenait alors au bloc soviétique. 98 « Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat Le « tournant cognitif » qui a opéré de profondes transformations ces dernières décennies dans de nombreuses sciences, dont une partie de la linguistique, a aussi touché la phraséologie. Et pour cause, les questionnements d’ordre psycho-cognitif sur ces phénomènes sont multiples et représentent une grande part des énigmes qu’il reste à éclaircir. Du point de vue cognitif, l’idiomaticité, notamment, véhicule nombre de questions : la présence d’une image représente-t-elle ou non une surcharge cognitive dans la production ou la réception langagière ? L’image langagière peut-elle interférer avec le sens réel de l’expression ? Comment les phrasèmes, et encore plus spécifiquement les idiomes, sont-ils mémorisés et mobilisés 8 ? Le sont-ils au même titre qu’un lexème simple en dépit de leur nature polylexicale ? Enfin, un certain flou existe encore sur l’usage véritable des phrasèmes, et encore une fois plus particulièrement des idiomes. Certains les disent courants, facilement compris et facilement utilisés par les locuteurs. Or, et nous y reviendrons plus tard, ces présupposés s’appuient au mieux sur des constatations faites sur corpus écrits (principalement constitués de textes issus de la presse et de la littérature) - et des auteurs éclairés n’hésitent pas à faire part de leur scepticisme quant aux affirmations faites concernant l’usage des phrasèmes : « Un phrasème peut être considéré comme « usité » soit dans l’ensemble de la communauté linguistique ou bien seulement dans certains de ses secteurs, géographiques ou sociolinguistiques. L’usage donne fréquemment lieu au sein de la recherche en phraséologie à des suppositions hâtives et invérifiées qui, souvent, ne résistent pas à une vérification empirique » (Burger, 2007). Il semblerait donc qu’une étude empirique d’ampleur permettant de tirer des conclusions fiables sur le degré d’usage des phrasèmes par des locuteurs lambda fasse encore partie des desiderata. 3 Phraséologie et corpus Nombre de phraséologues reconnaissent à la linguistique de corpus un rôle décisif dans l’évolution de la discipline, parlant même d’une « histoire parallèle » (Pecman, 2005). Cette intrication entre linguistique de corpus et phraséologie, si elle a été très productive, a cependant été ardue : « Bien qu’elles constituent des éléments constants du discours, les combinaisons de mots lexicalisées n’en demeurent pas moins des éléments subliminaux du langage se refusant à tout repérage facile » (Pecman, 2005). Nous évoquerons ici les facteurs qui ont fait de cette combinaison une interaction aussi difficile qu’enrichissante pour la phraséologie, en nous restreignant ici à une notion toute particulière : celle des « collocations ». 3.1 Élargir et préciser le spectre de la phraséologie : le rôle des corpus écrits L’avènement de la linguistique de corpus a eu pour effet de permettre aux phraséologues et aux linguistes en général, d’aller chercher au sein des corpus la confirmation de leurs intuitions. Pour l’ensemble de la linguistique, le recours à des corpus a joué le rôle de « gage d’objectivité » (Pecman, 2005). Pour la phraséologie, plus particulièrement, ils ont été des « piliers de la recherche », puisque c’est grâce à eux que l’on pouvait faire émerger la nature phraséologique de certaines constructions, qui pouvaient auparavant être considérées comme des « constructions libres », où des éléments lexicaux étaient associés les uns aux autres sans 8 Nous évoquerons ici brièvement les travaux issus de la Construction grammar, théorie initiée par C. Fillmore et qui a avancé des éléments de réponse très convaincants au sujet de la mémorisation/mobilisation de certaines constructions figées. 99 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco restriction aucune et où chacun ou presque était interchangeable. D. Mayaffre esquisse deux conceptions du corpus, deux logiques bien distinctes et pourtant complémentaires : celles du corpus comme « observatoire d’une théorie a priori » et du corpus comme « observé dynamique qui permet de décrire puis d’élaborer des modèles a posteriori » (Mayaffre, 2005)9. Notre but sera ici d’illustrer le glissement de l’une à l’autre conception, tel qu’il a eu lieu concernant les « collocations ». En allant chercher des séquences figées dans les corpus pour justifier le bien-fondé de la discipline ou du phénomène particulier, c’est au corpus-observatoire que l’on recourait – et ce fut là aussi, concernant les collocations, le point de départ de la recherche. Puis, assez rapidement, on aboutit à la seconde conception, celle du corpus-observé dynamique, ouvrant la notion jusqu’à un point probablement préjudiciable. C’est grâce aux corpus d’une part et à la confrontation avec des langues étrangères d’autre part que l’on a pu mettre le doigt sur les « collocations », dont la définition communément admise est celle de cooccurrence privilégiée de plusieurs éléments lexicaux10. Citons pour exemple la collocation française « mettre la table », qui a pour équivalent parfait en anglais « to lay/set the table », mais dont l’équivalent allemand diffère dans le choix du verbe « den Tisch decken » (traduction littérale : couvrir la table). La restriction appliquée au choix du verbe dans cette collocation a priori tout à fait anodine pour des locuteurs natifs de la langue n’est pas sans poser problème à des apprenants étrangers (Hausmann, 2003), ce qui a mené à une réflexion très active sur leur rôle et leur représentation dans les dictionnaires, unilingues et bilingues. Ce constat de l’existence et la prise en compte nécessaire de ces combinaisons a été mené de front avec une recherche assidue de séquences de ce genre dans les corpus textuels. Or, chercher des collocations définies comme « cooccurrences privilégiées » au moyen d’outils informatiques basés sur des modèles mathématiques et méthodes statistiques a aussi mené à un élargissement certainement exagéré de cette notion de « collocation » comme nous allons le voir ci-après. La question de la nature des ressources recensées dans les corpus textuels et le traitement qui doit être réservé aux séquences qui en émergent est évidemment épineuse. Doit-on considérer que l’association du verbe « courir » et de l’adverbe « vite » représente une collocation, sous prétexte que cette suite apparaît souvent dans un corpus ? Partant de la définition comme « cooccurrence privilégiée », la notion de collocation était vouée au flou le plus total et deux acceptions s’affrontent, l’une quantitative, « relev[ant] de la description statistique de corpus » et l’autre, « essentiellement qualitative, (...) définie par « cooccurrence lexicale restreinte » » 11 (Hausmann et Blumenthal, 2006). Si les corpus ont permis de révéler et/ou conforter des phénomènes phraséologiques, ils ont aussi contribué à en préciser et/ou faire foisonner la typologie12 et donc, à en faire des notions aux acceptions très diverses, plus 9 On retrouve cette même distinction chez Steyer (2004) et chez Sailer (2007), qui en étudient toutes les conséquences sur la recherche phraséologique elle-même. On utilise aussi souvent l’opposition entre approche « corpus-based » et « corpus-driven », pour reprendre la dénomination de Tognini-Bonelli (2001). 10 Cette définition, reprise par la recherche française sur les collocations, notamment par Tutin et Grossman (2002), a été initiée par Hausmann (1989). 11 « Comme l’explique très bien Steinlin (2003), l’intérêt qu’on trouve à ce type de cooccurrences tient davantage aux contraintes qu’elles font peser sur l’utilisation du lexique qu’à leur fréquence, car il s’agit d’un savoir lexical, d’une propriété du lexique. (…) C’est cette seconde acception qui se trouvera au centre de la majorité des contributions présentées ici ; nous verrons par ailleurs qu’elle ne s’oppose pas radicalement à la première » (Hausmann et Blumenthal, 2006). 12 Par souci d’exhaustivité, il faut ici évoquer aussi l’existence d’une autre catégorie : la colligation. Dans leurs recherches sur corpus, de nombreux chercheurs en lexicologie et analyse de corpus s’appuient sur la distinction entre collocation (cooccurrence lexicale) et colligation (« relation mutuelle entre des catégories grammaticales », 100 « Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat ou moins larges, d’un chercheur à l’autre. De là se pose aussi un questionnement méthodologique et éthique pour le chercheur face aux résultats issus des requêtes sur corpus : à lui de démêler et classifier ensuite les résultats obtenus, mais se basant sur quel critère ? Celui de l’intuition de la part d’un locuteur et linguiste averti semblerait le plus opérant. Mais n’est-il pas annihilé par la quête précédente, celle se fondant sur un corpus, et qui avait pour but d’y trouver des résultats indéniables parce qu’issus de productions véritables13 ? Et si l’appui sur un corpus devient toujours plus nécessaire, qu’adviendra-t-il de séquences qui pourraient y être assez rares, sur un plan strictement statistique ? 3.2 Phraséologie et oralité : la théorie à l’épreuve d’un corpus oral Comme nous l’avons vu, le recours à des corpus textuels a permis à la fois d’asseoir et d’élargir le spectre de la phraséologie, avec les avancées et les écueils que cela impliquait. Ce recours quasi systématique aux corpus est relativement récent dans la recherche en général, de même qu’en phraséologie, et en est à ses balbutiements quant aux corpus oraux14. Cet état de fait est sans aucun doute lié aux difficultés inhérentes à la constitution et au traitement de tels corpus, nous y reviendrons ultérieurement ; mais il tient aussi au fait que phraséologie et oralité représentent une association difficile, qui pourrait bien mettre à mal ou être mise à mal par les connaissances acquises jusqu’à présent sur le sujet. 3.2.1 La confrontation au corpus ou l’incertitude du résultat Nous avons déjà vu au détour des chapitres précédents à quel point certains critères peuvent être fluctuants, voire fuyants, dès lors qu’on les met en confrontation avec des productions réelles : c’est le cas du degré de figement quand il est question de collocation. Quand on a affaire à un corpus textuel, souvent constitué d’écrits extrêmement codifiés et corrects (en ceci qu’ils ont fait l’objet de relectures nombreuses et méticuleuses), issus de journaux, de romans, etc., il n’est pas toujours aisé d’y mettre en exergue des phénomènes phraséologiques. Et pourtant, en recourant à de telles sources, on sait d’ores et déjà que les collocations y seront légion et que même les idiomes y seront présents : ces derniers constituent des ressources presque infinies pour attirer l’attention du lecteur au détour d’un jeu de mots dans un titre d’article, par exemple. Mais on sait que de tels écrits, s’ils restent des productions bien réelles, ne présentent pas les caractéristiques de productions spontanées. Ainsi, en recourant à un corpus oral, il n’est nulle certitude sur le fait que l’on y trouve ou non suffisamment de « matière » phraséologique, notamment concernant les idiomes. Les utilise-t-on souvent ? Sont-ils récurrents dans le discours spontané d’un locuteur lambda ? Deuxième incertitude, et pas des moindres : va-t-on retomber sur la typologie établie des différentes classes de phrasèmes ? Partant d’un corpus oral, on sait que les balbutiements, hésitations, faux-départs, imprécisions, et même « fautes » vont être nombreux. Ces derniers ne vont-ils pas contrevenir aux classifications notamment morphosyntaxiques des phrasèmes ? Quelle attitude adopter face à des productions instables et parfois même erronées ? Moon fait cooccurrence de mots ou catégories grammaticaux) en s’inspirant de la théorie de Firth (Gledhill et Frath, 2007). 13 À mon sens, la réponse à cette question est évidente : rien ne saurait remplacer l’intuition du linguiste. Mais d’autres semblent en douter (cf. en page 102, la citation de Moon et son commentaire). 14 Dans Phraseologie/Phraseology (Burger, Dobrovol'skij, Kühn et Norrick, 2007), recueil d’articles des plus exhaustifs et véritable ouvrage de référence pour quiconque s’intéresse à la phraséologie, toute une section est dédiée à l’association de la phraséologie et de la recherche sur corpus. Dans les trois articles entrant dans cette catégorie, un seul évoque en passant des recherches menées sur des corpus oraux (Moon, 2007). 101 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco remarquer : « Many phraseologists have pointed to gradations in fixedness of phrases, with continua of idiomaticity (...) : typologies may be based on frozenness of form and opacity of meaning. Corpus linguists would extend the gradations further, seeing a continuum between individual words and phrases, varying in strength and stability of patterning » (Moon, 2007). Cette inadéquation entre typologie de la phraséologie et découvertes réelles au contact d’un corpus textuel ne peut que s’accroître au contact d’un corpus oral. 3.2.2 Phraséologie et outils La position d’observateur, qui est celle du linguiste désireux de fonder ou retravailler ses théories et intuitions à l’aide d’un corpus, n’est pas des plus confortables, car elle dépend directement de l’existence ou de l’inexistence de ces données au sein du corpus. Et cette (in)existence au sein d’un corpus donné n’est pas révélatrice de l’(in)existence du phénomène dans le langage, le corpus n’étant qu’un échantillon plus ou moins imparfait (selon sa taille et l’ampleur du travail dont il a fait l’objet, pour les annotations, par exemple). R. Moon met en avant les différents éléments nécessaires à une bonne recherche mêlant corpus et phraséologie : « There are three physical aspects of corpora which need to be taken into account : size, composition and tools » (Moon, 2007). Au-delà de ces éléments très concrets, elle complète un peu plus loin son énumération : « It was pointed out earlier that corpus tools have an important part to play in successful retrieval of all tokens for set phrases, but researchers’ technique and intuitions are also important ». Dans l’organisation de sa démonstration, la référence à la technique et l’intuition du linguiste arrive bien tard, ce qui porterait à croire que ces dernières sont secondaires. Nous n’irons pas jusque là, mais il est néanmoins vrai que la capacité de déceler et de traiter d’éventuels phénomènes revient en grande partie aux outils mis à disposition du linguiste. Notre linguiste-observateur passe une bonne partie de son temps devant son ordinateur, comme le précisaient Lemnitzer et Zinsmeister, et il est souhaitable qu’il ait à sa disposition les outils adaptés à ses requêtes et phénomènes décelés. L’un des principaux problèmes en lien direct avec la phraséologie est celui des outils mis à disposition par l’analyse conversationnelle en association avec les nécessités de l’analyse phraséologique : qu’en est-il de l’annotation d’une séquence par définition polylexicale et dont les lexèmes ne seront pas nécessairement accolés les uns aux autres ? Un tel outil d’annotation n’a pas, à ma connaissance, encore été mis sur pied qui permette ainsi d’étiqueter les différents éléments de la séquence comme appartenant à une seule et même unité. Un traitement des occurrences a posteriori à l’aide d’outils tels qu’un concordancier en devient inévitablement plus ardu. Deux choix s’offrent alors au chercheur : bricoler avec les outils de l’analyse conversationnelle, au risque qu’ils soient moins opérants ensuite dans l’extraction des données ou renoncer à ces logiciels pour adopter ceux qui servent au traitement des corpus écrits, traitant par là-même la conversation orale comme un texte écrit. 3.3 Corpus oral : difficultés et enjeux d’un tel choix Comme nous l’avons brièvement évoqué plus haut, les difficultés inhérentes à la constitution et au traitement d’un corpus oral expliquent en grande partie que le recours à de tels corpus soit encore très rare. 3.3.1 Accès et constitution d’un corpus oral « En dépit des évolutions positives de ces dernières décennies, la collecte, documentation, l’archivage et la transmission de la communication orale et de la langue parlée est encore loin d’avoir atteint le niveau et les standards qui sont désormais d’usage pour les textes écrits dans les archives et bibliothèques, par exemple » (Fiehler et Wagener, 2005). Fiehler et Wagener font remarquer à juste titre que très peu de corpus oraux sont accessibles aux chercheurs. Le caractère éphémère de la parole en comparaison à l’écrit, l’apparition 102 « Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat somme toute très récente des techniques permettant l’enregistrement du son et encore plus récemment des techniques et conventions permettant le traitement informatique de documents audio en vue d’analyses, expliquent cette sous-représentation des corpus oraux en comparaison à des corpus textuels. En Allemagne, ce déficit a fait l’objet d’une prise de conscience de la part de diverses institutions de la recherche qui ont tenu à y remédier en l’inscrivant dans les objectifs de ces prochaines années et décennies. Ainsi, le conseil d’administration de la Leibniz-Gemeinschaft15, par la voix de sa commission d’évaluation de l’Institut für Deutsche Sprache (IDS), déplorait en 2003 dans son rapport : « La conception de corpus écrits et oraux pour l’allemand sont une mission importante, dont l’intérêt concerne la société entière et dont l’importance ne fera qu’augmenter à l’avenir en tant que base pour la recherche linguistique et les technologies linguistiques. Il appartient à l‘IDS de mettre cette mission plus encore au cœur de ses préoccupations et de redoubler d’efforts quant à l’acquisition de corpus en vue d’élargir le corpus. L’urgence de la disponibilité d’un corpus de référence national équilibré se fait sentir (…). De plus, il est important pour l’utilisation externe que l’IDS en facilite l’accès et les possibilités d’utilisation aux chercheurs/ses extérieurs » (Conseil d'administration de la Leibniz-Gemeinschaft, 2003). En France, malgré les travaux de l’équipe de recherche ICAR de Lyon 2 avec sa base de données CLAPI, une prise de conscience à la même échelle manque encore. La principale difficulté pour un chercheur souhaitant travailler sur un corpus oral est donc de trouver accès à ce corpus, ou bien de le constituer lui-même. La question se pose aussi pour un chercheur souhaitant travailler sur un corpus textuel, mais force est de constater que ces derniers sont bien plus répandus et accessibles (FranText pour le français, DeReKo16 pour l’allemand17, Corpus Collins et Bank of English pour l’anglais) et que, pour un chercheur souhaitant constituer son propre corpus, les données sont beaucoup plus accessibles sous forme digitale quand il s’agit de données textuelles. Ce n’est pas le cas pour quiconque s’intéresse à l’oralité et à la conversation. Un travail de recherche portant sur un corpus oral ou conversationnel passera aujourd’hui encore presque nécessairement par un travail de retranscription, tout de même considérablement facilité dans la mesure où les conventions régissant la transcription de productions orales sont à présent bien fixées (HIAT, GAT, GAT2, etc.). Restent les choix encore épineux d’un logiciel et du média à retranscrire. À cela s’ajoutent les considérations légales et juridiques à prendre en compte quand il s’agit de retranscrire les dires de quelqu’un. Mais la tâche la plus complexe reste encore à faire : le but premier de l’analyse conversationnelle étant de rester au plus près de la production orale réelle18, et ce quel que soit l’objet/l’angle d’analyse choisi (phonologie, dialectologie, étude de l’organisation séquentielle du discours, etc.), cela exige un travail de retranscription très précis. Cette transcription peut aussi être combinée à une analyse de la gestuelle et/ou des mimiques/expressions du visage (dans le cadre de médias audiovisuels). 3.3.2 Corpus écrit, corpus oral : distinctions pertinentes Une conversation orale présente indéniablement des caractéristiques que l’écrit n’a pas : 15 La Leibniz-Gemeinschaft est un organisme scientifique et financier regroupant de nombreux instituts de recherche en Allemagne. 16 = Deutsches Referenzkorpus, créé en 1964 et géré par l’Université de Mannheim (Institut für Deutsche Sprache). 17 Pour une vision d’ensemble des corpus allemands écrits existants, voir Sailer (2007). 18 Nous donnerons ici en exemple le degré de détail pris en compte par les transcriptions : longueur des voyelles, inspirations, expirations, pauses, etc. Tout est pris en compte et peut faire l’objet d’une retranscription selon les objectifs de l’analyse. 103 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco « Contrairement au texte écrit, une conversation se caractérise sur le plan temporel par le contact immédiat entre les communicants » (Brinker et Sager, 2010). Ce « contact immédiat » constitutif de la conversation s’illustre de deux façons : « immédiat » dans son acception temporelle, mais aussi « immédiat » dans le sens de « sans intermédiaire ». En effet, dans une conversation, le paramètre de la réception de la part de l’interlocuteur et de sa prise en compte nécessaire est encore bien plus déterminant qu’il ne peut l’être au sujet d’un texte. Le respect de certaines normes et conventions dans les conversation est, au demeurant, un point commun avec le texte, même s’il diffère quelque peu (Brinker et Sager, 2010) : - Le locuteur doit rendre sa contribution informative et compréhensible (pertinence thématique). Son intention doit être claire (intentionnalité). La contribution doit être présentée de sorte que le locuteur sache à qui elle s’adresse (directionnalité). L’interlocuteur doit pouvoir déduire la validité de la contribution : cette dernière peut-elle/doit-elle être interprétée telle qu’elle a été formulée ou s’agit-il d’ironie, de l’expression d’un doute, etc. ? (validité) L’interlocuteur doit pouvoir déduire le degré de significativité et d’importance de la contribution dans la situation et par rapport aux attentes individuelles des participants à cette conversation (pertinence). En arrière-plan de la communication interviennent des normes connues et communes selon le type de conversation, et une coordination de l’intention de communication par laquelle chaque locuteur s’adapte et adapte sa contribution à la situation de communication. Tous ces facteurs présentent en sus la particularité de s’articuler d’un locuteur à l’autre dans une interactivité permanente, ce qui représente par ailleurs une différence considérable avec le texte où les rôles ne s’intervertissent pas. Dès lors que l’on a choisi une conversation, faisant donc intervenir plusieurs locuteurs, c’est l’interaction qui se trouve au centre de l’attention et des difficultés. De par cette caractéristique qui vient résumer tout un lot de particularités, il est manifeste que l’on ne poursuit pas les mêmes objectifs de recherche en s’attelant à un corpus oral qu’en analysant un corpus écrit. 3.3.3 Les dilemmes de l’interaction Le souci de l’empirie, de la prise en considération d’énoncés véritables semble avoir prévalu à l’avènement des corpus en linguistique. Si le but était bien l’authenticité des énoncés, cela aurait dû mener plus tôt à une prise en compte plus vaste des énoncés oraux. Or, tel n’a pas été le cas jusqu’à présent, et cela tient sans doute encore plus spécifiquement à la complexité de l’interaction. On peut définir la conversation comme étant un échange de points de vue ayant lieu entre au moins deux actants avec une orientation thématique commune (même si la façon d’envisager la conversation peut diverger entre les participants) et répondant à un déroulement très normé (Brinker et Sager, 2010). Cependant, cette définition ne donne pas toute la mesure de la complexité inhérente à la conversation. Pour en prendre la pleine mesure, il convient d’envisager la communication en partant de chaque acteur de cette conversation. N’oublions pas que production et réception du langage sont deux activités cognitives extrêmement complexes. Pour la première, il est nécessaire de générer l’information, de lui donner forme (lexicale et syntaxique) et de l’exécuter (en prononçant l’énoncé). Tous ces processus se font extrêmement rapidement, et certainement de manière simultanée ; ils se font en temps réel puisque l’instantanéité de la situation de communication l’exige. À tout cela s’ajoute la prise en compte de paramètres externes : quel est le destinataire de la contribution ? À quelles normes doit-elle répondre ? Quel est le contexte et son influence sur la contribution ? Sur le plan de la réception de la contribution, les processus cognitifs ne sont pas moins 104 « Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat complexes : il s’agit de décrypter les sons et leur association, d’en déduire le sens des mots, des mots entre eux et de tout l’énoncé. La prise en compte des paramètres externes est aussi valable que pour la production, bien que différents : qui parle ? Que sait-on sur le locuteur ? Pense-t-il ce qu’il dit ? Qu’attend-il de son interlocuteur ? Les données collectées au moyen d’un corpus oral ne peuvent se passer d’un questionnement et d’une prise en compte de ce questionnement mêlant cognition et communication, où l’une influe sur l’autre et vice-versa, au point d’en devenir indissociables. 4 Au-delà du corpus-catalogue de prêt-à-parler… Alors, que faire d’un corpus oral pour y analyser les phénomènes phraséologiques ? Quelle peut être la portée d’un tel corpus et d’une telle analyse ? Quelle(s) approche(s) adopter ? Comme nous l’avons montré, il semblerait que le rapport corpus-phraséologie ait toujours commencé par une approche du corpus en tant qu’ « observatoire » et que cette conception ait toujours été déterminante pour la phraséologie. Ainsi convient-il peut-être de prendre cette logique comme point de départ. 4.1 Sur les traces de la cognition Nous évoquions plus haut les champs de recherche encore inexplorés ou seulement survolés en phraséologie. La perspective psycho-cognitive en fait indéniablement partie et c’est làdessus que j’ai souhaité me concentrer dans mon propre travail de recherche. 4.1.1 Le langage de l’émotion et de l’authenticité : les émissions de radio libreantenne ? Pour ce faire, j’ai choisi comme corpus les émissions de radio libre-antenne qui présentaient plusieurs avantages. Sur le plan technique, ces émissions sont globalement très facilement accessibles grâce au système de podcasts mis en place par les radios. On les trouve donc facilement et dans un format numérique immédiatement exploitable et d’excellente qualité. Le fait qu’il s’agisse de conversations téléphoniques permet de se concentrer sur l’interaction verbale, en excluant gestuelle et mimiques, etc., qui ne sont pas perceptibles au téléphone19. Si un tel choix permettait d’éviter les affres de la collecte d’entretiens et de se limiter d’emblée à l’interaction strictement verbale, il implique aussi certaines restrictions sur l’objet d’étude. Concernant ces conversations menées dans une émission de radio libre-antenne, en effet, il ne faut pas perdre de vue qu’elles présentent des traits tout à fait particuliers. Tout d’abord, il s’agit de conversations ayant lieu entre deux inconnus : l’animateur/animatrice et l’auditeur/auditrice ne se connaissent pas personnellement. Et pourtant, ces conversations vont revêtir un caractère privé indéniable : il y est principalement question de récits d’expériences personnelles laissant une grande place au vécu et à l’expression des sentiments. Les thématiques les plus récurrentes sont celles des difficultés sentimentales, des relations familiales, de la maladie et du deuil. En dépit de cette empreinte très intime, ces conversations sont destinées à devenir publiques. 19 Il serait illusoire de prétendre qu’une conversation téléphonique n’est révélatrice que de l’interaction verbale. Il arrive que des indices non-verbaux soient perceptibles : un raclement de gorge marquant la gêne, la « smiling voice », etc. Cependant, il ne fait aucun doute que l’interaction non-verbale est extrêmement limitée et plus facilement repérable que lors d’une conversation en face-à-face, où elle est permanente et où il est difficile de mesurer l’impact de tel ou tel geste, d’une attitude, etc. 105 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Force est de constater que tout se mêle, et que de telles caractéristiques ont forcément une influence sur le déroulement de la conversation. La conséquence la plus évidente est la relativisation nécessaire de la notion de « spontanéité » : il ne s’agit pas de discussions entre des amis se connaissant de longue date. Il est évident que les auditeurs sont intimidés et/ou stressés par leur passage à l’antenne, qu’ils veilleront à leur langage. De même, l’animateur (souvent diplômé de psychologie) choisira scrupuleusement ses mots. Mais à défaut d’être spontanées, ces conversations ne sont pas préparées car à l’exception de quelques mots-clés, l’animateur ne dispose ni des informations ni du temps nécessaires pour préparer ne serait-ce qu’un semblant d’interview. Ainsi, même si elles ne peuvent être qualifiées de « naturelles » ni de « spontanées », ces conversations sont tout de même authentiques et révélatrices d’un comportement réel. 4.1.2 Phraséologie, cognition et communication : le serpent qui se mord la queue ? Nous avons précédemment décrit la complexité des processus cognitifs que représentent la production et la réception d’un message dans une situation de communication immédiate qu’est la conversation. Or, des phénomènes pouvant découler de cette complexité peuvent aussi être mis en relation avec la complexité de la situation de communication elle-même. Un faux-départ de la part d’un locuteur doit-il être mis sur le compte d’une supposée surcharge cognitive ou bien une hésitation sur le bien-fondé de sa contribution ? « One of the important consequences of taking language seriously is that cognitive psychologists are now rediscovering the complexity of communication », affirmait Miller (1991) au terme d’un questionnement sur la relation entre langage et communication. Il serait bien trop simple de présenter la dimension cognitive comme strictement individuelle et la dimension communicative comme découlant de l’interaction. Cognition et communication interagissent à mon sens perpétuellement : un malaise dû au non-respect d’une norme communicationnelle perturbera sans doute un locuteur dans les processus de production de sa contribution à venir. De même, une erreur dans la production de la contribution viendra perturber l’interaction. Après tout, pourquoi vouloir dissocier l’une de l’autre ? La conversation est le résultat de ces deux composantes. 4.1.3 Objectifs de recherche Pour analyser la dimension cognitive des phrasèmes et une fois le corpus constitué20, il convenait évidemment d’y identifier les phrasèmes et d’observer ce qui se passait dans leur environnement plus ou moins immédiat et qui puisse être relié à un phénomène cognitif. Parmi les énigmes encore non-élucidées se posaient évidemment les questions de la difficulté de production et de compréhension des phrasèmes. Mais d’autres questionnements se sont fait jour dès lors que j’ai commencé à retranscrire les émissions et à m’apercevoir de la complexité de l’interaction d’une part entre locuteurs et d’autre part entre cognition et communication. Les interrogations qui jalonnent mes recherches actuellement partent précisément de ce principe de la conversation qui veut que les rôles soient sans cesse interchangés, que communication et cognition semblent former un duo inséparable influençant perpétuellement et au même titre chaque acteur de la conversation. Chacun a certainement une perception du langage quelque peu différente : tout le monde ne manie pas les mots avec la même facilité et n’a pas la même aisance face à un interlocuteur. Mais chaque locuteur s’est déjà trouvé en position de destinataire, et vice-versa. À cela s’ajoute le fait que nous sommes éduqués au langage, que cette éducation requiert des années d’apprentissage pour maîtriser tous ou la plupart des codes d’une communication réussie. Nous savons précisément ce qu’on attend généralement de nous dans une conversation, le comportement qui serait le plus adapté et ce 20 Il comprend à ce stade 22h d’enregistrements : 11h en langue française et 11h en langue allemande. La confrontation de ces deux langues est particulièrement intéressante du fait de la différence des systèmes linguistiques. 106 « Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat qui se dit ou ne se dit pas dans tel ou tel contexte. En admettant que toutes ces règles soient bien intégrées par chaque locuteur et que chaque locuteur s’est déjà trouvé dans la position inverse, alors, il semble logique que, pour la réussite de la communication (et si tant est que ce soit le but du locuteur en question), le locuteur 1 fournira au locuteur 2 ce qu’il suppose nécessaire, ce dont il aurait peut-être lui-même eu besoin pour bien comprendre le message qui lui est adressé s’il avait été dans la position du destinataire. Il en va de même pour le récepteur : il sera sans doute en mesure de se mettre à la place de l’émetteur du message, et donc d’adopter un comportement qui facilitera la tâche à ce dernier. L’ensemble de ce fonctionnement repose sur le principe de coopération, compris ici dans un sens très large. Ainsi, l’un des moyens de constater la surcharge cognitive possiblement induite par la compréhension d’un idiome, est d’observer des phénomènes initiés par le destinateur pour faciliter le traitement cognitif de l’idiome à son destinataire. Entreraient dans cette catégorie ce que nous appellerons ici des « phénomènes de signalement »21 ou « d’explicitation »22 des idiomes utilisés. Du côté du destinataire, trouve-t-on des exemples où un idiome a donné lieu à un malentendu ? Quant à la difficulté à produire un idiome, elle pourrait transparaître dans des productions erronées, où le locuteur utilise un élément lexical inattendu dans une expression pourtant identifiable, ou bien où il mélange deux expressions imagées. Évidemment, une telle analyse ne peut se passer aussi d’une étude des phénomènes d’hésitation présents autour des idiomes et qui pourraient être les premiers miroirs de la difficulté du destinateur à produire l’idiome, ou du destinataire à le traiter. Enfin, partant de cette conception du corpus comme d’un observatoire où vérifier ou rejeter des théories, il semblait naturel de chercher dans un corpus oral les traces effectives de métaphores conceptuelles telles que les ont identifiées Lakoff et Johnson (1980). Le fait que cette théorie ait eu autant de retentissement est en lien avec la pertinence de ses conclusions, dont la première a été de montrer que nos langues regorgent de ces tissus métaphoriques23. Il était tentant d’aller un peu plus loin et d’envisager une image langagière, si elle est si présente qu’on le prétend, comme laissant probablement des « traces ». Peut-on filer la métaphore inconsciemment en conversation ? Le fait d’activer une image ne peut-il pas induire la création de tout un faisceau métaphorique qui ressurgirait au fil de la discussion ? De tels exemples viendraient appuyer la théorie de Lakoff et Johnson, qui furent les premiers à affirmer et prouver que la métaphore ne se limitait absolument pas à un procédé stylistique ou poétique, mais imprégnait bel et bien toute notre perception du monde. 4.2 Premières pistes, premiers résultats Nous aborderons très brièvement dans cette dernière partie quelques-unes des premières constatations en lien avec les hypothèses précédemment évoquées. Les exemples suivants sont tirés d’une seule et unique conversation, bien qu’elle soit coupée en trois parties. Il s’agit d’une conversation enregistrée en 2010 sur une grande radio française. Trois locuteurs se partagent alors l’antenne : D., l’animatrice de l’émission, S., auditeur à l’origine de l’appel et L.24, qui a été pris à l’antenne pour participer à la fin de la discussion. L’ensemble de cette conversation a été interrompu par deux pauses musicales et publicitaires. Après avoir identifié tous les idiomes présents dans cette conversation, il s’est avéré que chaque idiome était accompagné de phénomènes de signalement et/ou d’explicitation. En voici deux exemples : 21 Phénomènes de signalement du type « comme on le dit si bien », « c’est bien connu », etc. 22 Phénomènes d’explicitation : éléments fournis en amont ou en aval de l’idiome par le locuteur et qui en expliquent, en paraphrasent le sens. 23 La métaphore conceptuelle la plus connue est sans aucun doute celle de DEBAT=GUERRE : défendre une opinion, aiguiser son argumentation, démolir un point de vue, etc. 24 Tous les noms ont été anonymés. 107 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco -1 [00:00.0] 0 [00:01.5] 1 [00:02.1] bonsoir D [v] S [v] 2 [00:03.4] bonsoir ********* bonsoir bon alors je vous appelle parce que j’ai l’impression bonsoir . . 3 [00:07.8*] 4 [00:09.3*] d’ être dans une impasse S [v] en fait au niveau un peu professionnel et sentimental j’ai l’impression .. de pas avancer heu je fais beaucoup de choses mais tout ce que ce que je fais j’ai S [v] .. l’impression que c’est contrecarré après et puis heu en fait voilà j’avance pas quoi c’est S [v] D [v] S [v] 5 [00:26.1]6 [00:27.2] 7 [00:28.4] oui alors une impasse déjà je vois sentimentale ouais EXTRAIT 1 - Conversation D-S n°1, phrases liminaires Ce premier extrait correspond aux tout premiers mots échangés entre les deux locuteurs de la première partie de conversation. L’idiome y est signalé en gras (« être dans une impasse ») et on s’aperçoit que l’on peut trouver de nombreux éléments d’explicitation dans son entourage immédiat (en italique). Ainsi, le locuteur reformule, paraphrase ce qui est déjà contenu dans l’idiome, à savoir cette notion de situation désagréable dont on ne trouve pas l’issue. D L D L 53 [05:58.6] 54 [05:59.1] [non non] [la vie] (.) comme dit hein c’est pas parce qu’il manque un arbre que la forêt est .. 55 [06:03.5] 56 [06:04.6] [oui] [bon, c’est] oui c’est une belle image dépeuplée hein EXTRAIT 2 - Conversation D-S-L (partie n°3 de la conversation) Dans ce deuxième extrait, nous parlerons ici tout d’abord de ce phénomène d’annonce, de signalement en amont de l’idiome (qui n’en est pas vraiment un, comme nous le verrons ultérieurement). Le locuteur annonce « comme dit hein ». Dans le déroulement de la conversation, il est difficile de dire si le « hein » correspond à une hésitation du locuteur qui cherche l’auteur de la citation qu’il s’apprête à produire ou si ce « comme dit hein » est simplement le fait du stress, de la précipitation du locuteur, qui par conséquent, en oublie le pronom personnel « on ». Ce même extrait tendrait à prouver que les éléments figés de la mémoire discursive et du langage ne vont pas de soi pour un locuteur et qu’ils peuvent être l’objet d’erreurs. Il est en effet ici très probable que l’énoncé soit le résultat d’une collision entre la citation de Lamartine « un seul être vous manque et tout est dépeuplé » et l’idiome « c’est l’arbre qui cache la forêt ». Cette collision, si elle produit bien un effet comique (l’animatrice rit), n’est pas pour autant complètement absurde et dénuée de tout ancrage dans la situation. En effet, il est question dans cette conversation de S. qui a vécu une séparation très douloureuse (d’où, sans doute, le lien avec la citation de Lamartine) et qui n’arrive absolument pas à dépasser cette souffrance pour continuer à vivre. Quelque part, cette séparation est l’arbre qui cache la forêt, l’événement qui vient gâcher la vie de S. et lui faire oublier tout le reste, bien plus positif. Cette superposition d’idiomes peut être interprétée de 108 « Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat manière très paradoxale : elle montre que la production d’idiomes peut connaître des failles25 (et que les idiomes représentent donc sans doute une surcharge cognitive), mais dans un sens, c’est aussi la preuve que notre cerveau tend à générer plusieurs idiomes, plusieurs images et qu’il est certainement en mesure la plupart du temps d’en gérer la profusion. Cet exemple est aussi l’occasion de constater que même dans le cas d’une collision d’idiomes, dont on pourrait donc penser qu’ils sont plus difficiles à comprendre, le message passe et est validé par l’interlocuteur (« oui oui, c’est une belle image »)26. Enfin, dans cette conversation, nous avons pu montrer qu’il n’est pas absurde de penser que la métaphore filée est une réalité en conversation et qu’elle non plus ne se limite pas à un procédé poétique, dans la démonstration par Lakoff et Johnson que la métaphore est en fait un véritable mode de réflexion ou du moins, de concrétisation langagière de notre réflexion sur le monde. Il nous est ici impossible de reproduire l’ensemble de la conversation étudiée, mais nous pouvons en résumer l’essentiel. Nous avons déjà vu avec l’Extrait 1 que cette conversation s’ouvrait sur l’idiome de l’impasse et il était donc plausible que cet idiome soit très marquant à plusieurs titres : de par sa place de choix, et parce qu’il condense sans aucun doute tout le malaise, toute la problématique de la discussion. Dans la poursuite de conversation, ce même idiome est reproduit, paraphrasé (par l’emploi de l’image de la spirale) et semble ouvrir tout un champ d’images langagières, parfois quelque peu erronées, mais toujours extrêmement révélatrices : « y aller tête baissée », « tomber de heu sur un mur », « foncer dans le mur », « rester dans mon coin ». Chacun de ces idiomes présente un point commun avec le premier, une surface de superposition sémantique, métaphorique. Ainsi, l’image de l’impasse et du mur sont très proches, même si les notions de blocage (être dans une impasse) et de manque de réflexion (foncer dans un mur) le sont a priori moins. Toutes ces expressions ont en commun la notion conceptuelle de parcours, et plus précisément de parcours empêché – ce qui se caractérise toujours par une connotation négative. Au fil de cette conversation, on aboutit à un certain moment à une véritable profusion et confusion des images. Nous pouvons y voir un phénomène très proche de la persistance rétinienne27 : il semblerait que le cerveau retienne une image activée dans la conversation et que tout un faisceau d’images soit ainsi activé. Or, les nouvelles images ainsi suscitées par la première peuvent l’être à cause de similitudes lexicales (foncer et aller), de similitudes sémantiques (plusieurs expressions ont la même signification du manque de réflexion) ou de similitudes conceptuelles/métaphoriques (avec notamment le concept du parcours). Naturellement, il sera nécessaire de mener des observations sur de très nombreuses autres conversations pour pouvoir confirmer l’existence de tels processus en marche de manière inconsciente dans nos conversations. Conclusion Deux perspectives s’offrent à l’observateur qu’est le linguiste travaillant sur corpus : il peut considérer ce corpus comme le cobaye de thèses et hypothèses à corroborer, ou comme une base à la découverte de multiples nouveaux modèles, base à laquelle il ne manque que le linguiste comme révélateur. Nous avons ici brièvement retracé l’évolution de la phraséologie 25 Nous renverrons ici aux phénomènes de défigement (Authier-Revuz, 1995). 26 Au sein de cette conversation bien précise, aucune marque d’incompréhension de la part d’un interlocuteur suite à la production d’un idiome n’a pu être constatée. Ceci doit évidemment être approfondi sur un corpus plus ample. 27 La persistance rétinienne est une caractéristique de l’œil qui conserve « en mémoire », sur la rétine, une image vue précédemment et qui y superpose les nouvelles images que l’on est en train de voir. Ceci est dû à un délai de traitement du signal optique, créant ainsi des illusions d’optique où une image est perçue comme mouvante alors qu’elle n’est que la succession très rapide d’images fixes. 109 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco comme discipline, avant et après l’avènement des corpus en linguistique et cette nouvelle donne a eu globalement les mêmes effets sur la phraséologie que sur les autres disciplines de la linguistique, à une différence près. Phraséologie et corpus ont révélé une affinité toute particulière, comme le succès de la notion de collocation peut le montrer. Au fil des recherches alliant corpus et phraséologie, on s’aperçoit que les deux regards évoqués plus haut ont été portés sur le corpus : corpus-cobaye et corpus-base, contribuant tous deux à des avancées non négligeables, précisément parce que les linguistes ont refusé une perspective très préjudiciable : celle du corpus-catalogue. En revanche, la phraséologie n’ayant pas encore atteint son degré de maturité maximal à l’époque des premières confrontations aux corpus, cela a pu contribuer à créer quelques confusions. Mais dans l’ensemble, les bénéfices ont clairement outrepassé les rares inconvénients. Des circonstances bien particulières ont permis la création et le succès des corpus en linguistique : tout d’abord, très concrètement, les progrès de l’informatique lors de ces dernières décennies et deuxièmement, une quête d’authenticité des énoncés de la part des linguistes. Cette nouvelle approche a certainement permis à la linguistique de gagner ses lettres de noblesse auprès d’autres disciplines scientifiques, qui y ont vu la volonté de la part d’une discipline de sciences humaines d’asseoir ses découvertes sur la réalité du langage, et donc du monde. Cette reconnaissance a à son tour permis à d’autres disciplines de voir en la linguistique un compagnon avantageux en termes de découvertes et fiable en termes de méthodologie. L’ouverture à une nouvelle forme de corpus, les corpus de conversations orales, les plus authentiques possibles, serait l’étape suivante la plus logique. C’est à mon sens la perspective d’avenir la plus importante pour la linguistique en général et nous espérons avoir ici fait la démonstration de l’intérêt de telles recherches. Remerciements Un grand merci pour sa relecture attentive et son soutien indéfectible à ma directrice de thèse, Mme Martine Dalmas, dont la disponibilité et la patience me sont toujours d’un grand réconfort ; et un autre grand merci à mon ami et collègue, M. Daniel Soulié, qui en plus d’avoir le sens de la formule, trouve toujours les bons mots. é érences AUTHIER-REVUZ, J. (1995). Méta-énonciation et (dé)figement: le préfabriqué et l'imprévu du dire. Les Cahiers du français contemporain, 2, pages 17-39. BACH, E., et HARMS, R. T. (1968). Universals in Linguistic Theory. New York, Holt, Rinehart & Winston. BALLY, C. (1909). Traité de stylistique française. Paris, Klincksieck. BRINKER, K., et SAGER, S. F. (2010). Linguistische Gesprächsanalyse : eine Einführung. Berlin, E. Schmidt. BURGER, H. (2007). Phraseologie - Eine Einführung am Beispiel des Deutschen. Tübingen, Niemeyer. BURGER, H., et al. (2007). Phraseology: Subject area, terminology and research topics. In BURGER, H., DOBROVOL'SKIJ, D., KÜHN, P., et NORRICK, N. R., (éds.), Phraseologie/Phraseology. Ein internationales Handbuch zeitgenössischer Forschung/An International Handbook of Contemporary Research. Berlin, Walter de Gruyter, pages 10-19. CONSEIL D'ADMINISTRATION DE LA LEIBNIZ-GEMEINSCHAFT (2003). Bewertungsbericht Institut für Deutsche Sprache. COULMAS, F. (1981). Routine im Gespräch. Zur pragmatischen Fundierung der Idiomatik. 110 « Corpus et phraséologie : un catalogue de « prêt-à-parler » ? » par Marine Espinat Wiesbaden, Athenaion. DOBROVOL'SKIJ, D., et PIIRAINEN, E. (2005). Figurative Language. Cross-Cultural and Crosslinguistic Perspectives. Amsterdam, Elsevier. DOBROVOL'SKIJ, D., et PIIRAINEN, E. (2009). Zur Theorie der Phraseologie - Kognitive und kulturelle Aspekte. Tübingen, Stauffenburg. FIEHLER, R., et WAGENER, P. (2005). Die Datenbank Gesprochenes Deutsch (DGD) - Sammlung, Dokumentation, Archivierung und Untersuchung gesprochener Sprache als Aufgaben der Sprachwissenschaft. Gesprächforschung - Online-Zeitschrift aur verbalen Interaktion, 6, pages 136-147. FILLMORE, C. (1968). The Case for Case. In BACH, E. et HARMS, R.T. (éds.), Universals in Linguistic Theory. New York, Holt, Rinehart & Winston, pages 1-88. FLEISCHER, W. (1997). Phraseologie der deutschen Gegenwartssprache. Tübingen, Max Niemeyer Verlag. GLEDHILL, C., et FRATH, P. (2007). Collocation, phrasème, dénomination : vers une théorie de la créativité phraséologique. La Linguistique , 43-1, pages 65-90. HAUSMANN, F.J., REICHMANN, O., WIEGAND H.E., et ZGUSTA L. (1989). Wörterbücher: ein internationales Handbuch zur Lexikographie. Dictionaries. Dictionnaires. Berlin, Walter de Gruyter. HAUSMANN, F.J. (1989). Le dictionnaire des collocations. In HAUSMANN, F. J., REICHMANN, O., WIEGAND, H. E., et ZGUSTA L. (éds.), Wörterbücher: ein internationales Handbuch zur Lexikographie. Dictionaries. Dictionnaires. Berlin, Walter de Gruyter, pages 1010-1019. HAUSMANN, F. J. (2003). Was sind eigentlich Kollokationen? In STEYER, K. (éd.), Wortverbindungen, mehr oder weniger fest. Berlin, Walter de Gruyter, pages 309-334. HAUSMANN, F. J., et BLUMENTHAL, P. (2006). Présentation : collocations, corpus, dictionnaires. Langue française , 150-2, pages 3-13. KALLMEYER, W., et ZIFONUN, G. (2006). Sprachkorpora : Datenmengen und Erkenntnisfortschritt. Berlin, Walter de Gruyter. KOLLER, W. (1977). Redensarten. Linguistische Aspekte, Vorkommensanalysen, Sprachspiel. Reihe Germanistische Linguistik, 5. LAKOFF, G., et JOHNSON, M. (1980). Metaphors we live by. Chicago, University of Chicago. LEGALLOIS, D. (2009). Mémento sur quelques rapports entre mémoire et linguistique. Questions de Style, 6, pages 1-21. LEMNITZER, L., et ZINSMEISTER, H. (2006). Korpuslinguistik. Eine Einführung. Tübingen, Narr. MARTINS-BALTAR, M. (1997). La locution : entre langue et usages. Fontenay-aux-Roses, ENS. MAYAFFRE, D. (2005). Rôle et place des corpus en linguistique : réflexions introductives. Texto! , 10-4. MILLER, G. A. (1991). The Place of Language in a Scientific Psychology. National Student Speech Language Hearing Association Journal , 18, pages 66-72. MOON, R. (2007). Corpus linguistic approaches with English corpora. In BURGER, H., DOBROVOL'SKIJ, D., KÜHN, P., et NORRICK, N. R., (éds.), Phraseologie/Phraseology. Ein internationales Handbuch zeitgenössischer Forschung/An International Handbook of Contemporary Research. Berlin, Walter de Gruyter, pages 1045-1059. PECMAN, M. (2005). Les apports possibles de la phraséologie à la didactique des langues étrangères. Alsic, 8-2. 111 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco PILZ, K. D. (1978). Phraseologie. Versuch einer interdisziplinären Abgrenzung, Begriffsbestimmung und Systematisierung unter besonderer Berücksichtigung der deutschen Gegenwartssprache. Göppinger Arbeiten zur Germanistik, 239. PUSCH, C. D., et RAIBLE, W. (2002). Romanistische Korpuslinguistik : Korpora und gesprochene Sprache - Romance Corpus Linguistics : Corpora and Spoken Language. Tübingen, Narr. RASTIER, F. (2004). Enjeux épistémologiques de la linguistique de corpus. Texto! , 9-2. SAILER, M. (2007). Corpus linguistic approaches with German corpora. In BURGER, H., DOBROVOL'SKIJ, D., KÜHN, P., et NORRICK, N. R., (éds.), Phraseologie/Phraseology. Ein internationales Handbuch zeitgenössischer Forschung/An International Handbook of Contemporary Research. Berlin, Walter de Gruyter. STEINLIN, J. (2003). Générer des collocations. Mémoire de DEA. http://olst.ling. umontreal.ca/pdf/SteinlinDEA2003.pdf. [Consulté le 01/09/2012] STEYER, K. (2004). Kookurrenz, Korpusmethodik, linguistisches Modell, lexikographische Perspektiven. In STEYER, K. (éd.), Wortverbindungen, mehr oder weniger fest. Berlin, Walter de Gruyter, pages 87-116. TEUBERT, W. (2009). La linguistique de corpus : une alternative. Semen, 27. TOGNINI-BONELLI, E. (2001). Corpus Linguistics at Work. Amsterdam, John Benjamin’s Publishing. TUTIN, A., et GROSSMANN, F. (2002). Collocations régulières et irrégulières : esquisse de typologie du phénomène collocatif. Revue française de Linguistique appliquée, 7-1, pages 7-25. 112 « Relatives narratives et relatives descriptives : entre corpus et théorie » par Maryna Lytvynova et Huy Linh Dao Relatives narratives et relatives descriptives : entre corpus et théorie Maryna Lytvynova et Huy Linh Dao (1) LATTICE, Université Sorbonne Nouvelle Paris 3, Paris cedex 05 (2) LACITO, Université Sorbonne Nouvelle Paris 3, Paris cedex 05 [email protected], [email protected] RESUME___________________________________________________________________________________________________________________ Le présent travail se propose de mettre en lumière certaines propriétés discursives des propositions relatives narratives et descriptives du français et donc de relancer le débat (Giora, 1983, Brandt, 1990, Look, 2007) sur leur contribution dans l’organisation textuelle. Plus spécifiquement, en nous fondant sur une étude de corpus réalisée dans le cadre de la théorie du centrage d’attention (Walker et al., 1998), nous suggérons que (i) la distinction fonctionnelle entre ces deux types de relatives (Lambrecht, 1998, Gapany, 2004) n’est pas pleinement motivée empiriquement, et que (ii) malgré leur ressemblance syntaxique, sémantique et pragmatique avec les propositions indépendantes (Emonds, 1979), elles sont dépourvues d’autonomie fonctionnelle, du moins pour ce qui est de leur faculté d’infléchir les transitions référentielles entre des énoncés. ABSTRACT________________________________________________________________________________________________________________ Narrative and descriptive relative clauses: between corpus and theory This article intends to shed light on some discourse properties of narrative and descriptive relative clauses in French and thereby to revive the debate (Giora, 1983, Brandt, 1990, Look, 2007) about their contribution in text organization. More specifically, going by a corpus study realized in the framework of Centering theory (Walker et al. 1998) we suggest that (i) functional distinction between these types of relatives (Lambrecht, 1998, Gapany, 2004) is not fully motivated empirically, and that (ii) despite number of syntactic, semantic and pragmatic characteristics they share with root clauses (Emonds, 1979), they have no functional autonomy at least as for their ability to influence referential transitions between utterances. MOTS-CLES : relatives narratives et relatives descriptives, discours, avant-plan/arrière plan, cohérence, transitions référentielles, méthodologie expérimentale, test de continuation KEYWORDS : narrative and descriptive relative clauses, discourse, foreground/background, coherence, referential transitions, experimental methodology, continuation test 1 Introduction L’étude qui suit porte sur la distinction (cf. Lambrecht, 1998, Tao et McCarthy, 2001, Look, 2007, Wiesemann, 2009, Levinsohn, 2011) entre les relatives narratives1 (1) et les relatives descriptives (2), et sur leur fonctionnement en discours : 1 Ces relatives sont évoquées dans la littérature sous des appellations différentes. Ainsi, à côté du terme utilisé ici, on trouve également continuatives (Depraetere, 1996, Muller, 2006, Levinsohn, 2011), progressives (Kleiber, 1981), de liaison (Gapany, 2002). 113 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco (1) (2) Louise fit signe au garçon, [qui lui apporta l’addition]. Louise fit signe au garçon, [qui sommeillait près du comptoir]2. 1.1 Relatives narratives et descriptives : propriétés définitoires Il est bien connu depuis Emonds (1979) que les relatives appositives, qu’elles soient narratives3 ou descriptives, illustrent ce que Dayal et Grimshaw (2009) qualifient de quasisubordination dans la mesure où, tout en étant formellement des subordonnées (du moins, en surface 4 ), elles présentent des propriétés typiquement associées aux propositions indépendantes, comme, par exemple, le fait qu’elles échappent régulièrement à la portée de quantificateurs présents dans leur matrice ; qu’elles acceptent la présence d’adverbiaux d’énonciation (eg. franchement), qu’elles se comportent comme des unités prosodiques séparées, ce qui fait que l’on peut leur attribuer une valeur d’acte de langage indépendant (cf. Krifka, 2009). La différence entre les relatives narratives et descriptives n’est pas d’ordre formel (cf. Huber, 2006) mais d’ordre discursif et réside dans le fait que les premières, contrairement aux secondes, assurent l’avancement chronologique du récit. En effet, alors que la relative descriptive en (2) dénote une situation contingente à celle exprimée par la matrice, les deux partageant le même temps de référence (cf. Gosselin, 1996) ; la relative narrative en (1), grâce aux caractéristiques sémantiques de son prédicat, introduit un temps de référence nouveau (i.e. indépendant de celui établi par le contexte antérieur) que nous interprétons (pragmatiquement) comme postérieur à celui où se passe la situation dénotée par la matrice. Dans les travaux sur le discours, l’opposition syntaxique principale vs. subordonnée est fréquemment corrélée à la distinction entre l’avant-plan et l’arrière-plan : les principales apportant des informations décisives pour le développement du discours (i.e. ayant un degré de dynamisme communicatif très élevé), et les subordonnées des informations sans incidence majeure sur son avancée : « Par leur fonction au niveau du discours, par leur rôle informationnel, les subordonnées correspondent [...], dans la plupart des cas, à un apport qui ne relève pas du premier plan : descriptions, commentaires, explications avec les relatives, les causales, les consécutives, etc., alors que les propositions principales maintiennent le fil conducteur du premier plan » (Combettes, 1992 : 124). Le fait que les relatives appositives se comportent syntaxiquement et sémantiquement plus comme des prédications autonomes que comme des subordonnées standard (voir supra) invite à s’interroger sur leur statut discursif. On peut en effet se demander : 2 Exemples tirés de Charolles (2007 : 194). 3 Contrairement à Depraetere (1996), nous traitons toutes les relatives narratives comme un cas particulier de relatives appositives. La définition des relatives restrictives en termes d’identification du référent de leur antécédent, que nous adoptons ici, implique un degré d’accessibilité cognitive élevé du contenu de la relative au moment où l’acte de référence visant l’entité antécédent du pronom relatif se produit. Etant donné que les états de choses dénotés par les relatives narratives sont postérieurs à ceux de leur matrice, ils ne peuvent pas être accessibles au destinataire au moment de l’évocation de leur entité tête et donc ne peuvent pas être exploités comme points de repère de celle-ci. 4 Pour une vue d’ensemble des traitements syntaxiques proposés pour ce type de relatives voir De Vries (2002). 114 « Relatives narratives et relatives descriptives : entre corpus et théorie » par Maryna Lytvynova et Huy Linh Dao (i) si elles véhiculent des informations cruciales ou non pour le développement du discours, autrement dit, si elles font partie de l’avant-plan ou de l’arrière-plan. (ii) si, de ce point de vue, les relatives narratives sont différentes de leurs homologues descriptives, i.e. si la relation discursive de séquence qu’elles entretiennent avec leur contexte antérieur implique que les narratives sont plus autonomes vis-à-vis de leur matrice que les descriptives. 1.2 Traitements antérieurs La littérature antérieure ne donne pas de réponse univoque à ces questions. En effet, aussi mince qu’elle soit, elle fait apparaître au moins deux points de vue divergents sur le rôle des deux types de relatives dans l’organisation du discours. Selon le premier point de vue, défendu par Brandt (1990), Depraetere (1996), Holler (2005), Look (2007), discursivement parlant, les relatives narratives seraient parallèles à leurs matrices dans la mesure où les deux dénoteraient des évènements appartenant à l’avant-plan, et asymétriques aux relatives descriptives, dont l’apport informatif serait sans incidence importante sur le fil conducteur du récit. Depraetere (1996) et Look (2007) fondent cette distinction sur l’aptitude d’une proposition à former une séquence temporelle et événementielle avec son entourage linguistique immédiat, propriété que possèdent les narratives et qui manque aux descriptives. Brandt (1990) présente cette différence en termes de corrélation entre le potentiel communicatif associé à une structure syntaxique et le type d’informations que cette structure est susceptible de véhiculer une fois intégrée dans un discours. Pour elle, les relatives narratives, tout comme leurs matrices et contrairement aux relatives descriptives, sont des structures à potentiel communicatif élevé, destinées à apporter des informations majeures. Holler (2005) formalise la notion d’assignation de potentiel communicatif dans le cadre de la SDRT (Asher et al., 1993) : assigner un potentiel communicatif à une structure donnée n’est rien d’autre que définir le type de relation rhétorique qu’elle entretient avec son entourage linguistique immédiat. Le potentiel communicatif élevé vs. bas des relatives narratives et descriptives découle du fait que les premières sont reliées à leur proposition super-ordonnée par une relation symétrique de narration, et les secondes par une relation asymétrique d’élaboration. D’autres auteurs, comme Lambrecht (1998), par exemple, vont jusqu’à dissocier les deux types de subordonnées dès le niveau syntaxique, en leur attribuant des sites de rattachement différents dans la structure de leur phrase d’accueil : niveau du SN antécédent pour les descriptives et niveau de la proposition matrice pour les narratives (cf. également Gapany, 2001). Selon le second point de vue, qui s’appuie sur une conception interactionnelle du discours, les relatives narratives et descriptives illustrées en (1) et (2) ne sont pas différenciables, les deux types ayant le même potentiel d’intégrer l’avant-plan que leur proposition enchâssante. Ici, l’avant-plan, libellé par composante dominante (Giora, 1983) ou contenu central ‘at-issue content’ (AnderBois et al., 2010, Koev, 2012) est défini comme la partie de l’énoncé qui encode ses informations les plus importantes et donc susceptibles de devenir le thème du discours subséquent (Erteschik-Shir et Lappin, 1979). Etant donné que les deux types de relatives cités ci-dessus tombent sous cette définition de l’avant-plan dans la mesure où elles affichent toutes les marques linguistiques de la « centralité » d’un contenu, i.e. elles peuvent servir de réponse à une question en discussion ‘question under discussion’ (cf. Roberts 1996), être confirmées ou infirmées directement5, etc., Giora (1983), AnderBois et al. (2010) et Koev (2012), postulent que le facteur qui détermine le statut discursif d’une subordonnée en général et d’une subordonnée relative appositive en particulier, n’est pas lié à son contenu, i.e. 5 Pour plus de détails sur les manifestations du statut d’un contenu vis-à-vis de l’opposition central vs. non central, voir Tonhauser (2006). 115 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco au fait qu’elle soit narrative ou descriptive, mais à sa position dans la phrase d’accueil. Ainsi, dans cette approche, la subordination syntaxique d’une relative appositive serait corrélée à sa subordination au niveau discursif, i.e. son appartenance à l’arrière-plan, uniquement dans le cas de relatives insérées. En revanche, si la relative occupe la position finale dans la phrase, ou, plus précisément, réalise sa dernière unité informative (Koev, 2012), rien ne l’empêche d’être interprétée comme véhiculant l’information essentielle. Aussi robustes et bien argumentées qu’elles soient, ces analyses fondées principalement sur des considérations d’ordre théorique, nous semblent néanmoins souffrir d’un défaut important, qui est qu’elles manquent crucialement de bases empiriques, défaut qui explique, d’après nous, les divergences qu’elles affichent. Partant de là, nous nous proposons dans la suite de voir : (a) à quel point ces différentes approches destinées à rendre compte de la contribution discursive des relatives narratives et descriptives sont motivées empiriquement, et (b) dans quelle mesure elles sont pertinentes une fois que l’on examine la façon dont les deux subordonnées interagissent avec leur contexte linguistique immédiat. 2 Contribution des relatives narratives et descriptives dans la cohérence référentielle du discours Afin de répondre à ces questions, nous nous focalisons sur l’un des aspects de la dimension contextuelle des relatives narratives et descriptives, celui de persistance topicale, qui consiste à déterminer l’effet des deux types de subordonnées sur les transitions référentielles, point que nous abordons dans le cadre de la théorie du centrage d’attention (Walker et al., 1998). 2.1 Théorie du centrage d’attention La théorie du centrage d’attention propose un formalisme permettant de dériver le degré de cohérence entre deux énoncés ‘utterances’ E1 et E2 successifs 6 et, plus spécifiquement, d’évaluer la difficulté cognitive dont s’accompagne l’intégration d’E2 dans le contexte créé par l’interprétation d’E1, en fonction du niveau de saillance qu’un référent obtient à l’issue d’E1 et de l’expression référentielle qui le désigne dans E2. L’hypothèse directrice de la théorie du centrage est que l’interprétation d’un discours implique des mises à jour systématiques du focus d’attention ‘local (attentional) focus’. Le discours en cours véhicule, à chaque étape de son développement deux types d’informations. D’une part, il fournit une liste de ses centres anticipateurs (Ca) ‘forward-looking centers’, i.e. entités qui, à des degrés variés, peuvent devenir le topique ou, en termes du centrage, le centre rétroactif (Cr) ‘backward looking center’ de l’énoncé suivant, terme qui renvoie à « l’objet de discours psychologiquement le plus [proéminant] à la fois pour l’énonciateur et pour l’allocutaire au moment où l’expression qui le réalise est employée […] » (Cornish, 2000 : 4). Et, d’autre part, il permet de classer ‘rank’ ces entités du point de vue de leur saillance relative, l’entité classée première étant son centre préféré (Cp) ‘preferred center’, dont on prédit qu’elle deviendra le Cr de la suite. Ainsi, le focus d’attention associé à un énoncé comme (3a) ci-dessous comporte trois Ca – Susan, Betsy et un hamster – dont Susan, étant donné sa position syntaxique de proéminence7, 6 Autrement dit, une séquence textuelle présentant une certaine homogénéité sémantique et pragmatique. Pour plus de détails, voir Cornish (2000). 7 L’échelle saillantielle des Ca basée sur le critère syntaxique se présente comme suit : Sujet > Objet indirect animé > 116 « Relatives narratives et relatives descriptives : entre corpus et théorie » par Maryna Lytvynova et Huy Linh Dao celle de sujet grammatical, est le Cp de (3a) et donc le Cr le plus attendu de l’énoncé suivant. Dans (3b), Susan est effectivement le Cr, i.e. l’entité centrale du discours en cours, ce dont témoigne la difficulté de désigner ce référent par une forme linguistique autre qu’un pronom personnel (3b’), l’idée sous-jacente étant qu’à travers les langues, le centre rétroactif d’un énoncé tend à être réalisé par des expressions linguistiques maximalement réduites prosodiquement et sémantiquement, comme, par exemple, des pronoms clitiques du français8. Le fait que, dans (3b), Susan apparaît encore une fois en position de sujet laisse entendre que ce référent gardera son statut de Cr dans l’énoncé subséquent, prédiction qui est validée par (3c). La transition référentielle effectuée par (3c) est du type Continuation du centre, dans la mesure où on maintient le topique de l’énoncé précédent et on l’impose en tant que tel pour la suite immédiate. La situation est quelque peu différente dans (3d), qui assigne les rôles de Cr et de Cp à des référents différents. En effet, Susan est le Cr de (3d) du fait que le référent est exprimé par un pronom mais il n’est plus le Cp, étant donné que c’est le référent de Betsy qui est placé en position de sujet. Cette configuration, appelée la Rétention du centre, fait de Betsy le meilleur candidat au Cr de l’énoncé suivant, ce qui amorce donc un changement de topique, libellé Déplacement du centre, qui se trouve entièrement réalisé par (3e). Ainsi, continuer sur (3d) par (3e') produit une séquence moins satisfaisante que celle où (3d) est suivi de (3e), dans la mesure où la prédiction que Betsy sera le topique de la suite, à laquelle donne lieu (3d), n’est pas validée par (3e') à la différence de (3e) : (3) a. Susani a offert un hamster à Betsyj. (b’. ??Susan lui a rappelé que les hamsters étaient assez sauvages.) b. c. d. e. (e'. Ellei luij a rappelé que les hamsters étaient assez sauvages. Elle a demandé à Betsy si elle aimait le cadeau. Betsy lui a répondu qu’elle l’aimait beaucoup. Ellej li’a assurée que c’était tout à fait ce qu’elle voulait. Ellei luij a dit qu’elle en était très contente.) Ces trois types de transitions référentielles – continuation, rétention et déplacement du centre – sont classés sur une échelle de préférence, qui reflète l’intuition sur laquelle se fonde la théorie du centrage, à savoir qu’un discours est perçu comme plus cohérent s’il est marqué par une continuité topicale, i.e. si, d’un énoncé à un autre, il maintient le même topique. Partant de là, une suite du type continuation est jugée comme préférable à une suite du type rétention, laquelle, à son tour, est préférable à une suite du type déplacement : (4) Continuations > Rétentions > Déplacements du centre 2.2 Relatives narratives et descriptives dans la théorie du centrage d’attention : hypothèses et prédictions Aussi schématique et lacunaire qu’il soit, cet aperçu de la théorie du centrage d’attention est suffisant pour aborder la problématique qui nous préoccupe ici. Comme nous avons eu l’occasion de le voir avec l’exemple (3), ce qui détermine majoritairement le degré de cohérence entre deux énoncés E1 et E2 c’est la concordance entre le traitement prospectif, qui part de l’état du focus d’attention d’E1 pour prédire les modifications qui y seront apportées par E2, et le traitement rétrospectif, qui confronte l’état du focus d’attention réel issu d’E2 et les Objet direct > Objet indirect inanimé > Objet oblique (Walker et al., 1998). Pour un aperçu d’autres facteurs susceptibles d’affecter la proéminence cognitive d’un référent, voir Cornish (2000), Poesio et al. (2004) et Wiesemann (2009). 8 Sur la relation entre le statut cognitif d’un référent et sa forme de réalisation linguistique préférée, voir Ariel (1990). 117 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco hypothèses faites à son sujet lors du traitement de prospection précédent. Partant de là, nous nous demandons, à la suite de Charolles (2007), ce qui compte pour E1 dans les cas où le contexte qui précède un énoncé non initial E2 n’est pas réalisé par une phrase simple mais par une phrase complexe constituée d’une proposition matrice et d’une proposition relative appositive (narrative ou descriptive). Le traitement rétrospectif ayant lieu dans E2 s’applique-t-il au focus d’attention induit par toute la phrase complexe précédente ou par la relative uniquement ? Si la dépendance syntaxique ne reflète pas toujours la dépendance discursive et que certaines structures marquées comme subordonnées, à force d’entretenir une relation syntaxique, sémantique et/ou pragmatique lâche avec leur propositions super-ordonnées, sont effectivement susceptibles de fonctionner discursivement comme ces dernières, i.e. comme des unités discursives autonomes véhiculant des informations d’une importance cruciale pour un discours en cours, alors il est logique de se demander si les relatives narratives et descriptives se comportent également comme des prédications indépendantes dans la façon dont elles participent à la mise à jour du focus d’attention référentiel associé à leur discours d’accueil. Les deux points de vue théoriques sur le statut discursif des relatives narratives et descriptives (voir 1.2 supra) impliquent des réponses partiellement divergentes. Si l’on adhère au premier, où seules les relatives narratives sont traitées comme étant parallèles à leurs matrices, i.e. relevant de l’avant-plan, on devrait supposer, comme le fait Charolles (ibid.), qu’elles sont également les seules à constituer des énoncés indépendants, leurs homologues descriptives agissant sur les transitions référentielles de leur texte d’accueil comme partie intégrante de la phrase complexe dans laquelle elles apparaissent. Autrement dit, l’énoncé suivant une relative narrative serait jugé comme plus cohérent vis-à-vis de l’état du focus d’attention induit par la relative, tandis qu’en présence d’une relative descriptive, le contexte subséquent tiendrait compte plutôt du classement des Ca établi par toute la phrase. Cela veut dire que les suites les moins coûteuses cognitivement de (6b), devrait être celles où le rôle du Cr est accordé au référent classé premier dans la relative, i.e. Betsy, comme c’est le cas dans (6c), (6d) ou (6e). En revanche, des séquences comme (7b) seraient plus naturellement suivies d’énoncés du type (7c), (7d) ou (7e), où le Cr est coréférentiel avec le Cp/Cr de toute la phrase précédente, Susan en l’occurrence : (6) a. b. Susani entra dans le bar. Elle fit signe à Betsyj, [qui, ravie, se dirigea à sa rencontre]. c. Ellej luii dit qu’elle était contente de la voir. (OU) Ellej dit à Susan qu’elle… (7) d. Susan laj complimenta sur sa nouvelle coiffure. a. Susani entra dans le bar. c. Ellei laj complimenta sur sa nouvelle coiffure (OU) Ellei complimenta Betsy… e. café. b. d. e. En passant près du comptoir, ellej demanda au barman deux tasses de Ellei fit signe à Betsyj, [qui lui souriait timidement]. Betsy lai complimenta sur sa nouvelle coiffure. Ellei passa au comptoir. Si, en revanche, on adopte la perspective « topologique », où les deux relatives sont présentées comme ayant le même potentiel communicatif que leur matrice, en vertu de la position finale qu’elles occupent dans leur phrase d’accueil, alors on devrait s’attendre à ce que la faculté de fonctionner comme une unité indépendante soit observable non seulement avec les relatives narratives mais aussi avec les descriptives : 118 « Relatives narratives et relatives descriptives : entre corpus et théorie » (8) a. Susani entra dans le salon. c. Ellej luii dit qu’elle était contente de la voir. (OU) Ellej dit à Susan qu’elle… b. d. e. 3 par Maryna Lytvynova et Huy Linh Dao Ellei fit signe à Betsyj, [qui lui souriait timidement]. Susan laj complimenta sur sa nouvelle coiffure. En passant près du comptoir, ellej demanda au barman deux tasses de café. Méthodologie Le matériel linguistique sur lequel on peut tester les prédictions concernant l’effet des relatives narratives et descriptives sur les transitions référentielles doit satisfaite à plusieurs contraintes. Premièrement, nous ne sommes intéressés que par les phrases complexes qui projettent une entité différentes en tant que topique de l’énoncé subséquent, suivant qu’on les traite comme réalisant un seul ou deux énoncés, c’est-à-dire par des cas de figure comme (6b) ou (7b). En effet, comme nous avons pu le constater précédemment, traiter (6b), par exemple, comme constitué d’une seule ou de deux unités discursives revient à faire des prédictions différentes sur le type de mise à jour à suivre : maintien du focus d’attention sur Susan dans le premier cas, et son déplacement vers Betsy dans le second. Deuxièmement, le Cp/Cr de la matrice et l’antécédent de la relative doivent posséder le même degré d’éligibilité au statut de topique de la suite, i.e. ils doivent, tous les deux, renvoyer à des individus humains, spécifiques, etc. Troisièmement, les constructions étudiées ne peuvent pas figurer au début d’un segment discursif, sinon la définition du topique de la matrice devient problématique. Et, enfin, quatrièmement, les phrases que nous nous proposons d’étudier ne peuvent pas non plus figurer en fin de texte pour une simple raison que dans ce cas, l’impact des relatives serait impossible à évaluer. Pour rassembler un corpus respectant toutes ces restrictions, nous avons décidé de recourir à une méthodologie expérimentale, en mettant en place un test de continuation9. 3.1 Matériel expérimental Le matériel expérimental utilisé dans cette expérience est constitué de cinq histoires du type de (9) : (9) Nicolas Brunois, serveur dans un bar à Montmartre, prit une pause de 10 minutes. Il attrapa un paquet de cigarettes et enfila à la hâte sa parka. Comme il passait à côté du comptoir, il salua [un vieil homme vêtu d'une soutane]j, a. qui agitait des brochures religieuses en toussant. c. Ilj agitait des brochures religieuses en toussant. b. d. qui agita des brochures religieuses en toussant. Ilj agita des brochures religieuses en toussant. La partie invariable de chaque texte (9) met en place deux référents humains du même genre grammatical : Nicolas Brunois et un vieil homme vêtu d’une soutane. Le premier, référent central (ci-après R+c), mentionné par un nom propre, figure régulièrement en position de sujet grammatical et fait l’objet de plusieurs reprises pronominales, ce qui lui permet d’accéder rapidement au statut de topique en cours. Le second, référent non central (ci-après R-c), introduit par un SN indéfini, apparaît ensuite en position postverbale : il n’est ni Cp, ni Cr de 9 Nous remercions M. Charolles de nous avoir inspiré cette idée. 119 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco l’énoncé qui l’évoque pour la première fois, celui-ci entretenant une relation de continuation avec le discours antérieur. En effet, le type de mise à jour réalisé par il salua un vieil homme vêtu d’une soutane maintient le Cr du discours précédent et, à force de le réaliser en tant que son Cp, invite à prédire sa continuation dans la suite immédiate. A la suite de cette partie invariable, les cinq histoires comportent une des phrases test présentées en (9a) – (9d) qui portent sur le R-c. Les quatre propositions se distinguent selon deux critères : statut syntaxique (relative vs. indépendante) et statut discursif (narration vs. description). La condition A correspond à une relative descriptive, B à une relative narrative, C à une indépendante descriptive et, enfin, D à une indépendante narrative. En outre, nous avons prévu une cinquième condition, E, dans laquelle le texte expérimental se présente comme dans (9), i.e. sans aucune suite portant sur le R-c, ni sur le R+c. Cette condition a été introduite pour nous permettre de vérifier si les effets attendus et observés dans les autres configurations peuvent être attribués à elles seules uniquement : Conditions expérimentales Relative vs. Indépendante Narration vs. Description A Relative Description B Relative Narration C Indépendante Description D Indépendante Narration E - - TABLE 1 – Plan expérimental du test de continuation 3.2 Procédure Les cinq textes expérimentaux, « mélangés » avec quatre distracteurs, ont été répartis en cinq types de livrets ou groupes, variant selon la condition sous laquelle apparaît telle ou telle histoire et l’ordre dans lequel elles se succèdent. Les livrets ont été conçus en sorte qu’une histoire n’apparaisse jamais que sous une des cinq variantes possibles (A, B, C, D ou E). Chaque type de livrets a été édité en 10 exemplaires, ce qui nous a donné au total 50 livrets, donc 250 suites : soit 50 pour chaque condition. Les 50 sujets interrogés, dont la majorité étudiants en linguistique à l’Université Sorbonne Nouvelle – Paris 3 ont reçu la tâche suivante : Les textes qui suivent sont des débuts de romans. Imaginez deux phrases prolongeant directement le début de l’histoire. 3.3 Hypothèses sur les continuations attendues Compte tenu des considérations exposées dans 1.2 et 2.2 (supra), on s’attend à ce que : - - soit il n’y ait pas de différences significatives entre les prolongations dans les conditions B (relative narrative) et D (indépendante narrative) d’une part et les conditions A (relative descriptive) et C (indépendante descriptive) d’autre part, le premier groupe réservant massivement le rôle de Cr au R-c, et le second maintenant la topicalité du R+c. Les suites dans la condition de contrôle E, dans ce cas, devraient être comparables à celles de A et C B ≈ D ≠ A ≈ C ≈ E. soit les conditions A, B, C et D produisent un effet similaire sur le degré de 120 « Relatives narratives et relatives descriptives : entre corpus et théorie » par Maryna Lytvynova et Huy Linh Dao saillance du référent de leur antécédent, celui observé dans (6). Les suites dans la condition E, qui seraient du type (7), devraient être significativement différentes de celles apparaissant dans les quatre conditions précédentes A ≈ B ≈ C ≈ D ≠ E. 3.4 Annotation des corpus Le corpus obtenu est constitué de 4510 prolongations écrites après une relative descriptive (A), 47 après une relative narrative (B), 46 après indépendante descriptive (C), 45 après une indépendante narrative (D) et 48 textes correspondant à la condition E. Les continuations produites par les sujets, dont nous n’avons retenu que la première phrase (ci-après P1) qui suit la proposition test, ont été annotées selon les critères suivants : (a) nombre de P1 où le rôle de Cp/Cr est réservé au R-c ; (b) nombre de P1 où le rôle de Cp/Cr est réservé au R+c ; (c) nombre de P1 où le R+c est réalisé par une expression autre qu’un pronom il ou elle ; (d) nombre de P1 où le R-c est le seul élément pronominalisé. Les données quantitatives obtenues dans chaque condition expérimentales ont été comparées par un test du Chi2. 4 Résultats (a) P1 où le rôle de Cp/Cr est réservé au R-c. P1 avec le R-c en tant que Cp/Cr A 2% (1) B 6% (3) C 4% (2) D 7% (3) E 2% (1) TABLE 2 – P1 avec le R-c en tant que Cp/Cr Etant donné que les continuations de ce type sont extrêmement rares et cela quelle que soit la condition examinée (A, B, C, D ou E), les différences observées dans le tableau 2 ne peuvent pas être vérifiées statistiquement11 : 10 Nous avons éliminé les continuations qui n’évoquent aucun des deux référents, comme par exemple, Dehors, il pleuvait, etc. 11 Les chiffres inférieurs à 5 ne peuvent pas subir le test statistique que nous utilisons. Il en découle que dans la 121 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco (11) Nicolas Brunois, serveur dans un bar à Montmartre, prit une pause de 10 minutes. Il attrapa un paquet de cigarettes et enfila à la hâte sa parka. Comme il passait à côté du comptoir, il salua [un vieil homme vêtu d'une soutane]j, qui agita des brochures religieuses en toussant. Ilj se mit à rire en voyant Nicolas. (b) P1 où le rôle de Cp/Cr est réservé au R+c. P1 avec le R+c en tant que Cp/Cr A 36% (17) B 47% (22) C 11% (5) D 15% (7) E 48% (23) TABLE 3 – P1 avec le R+c en tant que Cp/Cr Les différences (13% vs. 44%) sont hautement significatives entre les conditions A, B et E d’une part et les conditions C et D d’autre part (p = 0,000007), le premier groupe donnant lieu à un nombre plus important de P1 où le R+c est réalisé comme sujet pronom (12) que le second : (12) Patrick Landois, greffier au tribunal correctionnel de Paris, s'approcha de la salle d'audience. Il rectifia le nœud de sa cravate et poussa la porte. Comme il remontait les bancs à moitié vides, ilj arriva près d'un jeune homme couvert d'ecchymoses, qui poussa des cris de douleur en gémissant. Ilj ne s'arrêta pas immédiatement, pressé par le temps, mais il le regarda. (c) P1 où le R+c est réalisé par une expression nominale pleine. P1 avec le R+c réalisé par un SN plein A 18% (8) B 23% (11) C 48% (22) majorité des cas, les données obtenues dans la condition E ne peuvent pas être contrastées avec les autres conditions (cf. tableaux 2, 4 et 5). 122 « Relatives narratives et relatives descriptives : entre corpus et théorie » D 48% (22) E 6% (3) par Maryna Lytvynova et Huy Linh Dao TABLE 4 – P1 avec le R+c réalisé par un SN plein Les écarts (21% vs. 48%) sont hautement significatifs entre le groupe A + B d’une part et groupe C + D d’autre part (p = 0,00008). Autrement dit, les conditions qui réintroduisent R-c comme sujet d’une proposition indépendante, i.e. C et D, donnent davantage de P1 où R+c est évoqué par une expression nominale pleine (13) que les conditions où le R-c est sujet d’une proposition relative : (13) le le le le Nicolas Brunois, serveur dans un bar à Montmartre, prit une pause de 10 minutes. Il attrapa un paquet de cigarettes et enfila à la hâte sa parka. Comme il passait à côté du comptoir, il salua [un vieil homme vêtu d'une soutane]j. Ilj agitait des brochures religieuses en toussant. Nicolas chercha son briquet dans toutes les poches de sa parka sans réussir à mettre la main dessus. (d) P1 où le R-c est le seul élément pronominalisé. P1 où le R-c est le seul élément pronominalisé A 7% (3) B 9% (4) C 26% (12) D 27% (12) E 2% (1) TABLE 5 – P1 où le R-c est le seul élément pronominalisé Encore une fois, le test statistique appliqué permet de distinguer A + B et C + D (8% vs. 27% avec p = 0,00009), le deuxième groupe donnant lieu à un nombre plus important de suites où le R-c est le seul élément pronominalisé de P1, comme c’est le cas dans (14) et (15) : (14) Patrick Landois, greffier au tribunal correctionnel de Paris, s'approcha de la salle d'audience. Il rectifia le nœud de sa cravate et poussa la porte. Comme il remontait les bancs à moitié vides, il arriva près d'[un jeune homme couvert d'ecchymoses]j. Ilj poussait des cris de douleur en gémissant. Ilj venait de se faire agresser. (15) François Levestre, laveur de carreaux à la Tour Montparnasse, descendit d'un étage. Il vérifia les fixations de la nacelle et mit des gants en caoutchouc. Comme il s'attaquait à une baie vitrée coulissante, il fit signe de la main à [un homme d'affaires assis derrière un bureau]j. Ilj rangea des papiers en chantonnant. François luij fit signe de ne pas ouvrir. 123 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco 5 Discussion et conclusions Tout d’abord, il faut noter qu’aucune des cinq conditions étudiées ne favorise les prolongations du type continuation du R-c, étant donné que les cas où celui-ci est élu comme Cp/Cr de P1 (cf. tableau 2) sont extrêmement rares quelle que soit la condition, A, B, C, D ou E. A notre avis, le facteur qui est responsable de ce choix réside dans la façon dont le R-c est introduit dans le discours : à la différence du R+c, qui est évoqué pour la première fois par un nom propre (et repris plusieurs fois à l’aide d’un pronom), le R-c n’est mentionné que par un seul SN indéfini, ce qui diminue considérablement son éligibilité au statut de topique de la suite. En effet, selon Charolles (2002), bien que les noms propres et les SN indéfinis soient tous les deux utilisés pour importer une entité dans l’univers du discours, ces deux types d’expressions ne présentent pas leur référent sous le même jour. Ainsi, un nom propre, tout en témoignant d’un degré d’accessibilité faible de son porteur, signale que celui-ci risque de se trouver, très prochainement, au centre des préoccupations des interlocuteurs. Autrement dit, le référent désigné par un nom propre est, en quelque sorte, prédestiné à revenir régulièrement dans la suite du discours, i.e. à devenir son topique. Quant aux SN indéfinis, ils ne véhiculent pas cette instruction interprétative et donc sont employés plus fréquemment pour mentionner des individus secondaires, réservés à jouer un rôle épisodique dans un récit en cours. Pour ce qui est des données présentées dans les trois tableaux suivants, elles montrent que l’effet d’une relative narrative ou descriptive sur la proéminence du R-c est relativement instable. En effet, comparées à la condition contrôle E, d’une part, A et B la rejoignent du point de vue du nombre de suites du type « continuation du R+c », i.e. où le R+c est le Cp/Cr, mais, d’autre part, elles ont tendance à produire davantage de suites où le R+c est désigné par une expression référentielle pleine et à augmenter légèrement le nombre de P1 où le R-c est le seul élément pronominalisé, i.e. le Cr. Néanmoins, force est de constater que le taux de prolongations qui témoignent de la mise en avant de ce dernier est toujours significativement plus bas dans les conditions « relative », A et B, que dans les conditions « indépendante », C et D, les écarts quantitatifs observés au sein de chaque groupe syntaxique, i.e. A + B et C + D, n’étant pas statistiquement significatifs. Il s’ensuit : (i) que le facteur syntaxique détermine crucialement le degré auquel une unité informative donnée affecte le focus d’attention : un contenu propositionnel inséré dans une structure indépendante syntaxiquement ayant le pouvoir d’apporter des modifications plus substantielles ; (ii) et que le type de relation discursive (celle de narration ou de description) qu’une proposition entretient avec le contexte linguistique antérieur n’a pas d’impact sur la qualité des enchaînements référentiels auquel ladite proposition peut donner lieu. Formulé en termes de la théorie du centrage, cela veut dire que la meilleure façon de rendre compte de la contribution à la cohérence référentielle d’une phrase complexe comportant une proposition relative appositive, qu’elle soit narrative ou descriptive, est de la traiter comme réalisant un seul énoncé. En effet, à en juger par les chiffres concernant les conditions A et B, selon tous les critères d’évaluation retenus, (b) R+c = Cp/Cr de P1, (c) R+c ≠ pronom dans P1 ou (d) R-c = le seul pronom de P1, l’assimilation d’une relative à une unité discursive autonome dégrade considérablement le modèle du discours qui en résulte, dans la mesure où les suites immédiates des relatives narratives et descriptives de notre corpus, dans la majorité écrasante des cas, sont plus conformes au focus d’attention établi par toute la phrase qui précède, i.e. avec le R+c comme topique. 124 « Relatives narratives et relatives descriptives : entre corpus et théorie » par Maryna Lytvynova et Huy Linh Dao Pour conclure sur les résultats auxquels a donné lieu notre étude, nous pouvons dire que du point de vue d’impact sur les transitions référentielles : (i) la distinction fonctionnelle entre les relatives narratives et descriptives ne semble pas être pleinement motivée empiriquement ; (ii) les deux subordonnées, malgré toutes les propriétés qu’elles partagent avec des propositions indépendantes12, ne peuvent pas être assimilées à ces dernières ; De façon plus générale, nos données vont à l’encontre de l’idée selon laquelle les quasisubordonnées manifestent des propriétés des propositions indépendantes parce qu’elles fonctionnent comme des prédications autonomes (Dayal et Grimshaw, 2009), dans la mesure où d’après ce que nous avons pu constater ici : (iii) le statut syntaxique d’une proposition détermine son statut discursif, la subordination syntaxique, même apparente, étant un signe fiable de dépendance discursive. Ces conclusions vont entièrement à l’encontre des prédictions sur la contribution des deux types de relatives à la cohérence référentielle que nous avons faites en nous appuyant sur l’hypothèse que seules les narratives sont assimilables aux propositions indépendantes. Elles ne permettent pas non plus de valider l’hypothèse opposée stipulant que les deux subordonnées sont discursivement symétriques entre elles ainsi qu’à leurs matrices. Car même si, effectivement, ces deux types de propositions ne semblent pas être différenciables, en aucun cas leur contribution n’est comparable à celle d’une prédication autonome. La position théorique qui semble pouvoir rendre compte de l’effet des relatives narratives et descriptives sur les transitions référentielles, tel que nous l’avons observé ici, est celle de Thomson (1987), qui affirme que toute subordonnée syntaxique, indépendamment de son contenu, appartient nécessairement à l’arrière-plan. D’après cet auteur, les propositions enchâssées qui expriment des états de choses s’inscrivant dans l’axe temporel principal remplissent une fonction discursive inaccessible aux prédications indépendantes : tout en développant le fil conducteur du récit, elles signalent que la situation qu’elles mettent en place n’a d’existence qu’en tant que partie intégrante du contexte établi antérieurement. Néanmoins, force est de constater que cette approche n’est pas non plus complètement satisfaisante dans la mesure où même si elle prédit correctement le type d’enchaînements référentiels engendré par les conditions A et B (relative), elle laisse inexpliquée l’absence de différence significative entre C et D (indépendante). En effet, dans les quatre conditions expérimentales que nous avons mises en épreuve, uniquement dans D, la dernière unité informative est réalisée par une prédication indépendante ordonnée chronologiquement (cf. (10b) ci-dessus) et peut donc être considérée comme relevant de l’avant-plan. On devrait s’attendre à ce que le sort discursif du R-c soit sensiblement meilleur dans D que dans A, B, C ou E. Même si aucune des trois approches théoriques du rôle discursif des relatives appositives que nous avons envisagées ne semble être en mesure de rendre compte des données présentées ici, nous sommes bien conscients qu’en l’état actuel de notre recherche, aucune des trois ne peut être rejetée définitivement. La raison en est que nous avons fondé notre analyse sur une hypothèse, qui, tout en étant plausible, n’est pas entièrement validée non plus, à savoir que si une proposition joue un rôle majeur dans l’avancée de la narration (i.e. si elle apporte des informations relevant de l’avant-plan), cela devrait se traduire au niveau de la cohérence référentielle. Vu qu’il n’est pas totalement exclu que les deux phénomènes ne soient pas liés entre eux, la prochaine étape de notre investigation sera de confronter les trois types de traitements théoriques mentionnés ici dans un domaine qui les concerne plus directement, celui que nous avons désigné par le terme de transitivité situationnelle et qui consiste à évaluer 12 Voir également Miltsakaki (2005) et Wiesemann (2009), qui arrivent aux conclusions similaires en se basant sur le comportement discursif des relatives appositives du grec, de l’espagnol et de l’anglais. 125 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco le degré auquel les situations mises en place par les propositions test des quatre configurations étudiées ici (A, B, C et D) infléchissent la progression événementielle du discours ultérieur. L’hypothèse sur laquelle nous nous fondons est la suivante : les continuations écrites à la suite d’une relative narrative, descriptive ou des deux, du point de vue d’enchaînements situationnels auxquels elles donnent lieu, seraient en connexion directe avec l’état de choses dénoté par les relatives, si celles-ci relèvent de l’avant-plan, et avec le contexte qui les précède, autrement. Remerciements Nous remercions M. Michel Charolles (Paris 3 – LATTICE, UMR 8094) ainsi que Mme A.-M. Argenti (LATTICE, UMR 8094) pour l’aide qu’ils nous ont apportée dans la réalisation de ce travail. Références ANDERBOIS, S. et al. (2010). Crossing the Appositive/At-issue Meaning Boundary. Proceedings of SALT 20, pages 328-346. ARIEL, M. (1990). Accessing Noun-Phrase Antecedents. Routledge, Oxford. ASHER, N. et LASCARIDES, A. (1993). Temporal Interpretation, Discourse Relations and Commonsense Entailment. Linguistics and Philosophy, 16, pages 437– 493. BRANDT, M. (1990). Weiterführende Nebensätze Zu ihrer Syntax, Semantik und Pragmatik. Stockholm, Almquist & Wiksell. CHAROLLES, M. (2002). La référence et les expressions référentielles en français. Paris, Ophrys. CHAROLLES, M. (2007). Comment évaluer les effets des relatives en qui sur les chaînes de coréférence. In CHAROLLES et al. (éds.), Parcours de la phrase – Mélanges offerts à Pierre Le Goffic. Paris, Ophrys, pages 193-212. COMBETTES, B. (1992). L’organisation des textes. Metz, Université de Metz. CORNISH, F. (2000). L’accessibilité cognitive des référents, le centrage d’attention et la structure du discours : une vue d’ensemble. Verbum, 22-1, pages 7-30. DAYAL, V. et GRIMSHAW, J. (2009). Subordination at the interface: the Quasi-Subordination Hypothesis. Rutgers, The State University of New Jersey. DEPRAETERE, I. (1996). Foregrounding in English relative clauses. Linguistics, 34, pages 699731. DE VRIES, M. (2006). The syntax of appositive relativization: on specifying coordination, false free relatives and promotion. Linguistic Inquiry, 37-2, pages 229-270. EMONDS, J. (1979). Appositive relatives have no properties. Linguistic Inquiry, 10, pages 211243. ERTESCIK-SHIR, N. et LAPPIN, S. (1979). Dominance and the functional explanation of island phenomena. Theoretical Linguistics, 6-1, pages 41-86. GAPANY, J. (2004). Formes et fonctions des relatives. Pieterlen, Peter Lang. GIORA, R. (1983). Segmentation and segment cohesion: on the thematic organization of the text. Text, 3-2, pages 155-181. GOSSELIN, L. (1996). Sémantique de la temporalité en français. Paris, Duculot. 126 « Relatives narratives et relatives descriptives : entre corpus et théorie » par Maryna Lytvynova et Huy Linh Dao HOLLER, A. (2005). Expressing communicative-weight assignment discourse structurally. Proceedings of the Workshop on Constraints in Discourse, Dortmund, pages 88-95. HUBER, S. (2006). On the theory of presentation. In HEINAT F. et al. (éds.), Working papers in English linguistics, Volume 6. Lund, Lund University. KLEIBER, G. (1981). Relatives spécifiantes et relatives non spécifiantes. Le Français Moderne, 49-3, pages 216-233. KOEV, T. (2011). On the information statut of appositive relative clauses. Post-proceedings of the Amsterdam Colloquium 18, Springer, pages 401-410. KRIFKA, M. (2009). Embedding Speech Acts. Berlin, Humboldt Universität. LAMBRECHT, K. (1998). There was a farmer had a dog: syntactic amalgams revisited. Berkeley Linguistic Society Proceedings of the 14th Annual Meeting, Berkeley, pages 319-339. LEVINSOHN S. H. (2011). Self-instruction materials on narrative http://www.sil.org/~levinsohns/narr.pdf. [consulté le 01/09/2012]. discourse analysis. LOOCK, R. (2007). Appositive relative clauses and their functions in discourse. Journal of pragmatics, 39-2, pages 336-362. MILTSAKAKI, E. (2005). A centering analysis of relative clauses in English and Greek. University of Pennsylvania Working Papers in Linguistics, 11-1, pages 183-197. MULLER, C. (2006). Sur les propriétés des relatives. Cahiers de grammaire, 30, pages 319-337. POESIO, M. et al. (2004). Centering: a parametric theory and its instantiations. Computational Linguistics, 30-3, pages 309-363. ROBERTS, C. (1996). Information structure in discourse: toward an integrated formal theory of pragmatics. In YOON J. H. et al. (éds.), OSU Working Papers in Linguistics, Volume 49. Columbus, The Ohio State University, pages 91-136. TAO, H. et MCCARTHY, M. J. (2001). Understanding non-restrictive which-clauses in spoken English, which is not an easy thing. Language Sciences, 23-6, pages 651-677. THOMPSON, B. (1987). Subordination and narrative event structure. In TOMPLIN R. S. (éd.), Coherence and grounding in discourse. Amsterdam, John Benjamins, pages 435-454. TONHAUSER, J. (2011). Diagnosing (not-)at-issue content. Proceedings of Semantics of Underrepresented Languages of the Americas (SULA) 6, Massachusets. WALKER, M. (1998). Centering in naturally-occurring discourse: An overview. In WALKER M. et al. (éds.), Reference and referent accessibility. Amsterdam, John Benjamins, pages 291-306. WIESEMANN L. M. (2009). The function of Spanish and English relative clauses in discourse and their segmentation in Centering theory. Thèse de doctorat, Simon Fraser University. 127 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco De l’analyse au partage des données, quel(s) ormat(s) choisir ? L’exemple d’un corpus d’interactions parents-enfant Loïc Liégeois Laboratoire de Recherche sur le Langage, EA 999, Université Blaise Pascal, BP 10448, Clermont-Ferrand [email protected] RÉSUMÉ___________________________________________________________________________________________________________________ Les enjeux inhérents à tout projet de constitution de corpus sont divers mais, parmi ceux-ci, le choix du format d’encodage des données est central. Cet article expose la chaîne de traitement utilisée dans le cadre du projet ALIPE dans le but de constituer un corpus d’interactions orales entre des parents et leur jeune enfant. Afin de constituer une ressource organisée, structurée, documentée, libre d’accès et au maximum interopérable, nous avons retenu deux formats d’encodage : le format CHAT et le format XML-TEI. Nous présentons dans cette étude les méthodes utilisées par l’équipe de recherche pour récolter les données, les annoter et les rassembler dans le but de constituer un corpus. Nous évoquerons également les avantages que l’utilisation du format XML peut apporter pour l’analyse des données ainsi que pour l’interopérabilité entre logiciels de traitement et d’analyse de corpus. ABSTRACT________________________________________________________________________________________________________________ Any project dealing with corpus building will be faced with any array of different challenges. However, amongst these, the choice of the data encoding format will be central. This article describes the processing chain used during the ALIPE project whose aim is to build a corpus of verbal interactions between parents and their young children. In order to put together an organized, structured, documented, open-access resource with maximal interoperability, we selected two encoding formats: CHAT and XML-TEI. In this article, we introduce the methods used by the research team for data collection and annotation and describe how the data was assembled into a corpus. We also discuss the advantages of using the XML format with respect to data analysis as well as interoperability between corpus processing and analysis software. MOTS-CLES : interactions parents-enfant, acquisition, variation phonologique, partage des données, interopérabilité KEYWORDS : parents-child interactions, acquisition, phonological variation, data sharing, interoperability 1 Introduction La constitution d’un corpus de données issues d’interactions en situation naturelle est une tâche qui se révèle difficile et coûteuse en temps. En effet, même si les évolutions technologiques ont fourni aux chercheurs un bon nombre d’outils d’aide à la transcription, l’annotation ou l’analyse des interactions, celles-ci ont également amené les chercheurs à se confronter à de nouvelles problématiques, telles que le choix du format de représentation du signal sonore ou de l’encodage des données. Ces décisions méthodologiques sont aujourd’hui au cœur des débats au sein de différentes disciplines (Reffay, Betbeder et Chanier, 2012) et font l’objet d’une littérature importante, notamment dans le champ disciplinaire de l’acquisition du langage (Behrens, 2008). La mise en place d’infrastructures et de projets nationaux (Très Grand Equipement ADONIS, Très Grande Infrastructure de Recherche Corpus) et internationaux (Common Language Resources and Technology Infrastructure) témoigne également de l’envergure sociale et scientifique grandissante des corpus de données langagières. Dans cet article nous montrerons comment, dans le cadre du projet ALIPE (Acquisition de la 128 « De l’analyse au partage des données, quel(s) format(s) choisir ? » par Loïc Liégeois Liaison et Interactions Parents-Enfant), nous avons tenté de construire une méthodologie pertinente répondant à l’ensemble des critères nécessaires à la construction d’un corpus d’interactions orales à la base de nos recherches sur l’acquisition de la variation phonologique. Après avoir dressé un bref historique de l’utilisation des corpus dans le cadre de recherches sur l’acquisition du langage, notre étude s’articulera autour de trois axes : l’annotation, la mise en forme des données en corpus et enfin l’analyse des données. 2 Corpus et recherche en acquisition du langage Dans le champ des recherches en acquisition du langage, la construction de corpus de données constitués à partir des productions de jeunes locuteurs en situation naturelle a depuis toujours occupé une part importante du travail du chercheur. Ingram (1989) prend comme point de départ des travaux sur corpus en acquisition la publication de Taine (1877). Dans cette étude, le chercheur analyse les productions orales de sa propre fille recueillies sous forme de notes rédigées dans un journal (parental diary). Cette méthode a été la plus employée à la fin du XIXème et au début du XXème siècle, permettant aux chercheurs de relever des indices de développement non seulement linguistique mais également cognitif en général. Taine (1877 : 256) rapporte par exemple : From the 15th to the 17th month. Great progress. She has learnt, to walk and even to run, and is firm on her little legs. We see her gaining ideas every day and she understands many phrases, for instance: "bring the ball," "come on papa's knee," "go down," "come here," &c. She begins to distinguish the tone of displeasure from that of satisfaction, and leaves off doing what is forbidden her with a grave face and voice ; she often wants to be kissed, holding up her face and saying in a coaxing voice papa or mama-but she has learnt or invented very few new words. Cette méthode de recueil de notes « à la volée », bien qu’elle soit limitée (Tomasello et Stahl, 2004) et parfois même jugée subjective et trop spécifique pour mener à bien des études quantitatives et générales sur le développement de l’enfant (Morgenstern et Parisse, 2007), a ouvert la voie aux études de corpus de données recueillies en situation naturelle. En effet, Nadelman (2004) note qu’entre 1890 et 1960, seulement 8% des travaux empiriques sur le développement des enfants et des adolescents étaient basés sur des situations d’observation en situation naturelle (par exemple lors de séances de jeux entre les parents et leur enfant). Par la suite, l’évolution des technologies de recueil de données (comme les magnétophones pour l’audio et les caméras pour la vidéo) a engendré un nombre croissant d’études menées à partir de corpus de productions enfantines. Pour Behrens (2008), les études menées par Brown (1973) représentent l’un des tournants majeurs pour la discipline, au niveau théorique et méthodologique. Au niveau méthodologique, l’utilisation de magnétophones permettant de capter le signal sonore original a poussé les chercheurs à se confronter à de nouvelles problématiques : comment matérialiser le signal sonore de façon pertinente et cohérente ? De quelle façon enrichir les données primaires en ajoutant les informations interprétatives qui seront à la base de la recherche ? Quel format de transcription et d’encodage des données choisir ? En réponse à ces préoccupations, MacWhinney et Snow (1985) et MacWhinney (2000) ont commencé à développer, dès 1983, la base de données CHILDES (CHIld Language Database Exchange System). Cette base de données a pour objectif d’héberger des corpus variés de productions enfantines. Ainsi, on peut retrouver par exemple dans cette base des productions d’enfants monolingues ou bilingues recueillies en situation naturelle ou en situation expérimentale. Les données originales sous format audio ou vidéo sont accompagnées de la transcription encodée dans un format spécifique, le format CHAT (Codes for the Human Analysis of Transcripts), permettant l’analyse de corpus via le programme CLAN (Computerized Language ANalysis). Cet ensemble d’outils permettant de transcrire, coder/annoter et analyser les données orales est devenu standard dans le domaine. Les aides 129 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco technologiques de la sorte ont bouleversé le travail du chercheur au niveau méthodologique (Parisse et Morgenstern, 2010a) : une fois que l’outil que l’on souhaite utiliser est maîtrisé, les tâches de transcription et d’annotation deviennent un peu moins fastidieuses et surtout plus rigoureuses. Ainsi, les recueils de corpus longitudinaux se sont multipliés. Pour ce type de corpus, il s’agit d’enregistrer et/ou filmer un même enfant à intervalle régulier pendant une période importante de son développement langagier dans le but « de collecter un échantillon représentatif, mais non exhaustif, du langage de l’enfant et de son développement » (Morgenstern et Parisse, 2007 : 58). Ces bouleversements méthodologiques ont engendré une multiplication et une diversification des données. Auparavant cantonnés à l’observation de leur propre enfant (ou, dans le meilleur des cas, de l’enfant d’un proche), les chercheurs se sont trouvés face à des données beaucoup plus hétérogènes à plusieurs niveaux. Aujourd’hui, les jeunes locuteurs étudiés sont issus de milieux sociaux divers et contrastés, ce qui a ouvert la voix à des études sociolinguistiques de l’acquisition de certains phénomènes langagiers (Chabanal, 2003). La diversification et la multiplication des sujets observés permettent également une prise en compte de la variation inter-locuteur et intra-locuteur, facilitant ainsi la mise en relief des phénomènes variants et invariants du processus d’acquisition du langage. En même temps que l’accessibilité à des données variées s’est développée, la communauté a pu observer une multiplication des outils de traitement et d’analyse des corpus1. Ainsi, le chercheur souhaitant constituer un corpus de données orales ou multimodales mêlant images et sons se retrouve face à une problématique centrale : quel format d’encodage des données choisir ? Nous retiendrons ici trois critères principaux pouvant guider son choix : 1. L’expressivité du format : le format choisi doit permettre la transcription et l’annotation des données brutes (images et/ou sons) en rapport avec les phénomènes que le chercheur souhaite étudier sans remettre en cause l’expression de phénomènes déjà étudiés. 2. Le caractère standard et extensible du format : le format choisi doit être standard et extensible dans le but de faciliter l’échange et le partage des données au sein de la communauté de chercheurs. L’extensibilité du format permet d’y incorporer la description de nouveaux phénomènes non pris en compte jusqu’à maintenant. 3. L’interopérabilité du format : le format choisi doit faciliter l’interopérabilité entre les logiciels de traitement et d’analyse des corpus. Si le choix du format ne s’effectue que par rapport au besoin de l’étude d’un ou de plusieurs phénomènes particuliers, tel que perçu en phase de démarrage du projet de recherche sans prendre en compte l’empan temporel important des projets de recherche sur corpus, alors le chercheur aura tendance à choisir une mise en forme dans des formats souvent propriétaires. Ce choix ne permet que rarement de répondre aux critères 2 et 3 précédemment cités qui sont pourtant primordiaux. En effet, favoriser la mise à disposition des corpus/données de recherche reflète un triple enjeu. Le partage des données permet en premier lieu aux autres chercheurs de la communauté de mener des études à partir de ces données, mais cela leur donne également l’occasion de faire des retours sur les analyses menées et d’enrichir les corpus en ajoutant des « couches » d’annotation. L’utilisation de formats standard permet également au chercheur de valoriser son travail par le référencement de son corpus dans des répertoires internationaux (par exemple OLAC2). 1 2 On notera CLAN, ELAN, EXMARALDA, Praat, TRANSCRIBER pour ne citer qu’eux. Open Language Archives Community, www.language-archives.org 130 « De l’analyse au partage des données, quel(s) format(s) choisir ? » 3 par Loïc Liégeois Le projet ALIPE Le projet ALIPE est un projet structurant du Laboratoire de Recherche sur le Langage (LRL) qui vise à étudier l’acquisition de la variation phonologique et plus particulièrement les phénomènes de liaison et d’élision. En prenant comme cadre théorique le modèle basé sur l’usage (Kemmer et Barlow, 2000) et son application à l’acquisition du langage (Tomasello, 2003) les objectifs du projet ALIPE s’articulent autour de deux axes de recherche : – – La description et la caractérisation des particularités du discours adressé à l’enfant (DAE) au niveau de la variation phonologique. La mise en relation des productions enfantines et des productions parentales dans le but de mesurer l’impact du discours parental sur la vitesse et la qualité d’acquisition de la variation phonologique chez le jeune enfant pré-lecteur. Alors qu’il est convenu que, comparé au discours adressé à l’adulte (DAA), le DAE comporte des énoncés plus courts (Phillips, 1973), syntaxiquement plus simples (Rondal, 1980) et produits avec « une hauteur tonale élevée et une intonation exagérée » (Jisa et Richaud, 1994 : 22), la littérature fait peu mention des particularités phonologiques du DAE. L’objectif du projet ALIPE est donc de combler ce vide en comparant les productions d’adultes en fonction de l’adresse de leur discours (à l’enfant ou à l’adulte) 3 . À partir de ces données, nous souhaitons également mesurer l’impact des caractéristiques du DAE sur le développement linguistique du jeune locuteur, et plus spécifiquement sur son acquisition des variables phonologiques. Enfant Salomé Baptiste Prune Age Durée totale des enregistrements Durée des enregistrements transcrits et annotés 2;4 ans 8h06 5h 3;0 ans 6h42 5h 3;0 ans 5h30 5h30 3;7 ans 4h23 4h23 3;4 ans 8h34 5h 4;0 ans 2h02 2h02 5;4 ans 4h21 4h21 TABLE 1 - Durées des enregistrements récoltés et transcrits Dans cet objectif, les recherches menées dans le cadre du projet prennent appui sur des études de corpus constitués de productions recueillies en situation naturelle d’interaction (CorpusALIPE). Plus spécifiquement, il s’agit de corpus relativement denses (une heure par jour pendant une semaine) recueillis en deux temps distants de plusieurs mois (T1 et T2). Ce type de corpus comporte plusieurs avantages. En effet, la densité des enregistrements permet d’obtenir un inventaire tout à fait correct des formes et des constructions que l’enfant est capable de comprendre et de produire. De plus, le recueil d’autant d’heures d’interaction à un point précis du développement linguistique de l’enfant rend possible l’étude de phénomènes 3 On notera que Andreassen (2011) a en effet comparé le taux d’élision du schwa en DAE, recueilli dans des corpus d'interaction parents-enfant, avec des données de DAA extraite du corpus du projet PFC (Durand et Lyche, 2009). 131 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco linguistiques relativement rares (Tomasello et Stahl, 2004). Au sein du projet, ce point nous est apparu crucial au regard de la fréquence d’apparition des erreurs enfantines en contextes de liaison catégorique par exemple. Ainsi, en disposant de deux temps de récolte d’enregistrements relativement denses par enfant, nos données sont compatibles avec nos problématiques de recherche et permettent des mesures adéquates de l’évolution des productions de l’enfant et des caractéristiques du DAE entre T1 et T2. Pour récolter ces corpus, nous avons confié aux parents un enregistreur numérique équipé d’un microphone omnidirectionnel intégré. De cette façon, nous avons minimisé les biais qui auraient pu être engendrés par l’intrusion d’un observateur inconnu de l’enfant à son domicile (Tomasello et Stahl, 2004). La seule consigne donnée aux parents était d’enregistrer leur enfant dans des situations propices aux interactions telles que le bain, le repas ou des séances de jeu et de lecture. À raison d’environ une heure de recueil de données par jour pendant une semaine, nous avions donc à notre disposition un peu moins de 53 heures d’enregistrement4. Cependant, les durées des enregistrements variant en fonction de la famille les ayant recueillis, nous avons décidé d’harmoniser les données en ne sélectionnant que 10h de piste audio par enfant pour nos études (cf. Table 1). 4 Annotation des données La transcription et l’annotation de données orales est une tâche primordiale à laquelle tout chercheur souhaitant constituer un corpus d’interactions naturelles est confronté. Cette activité se révèle particulièrement coûteuse en temps et/ou en argent. Pour transcrire et annoter une heure d’enregistrement audio, il faut compter jusqu’à vingt heures de travail pour un transcripteur confirmé (Behrens, 2008, Parisse et Morgenstern, 2010). Ce temps moyen peut cependant varier en fonction de plusieurs paramètres. Par exemple le chercheur peut, selon les objectifs de sa recherche, utiliser une méthode de transcription plus ou moins détaillée (Delais-Roussarie, 2004). Ainsi, on pourra privilégier la transcription orthographique pour des corpus de grandes tailles sur lesquels on souhaite mener des analyses lexicales sans trop se soucier de la façon dont les formes lexicales ont été prononcées. À l’inverse, le chercheur s’intéressant à des phénomènes phonétiques et/ou acoustiques précis tels que l’accentuation ou le dévoisement optera davantage pour la méthode de transcription acoustique/phonétique. Le nombre de phénomènes linguistiques et d’informations paralinguistiques que le chercheur doit annoter ainsi que leur nature (geste de pointage ou déplacement par exemple) influent également sur le temps que l’annotateur va passer à coder ces informations. Dans le cadre du projet ALIPE, bien que nous nous intéressions à des phénomènes phonologiques, nous avons choisi de transcrire orthographiquement les productions orales des locuteurs. Ainsi, les analyses lexicales se trouvent facilitées, chaque variante phonologique d’une même forme sous-jacente étant transcrite de la même manière (par exemple, les variantes /mètsC/ et /médesC/ sont toutes les deux transcrites « médecin »). Cependant, certains phénomènes phonologiques ont été annotés : – 4 La liaison : la liaison consiste en la réalisation d’une consonne entre un premier mot (Mot1) et un deuxième à initiale vocalique (Mot2), alors que cette consonne n’est pas réalisée lorsque le Mot1 est produit en isolation (par exemple [dézami] pour « des amis » mais [dé] pour « des » et [ami] pour « amis »). Les données de Salomé et Prune ont été récoltées dans le cadre du projet ANR Phonlex « De la phonologie aux formes lexicales : liaison et cognition en français contemporain ». 132 « De l’analyse au partage des données, quel(s) format(s) choisir ? » – par Loïc Liégeois L’élision variable du schwa : l’élision variable du schwa consiste en l’effacement du schwa dans un contexte où il aurait pu être maintenu (par exemple [jprBltrC] pour [jeprBletrC] « je prends le train »). Principales informations à annoter Locuteur Adresse du discours Portée de l’annotation (énoncé entier > partie de l’énoncé > forme lexicale > phonème) > Énoncé Chevauchement Énoncé entier ou partie de l’énoncé Type d’énoncé (interrogatif ou exclamatif par exemple) Énoncé entier Type d’annotation (situationnelle, paralinguistique, extralinguistique ou linguistique) Situationnelle Paralinguistique Mode de production (énoncé produit en riant, en criant ou en pleurant par exemple) Énoncé entier ou partie de l’énoncé Événement extralinguistique (bruit parasite couvrant la voix du locuteur par exemple) Énoncé entier ou partie de l’énoncé Liaison Partie de l’énoncé Formes spécifiques (forme d’une autre langue ou onomatopée par exemple) Forme lexicale Élision Phonème Extralinguistique Linguistique TABLE 2 - Principales informations annotées dans le corpus ALIPE Outre les phénomènes phonologiques étudiés dans le cadre du projet ALIPE, d’autres informations, de diverse nature, nécessitaient une annotation manuelle de la part de l’équipe de recherche (cf. Table 2). La nature et la portée différentes de chacune d’entre elles nécessitaient un format de transcription et d’annotation capable de : – – – – Représenter correctement la portée de l’annotation en permettant une annotation à un point précis de l’énoncé (pour la liaison par exemple) comme une annotation portant sur une partie de l’énoncé (pour un chevauchement de la parole par exemple). Représenter correctement les « enchâssements» d’annotations. Par exemple, un énoncé entier produit en criant peut contenir une partie d’énoncé se chevauchant avec l’énoncé d’un autre locuteur. Permettre la création d’une structure d’annotation. Par exemple, annoter une liaison entre un Mot1 et un Mot2 consiste à annoter plusieurs informations : le contexte syntaxique (entre déterminant et nom ou entre adjectif et nom par exemple), la consonne attendue si la liaison est réalisée, la consonne effectivement produite (ou l’absence de réalisation de la liaison) et le caractère variable ou catégorique de la liaison. Permettre une extraction rapide des phénomènes étudiés. 133 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Dans cet objectif, nous avons décidé de transcrire et annoter nos données audio en utilisant le langage de balisage XML (eXtensible Markup Language). En effet, ce format nous a semblé être le plus performant pour répondre aux exigences des annotations spécifiées plus haut, et ce pour plusieurs raisons. Premièrement, le balisage XML offre deux possibilités particulièrement intéressantes pour l’annotation de corpus : les éléments hiérarchisés et les éléments vides. En langage XML, chaque élément bien formé se compose d’une balise ouvrante, d’un contenu (optionnel) et d’une balise fermante. De plus, un élément peut luimême contenir un autre élément, entraînant ainsi une relation « père-fils » entre le premier et le second. Ainsi, dans la figure 1, l’élément « L1 » contient l’élément « crie », qui contient luimême l’élément « ens1 », le tout formant une structure arborescente basée sur le rapport « père-fils ». Cette caractéristique nous est apparue très intéressante à exploiter. En effet, cette hiérarchisation des éléments nous a permis d’annoter le fait qu’un énoncé produit par le locuteur « L1 » était en partie produit en criant (« prends ton ours »). Exemple extrait du corpus ALIPE <L1> <L1></L1> : Ces balises encadrent l’énoncé pour spécifier quel <AE/> locuteur le produit. <AE/> : Cette balise, en début d’énoncé, indique l’adresse du discours. <crie> prends <ens1>ton <Ann1/> ours </ens1> </crie> pour l(e) trajet! </L1> Signification des balises <crie></crie> : Ces balises encadrent une partie d’énoncé produit en criant. <ens1></ens1> : Ces balises encadrent la partie de l’énoncé qui se chevauche avec la production d’un autre locuteur. <Ann1/> : La balise de liaison est placée entre le Mot1 et le Mot2. FIGURE 1 - Exemple d'énoncé transcrit et annoté au format XML-ALIPE Les éléments vides, quant à eux, rendent possible une annotation qui n’englobe pas un énoncé ou une partie d’énoncé mais qui porte sur un point précis de la chaîne parlée. Par exemple la liaison, qui apparaît entre un Mot1 et un Mot2 peut être annotée à l’aide d’un élément vide à l’endroit précis de sa réalisation, comme dans la Figure 1 pour la liaison entre « ton » et « ours ». Dans ce cas précis, la balise peut être considérée comme un codage portant les informations nécessaires à l’étude d’un phénomène particulier. Ainsi, dans le corpus ALIPE, l’annotation de la liaison comporte quatre informations : le contexte syntaxique (par exemple « A », entre déterminant et nom), la consonne attendue, la consonne réalisée et le caractère variable ou catégorique de la liaison (liaison variable : « 0 » ; liaison catégorique : « 1 »). Le choix d’utiliser le langage XML s’est donc révélé judicieux pour la transcription et l’annotation de nos données : outre la possibilité de créer des jeux de balises d’annotation permettant de coder des informations générales et spécifiques à notre projet de recherche, le langage XML s’est révélé particulièrement utile dans le but de transformer nos données encodées dans notre format propre (le format XML-ALIPE) en corpus. 5 Mise en forme des données en corpus La mise en forme des données en corpus est une étape importante pour tout projet de recherche s’appuyant sur des études de données recueillies en situation naturelle. 134 « De l’analyse au partage des données, quel(s) format(s) choisir ? » par Loïc Liégeois Format XML-ALIPE <L1> <AA/> +, je sais pas si c’est <Htt0/> une bonne chose mais <rit>de toutes façons</rit> c’est fait . </L1> Format CHAT *MOT: +, je sais pas si c’est [^ Syntctx=H expecCons=t realCons=t obliOpt=0] une bonne chose mais<de toutes façons> [=! rit]c’est fait .•1465906_1470800• %add: à FAT Format XML-TEI <uwho="#MOT-Prune"xml:id="u637-ali-prune-071121-1"> <anchorsynch="u637-ali-prune-071121-1-start"/> <w>je</w><w>sais</w><w>pas</w><w>si</w><w>c’est</ w> <fs type="liaison"><f name="Word1" fVal="c’est"/><f name="Word2" fVal="une"/><f name="SynctacticContext" fVal="H"/><f name="ExpectedConsonnant" fVal="t"/><f name="ProducedConsonnant" fVal="t"/><f name="ObligatoryOptional" fVal="0"/></fs> <w>une</w><w>bonne</w><w>chose</w><w>mais</w> <shift new="laughing"/> <w>de</w><w>toutes</w><w>façons</w><shift/> <w>c’est</w><w>fait</w> <anchorsynch="u637-ali-prune-071121-1-end"/> <fs type="addressee"><f name="target" fVal="FAT"/></fs></u> FIGURE 2 - Exemple d’un énoncé encodé dans les différents formats utilisés pour la mise en forme des données du projet ALIPE en corpus Comme nous l’avons spécifié plus haut, la création d’un corpus libre et accessible à la communauté de chercheurs dans des formats standard se révèle particulièrement importante à plusieurs niveaux. Dans le cadre du projet ALIPE, nous avons retenu deux formats standard pour la mise en forme de nos données en corpus : le format CHAT et le format XML-TEI (Text Encoding Initiative). En effet, ces deux formats nous apparaissent complémentaires. Le format CHAT s’est imposé depuis plusieurs années comme le format standard utilisé pour mettre en forme des corpus à la base d’études en acquisition du langage. En effet, le logiciel CLAN associé à ce format de transcription permet au chercheur de mener un nombre important d’analyses sur une grande quantité de données. En outre, l’interopérabilité du format CHAT nous a semblé particulièrement intéressante : à partir de fonctions d’import/export ou de programmes de conversion, un fichier au format CHAT peut être lu par 135 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco un autre logiciel de traitement de corpus comme Praat par exemple. Ainsi, l’équipe de recherche se trouve dans la capacité de mener des analyses de différents niveaux (syntaxique, lexical, prosodique) dans différents logiciels et ce à partir des mêmes données, sans travail de mise en forme supplémentaire. Le format XML-TEI, quant à lui, se révèle particulièrement intéressant pour son expressivité et son extensibilité. Au niveau de l’expressivité, le format XML-TEI est un format ouvert, permettant l’ajout de balises spécifiques au projet de recherche. Ainsi, nous avons pu annoter diverses informations autour de la variation phonologique en créant des jeux de balises compatibles avec la grammaire de la TEI. En effet, la grammaire de la TEI propose un système d’éléments hiérarchisés conçus dans le but de permettre toute annotation linguistique. Au préalable, il suffit de décrire la portée et la nature de l’annotation ainsi que la structure de traits utilisés comme argument des éléments dans les métadonnées du corpus. Cette description agira comme une DTD (Document Type Déclaration) et rendra compatible le codage créé par le chercheur avec la grammaire de la TEI. C’est en suivant ce procédé qu’à terme un codage mis en place dans un objectif particulier « pourra aboutir à l’intégration dudit codage dans la TEI » (Luzzati, 2009 : 101). En suivant ce protocole, nous avons défini, dans le cadre du projet ALIPE, plusieurs structures d’annotation dont une, par exemple, pour coder l’adresse du discours parental (cf. Figure 2 : Format XML-TEI). Pour le reste de nos annotations, nous avons utilisé les balises disponibles dans la grammaire afin de renseigner le locuteur, l’alignement avec le document sonore et les incertitudes dans la transcription par exemple. Au niveau de l’interopérabilité, le format XML-TEI est amené à devenir le format pivot entre les différents logiciels de traitement de corpus, étant donné son extensibilité et sa capacité à encoder, pour un même énoncé, les particularités de codage des autres formats (Parisse et Morgenstern, 2010b, Schmidt, 2011). Afin de transformer nos données transcrites et annotées au format XML-ALIPE en corpus encodés au format CHAT et XML-TEI, nous avons utilisé le langage de programmation Perl (Wall, Christiansen et Orwant, 2001). Perl est un langage de programmation particulièrement adapté aux documents textuels. En effet, ce langage opère sur des chaînes de caractères en différenciant texte et données numériques. Les programmes que nous avons rédigés en langage Perl sont basés sur des expressions régulières et des opérateurs d’expressions régulières permettant par exemple des séries d’opérations de transformation. L’ensemble de la chaîne de traitement suivie par nos données, détaillée ci-dessous, est représenté par la Figure 3. Dans un premier temps, nos données transcrites et annotées au format XML-ALIPE sont converties au format CHAT via une série de programmes rédigés en langage Perl. Le passage par le format CHAT nous a semblé primordial, et ce pour trois raisons majeures : l’utilisation du programme d’analyse de corpus CLAN, la possibilité de procéder à un alignement de la transcription avec la source de donnée sonore et l’enrichissement de la base CHILDES avec le dépôt de nos corpus alignés et annotés. Ensuite, les transcriptions alignées et annotées au format CHAT sont converties dans un format XML propre au format CHAT (le format XMLCHAT). Cette conversion est gérée automatiquement par un outil spécifiquement dédié : le Chatter5. A partir du format XML-CHAT, nous obtenons nos corpus encodés au format XMLTEI à l’aide, à nouveau, de programmes de transformation rédigés en langage Perl. 5 Il s’agit d’un logiciel libre permettant de valider les transcriptions au format CHAT et de les transformer dans le format XML-CHAT. Ce logiciel est disponible sur le site de la TalkBank : http://talkbank.org/software/chatter.html. 136 « De l’analyse au partage des données, quel(s) format(s) choisir ? » par Loïc Liégeois FIGURE 3 - Chaîne de traitement des données du projet ALIPE En sortie de notre chaîne de traitement des données, nous avons donc à notre disposition quatre versions de notre corpus. Chacune de ces versions comporte ses particularités. Les corpus aux formats CHAT et XML-TEI sont les versions du corpus qui sont ou qui seront déposées sur des base en accès libre6, respectivement sur la plateforme CHILDES et sur le site de diffusion du Laboratoire de Recherche sur le Langage7. Le format XML-TEI est un format central encodant l’ensemble des métadonnées du corpus. En effet, alors que dans la plupart des formats propriétaires, le renseignement des métadonnées est succinct et indépendant du fichier de données, le format TEI présente l’avantage de regrouper dans un même élément données et métadonnées. De plus, les balises disponibles dans la grammaire sont nombreuses et nous ont permis de développer plusieurs aspects. Ainsi, outre les informations classiques sur les rôles des chercheurs concernés par le projet ou l’identification des sources de données, nous avons pu encoder diverses informations sociolinguistiques sur les locuteurs : statut socioéconomique, domiciles successifs, âge… Dans les métadonnées, les conditions de récolte des corpus sont également explicitées, accompagnées d’un descriptif du projet de recherche. Ces informations se révèlent essentielles une fois les corpus mis à disposition de la communauté de chercheurs. En effet, elles permettent à la personne qui souhaite utiliser les données de saisir comment et dans quel objectif celles-ci ont été constituées. Les corpus aux formats XML-ALIPE, non standard, XML-TEI et CHAT sont utilisés par l’équipe de recherche pour les analyses (via le logiciel CLAN) et l’extraction de données qui seront à la base de la recherche. 6 7 Au moment de l’écriture, l’équipe de recherche est en train de procéder au dépôt des corpus. http://lrl-diffusion.univ-bpclermont.fr/. 137 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco 6 Analyse des corpus Une fois l’ensemble des traitements sur les données effectué (cf. Figure 3), les chercheurs du projet ALIPE ont à leur disposition leur disposition trois formats de corpus pour mener à bien leurs analyses : les formats XML-TEI, XML-ALIPE et CHAT. A partir de ces corpus, deux types d’analyses différents vont pouvoir être menés : des analyses sur les corpus, via le logiciel CLAN et des analyses de données extraites des corpus encodés au format XML. Le logiciel CLAN propose une multitude de fonctionnalités allant du simple calcul de fréquence de formes à des calculs de diversité lexicale comme le TTR (Type Token Ratio) ou le VOCD (VOCabulary Diversity, McKee, Malvern et Richards, 2000). Nous ne détaillerons pas ici la méthodologie d’analyse de corpus via CLAN, celle-ci étant particulièrement bien développée dans le manuel du logiciel (Macwhinney, 2000). FIGURE 4 - Illustration du processus d'extraction d'information du corpus encodé au format XML-TEI Les corpus encodés au format XML nous offrent d’autres possibilités d’analyse, indispensables pour mener à bien nos recherches sur l’acquisition de la variation phonologique. Afin de faciliter ces analyses, l’un des objectifs de l’équipe de recherche était d’avoir à disposition des données sous format de tableur permettant ainsi l’analyse au moyen de logiciels de traitements statistiques tel que R. Dans cet objectif, nous avons développé une série de programmes rédigés en langage Perl et XSLT permettant d’extraire les informations nécessaires à nos études. Dans le cas, par exemple, d’une comparaison du comportement du schwa dans les monosyllabiques 8 en DAA et en DAE, plusieurs informations doivent être 8 En français, les monosyllabiques sujets à l’élision variable du schwa sont représentés par la classe fermée des clitiques ce, de, je, le, me, ne, se, te et que. 138 « De l’analyse au partage des données, quel(s) format(s) choisir ? » par Loïc Liégeois extraites du document XML, et ce pour chaque contexte d’élision ou de maintien variable du schwa : – Le locuteur, – Le monosyllabique concerné, – – – L’adresse du discours, Les contextes gauche et droit, L’élision ou le maintien du schwa. Pour extraire ces informations, le programme rédigé en langage Perl, par exemple, parcourt linéairement la suite de caractère du corpus. A chaque fois que celui-ci rencontre une occurrence d’un des clitiques étudiés, les informations nécessaires sont sélectionnées puis extraites dans un fichier texte de sortie (cf. Figure 4). A partir du fichier texte de sortie, il est assez simple d’intégrer ces données à un tableur classique ou à un logiciel d’analyse statistique plus spécifique. Par exemple, nous avons voulu savoir si, au niveau de l’élision variable du schwa dans les monosyllabiques, les parents de Prune modulaient leur langage en fonction de l’adresse de leur discours. En effet, les premiers travaux du projet ALIPE ayant fait apparaître une tendance au maintien du schwa variable (Liégeois, Saddour et Chabanal, 2012) et à la réalisation de la liaison variable (Liégeois, Chabanal et Chanier, 2011), nous avons souhaité observer si les données issues des productions des parents de Prune corroboraient ces résultats. Le tableau ci-dessous résume les résultats obtenus pour les deux périodes de récolte des données (T1 et T2) : Temps de récolte Taux d’élision en discours adressé à l’en ant Taux d’élision en discours adressé à l’adulte T1 31,1% (286/918) 67,9% (178/262) T2 34,8% (337/969) 87,4% (581/665) TABLE 3 - Taux d'élision relevés dans les productions des parents de Prune en fonction de l'adresse du discours Les résultats obtenus à partir des données des parents de Prune extraites de nos corpus corroborent ceux obtenus précédemment. En effet, les parents de Prune semblent moduler leur langage en fonction de l’adresse du discours. Au T1, alors que le taux d’élision variable dans les monosyllabiques en discours adressé à l’enfant est relativement faible (31,1%), celuici est plus de deux fois plus élevé en DAA (67,9%). Cette nette différence au T1 se révèle significative au regard du test du Chi2 de conformité (Chi2 = 114,053 ; p < 0,0001) tout comme au T2 (Chi2 = 440,9166 ; p < 0,0001). Conclusion La constitution d’un corpus de données langagières spontanées est un travail coûteux en temps (et donc en argent) mais aujourd’hui quasiment indispensable lorsque l’on souhaite étudier l’acquisition du langage. Au niveau national et international, les projets de bases de corpus (comme CHILDES par exemple) et de répertoires indexant des corpus (comme CLARIN par exemple), témoignent de l’engouement actuel autour du travail sur corpus, indifféremment de la discipline ou de la sous-discipline. Comme nous l’avons montré, l’évolution des technologies, entre autres, a engendré une redéfinition de l’objet corpus. Celuici peut aujourd’hui être défini sous la forme d’un paradigme comportant les quatre points 139 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco suivants (Chanier et Ciekanski, 2010) : – – – – Le recueil systématique des documents liés à l’objet d’étude, en prenant en compte la couverture et la taille des données recueillies. L’organisation et l’instrumentalisation en vue de traitements, qui consiste à rendre le corpus utilisable par d’autres équipes de recherche et analysable par d’autres outils que ceux initialement considérés par lors de l’élaboration du projet de recherche. La description du contexte, qui regroupe par exemple les informations sur la situation d’énonciation ainsi que les méthodes de recueil. Les dispositions en vue de l’échange et du partage du corpus. Celles-ci doivent être prises dans l’optique d’un dépôt en accès libre du corpus. La méthodologie mise en place pour la constitution du corpus ALIPE, par son encodage dans des formats standard, nous semble répondre à ces enjeux. Comme nous l’avons souligné, l’utilisation du langage de balisage XML pour la transcription et l’annotation de nos données se révèle particulièrement utile à deux niveaux. Premièrement, l’extraction d’informations en vue des analyses se trouve simplifiée grâce à l’utilisation de langage de programmation comme Perl ou XSLT. De plus, le format XML facilite grandement la dérivation du corpus vers différents formats, permettant ainsi une meilleure interopérabilité entre les différents logiciels de traitement des corpus. Ces dérivations nous ont permis d’obtenir deux versions du corpus ALIPE au format CHAT et XML-TEI. Ces formats choisis pour mettre en forme les données en corpus sont libres, expressifs et extensibles. En outre, le format XML-TEI permet de regrouper dans un même objet corpus les données et les métadonnées. Ces dernières sont primordiales et font référence aux deux derniers points du paradigme corpus. En effet, les métadonnées comportent l’ensemble des informations permettant de situer le corpus et de le définir comme un objet scientifique. On retrouve ainsi la description de la méthode, du contexte et de l’objectif du recueil des données, les structures d’annotation utilisées mais également les informations légales régissant la libre circulation du corpus dans la communauté de chercheurs. Si mettre en forme des données recueillies en situation naturelle d’interaction dans des formats standards tels que les formats CHAT et XML-TEI est long et parfois fastidieux, cette perte de temps initiale peut être rapidement compensée, et ce à plusieurs niveaux. Premièrement, la possibilité de pouvoir utiliser à posteriori un outil de traitement de corpus spécifique par simple dérivation automatique du format initial du corpus peut se révéler utile. Cette tâche de dérivation, qui peut être automatique entre certains programmes (comme entre CLAN et Praat), se trouve grandement facilitée par l’utilisation du langage XML. L’utilisation d’un format standard peut également permettre une réutilisation ou un enrichissement du corpus de la part d’une autre équipe de recherche. Dans cette optique, le format XML-TEI apparaît le plus à même pour représenter, à l’intérieur d’un même objet, une grande diversité de couches d’annotation reliée chacune à la définition du système d’annotation dans les métadonnées. Enfin, l’encodage des corpus dans un format standard rend possible leur dépôt dans une base de corpus ouverte, facilitant l’échange des données au sein de la communauté et la reconnaissance du travail de l’équipe ayant constitué la ressource. Remerciements Merci à Inès Saddour pour sa participation à la transcription et à l’annotation des données. é érences BARLOW, M., et KEMMER, S., (2000). Usage Based Models of Language. Stanford California, CSLI Publications. 140 « De l’analyse au partage des données, quel(s) format(s) choisir ? » par Loïc Liégeois BEHRENS, H. (2008). Corpora in Language Acquisition Research: History, methods, perspectives. Amsterdam, John Benjamins. BOERSMA, P., et WEENINK, D. (2009). Praat: doing phonetics by computer (Version 5.3.23). http://www.praat.org/. [consulté le 05/04/2013]. BROWN, R. (1973). A First Language: The Early Stages. Cambridge, Harvard University Press. CHABANAL, D. (2003). Un aspect de l’acquisition du français oral : la variation sociophonétique chez l’enfant francophone. Montpellier, Université Paul-Valéry. CHANIER, T., et CIEKANSKI, M. (2010). Utilité du partage des corpus pour l’analyse des interactions en ligne en situation d'apprentissage : un exemple d'approche méthodologique autour d'une base de corpus d'apprentissage. Alsic, 13. CHANIER, T., LIEGEOIS, L., CHABANAL, D., et LOTIN, P. (2012). Projet Acquisition de la Liaison et Interactions Parent-Enfant. Laboratoire de Recherche sur le Langage, Clermont Université. http://lrl-diffusion.univ-bpclermont.fr/alipe. [consulté le 05/04/2013]. DELAIS-ROUSSARIE, E. (2004). Constitution et annotation de corpus : Méthode et Recommandations. In DELAIS-ROUSSARIE, E., et DURAND, J. (éds.), Corpus et Variation en Phonologie : Méthodes et Analyses. Toulouse, Presse Universitaire du Mirail, pages 89-126. INGRAM, D. (1989). First Language Acquisition: Method, Description and Explanation. Cambridge, Cambridge University Press. JISA, H., et RICHAUD, F. (1994). Quelques sources de variation chez les enfants. Acquisition et Interaction en Langue Étrangère, 4, pages 5–51. KEMMER, S., et BARLOW, M. (2000). Introduction: A usage-based conception of language. In BARLOW, M., et KEMMER, S. (éds.), Usage Based Models of Language. Stanford California, CSLI Publications, pages 7–28. LIEGEOIS, L., CHABANAL, D., et CHANIER, T. (2011). La liaison en discours adressé à l’enfant, spécificités et impacts sur l'acquisition. Communication au Colloque du Réseau Français de Phonologie, Tours. LIEGEOIS, L., SADDOUR, I., et CHABANAL, D. (2012). L’élision du schwa dans les interactions parents-enfant : étude de corpus. Actes de la conférence conjointe JEP-TALN-RECITAL 2012, Grenoble, pages 313–320. LUZZATI, D. (2009). Corpus d’hier et d’aujourd'hui : progrès quantitatifs ou progrès qualitatifs ? Cahier de linguistique, 32-2, pages 97–112. MACWHINNEY, B., et SNOW, C. (1985). The child language data exchange system. Journal of Child Language, 12-2, pages 271–295. MACWHINNEY, B. (2000). The CHILDES Project: Tools for Analyzing Talk. Mahwah, Lawrence Erlbaum Associates. MCKEE, G., MALVERN, D., et RICHARDS, B. (2000). Measuring vocabulary diversity using dedicated software. Literary and Linguistic Computing, 15-3, pages 323–338. MORGENSTERN, A., et PARISSE, C. (2007). Codage et interprétation du langage spontané d’enfants de 1 à 3 ans. Corpus, 6, pages 55–78. NADELMAN, L. (2004). Research manual in child development. Mahwah, Lawrence Erlbaum Associates. PARISSE, C., et MORGENSTERN, A. (2010a). Transcrire et analyser les corpus d’interactions adulte-enfant. In BERNICOT, J., BERT-ERBOUL, A., MUSIOL, M., et VENEZIANO, E. (éds.), Interactions verbales et acquisition du langage. Paris, L’Harmattan, pages 201–222. PARISSE, C., et MORGENSTERN, A. (2010b). A multi-software integration platform and support 141 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco for multimedia transcripts of language. LREC 2010 : Workshop on Multimodal Corpora: Advances in Capturing, Coding and Analyzing Multimodality, La Valette. PHILLIPS, J. R. (1973). Syntax and vocabulary of mothers’ speech to young children: Age and sex comparisons. Child Development, 44-1, pages 182–185. REFFAY, C., BETBEDER, M. L., et CHANIER, T. (2012). Multimodal learning and teaching corpora exchange: lessons learned in five years by the Mulce project. International Journal of Technology Enhanced Learning, 4-2, pages 11–30. RONDAL, J. A. (1980). Father’s and mothers' speech in early language development. Journal of Child Language, 7-2, pages 353–369. SCHMIDT, T. (2011). A TEI-based Approach to Standardising Spoken Language Transcription. Journal of the Text Encoding Initiative, 1-1. TAINE, M. (1877). M. Taine on the Acquisition of Language by Children. Mind, 2-6, pages 252– 259. TEI CONSORTIUM (2012). TEI P5: Guidelines for Electronic Text Encoding and Interchange. Version 2.1.0. http://www.tei-c.org/Guidelines/P5/. [consulté le 29/08/2012]. TOMASELLO, M. (2003). Constructing a Language: A Usage-Based Theory of Language Acquisition. Harvard, Harvard University Press. TOMASELLO, M., et STAHL, D. (2004). Sampling childrens spontaneous speech: how much is enough? Journal of Child Language, 31-1, pages 101–121. WALL, L., CHRISTIANSEN, T., et ORWANT, J. (2001). Programmation en Perl (3ème éd.). Paris, O’Reilly. 142 Actes du « Coldoc » (Nanterre/Sorbonne 2012) – laboratoire Modyco Remerciements du comité d’organisation Le comité d’organisation du colloque souhaite avant tout remercier les deux éminents chercheurs qui ont bien voulu inaugurer les journées de travail par leurs conférences plénières, Anne Condamines et Bernard Combettes. Nous sommes aussi particulièrement reconnaissants aux instances du laboratoire pour leur aide scientifique, financière et logistique, et nous remercions notamment Jean-Luc Minel et Christophe Parisse pour leurs conseils stratégiques, Marcel Cori et Denis Le Pesant pour nous avoir fait part de leurs réflexions et ainsi ouvrir les débats de fin de colloque, ainsi que Myriam Djedi, Alexandre Sourie et Xavier Monnin pour leurs solutions logistiques et leur soutien amical. Nous remercions aussi particulièrement tous les membres du comité scientifique pour leur réactivité lors de l’examen des propositions et tous les participants pour l’intérêt qu’ils ont bien voulu porter aux thèmes du colloque et leur rôle dans l’échange d’idées. Nous remercions enfin la ville de Nanterre pour sa participation au budget, ainsi que les services de l’université Paris Descartes pour la mise à disposition de l’amphi Durkheim à la Sorbonne, les services de l’université Paris Ouest Nanterre la Défense pour la reprographie et les salles de réunion et de travail du labo au bâtiment A. Marine Damiani, Kaja Dolar, Carmen Lucia Florez-Pulido, Romain Loth, Julien Magnier et Anne Pegaz-Paquet COLDOC 2012 (c) 2012-2013 laboratoire MoDyCo - UMR 7114 CNRS/Paris Ouest