L`interaction verbale
Transcription
L`interaction verbale
Communication, interaction, dialogue 1. L’interaction verbale Presque implicitement, dès qu’on évoque la communication entre personnes humaines (disposant de la parole), on pense à la communication verbale ; celle-ci sous-tend une communication de type langagier. La communication verbale est une forme d’interaction qui engage : on achète, on promet, on passe un contrat, etc. Pourtant il y a de nombreuses autres formes d’interaction entre l’homme et son environnement : l’humain ne semble marquer une préférence pour le langage que lorsqu’il communique avec son semblable (parfois aussi avec certains animaux domestiques). Par la langue il construit des ordres, transmet des informations, formule des raisonnements, coordonne ses actions et rythme ses efforts (chants de marin par exemple). Il dispose par ailleurs de plusieurs modalités sensorielles qu’il utilise de manière redondante ou complémentaire avec la parole. La multimodalité, naturelle chez l’homme, semble donc être au service d’un langage plutôt que du langage. Ce “langage” est un ensemble de moyens mis au service de l’action. Si ce langage contribue à une certaine forme d’action, l’action en retour, s’accompagne de nombreuses formes de langage : geste (signes, désignations, etc.), parole, écriture, texte, etc. Ces formes s’adaptent aux situations d’usage et se structurent dans des codes dialogiques. Ces codes s’enchevêtrent dans l’action en vue de la satisfaction de buts actionnels et conversationnels (montrer le chemin sur une carte tout en le commentant et en griffonnant des indications manuscrites), le but actionnel étant ce qui doit changer dans le monde, le but conversationnel étant celui que l’on poursuit en qualité d’individu (convaincre son interlocuteur, exprimer ses sentiments, etc.). C’est donc là que se situe la différence essentielle entre langage et action : on peut faire une action seul, on ne peut véritablement se parler à soi-même pour se commander de faire une action — il faut un interlocuteur si l’on veut lui fairefaire. L’interaction verbale se distingue du dialogue dans la mesure où elle se place dans le cadre de la réalisation d’une tâche : communiquer pour agir à plusieurs (au moins deux) revient à utiliser une rhétorique du faire-faire et du faire-savoir. Réaliser une tâche ensemble c’est se coordonner (utiliser des compétences complémentaires ou unir des efforts conjoints ou planifier une action à l’avance, etc.) Cette vision des choses semble assez claire lorsqu’il s’agit d’individus qui agissent de concert. Mais dans le domaine de l’interaction homme machine, les choses restent encore très ambiguës : faut-il que la machine soit un assistant dans la tâche ? Si tel est le cas, la machine — pseudo interlocuteur humain — serait assujettie à comprendre à la fois les buts de l’utilisateur et l’intelligence de la situation pour participer et collaborer au mieux à l’action… Le postulat implicite que le dialogue est une activité rationnelle entretient l’espoir que la machine peut la simuler utilement : le dialogue s’appuierait alors sur des principes logiques et ne se distinguerait pas du raisonnement rationnel ni des autres activités humaines planifiables ; il y aurait des buts à atteindre, une activité à planifier selon des contraintes données par la situation, des connaissances à utiliser et des données à manipuler. Le dialogue ne serait alors qu’une forme d’interaction permettant à une personne d’utiliser la machine comme participant à son propre plan (faire-faire ou faire-savoir) en vue d’un certain but. Il est de fait que la machine offrirait peut-être moins de résistance qu’un interlocuteur humain (à condition toutefois que son niveau de compréhension soit suffisant pour ne pas obliger à répéter trop souvent…). Mais en est-il réellement ainsi ? Il est clair qu’il n’y a aucun intérêt à vouloir convaincre, influencer, apitoyer, etc. une machine. Il y aura toujours une limite perlocutoire1 au dialogue homme machine (DHM) : "haut les mains" sera toujours un acte sans effet pour une machine, aussi bien que "les femmes et les enfants d’abord". Il n’y aura guère d’intérêt non plus à utiliser les actes indirects ou les actes expressifs. Si donc le DHM peut offrir une situation artificielle de dialogue, ce sera toujours un dialogue à fonction purement illocutoire — c’est-à-dire à vocation actionnelle. Interaction verbale et dialogue De nombreuses disciplines se sont intéressées au dialogue humain, certaines depuis les temps les plus anciens : (a) l’éthnométhodologie (branche de l’ethnoscience) pose la communication dans une perspective sociale : les individus agissent dans un cadre normalisé selon des règles et des conventions qui sont socioculturellement bien définies, (b) la philosophie du langage (notamment la philosophie analytique) s’intéresse à cet individu placé en situation de communication, sur un plan intentionnel et actionnel, (c) les cognisciences retiennent de la communication les aspects liés à la perception, à la planification et au raisonnement du point de vue de l’individu, (d) la linguistique étudie la structure du dialogue ou la fonction du langage dans le dialogue. (e) l’intelligence artificielle modélise le raisonnement d’agents rationnels et utilise des modèles de planification pour résoudre le problème de la coordination d’actions à travers et par le dialogue. L'éthnométhodologie Les éthnométhodologistes [Garfinkel, 1967], [Heritage, 1972] ont développé leur approche autour de l’étude des capacités de raisonnement de sens 1 voir définition plus loin commun que manifestent des individus, membres d’une même culture, pour produire et reconnaître des actions intelligibles. Cette approche est plus descriptive — parce que naturaliste — que prédictive : elle met l’accent sur une forme de rhétorique de la moralité à travers le principe d’identité qui proclame que les méthodes de raisonnement sont partagées entre les individus et apparaissent à la surface de la vie sociale parce que les règles d’interaction et d’action sociales sont profondément inscrites chez chaque individu. En d’autres termes pour les éthnométhodologistes, le raisonnement humain est de nature normative. En particulier, il est lisible dans une conversation qui devient pour eux le lieu d’une recherche fonctionnaliste sur les actions humaines. Les pragmalinguistes se trouvent également dans la même ligne de pensée : "parler n’est pas simplement la mise en fonctionnement d’un système linguistique, mais une forme essentielle d’action sociale" [Bange, 1987], "un système de comportements de différents partenaires qui s’influencent réciproquement dans des actions concrètes" [Cranach, 1980]. Pour eux l’interaction fonctionne selon les principes de la réciprocité des perspectives et de la réciprocité des motivations. Ces principes s’appuient sur la notion d’intercompréhension qui définit le projet d’action de A (ou intention) à travers la réaction qu’il attend de son partenaire B, comme moyen de réaliser son but. Le principe de réciprocité des motivations est l’anticipation par A que son projet, une fois compris, sera accepté par B comme la raison et la motivation àcause-de du projet et de l’action de B [Schütz, 1962]. Si, pour eux, ce principe suffit à régler les niveaux locaux de l’interaction (tours de parole fondés sur le concept des paires adjacentes), le deuxième principe, celui de la réciprocité des perspectives est nécessaire pour régler les niveaux supérieurs d’organisation de l’interaction. Ces niveaux sont liés à une conception hiérarchique de l’action dans laquelle ce principe fonde la complémentarité ou la symétrie des rôles des partenaires pour le guidage des niveaux d’exécution. De lui résultera la stratégie utilisée dans l’interaction (négociation, coopération, etc.) issue d’un accord entre les partenaires. Goffman [Goffman, 1981] va plus loin, il introduit les notions de rituel et de face : l’interaction sociale est guidée par le souci de ne pas “perdre la face”. La notion de face renvoie à celles de rôle, de statut, c’est-à-dire de la position d’où on parle et que l’on doit conserver — car “en parlant on construit une image de soi”. Ainsi au-delà des tours de parole et des paires adjacentes, y a-t-il d’autres mécanismes de régulation comme la mise en scène des places de laquelle on attend des “retours” comme l’acquiescement (Mmm…), la surprise (ah oui ?…), les marques de sympathie, le rire, etc. Plus récemment, Suchman [Suchman, 1987] a introduit la notion d’action située, qui donne une grande importance à la situation (en d’autres termes au contexte) et qui montre que du fait de sa grande dynamique, les locuteurs restent en état d’adaptation permanent. Dès lors, il est difficile pour un observateur de prédire les actes de parole puisqu’ils résultent d’une double interprétation, du locuteur et de l’allocutaire, et que les effets n’en sont pas, de ce fait, clairement prévisibles. Elle fonde alors sa description de la conversation sur des stratégies opportunistes, qui ne sont instanciables que localement et en tous cas non planifiables à long terme. Par cela elle remet en cause un grand nombre de théories fondées de près ou de loin sur la logique des intentions. Malheureusement son apport très riche par ailleurs, reste plus critique que constructif dans la perspective de poser un modèle formalisable pour le dialogue. La philosophie analytique, les actes de langage Jugeant des insuffisances d’une sémantique générale en linguistique, certains philosophes du langage comme Austin et Searle [Austin, 62], [Searle, 69] mettent l’accent sur la pragmatique en partant du principe que tout énoncé est un acte de langage. Austin, s'intéressant aux verbes performatifs, remarque qu'ils contiennent l'action qu'ils dénotent. Ainsi, dire "je te baptise Queen Elisabeth" c'est faire l'action du baptême pour peu qu'on soit autorisé socialement à le faire ; de même pour "la séance est levée". Pour Austin tout énoncé est un acte de parole qui contient trois composantes : le locutoire (le dire), l'illocutoire (le faire), le perlocutoire (l'effet produit sur son interlocuteur). Ainsi l'énoncé "les canots à la mer" est-il chargé de sens pour l'équipage ! "Haut les mains" vise à neutraliser autant qu'à effrayer la victime. "je te promets de venir demain" est une forme engageante même si elle ne garantit pas totalement que cet événement va se produire : il peut y avoir une série d'empêchements imprévisibles, ou il se peut que l'intention soit plutôt de rassurer que de s'engager vraiment. Ainsi à travers un même énoncé, plusieurs buts sont poursuivis, le but illocutoire (effet espéré de l’action, par exemple neutraliser la personne) et le but perlocutoire (effet espéré sur l’allocutaire, lui faire peur). Searle replace la langue dans la théorie des actes de langage et plus généralement dans une théorie des intentions. Pour A, énoncer une proposition résulte de l’intention de la produire ; pour B, la comprendre c’est interpréter l’intention qui l’a sous-tendue, dans le contexte où elle a été produite. Dans cette théorie, la communication se situe dans la pragmatique, et la pragmatique des actes de langage s’inscrit à son tour dans une théorie du langage et une théorie de l’action selon deux perspectives : la description des actes de langage et leur régulation selon le principe d’exprimabilité, c’est-àdire, (a) énoncer des mots = effectuer des actes d’énonciation, (b) référer et prédiquer = effectuer des actes propositionnels (locutoires), (c) affirmer, ordonner, promettre, etc. = effectuer des actes illocutoires, (d) effectuer des actes perlocutoires = agir sur son interlocuteur. Jusqu'en (c) on peut représenter tout acte de langage par F(p), p = contenu propositionnel et F=force illocutoire, (ex. : "je te promets que je viendrai", F marquée par "je te promets", force promissive, et p marqué par "je viendrai"). Vanderveken [Vanderveken, 88] a formalisé une logique illocutoire du discours, essentiellement monologique, poursuivant ainsi les travaux de Searle. Jusque là donc, Searle comme Vanderveken, ne prennent pas encore en compte le rôle du destinateur ni celui du destinataire qu’il ne font apparaître qu’en (d). Ceci leur a été reproché puisque cela implique jusqu’en (c), l’élimination du locuteur parlant au profit d’un locuteur abstrait ce qui les oblige à introduire la notion de sens littéral. Cela introduit une difficulté pour l’interprétation des actes indirects qui se font par énonciation non littérale ("le sel s'il te plaît !" ne peut pas être analysé sans l'action qui la sous-tend qui prend un sens différent si c'est un diabétique qui la prononce). Searle propose alors pour l’interprétation de ce type d’acte une stratégie inférentielle, qui examine toutes les conditions de réalisation de l’acte (situation, monde, arrièreplan, etc.), le pourquoi, les intentions du demandeur, le but poursuivi, etc. Mais Récanati propose plus simplement d’en rester pour le niveau (c) à des potentialités illocutoires qui ne seront instanciées qu’au niveau (d) après la prise en compte des sujets parlants. Formulée ainsi, il semble que cette théorie propose un lieu d’articulation de l’illocutoire ou perlocutoire intéressant pour le DHM. En effet il semble bien que les niveaux (a), (b) et (c) soient réellement présents en DHM (résultats d’expériences menées en technique Magicien d’Oz, voir chap. 6) — avec un appauvrissement du niveau (c) — et absent pour le niveau (d). Cela supposerait qu’un sujet puisse mettre en œuvre ses capacités linguistiques sans égard pour son destinataire dans un premier temps, puis que des processus d’ajustement soient appelés dans un second temps pour contraindre les formes de productions langagières selon les contraintes de la communication. Il semble bien qu’il puisse en être ainsi puisqu’on constate qu’un utilisateur humain formule ses commandes vis-à-vis d’une machine en utilisant toutes ses compétences linguistiques. La taxonomie des actes de langage proposée initialement par [Austin, 62] et [Searle, 69] a souvent été remaniée depuis selon les besoins des analyses ou des domaines d’application. Nous ne faillirons pas à cette tradition en introduisant nos propres définitions par souci de commodité et pour coller au mieux aux types de discours que nous avons analysés pour les adapter à l’interaction homme machine. Acte assertif La composante illocutoire décrit un état de fait existant. Le locuteur dit comment sont les choses. Le but est de rendre le contenu propositionnel (qui est une proposition) conforme au monde. L'acte assertif révèle les croyances du locuteur. Nous distinguons l'acte assertif positif de l'acte assertif négatif. acte assertif positif : affirmation, confirmation, constatation, présentation, description, commentaire, explication, rectification, concession début d'action, changement d'activité. acte assertif négatif : négation, contestation, critique, restriction, abandon Acte directif Le but illocutoire est de mettre l'interlocuteur (qui est ici le locuteur lui-même) dans l'obligation de réaliser une action future. Le locuteur essaie de faire faire les choses. Le but est de rendre le monde conforme au contenu propositionnel (qui contient l'action future de l'interlocuteur). L'acte directif exprime les désirs et la volonté du locuteur. Les scripts contenant les verbes modaux (vouloir, pouvoir, devoir, falloir) et l'expression du futur au moyen du verbe "aller" sont étiquetés "directif". - ordre, autorisation, invitation, - conseil, suggestion, avertissement, défi, - question, interrogation, demande d'information, de précision, de confirmation, requête, - réitération, relance, insistance, supplication Acte promissif Il s'agit d'une obligation contractée par le locuteur lui-même de réaliser une action future. Le locuteur s'engage à faire quelque chose. Le but est de rendre le monde conforme au contenu propositionnel (qui contient l'action future de l'interlocuteur). L'acte promissif révèle l'intention du locuteur. - promesse, offre, justification (vis-à-vis de soi-même) Acte expressif Le but illocutoire de l'acte expressif est d'exprimer l'état psychologique qui lui est associé. La direction d'ajustement n'est pas de rendre le monde conforme aux mots ou vice versa. La proposition exprimée est présupposée : on se réjouit ou on déplore qu'elle soit vraie. - expression d'un souhait, - remerciement, excuse, salutation, - hypothèse, spéculation, présupposition, anticipation, - satisfaction, félicitations, - hésitation, résignation, étonnement, déception, plainte, menace, - juron, insulte Acte déclaratif Le but illocutoire de l'acte déclaratif est de rendre effectif son contenu. Le locuteur provoque des changements effectifs dans le monde par ses déclarations. Cet acte a simultanément deux directions d'ajustement entre le langage et le monde. Il faut qu'il soit accompli dans une certaine institution extra linguistique qui confère au locuteur les pouvoirs de provoquer de nouveaux faits institutionnels par le seul accomplissement approprié d'actes de langage. - début d'action, fin d'action, abandon. Malgré ses qualités, l’approche des philosophes analytiques est essentiellement monologique, c’est-à-dire qu’elle ne prend pas en compte le locuteur dans la dynamique du dialogue. Nous devons donc l’étendre dans un cadre plus général prenant en compte d’autres éléments qui permettent d’aborder le problème du dialogue et de l’intersubjectivité. La psychologie cognitive Parmi les théories les plus fécondes pour la communication par le langage, nous retiendrons les approches de Grice puis celles de Sperber et Wilson. (a) Pour Grice [Grice, 75], un échange dialogique suit une logique fondée sur un principe général de coopérativité ; les interlocuteurs reconnaissent chez leurs partenaires participant à un échange, un ou plusieurs buts communs dans une direction acceptée par tous, ce que Grice formule sous forme de maximes à l’intention des conversants eux-mêmes (à la manière des classiques français, La Rochefoucault notamment) : “que votre contribution à la conversation soit, au moment où elle intervient, telle que le requiert l’objectif ou la direction de l’échange verbal dans lequel vous êtes engagés”. Il exprime plus précisément cette maxime à l’aide de deux autres et définit la notion d’implicature comme l’ensemble des conséquences de l’application ou de la non application de ces maximes par les conversants. • maxime de qualité : “que votre contribution soit véridique” qui se décompose en, “n’affirmez pas ce que vous croyez être faux” et “n’affirmez pas ce pour quoi vous manquez de preuves”. • maxime de quantité : “que votre contribution contienne autant d’informations qu’il est requis (pour les visées conjoncturelles de l’échange)” et “que votre contribution ne contienne pas plus d’informations qu’il n’est requis” La maxime de qualité peut sembler limitative voire même quelque peu naïve car elle semble exclure l’ironie, le mensonge ou la dissimulation. En réalité il n’en est rien parce que précisément, une règle violée a autant d’implications qu’une règle respectée par le fait qu’il y a eu à moment donné un besoin de la transgresser. Ainsi pour Grice, l’ironie fonctionne parfaitement sous ce principe car elle est intentionnellement codée par l’intonation de la voix ou des gestes significatifs. De même le mensonge finit par se détecter parce qu’à un moment donné du dialogue le menteur va manquer de preuves et va donc se découvrir aux yeux des autres. Ce qui montre bien que le mensonge est une des implicatures de la maxime “n’affirmez pas ce pour quoi vous manquez de preuves”. La maxime de quantité peut se réduire à la seule maxime de pertinence “soyez pertinent”, ce que proposeront d’ailleurs Sperber et Wilson. Cette maxime cache à elle seule toute une théorie de la pertinence que nous développerons plus loin. Enfin, Grice complète ses maximes sur le contenu (quoi dire) par des maximes de modalité, c’est-à-dire sur le comment dire: “soyez clair”, “soyez bref”, “soyez méthodique”, “évitez d’être ambigu”, qui visent à une meilleure efficacité du dialogue. Par le terme implicature, Grice veut distinguer certaines conclusions que l’on peut tirer des énoncés, des véritables implications logiques. En effet les implicatures sont fondées sur l’usage du langage d’une part et prennent en compte les non dits, implicites, ellipses, etc., d’autre part. Le calcul des implicatures ne devient donc possible qu’en appliquant les maximes, par exemple “j’ai faim” suggère que d’une part ce fait est vrai et d’autre part que je réclame à manger. (b) Pour Sperber et Wilson [Sperber et Wilson, 89] — à la suite de Grice [Grice, 75] —, la communication est un "échange d’indices qui orientent (ou réorientent) les processus inférentiels des interlocuteurs en présence”. Ils refusent la théorie codique trop simpliste ; les pensées ne sont pas codées par A, transportées puis décodées par B : les pensées de A orientent seulement celles de B. Sperber et Wilson réfutent ainsi le modèle codique qui stipule une phase de codage et de décodage des informations linguistiques et extra linguistiques (signes dans un cadre sémiotique plus large) selon un ensemble de conventions, de savoirs partagés par les deux interlocuteurs et de suppositions mutuelles de l’un sur l’autre. Cette vision, fondée sur une approche psychologique, se distingue de celle de Searle pour lequel existent des intentions mais aussi, implicitement, un code. Sperber et Wilson nient l’utilité de la théorie des actes de parole qu’ils trouvent classificatoire mais non opératoire. Ils affirment qu’il faut remonter aux attitudes cognitives à travers les processus inférentiels pour comprendre les mécanismes de la communication. Ils posent la signification au plan de la pertinence : les indices échangés doivent être pertinents pour pouvoir servir à retrouver l’intention du destinateur ; signifier, c’est rendre signifiant quelque chose à quelqu’un ; signifier c’est vouloir dire c’est-à-dire communiquer ses intentions ou obtenir un succès dans la compréhension de ses intentions par autrui. Plus formellement, le succès de (A veut dire S à B) est obtenu si : (a) B produit une réponse R car (b) B reconnaît l’intention de A contenue dans S (notée intention(A)⊆S) (c) et la réponse R résulte en partie de (b) Cela permet de distinguer deux sortes d’intentions : les intentions informatives (A informe B de intention(A)⊆S) c’est-à-dire A rend manifeste au destinataire B un ensemble d’indices ou d’hypothèses) et les intentions communicatives (A informe B de intention(intention(A)⊆S)⊆S’ c’est-à-dire A rend manifeste au destinataire qu’il a une intention informative). Cette information se fait au travers d’indices pertinents. De ce fait A et B doivent se montrer coopérants pour que la communication réussisse (selon le principe des maximes de Grice par exemple). Une critique de ce point de vue est qu'on ne voit pas comment pourrait s’arrêter la récursivité sur l’intention que A a de produire un stimulus qui rende manifeste à B que A veut lui rendre manifeste un ensemble d’hypothèses. Pratiquement, la pertinence repose sur deux facteurs : l’effet cognitif produit chez le destinataire et l’effort qu’il a fallu pour le produire. La pertinence est donc le rapport de ces deux quantités si tant est qu’elle puissent être quantifiées, c’est le juste équilibre du coût de traitement chez les deux interlocuteurs. La linguistique Certains linguistes, notamment ceux de l’école de Genève, voient le discours comme cadre de structuration d’échanges linguistiques. Ils s’efforcent d’utiliser le moins possible les contraintes ou les données extérieures au discours comme les intentions, les présuppositions, etc., qu’ils jugent trop subjectives. Ils veulent créer une théorie de la cohérence et non une théorie de l’interprétation : "le problème principal est de formuler un ensemble d’unités conversationnelles, un ensemble de relations entre ces unités, un ensemble de principes gouvernant la composition des unités simples en unités complexes, bref la formulation de règles de bonne formation" [Mœschler, 1987]. Cette approche n’est pas prédictive ; elle reste essentiellement une description fonctionnaliste et/ou structurelle des énoncés de A et de B rendue possible une fois le discours achevé et l’action accomplie. L'école de Genève [Roulet, 85], [Moeschler, 89] définit la hiérarchie intervention, échange et négociation cette dernière se développant en initiative, réaction, évaluation. Luzzati [Luzzati, 89] et Vernant [Vernant, 92] intègrent ces notions dans une grille de dialogue dont l'axe régissant horizontal correspond à la recherche d'un accord (système questions réponses principales et secondaires) et l'axe incident vertical répond aux exigences de clarté et d'explication. La mise en œuvre s'appuie sur des variables d'avancement, de profondeur, d'incidence et d'écartement. Les phases du dialogue que retient l'école de Genève sont les suivantes : l'ouverture (initiative, évaluative, réactive), la continuation (initiative, évaluative, réactive), la clôture (initiative, évaluative, réactive), l'incidence (abandon temporaire d'une activité en cours de réalisation pour la reprendre par la suite) et la rupture (abandon définitif d'une activité en cours de réalisation). Un dialogue commence par une ouverture et s'achève par une clôture. La phase non marquée est la continuation à caractère initiatif. Dérivés de ces modèles structurels de dialogue, de nombreux modèles de DHM ont été implémentés [Bilange, 92], [Sabah, 90] pour des applications de renseignement. Ces modèles montrent rapidement leurs limites dans des tâches dites innovatives comme la conception de plans qui nécessitent de nombreuses incidences, reprises, mises en attente, dans le dialogue. Le plan d’action ne peut pas être représenté en extension dans ce type de tâche, il en résulte de nombreux inattendus dialogiques, des ruptures, qui dé-structurent le dialogue. Exemple de grammaire simplifiée de dialogue : Dialogue -> Ouverture. Echange*.Clôture Echange -> Echange.(Incidence) Echange -> Acte* Incidence -> Acte* Depuis Morris, on adjoint à la syntaxe qui étudie les relations entre signes et à la sémantique qui a pour objet la signification littérale des énoncés, la pragmatique comme examen de l’usage effectif des signes par les utilisateurs. Que toute situation de dialogue requière une analyse pragmatique est patent ne serait-ce que parce que les interlocuteurs assument tour à tour statut de locuteur ou d’allocutaire en utilisant les indexicaux “je” et “tu” dont la signification, sémantiquement vide, résulte d’un procès de référence au dire et à la réalité extra-linguistique des interlocuteurs. Mais concevoir ainsi la pragmatique comme analyse des seuls phénomènes d’ancrage du discours dans le réel ou comme prise en compte de l’apport informationnel d’un contexte plus ou moins élargi est insuffisant. Pour prendre toute la mesure des pratiques dialogiques, il importe d’élaborer une pragmatique conçue – conformément à l’étymologie – comme une véritable théorie de l’action [Vernant, 93]. L’intelligence artificielle Certains … 2. Du dialogue humain au dialogue homme machine2 La signification d’une quelconque parole ne saurait être épuisée par son contenu sémantique, elle requiert la considération des intentions et buts du locuteur, des attitudes de l’allocutaire, de la nature de la situation, des règles plus ou moins ritualisées qui la régissent, etc., toutes données que seule une appréhension pragmatique permet de dégager. Les données proprement linguistiques sont alors réduites au statut d’indices que seules des procédures inférentielles permettent d’interpréter à l’aide de données complémentaires d’ordre contextuel. Il reste toutefois un pas décisif à faire : celui de concevoir les relations entre les actes, non plus de parole, mais de dialogue, considérés comme éléments de pratiques effectives d’échanges verbaux répondant à une finalité non verbale. C’est là que l’étude du dialogue homme machine peut s’avérer d’une grande utilité. La simulation informatique de dialogues finalisés, orientés par la tâche, requiert une analyse à la fois trans et interactionnelle de tout acte de dialogue. La dimension transactionnelle : Par ce terme on désigne les relations complexes qui lient l’acte de dialogue comme pratique langagière aux activités non langagières dans lesquelles il s’inscrit. L’étude de dialogues orientés par la tâche présente le mérite de rappeler que la majorité des dialogues finalisés constituent un moment langagier d’une chaîne d’actions non langagières ; le capitaine qui crie “Le bateau coule” constate un fait réel et veut provoquer une réaction effective, non langagière, de l’équipage. Activité essentielle, l’usage du langage permet l’analyse des faits, la réflexion sur les buts, l’évaluation des stratégies, la décision d’action, comme tel, il a valeur de détour langagier subordonné à des enjeux et des finalités non langagières. Dans cette perspective transactionnelle, le dialogue est une pratique langagière visant l’échange d’information, l’accord sur les fins et moyens. On comprend alors que l’analyse pragmatique requiert la prise en 2 Ce paragraphe est une contribution de D. Vernant, philosophe. compte de la tâche visée, la constitution d’un modèle de la tâche ayant pour objet de spécifier le vocabulaire, les scénarios stéréotypés, les stratégies autorisées. Une demande de réservation SNCF sera déterminée par le fait qu’un train est un moyen de transport d’une gare à l’autre, individualisé par un numéro, qu’il possède une heure de départ et d’arrivée, et de même par la connaissance de scénarios fixes tel celui relatif à l’achat du billet, aux conventions de réservation de places, etc. Tout acte de dialogue vise toujours, plus ou moins médiatement, une transformation du monde, sa signification plénière dépendant ainsi de sa finalité actionnelle : “Le sens d’une proposition est sa finalité” [Wittgenstein, 52]. Du point de vue linguistique, les informations de nature transactionnelles seront en partie véhiculées par le contenu locutoire de l’acte de dialogue, i.e. par le dictum, le dit, e.g. “Le bateau coule” décrit une action non linguistique dont le sujet n’est pas l’agent de l’acte de dialogue. Dans tout acte de dialogue on devra alors distinguer : – l’agent du dire, de l’acte langagier lui-même, généralement implicite, le locuteur, dans notre exemple, le capitaine, – le sujet du dit, de l’action non langagière décrite : le bateau en train de couler. La dimension interactionnelle : A cette analyse transactionnelle, il convient d’adjoindre une analyse interactionnelle prenant en compte la dimension spécifiquement interlocutive, i.e. l’interaction proprement langagière. Le moment langagier de la transaction est alors isolé comme forme particulière d’interaction. En effet, la plupart des actions non langagières visent une transformation immédiate du monde. C’est par exemple le cas du pilote du navire qui stoppe les machines. Par contre, les actes langagiers visent indirectement, et plus ou moins médiatement, la transformation du monde par le truchement d’une action d’autrui provoquée par la communication d’informations. Le message d’alerte du capitaine – mais aussi bien le déclenchement de la sirène – provoqueront la réalisation par l’équipage d’un scénario d’évacuation du navire. Dans ce cas le “dialogue” sera réduit au minimum puisqu’à l’acte linguistique correspondra quasi automatiquement une réaction non linguistique. Mais dans les cas où il faudra persuader, convaincre, menacer, etc., autrui afin d’obtenir sa réaction, le dialogue sera d’autant plus complexe. Les différentes formes de dialogue pourront alors se caractériser par des stratégies complexes régies par des règles plus ou moins strictes. Un dialogue finalisé élémentaire du type de demande de renseignement SNCF est gouverné par un modèle prédéterminé partagé par les interlocuteurs qui permet de prévoir les interactions pertinentes et de mesurer les écarts et l’éventuel échec du dialogue. Schématiquement, l’interrogation d’une base de données SNCF s’ouvre sur une demande de l’utilisateur et doit aboutir à une réponse de la machine. Le parcours plus ou moins long entre la demande initiale et la réponse finale visera à clarifier les termes de la demande et à obtenir un accord sur les significations et références des termes employés. Fournir une compétence dialogique à une machine revient ainsi – entre autres – à la doter d’un modèle dynamique de dialogue capable de traiter en temps réel les stratégies d’échange d’information. Il convient alors d’interpréter l’acte de dialogue selon sa fonction dialogique. Une assertion telle : ”je dois être à Clermont-Ferrand à 14h ?” sera immédiatement interprétée par la machine comme une demande d’information : ”Quelle est l’heure du train me conduisant à Clermont-Ferrand pour 14h ? “ La même assertion répétée en écho en deux moments différents du dialogue devra prendre une valeur dialogique différente dans la mesure où elle manifeste une incompréhension, etc. Dans une telle problématique, un des enjeux majeurs porte sur la capacité à prévoir la réaction de l’allocutaire. Chez Austin, la dimension perlocutoire des actes de parole n’était pas thématisée dans la mesure où elle semblait échapper à toute conventionnalité. Dans le cas des actes de dialogue, il est possible d’aller plus loin et de restaurer une certaine régularité des échanges en prenant en compte les contraintes de l'interlocution telles qu’elles sont définies par le modèle dialogique utilisé. Ainsi, selon qu’elle intervient au début ou au terme d’un échange, une assertion telle que “Le train part à 7h 30” pourra donner lieu soit à une demande de précision ouvrant une nouvelle interaction, soit à un acquiescement clôturant l’échange. 3. Le dialogue homme machine Le terme dialogue homme machine semble abusif relativement au sens dévolu au dialogue humain. La machine n’est pas un être social, n’a pas d’intention ni de culture. Selon les communautés scientifiques dans lequel il est employé, ce terme ne contient pas les mêmes concepts : pour les concepteurs d’interfaces graphiques il se réduit presque exclusivement à la manipulation directe d’objets et au déroulement de menus, pour les chercheurs en LN (Langage Naturel) il recouvre certains présupposés du dialogue entre humains, du moins les capacités de compréhension du langage. Personne ne sait exactement ce que doit être le dialogue homme machine puisqu’aucune machine ne permet de véritable dialogue — seules des expériences en Magicien d’Oz ont pu en donner quelques contours. Il faut donc définir une sémiotique claire et non ambiguë de l’interface pour offrir un cadre fécond à la communication homme machine. Il est évident que les capacités limitées de la machine ne peuvent conduire à une sémiotique générale, puisqu’il serait nécessaire que la machine soit un système non seulement intelligent mais aussi social (inséré dans le monde). Les performances de la machine en reconnaissance de la parole, reconnaissance du geste, vision par ordinateur, etc., semblent intéressantes a priori bien qu’encore limitées ; en utilisant ces nouveaux médias on peut escompter ainsi améliorer l’efficacité de l’interaction (entrées de plusieurs commandes simultanément), sa fiabilité (utilisation de la redondance), sa souplesse (choix des modes de communication les mieux adaptés à la tâche), en un mot son ergonomie. Il faut cependant prendre garde au rôle dissymétrique que joue la machine dans la communication avec un humain et du biais que l’on peut introduire par une sémiotique mal définie : l’utilisateur, face à la machine, doit suppléer le manque de naturel, les limitations de compréhension, se contrôler dans ses productions langagières, inférer les réactions de la machine, adapter son comportement, etc. En fin de compte, l’attrait des interfaces vocales pourrait se retourner contre elles si le concepteur complique inutilement les schémas de planification et les modèles de représentation de la tâche en machine. Vis-à-vis de l’humain la machine est (et doit rester) un outil qui doit être le plus ergonomique possible, c’est-à-dire adapté et efficace : tout en reconnaissant que l’utilisateur garde ses habitudes linguistiques face à la machine, le dialogue homme machine ne peut pas être un artefact de la communication humaine. Le DHM n’a semble-t-il, d’utilité que dans un cadre opératoire, c’està-dire pour effectuer des tâches coordonnées (résoudre des problèmes, renseigner, aider à la conception, assister l’enseignement, etc.). La communication se situe donc dans une relation opérateur-tâche où la machine à un rôle collaboratif [Falzon, 92]. Elle doit par conséquent avoir des capacités qui lui permettent de coordonner les processus actionnels en fonction des buts de l’usager. Cette relation opérateur-tâche place le dialogue homme machine dans un cadre actionnel. A travers et par le dialogue la machine doit également apprendre de nouvelles actions ou optimiser son comportement face à de nouvelles situations. Pour cela elle doit pouvoir inférer et gérer les buts de l’utilisateur, reconnaître ses actes de langage, être capable de les interpréter en fonction de la situation pour finalement générer et effectuer l’action ou le plan d’action le plus adéquat. Les actes de dialogue ? La fig. 1 présente le cadre que nous avons choisi de donner au dialogue et la relation qui existe entre chacun des éléments. C’est une extension des actes de langage aux actes de dialogue : le destinateur agit sur le monde directement ou par l’intermédiaire d’un destinataire. Dans ce dernier cas seulement il utilise la langue. Destinateur perlocutoire Destinataire Effets et suites locutoire Contenu propositionnel Langue illocutoire Force et But Monde Fig. 1 : Cadre pour le dialogue humain. Ce cadre représente les éléments qui entrent en jeu à chaque tour de parole. C’est à dire aussi bien les relations qui interviennent entre le locuteur (ou destinateur) et l’allocutaire (ou destinataire), leur connaissance respective du langage que les rapports qu’ils peuvent avoir au monde. Ce cadre permet également de voir les différences entre dialogue humain et dialogue homme machine : l’abandon éventuel de la composante perlocutoire dans les actes de dialogue et une simplification des formes langagières. En effet, ce cadre fait apparaître deux pôles au niveau du dialogue humain : (a) d’un côté, les aspects purement langagiers et référentiels — représentés par le langage et le monde — que [Searle, 72] a mis en évidence par la notion de direction d’ajustement entre les mots et le monde, (b) de l’autre côté, les aspects intersubjectifs — représentés par le destinateur et le destinataire — qu’il est indispensable de faire intervenir dans une situation de dialogue humain, dans laquelle ils coordonnent leurs actions [Vernant, 92] et règlent leur jeu inter-social. Dans le cas du DHM les aspects intersubjectifs peuvent être négligés encore qu’en génération des énoncés par la machine, les utilisateurs sont très exigeants (expressions complexes, intonation naturelle et variée, etc.). Nous posons cependant comme hypothèse de travail, même en DHM, que chacun des éléments, ainsi que les relations qu’ils entretiennent se projettent dans la langue au niveau de l’énoncé. Et inversement, que les énoncés véhiculent ces éléments que l’allocutaire (ou la machine) saura reconnaître et interpréter. La visée globale de l’utilisation de la langue naturelle en dialogue homme machine est donc d’améliorer l’interactivité de la machine en la rendant plus pertinente, en agissant sur la forme et sur le contenu des énoncés (compréhension et génération). La langue naturelle en interaction homme machine ? L'usage de la langue naturelle (LN) en communication homme machine est à la fois un avantage et un obstacle par rapport aux autres moyens de communication : (a) c'est un avantage, dans la mesure où le locuteur n'a pas d'effort particulier d'apprentissage à faire pour acquérir de nouvelles habiletés pour communiquer (il est sensé posséder et bien dominer sa langue maternelle) contrairement aux autres moyens de communication tels que le clavier, la souris, etc. ; il a donc seulement besoin d'un apprentissage pour acquérir des savoir-faire liés à la tâche proprement dite, mais, (b) c'est un obstacle, dans la mesure où la machine n'a qu'une compréhension limitée du langage naturel. Cette limitation engendre toute une série d'artefacts dans la communication que l'utilisateur doit compenser ; en particulier, il doit mémoriser toutes les restrictions imposées par le concepteur au langage d'interaction, et il doit être préparé aux comportements de la machine en réponse à ses énoncés (car celle-ci n'aura certainement pas les mêmes comportements qu'un interlocuteur humain). En particulier la machine n'aura pas la capacité d'anticipation ni la compréhension des intentions qui permettent toutes les richesses que l’on observe dans le langage utilisé par les êtres humains. En général, l'utilisateur ne pourra pas parler par sous-entendus, ni introduire facilement de nouveaux mots, ni construire des sens dérivés, etc. toutes choses que l'on fait spontanément en parlant à quelqu'un.. Avec une machine, la tâche de communication en LN risque d'être plus opaque ou risque d'alourdir le travail lié à la tâche et, si l'on n'y prend pas garde, on peut finir même par lui faire perdre tous les avantages qu'apporte le langage naturel. Il faut donc s'interroger sur les aspects de la communication en langue naturelle qu'il faut impérativement conserver, pour la rendre attrayante et compétitive vis-à-vis des autres modes d'interaction. (a) Ce qui rend attrayant le langage naturel n'a pas vraiment été étudié en détail — pour répondre à cette question, il faudrait examiner des situations de communication humaine en langage naturel pour en rechercher des éléments irréductibles, en deçà desquels, si on les supprimait, l'intérêt de la communication langagière disparaîtrait. On sait seulement que le langage de communication doit conserver son pouvoir négociatif ainsi qu'un minimum de spontanéité pour rester utile en communication homme machine. On sait aussi que le langage apporte des modalités temporelles (réitération d'actions, renvoi d'une action dans le futur), et des expressions référentielles condensées (dénominations construites en cours de tâche, ellipses, désignations anaphoriques) dont on ne peut vraiment se passer. Ce qui rend la langue naturelle attrayante dépend donc de ses capacités d'expression et du type d'action à exécuter à travers la langue. (b) Ce qui la rend compétitive par rapport aux autres modes de communication doit être examiné de manière comparative pour extraire les modes qui seraient les plus adéquats à la tâche. Des études sur l'interaction multimodale apportent quelques éléments à cette question [Catinis, 95], [Zanello, 96]. On sait par exemple que des situations sémantiquement riches ou des tâches à séquencement complexe font davantage appel aux ressources du langage naturel. Les objets non perceptibles, les actions différées, les actions conditionnelles, etc. sont aussi plus facilement exprimables en LN. Mais aussi, et surtout, avec le LN il est possible de former facilement de nouveaux concepts et de construire de nouveaux énoncés. La langue, le dialogue et l’action « Le langage se construit par l'action » : c’est un des résultats principaux de Piaget [Piaget, 64]. Pour lui, l’enfant construit son langage comme résultat de l’assimilation des actions sur le monde. Appeler cette personne « maman » ne fonctionne que si celle-ci accourt au cri de « maman ». Réciproquement « Le langage construit l'action ». C’est la thèse principale de l’école anglo-saxonne en philosophie du langage [Austin, 70], [Searle, 72]. Nous avons vu que dans cette théorie, parler c’est agir, produire des actes ; communiquer, c’est agir sur l’interlocuteur. Cette théorie permet de considérer le langage comme une forme d’action et, par généralisation, de considérer le dialogue comme une séquence d’actions planifiées ayant pour objectif un but visé sous-tendu par une intention. Cette conception présume qu’il existe un équilibre rationnel entre les connaissances, actions et intentions du locuteur. Par exemple, on espère que la série d’actions que l’utilisateur est en train de faire, coïncide avec la réalisation de ses intentions, et qu’en effet, l’utilisateur adopte seulement des intentions qui sont possibles à réaliser. « Le dialogue est une interaction : il renvoie le langage à l'action et réciproquement ». Le dialogue est une suite coordonnée d’actions (langagières et non-langagières) devant conduire à un but [Vernant, 92]. Ce but doit être à la fois atteint et satisfait pour que le dialogue aboutisse à un succès [Vanderveken, 90]. Le dialogue avance dans le temps et tend à réduire les écarts entre les interlocuteurs. Ceux-ci agissent sous forme de requêtes, répliques, réponses, mises en question ou même remises en cause (fig. 2). Au cours de cette interaction ils modifient leurs connaissances, leurs croyances, acquièrent de nouvelles connaissances tant sur la situation, que sur leur interlocuteur ou sur la langue. Mises en question Avancement π Réponses Répliques Requêtes Mises en cause But ε+ ε++ Demandes ε ε− ε−− Offres A(t) α(t) t = to Demandeur par ex. U Répondeur par ex. M Ecartement ε Fig. 2 : Modèle projectif du dialogue [Vernant, 92]. Dans le cas d’un dialogue réussi, la convergence du dialogue au cours du temps est conduite par le but à atteindre. Ce schéma – qui représente un Echange – montre les axes convergents (Demandes, Offres) et les axes divergents (Mises en question, Mises en cause, Répliques et Requêtes) du dialogue. « Le langage est propre à chaque locuteur mais le sens se négocie », c’est une évidence, mais disons plutôt que chaque locuteur s’approprie un langage. Ce langage suit les structures syntaxiques admises par tous (sous peine de se voir corrigé en permanence par son entourage) mais ne partage pas forcément exactement le même sens. Le sens général d’un mot s’affine en cours du dialogue, se négocie entre les interlocuteurs. Voici un exemple tiré de [Luzzatti, 95] : D : Pouvez-vous me donner l’adresse d’un taxidermiste ? R : Comment ? Qu’est-ce qu’un taxidermiste ? D : C’est un empailleur d’animaux. R : Ah d’accord ! Non, je ne connais pas de taxidermiste… Apprentissage, langue et dialogue : que retenir ? Notre hypothèse est que pour favoriser au maximum l’interaction en langue naturelle entre l’homme et la machine, il faut donner à cette dernière des capacités d’apprentissage de la langue par le dialogue — le dialogue étant alors vu comme un double processus de conduite interactive de la tâche et d’acquisition de connaissances langagières : (a) d’une part, la machine doit acquérir les concepts manipulés à travers le langage et qui sont souvent « naturels » (donc implicites) pour l’utilisateur, (b) d’autre part elle doit apprendre de nouveaux plans d’action dans le contexte d’usage donné et de manière suffisamment générique pour être réutilisables. Comme dans le dialogue humain, il est opportun de profiter du dialogue non seulement pour obtenir des renseignements, échanger des points de vue, coordonner les actions, etc., mais aussi pour apprendre. L'idée est donc de fonder un modèle de dialogue sur la notion d’apprentissage des savoirs et des savoir-faire. Cela conduit notamment à la recherche d’un modèle adéquat de représentation des connaissances apte à faciliter l’apprentissage incrémental, l’élaboration de mécanismes de raisonnement et la construction de plans. Pour être capable d’un tel dialogue, la machine doit avoir des capacités qui lui permettent de coordonner les processus actionnels en fonction des buts de l’usager [Caelen, 95a]. Nous faisons ainsi un pari vis-à-vis de l’usage de la langue naturelle en interaction homme machine, celui de libérer au maximum l’utilisateur de la tâche de communication proprement dite en lui permettant de s’exprimer de manière suffisamment spontanée. Nous pensons que l’apprentissage permanent présente une voie de progrès, car plutôt que de prévoir toutes les situations d’usage et tous les types d’utilisateurs a priori, nous préférons installer des processus suffisamment génériques pour permettre à la machine de s’adapter. La question est maintenant de bien spécifier ce que signifie « s’exprimer de manière suffisamment spontanée » ? Cela ne veut pas dire ici, comme il est d’usage dans le domaine du traitement du langage naturel, permettre à l’utilisateur de s’exprimer de manière relâchée vis-à-vis de la syntaxe ou de l’élocution (reprises, hésitations, etc.), mais cela veut dire : (a) pouvoir former des concepts nouveaux, (b) pouvoir exprimer des actions nouvelles. Nous ne cherchons pas à enrichir la syntaxe du langage de la machine car cette question n’est pas un problème d’interaction homme machine mais de TALN (Traitement Automatique du Langage Naturel), dont nous ne nous occupons pas ici. Nous cherchons à enrichir, non pas la langue de la machine en tant que telle mais sa portée dans l’interaction. Avec cette optique, la machine pourra acquérir un nouveau concept X de deux manières différentes : (a1) par inférence à partir d’un énoncé tel que « X est Y » (a2) ou comme résultat d’une série d’actions. La machine pourra faire des actions nouvelles (sorte de macro-instructions) à partir d’un corps d’actions de base (sorte d’instructions de base dans un langage de programmation) en y associant ces nouveaux concepts, dessiner une maison par exemple. Dans cet exemple « dessiner une maison » sera une séquence d’actions telle que « dessiner quatre murs » puis « dessiner le toit » puis « dessiner une porte » puis « dessiner deux fenêtres », toutes ces actions étant soit prédéfinies, soit apprises au cours du dialogue. Ceci étant, nous ne voulons pas considérer pour autant le langage naturel comme une sorte de super-langage de programmation : cette approche reviendrait aussi à doter la machine de capacités de produire de nouvelles actions mais le dialogue se réduirait à une entrée interactive de programmes et de sous-programmes. Il nous semble que dans ce cas, le dialogue serait guidé par la structure de ce « super-langage de programmation » et perdrait de sa spontanéité (il adopterait celle des langages structurés ou des langages à objets). Il ne s’agit donc pas de cela ici, mais si l’on reste dans le cadre de la métaphore informatique, il s’agirait plutôt d’une sorte de programmation interactive par l’exemple. La génération d'énoncés Dans ce livre il ne sera pas beaucoup question de génération des réponses de la machine. Aussi nous en donnerons un tout petit aperçu maintenant. Dans le domaine de la synthèse de la parole, dit text-to-speech, on part d’un texte écrit pour produire un énoncé oral, et l’effet produit sur l’auditeur est plutôt celui d’une lecture à voix haute du texte. Dans le domaine du dialogue homme machine deux cas se présentent au concepteur du système : (a) soit l’éventail des interventions de la machine est peu étendu, il suffit alors d’enregistrer des séquences de parole naturelle à trous et de les enchaîner convenablement (les trous servent de cases de remplissage pour les éléments variables), (b) soit on connecte un système de synthèse text-to-speech pour produire des réponses orales, en mettant en entrée de ce système les énoncés écrits, générés automatiquement. Dans les deux cas les limites de ces solutions sont évidentes : l’adéquation des réponses de la machine vis-à-vis des interventions de l’utilisateur peut-être contestable d’une part et les échanges peuvent paraître très artificiels d’autre part. En effet on ne dialogue pas comme on lit, on ne dialogue pas non plus comme on écrit : les formes linguistiques sont différentes (au niveau syntaxique et au niveau prosodique, mais aussi par un emploi plus fréquent d’ellipses, de formes emphatiques, etc.), et surtout ces formes véhiculent une composante perlocutoire évidente. Plus que la recherche du naturel qui n’est peut-être pas une fin en soi, il faut viser l’intelligibilité et l’adéquation ou la justesse d’une réponse qui procède de sa pertinence ; on sait également qu’une réponse peu pertinente n’est pas compréhensible. Au niveau des interfaces homme machine actuelles il y a donc nécessité de contrôler cette pertinence pour deux raisons : (a) pour diminuer le coût cognitif de l’utilisateur (avec des retombées évidentes sur la performance d’exécution de la tâche, la diminution de la fatigue, etc.) et, (b) pour respecter le principe ergonomique d’observabilité qui stipule que l’utilisateur doit avoir une conscience claire des véritables capacités de la machine. La solution idéale est de générer des réponses en tenant compte du contexte du dialogue, de la force illocutoire et des effets perlocutoires à produire sur l’utilisateur du système de dialogue homme machine. Il n’existe pas à notre connaissance une telle solution toute faite mais seulement des éléments de départ pour la recherche. Les éléments pragmatiques que sont capables de gérer les interfaces homme machine se situent ou bien à un niveau de planification — [Pollack, 90] par exemple — ou au niveau des problèmes de résolution des références ; ce qu’on pourrait appeler la pragmatique illocutoire, qui concerne les aspects d’intersubjectivité et ce qui se rapporte au niveau de l’illocution, n’est généralement pas pris en compte. D’autre part si l’on s’en tient strictement à la phase de génération de texte on constate que la plupart des systèmes [Ponton, 96] sont conçus à l’intérieur d’une application particulière. Les conséquences d’une telle approche sont la difficulté à concevoir et réaliser rapidement de nouvelles applications par manque de généricité de la méthode, mais aussi l’absence de résolution du vrai problème de génération sous contrainte interlocutoire. Appelons F la forme et P le contenu propositionnel d’un énoncé. Il s’agit pour la machine (jouant le rôle du locuteur L), de produire l’énoncé F(P, L, A) dans le contexte du dialogue, c’est-à-dire sous la contrainte de réalisation du but B et à l’intention de l’allocutaire A. La forme (ou force illocutoire chez Vanderveken) est définie par le but illocutoire b et le degré de force f. On pose F = <b, f>. Notre hypothèse de travail est que F et P sont indépendants ce qui permet d’une part de réaliser le système de génération à l’aide de modules indépendants, et d’autre part de prétendre à la généricité. Ainsi on peut envisager quatre étapes dans le processus : • prise en compte des rôles que jouent A et L, • génération du contenu propositionnel P en fonction de l’avancée du dialogue et de la tâche, • calcul du but illocutoire b, en fonction du but B, • calcul du degré de force f. Une fois ces informations obtenues, on procède à la mise en forme du message de sortie, c’est-à-dire à la production proprement dite de l’énoncé en ajustant sa forme finale (et la prosodie dans le cas de la parole). Par exemple, F(P, A, L) avec : rôles(A, L) = relation de familiarité, P = venir(agent=L, patient=A), b = faire-faire, et f variable engendrerait : si f = expressif “j’aimerais que tu viennes” si f = insistance “j’aimerais que tu viennes vite” si f = indirect “peux-tu venir ?” si f = directif “viens” si f = ordre “je t’ordonne de venir tout de suite” 4. Synthèse Le programme de recherche du dialogue homme machine est plus ambitieux que celui de l’interaction verbale. Pour le premier c’est considérer que la machine (plus exactement l’ordinateur) peut être un assistant dans la tâche c’est-à-dire qu’elle a des compétences langagières et qu’elle coopère à la tâche. Pour le second, c’est considérer que le couple humain-machine est plongé dans l’action et interagissent au moyen de la langue. La différence se mesure donc dans le rapport du sujet à la langue : l’assistant-machine est dans un cas suffisamment évolué pour mettre ses compétences linguistiques au service de la collaboration, tandis que dans l’autre cas il reste centré sur l’interaction à propos de laquelle il utilise des compétences langagières.