L`interaction verbale

Transcription

L`interaction verbale
Communication, interaction, dialogue
1. L’interaction verbale
Presque implicitement, dès qu’on évoque la communication entre personnes
humaines (disposant de la parole), on pense à la communication verbale ;
celle-ci sous-tend une communication de type langagier. La communication
verbale est une forme d’interaction qui engage : on achète, on promet, on
passe un contrat, etc. Pourtant il y a de nombreuses autres formes
d’interaction entre l’homme et son environnement : l’humain ne semble
marquer une préférence pour le langage que lorsqu’il communique avec son
semblable (parfois aussi avec certains animaux domestiques). Par la langue il
construit des ordres, transmet des informations, formule des raisonnements,
coordonne ses actions et rythme ses efforts (chants de marin par exemple). Il
dispose par ailleurs de plusieurs modalités sensorielles qu’il utilise de manière
redondante ou complémentaire avec la parole. La multimodalité, naturelle chez
l’homme, semble donc être au service d’un langage plutôt que du langage. Ce
“langage” est un ensemble de moyens mis au service de l’action.
Si ce langage contribue à une certaine forme d’action, l’action en retour,
s’accompagne de nombreuses formes de langage : geste (signes,
désignations, etc.), parole, écriture, texte, etc. Ces formes s’adaptent aux
situations d’usage et se structurent dans des codes dialogiques. Ces codes
s’enchevêtrent dans l’action en vue de la satisfaction de buts actionnels et
conversationnels (montrer le chemin sur une carte tout en le commentant et en
griffonnant des indications manuscrites), le but actionnel étant ce qui doit
changer dans le monde, le but conversationnel étant celui que l’on poursuit en
qualité d’individu (convaincre son interlocuteur, exprimer ses sentiments, etc.).
C’est donc là que se situe la différence essentielle entre langage et action : on
peut faire une action seul, on ne peut véritablement se parler à soi-même pour
se commander de faire une action — il faut un interlocuteur si l’on veut lui fairefaire.
L’interaction verbale se distingue du dialogue dans la mesure où elle se place
dans le cadre de la réalisation d’une tâche : communiquer pour agir à plusieurs
(au moins deux) revient à utiliser une rhétorique du faire-faire et du faire-savoir.
Réaliser une tâche ensemble c’est se coordonner (utiliser des compétences
complémentaires ou unir des efforts conjoints ou planifier une action à
l’avance, etc.)
Cette vision des choses semble assez claire lorsqu’il s’agit d’individus qui
agissent de concert. Mais dans le domaine de l’interaction homme machine,
les choses restent encore très ambiguës : faut-il que la machine soit un
assistant dans la tâche ? Si tel est le cas, la machine — pseudo interlocuteur
humain — serait assujettie à comprendre à la fois les buts de l’utilisateur et
l’intelligence de la situation pour participer et collaborer au mieux à l’action…
Le postulat implicite que le dialogue est une activité rationnelle entretient
l’espoir que la machine peut la simuler utilement : le dialogue s’appuierait alors
sur des principes logiques et ne se distinguerait pas du raisonnement rationnel
ni des autres activités humaines planifiables ; il y aurait des buts à atteindre,
une activité à planifier selon des contraintes données par la situation, des
connaissances à utiliser et des données à manipuler. Le dialogue ne serait
alors qu’une forme d’interaction permettant à une personne d’utiliser la
machine comme participant à son propre plan (faire-faire ou faire-savoir) en
vue d’un certain but. Il est de fait que la machine offrirait peut-être moins de
résistance qu’un interlocuteur humain (à condition toutefois que son niveau de
compréhension soit suffisant pour ne pas obliger à répéter trop souvent…).
Mais en est-il réellement ainsi ?
Il est clair qu’il n’y a aucun intérêt à vouloir convaincre, influencer, apitoyer,
etc. une machine. Il y aura toujours une limite perlocutoire1 au dialogue homme
machine (DHM) : "haut les mains" sera toujours un acte sans effet pour une
machine, aussi bien que "les femmes et les enfants d’abord". Il n’y aura guère
d’intérêt non plus à utiliser les actes indirects ou les actes expressifs. Si donc le
DHM peut offrir une situation artificielle de dialogue, ce sera toujours un
dialogue à fonction purement illocutoire — c’est-à-dire à vocation actionnelle.
Interaction verbale et dialogue
De nombreuses disciplines se sont intéressées au dialogue humain, certaines
depuis les temps les plus anciens :
(a) l’éthnométhodologie (branche de l’ethnoscience) pose la
communication dans une perspective sociale : les individus agissent dans
un cadre normalisé selon des règles et des conventions qui sont socioculturellement bien définies,
(b) la philosophie du langage (notamment la philosophie analytique)
s’intéresse à cet individu placé en situation de communication, sur un
plan intentionnel et actionnel,
(c) les cognisciences retiennent de la communication les aspects liés à la
perception, à la planification et au raisonnement du point de vue de
l’individu,
(d) la linguistique étudie la structure du dialogue ou la fonction du langage
dans le dialogue.
(e) l’intelligence artificielle modélise le raisonnement d’agents rationnels et
utilise des modèles de planification pour résoudre le problème de la
coordination d’actions à travers et par le dialogue.
L'éthnométhodologie
Les éthnométhodologistes [Garfinkel, 1967], [Heritage, 1972] ont développé
leur approche autour de l’étude des capacités de raisonnement de sens
1
voir définition plus loin
commun que manifestent des individus, membres d’une même culture, pour
produire et reconnaître des actions intelligibles. Cette approche est plus
descriptive — parce que naturaliste — que prédictive : elle met l’accent sur une
forme de rhétorique de la moralité à travers le principe d’identité qui proclame
que les méthodes de raisonnement sont partagées entre les individus et
apparaissent à la surface de la vie sociale parce que les règles d’interaction et
d’action sociales sont profondément inscrites chez chaque individu. En d’autres
termes pour les éthnométhodologistes, le raisonnement humain est de nature
normative. En particulier, il est lisible dans une conversation qui devient pour
eux le lieu d’une recherche fonctionnaliste sur les actions humaines. Les
pragmalinguistes se trouvent également dans la même ligne de pensée :
"parler n’est pas simplement la mise en fonctionnement d’un système
linguistique, mais une forme essentielle d’action sociale" [Bange, 1987], "un
système de comportements de différents partenaires qui s’influencent
réciproquement dans des actions concrètes" [Cranach, 1980]. Pour eux
l’interaction fonctionne selon les principes de la réciprocité des perspectives et
de la réciprocité des motivations. Ces principes s’appuient sur la notion
d’intercompréhension qui définit le projet d’action de A (ou intention) à travers
la réaction qu’il attend de son partenaire B, comme moyen de réaliser son but.
Le principe de réciprocité des motivations est l’anticipation par A que son
projet, une fois compris, sera accepté par B comme la raison et la motivation àcause-de du projet et de l’action de B [Schütz, 1962]. Si, pour eux, ce principe
suffit à régler les niveaux locaux de l’interaction (tours de parole fondés sur le
concept des paires adjacentes), le deuxième principe, celui de la réciprocité
des perspectives est nécessaire pour régler les niveaux supérieurs
d’organisation de l’interaction. Ces niveaux sont liés à une conception
hiérarchique de l’action dans laquelle ce principe fonde la complémentarité ou
la symétrie des rôles des partenaires pour le guidage des niveaux d’exécution.
De lui résultera la stratégie utilisée dans l’interaction (négociation, coopération,
etc.) issue d’un accord entre les partenaires.
Goffman [Goffman, 1981] va plus loin, il introduit les notions de rituel et de face
: l’interaction sociale est guidée par le souci de ne pas “perdre la face”. La
notion de face renvoie à celles de rôle, de statut, c’est-à-dire de la position d’où
on parle et que l’on doit conserver — car “en parlant on construit une image de
soi”. Ainsi au-delà des tours de parole et des paires adjacentes, y a-t-il d’autres
mécanismes de régulation comme la mise en scène des places de laquelle on
attend des “retours” comme l’acquiescement (Mmm…), la surprise (ah oui ?…),
les marques de sympathie, le rire, etc.
Plus récemment, Suchman [Suchman, 1987] a introduit la notion d’action
située, qui donne une grande importance à la situation (en d’autres termes au
contexte) et qui montre que du fait de sa grande dynamique, les locuteurs
restent en état d’adaptation permanent. Dès lors, il est difficile pour un
observateur de prédire les actes de parole puisqu’ils résultent d’une double
interprétation, du locuteur et de l’allocutaire, et que les effets n’en sont pas, de
ce fait, clairement prévisibles. Elle fonde alors sa description de la conversation
sur des stratégies opportunistes, qui ne sont instanciables que localement et
en tous cas non planifiables à long terme. Par cela elle remet en cause un
grand nombre de théories fondées de près ou de loin sur la logique des
intentions. Malheureusement son apport très riche par ailleurs, reste plus
critique que constructif dans la perspective de poser un modèle formalisable
pour le dialogue.
La philosophie analytique, les actes de langage
Jugeant des insuffisances d’une sémantique générale en linguistique, certains
philosophes du langage comme Austin et Searle [Austin, 62], [Searle, 69]
mettent l’accent sur la pragmatique en partant du principe que tout énoncé est
un acte de langage. Austin, s'intéressant aux verbes performatifs, remarque
qu'ils contiennent l'action qu'ils dénotent. Ainsi, dire "je te baptise Queen
Elisabeth" c'est faire l'action du baptême pour peu qu'on soit autorisé
socialement à le faire ; de même pour "la séance est levée". Pour Austin tout
énoncé est un acte de parole qui contient trois composantes : le locutoire (le
dire), l'illocutoire (le faire), le perlocutoire (l'effet produit sur son interlocuteur).
Ainsi l'énoncé "les canots à la mer" est-il chargé de sens pour l'équipage !
"Haut les mains" vise à neutraliser autant qu'à effrayer la victime. "je te
promets de venir demain" est une forme engageante même si elle ne garantit
pas totalement que cet événement va se produire : il peut y avoir une série
d'empêchements imprévisibles, ou il se peut que l'intention soit plutôt de
rassurer que de s'engager vraiment. Ainsi à travers un même énoncé, plusieurs
buts sont poursuivis, le but illocutoire (effet espéré de l’action, par exemple
neutraliser la personne) et le but perlocutoire (effet espéré sur l’allocutaire, lui
faire peur).
Searle replace la langue dans la théorie des actes de langage et plus
généralement dans une théorie des intentions. Pour A, énoncer une
proposition résulte de l’intention de la produire ; pour B, la comprendre c’est
interpréter l’intention qui l’a sous-tendue, dans le contexte où elle a été
produite. Dans cette théorie, la communication se situe dans la pragmatique, et
la pragmatique des actes de langage s’inscrit à son tour dans une théorie du
langage et une théorie de l’action selon deux perspectives : la description des
actes de langage et leur régulation selon le principe d’exprimabilité, c’est-àdire,
(a) énoncer des mots = effectuer des actes d’énonciation,
(b) référer et prédiquer = effectuer des actes propositionnels (locutoires),
(c) affirmer, ordonner, promettre, etc. = effectuer des actes illocutoires,
(d) effectuer des actes perlocutoires = agir sur son interlocuteur.
Jusqu'en (c) on peut représenter tout acte de langage par F(p), p = contenu
propositionnel et F=force illocutoire, (ex. : "je te promets que je viendrai", F
marquée par "je te promets", force promissive, et p marqué par "je viendrai").
Vanderveken [Vanderveken, 88] a formalisé une logique illocutoire du discours,
essentiellement monologique, poursuivant ainsi les travaux de Searle.
Jusque là donc, Searle comme Vanderveken, ne prennent pas encore en
compte le rôle du destinateur ni celui du destinataire qu’il ne font apparaître
qu’en (d). Ceci leur a été reproché puisque cela implique jusqu’en (c),
l’élimination du locuteur parlant au profit d’un locuteur abstrait ce qui les oblige
à introduire la notion de sens littéral. Cela introduit une difficulté pour
l’interprétation des actes indirects qui se font par énonciation non littérale ("le
sel s'il te plaît !" ne peut pas être analysé sans l'action qui la sous-tend qui
prend un sens différent si c'est un diabétique qui la prononce). Searle propose
alors pour l’interprétation de ce type d’acte une stratégie inférentielle, qui
examine toutes les conditions de réalisation de l’acte (situation, monde, arrièreplan, etc.), le pourquoi, les intentions du demandeur, le but poursuivi, etc. Mais
Récanati propose plus simplement d’en rester pour le niveau (c) à des
potentialités illocutoires qui ne seront instanciées qu’au niveau (d) après la
prise en compte des sujets parlants.
Formulée ainsi, il semble que cette théorie propose un lieu d’articulation de
l’illocutoire ou perlocutoire intéressant pour le DHM. En effet il semble bien que
les niveaux (a), (b) et (c) soient réellement présents en DHM (résultats
d’expériences menées en technique Magicien d’Oz, voir chap. 6) — avec un
appauvrissement du niveau (c) — et absent pour le niveau (d). Cela
supposerait qu’un sujet puisse mettre en œuvre ses capacités linguistiques
sans égard pour son destinataire dans un premier temps, puis que des
processus d’ajustement soient appelés dans un second temps pour contraindre
les formes de productions langagières selon les contraintes de la
communication. Il semble bien qu’il puisse en être ainsi puisqu’on constate
qu’un utilisateur humain formule ses commandes vis-à-vis d’une machine en
utilisant toutes ses compétences linguistiques.
La taxonomie des actes de langage proposée initialement par [Austin, 62] et
[Searle, 69] a souvent été remaniée depuis selon les besoins des analyses ou
des domaines d’application. Nous ne faillirons pas à cette tradition en
introduisant nos propres définitions par souci de commodité et pour coller au
mieux aux types de discours que nous avons analysés pour les adapter à
l’interaction homme machine.
Acte assertif
La composante illocutoire décrit un état de fait existant. Le locuteur dit
comment sont les choses. Le but est de rendre le contenu propositionnel (qui
est une proposition) conforme au monde. L'acte assertif révèle les croyances
du locuteur. Nous distinguons l'acte assertif positif de l'acte assertif négatif.
acte assertif positif : affirmation, confirmation, constatation,
présentation, description,
commentaire, explication,
rectification, concession
début d'action, changement d'activité.
acte assertif négatif : négation, contestation, critique, restriction, abandon
Acte directif
Le but illocutoire est de mettre l'interlocuteur (qui est ici le locuteur lui-même)
dans l'obligation de réaliser une action future. Le locuteur essaie de faire faire
les choses. Le but est de rendre le monde conforme au contenu propositionnel
(qui contient l'action future de l'interlocuteur). L'acte directif exprime les désirs
et la volonté du locuteur. Les scripts contenant les verbes modaux (vouloir,
pouvoir, devoir, falloir) et l'expression du futur au moyen du verbe "aller" sont
étiquetés "directif".
- ordre, autorisation, invitation,
- conseil, suggestion, avertissement, défi,
- question, interrogation, demande d'information, de précision, de
confirmation, requête,
- réitération, relance, insistance, supplication
Acte promissif
Il s'agit d'une obligation contractée par le locuteur lui-même de réaliser une
action future. Le locuteur s'engage à faire quelque chose. Le but est de rendre
le monde conforme au contenu propositionnel (qui contient l'action future de
l'interlocuteur). L'acte promissif révèle l'intention du locuteur.
- promesse, offre, justification (vis-à-vis de soi-même)
Acte expressif
Le but illocutoire de l'acte expressif est d'exprimer l'état psychologique qui lui
est associé. La direction d'ajustement n'est pas de rendre le monde conforme
aux mots ou vice versa. La proposition exprimée est présupposée : on se
réjouit ou on déplore qu'elle soit vraie.
- expression d'un souhait,
- remerciement, excuse, salutation,
- hypothèse, spéculation, présupposition, anticipation,
- satisfaction, félicitations,
- hésitation, résignation, étonnement, déception, plainte, menace,
- juron, insulte
Acte déclaratif
Le but illocutoire de l'acte déclaratif est de rendre effectif son contenu. Le
locuteur provoque des changements effectifs dans le monde par ses
déclarations. Cet acte a simultanément deux directions d'ajustement entre le
langage et le monde. Il faut qu'il soit accompli dans une certaine institution
extra linguistique qui confère au locuteur les pouvoirs de provoquer de
nouveaux faits institutionnels par le seul accomplissement approprié d'actes de
langage.
- début d'action, fin d'action, abandon.
Malgré ses qualités, l’approche des philosophes analytiques est
essentiellement monologique, c’est-à-dire qu’elle ne prend pas en compte le
locuteur dans la dynamique du dialogue. Nous devons donc l’étendre dans un
cadre plus général prenant en compte d’autres éléments qui permettent
d’aborder le problème du dialogue et de l’intersubjectivité.
La psychologie cognitive
Parmi les théories les plus fécondes pour la communication par le langage,
nous retiendrons les approches de Grice puis celles de Sperber et Wilson.
(a) Pour Grice [Grice, 75], un échange dialogique suit une logique fondée sur
un principe général de coopérativité ; les interlocuteurs reconnaissent chez
leurs partenaires participant à un échange, un ou plusieurs buts communs
dans une direction acceptée par tous, ce que Grice formule sous forme de
maximes à l’intention des conversants eux-mêmes (à la manière des
classiques français, La Rochefoucault notamment) : “que votre contribution à la
conversation soit, au moment où elle intervient, telle que le requiert l’objectif ou
la direction de l’échange verbal dans lequel vous êtes engagés”. Il exprime plus
précisément cette maxime à l’aide de deux autres et définit la notion
d’implicature comme l’ensemble des conséquences de l’application ou de la
non application de ces maximes par les conversants.
• maxime de qualité : “que votre contribution soit véridique” qui se décompose
en, “n’affirmez pas ce que vous croyez être faux” et “n’affirmez pas ce pour
quoi vous manquez de preuves”.
• maxime de quantité : “que votre contribution contienne autant d’informations
qu’il est requis (pour les visées conjoncturelles de l’échange)” et “que votre
contribution ne contienne pas plus d’informations qu’il n’est requis”
La maxime de qualité peut sembler limitative voire même quelque peu naïve
car elle semble exclure l’ironie, le mensonge ou la dissimulation. En réalité il
n’en est rien parce que précisément, une règle violée a autant d’implications
qu’une règle respectée par le fait qu’il y a eu à moment donné un besoin de la
transgresser. Ainsi pour Grice, l’ironie fonctionne parfaitement sous ce principe
car elle est intentionnellement codée par l’intonation de la voix ou des gestes
significatifs. De même le mensonge finit par se détecter parce qu’à un moment
donné du dialogue le menteur va manquer de preuves et va donc se découvrir
aux yeux des autres. Ce qui montre bien que le mensonge est une des
implicatures de la maxime “n’affirmez pas ce pour quoi vous manquez de
preuves”.
La maxime de quantité peut se réduire à la seule maxime de pertinence “soyez
pertinent”, ce que proposeront d’ailleurs Sperber et Wilson. Cette maxime
cache à elle seule toute une théorie de la pertinence que nous développerons
plus loin.
Enfin, Grice complète ses maximes sur le contenu (quoi dire) par des maximes
de modalité, c’est-à-dire sur le comment dire: “soyez clair”, “soyez bref”, “soyez
méthodique”, “évitez d’être ambigu”, qui visent à une meilleure efficacité du
dialogue.
Par le terme implicature, Grice veut distinguer certaines conclusions que l’on
peut tirer des énoncés, des véritables implications logiques. En effet les
implicatures sont fondées sur l’usage du langage d’une part et prennent en
compte les non dits, implicites, ellipses, etc., d’autre part. Le calcul des
implicatures ne devient donc possible qu’en appliquant les maximes, par
exemple “j’ai faim” suggère que d’une part ce fait est vrai et d’autre part que je
réclame à manger.
(b) Pour Sperber et Wilson [Sperber et Wilson, 89] — à la suite de Grice
[Grice, 75] —, la communication est un "échange d’indices qui orientent (ou réorientent) les processus inférentiels des interlocuteurs en présence”. Ils
refusent la théorie codique trop simpliste ; les pensées ne sont pas codées par
A, transportées puis décodées par B : les pensées de A orientent seulement
celles de B. Sperber et Wilson réfutent ainsi le modèle codique qui stipule une
phase de codage et de décodage des informations linguistiques et extra
linguistiques (signes dans un cadre sémiotique plus large) selon un ensemble
de conventions, de savoirs partagés par les deux interlocuteurs et de
suppositions mutuelles de l’un sur l’autre. Cette vision, fondée sur une
approche psychologique, se distingue de celle de Searle pour lequel existent
des intentions mais aussi, implicitement, un code. Sperber et Wilson nient
l’utilité de la théorie des actes de parole qu’ils trouvent classificatoire mais non
opératoire. Ils affirment qu’il faut remonter aux attitudes cognitives à travers les
processus inférentiels pour comprendre les mécanismes de la communication.
Ils posent la signification au plan de la pertinence : les indices échangés
doivent être pertinents pour pouvoir servir à retrouver l’intention du destinateur
; signifier, c’est rendre signifiant quelque chose à quelqu’un ; signifier c’est
vouloir dire c’est-à-dire communiquer ses intentions ou obtenir un succès dans
la compréhension de ses intentions par autrui. Plus formellement, le succès de
(A veut dire S à B) est obtenu si :
(a) B produit une réponse R car
(b) B reconnaît l’intention de A contenue dans S (notée intention(A)⊆S)
(c) et la réponse R résulte en partie de (b)
Cela permet de distinguer deux sortes d’intentions : les intentions informatives
(A informe B de intention(A)⊆S) c’est-à-dire A rend manifeste au destinataire B
un ensemble d’indices ou d’hypothèses) et les intentions communicatives (A
informe B de intention(intention(A)⊆S)⊆S’ c’est-à-dire A rend manifeste au
destinataire qu’il a une intention informative). Cette information se fait au
travers d’indices pertinents. De ce fait A et B doivent se montrer coopérants
pour que la communication réussisse (selon le principe des maximes de Grice
par exemple). Une critique de ce point de vue est qu'on ne voit pas comment
pourrait s’arrêter la récursivité sur l’intention que A a de produire un stimulus
qui rende manifeste à B que A veut lui rendre manifeste un ensemble
d’hypothèses.
Pratiquement, la pertinence repose sur deux facteurs : l’effet cognitif produit
chez le destinataire et l’effort qu’il a fallu pour le produire. La pertinence est
donc le rapport de ces deux quantités si tant est qu’elle puissent être
quantifiées, c’est le juste équilibre du coût de traitement chez les deux
interlocuteurs.
La linguistique
Certains linguistes, notamment ceux de l’école de Genève, voient le discours
comme cadre de structuration d’échanges linguistiques. Ils s’efforcent d’utiliser
le moins possible les contraintes ou les données extérieures au discours
comme les intentions, les présuppositions, etc., qu’ils jugent trop subjectives.
Ils veulent créer une théorie de la cohérence et non une théorie de
l’interprétation : "le problème principal est de formuler un ensemble d’unités
conversationnelles, un ensemble de relations entre ces unités, un ensemble de
principes gouvernant la composition des unités simples en unités complexes,
bref la formulation de règles de bonne formation" [Mœschler, 1987]. Cette
approche n’est pas prédictive ; elle reste essentiellement une description
fonctionnaliste et/ou structurelle des énoncés de A et de B rendue possible une
fois le discours achevé et l’action accomplie.
L'école de Genève [Roulet, 85], [Moeschler, 89] définit la hiérarchie
intervention, échange et négociation cette dernière se développant en initiative,
réaction, évaluation. Luzzati [Luzzati, 89] et Vernant [Vernant, 92] intègrent ces
notions dans une grille de dialogue dont l'axe régissant horizontal correspond à
la recherche d'un accord (système questions réponses principales et
secondaires) et l'axe incident vertical répond aux exigences de clarté et
d'explication. La mise en œuvre s'appuie sur des variables d'avancement, de
profondeur, d'incidence et d'écartement.
Les phases du dialogue que retient l'école de Genève sont les suivantes :
l'ouverture (initiative, évaluative, réactive), la continuation (initiative, évaluative,
réactive), la clôture (initiative, évaluative, réactive), l'incidence (abandon
temporaire d'une activité en cours de réalisation pour la reprendre par la suite)
et la rupture (abandon définitif d'une activité en cours de réalisation). Un
dialogue commence par une ouverture et s'achève par une clôture. La phase
non marquée est la continuation à caractère initiatif.
Dérivés de ces modèles structurels de dialogue, de nombreux modèles de
DHM ont été implémentés [Bilange, 92], [Sabah, 90] pour des applications de
renseignement. Ces modèles montrent rapidement leurs limites dans des
tâches dites innovatives comme la conception de plans qui nécessitent de
nombreuses incidences, reprises, mises en attente, dans le dialogue. Le plan
d’action ne peut pas être représenté en extension dans ce type de tâche, il en
résulte de nombreux inattendus dialogiques, des ruptures, qui dé-structurent le
dialogue.
Exemple de grammaire simplifiée de dialogue :
Dialogue -> Ouverture. Echange*.Clôture
Echange -> Echange.(Incidence)
Echange -> Acte*
Incidence -> Acte*
Depuis Morris, on adjoint à la syntaxe qui étudie les relations entre signes et à
la sémantique qui a pour objet la signification littérale des énoncés, la
pragmatique comme examen de l’usage effectif des signes par les utilisateurs.
Que toute situation de dialogue requière une analyse pragmatique est patent
ne serait-ce que parce que les interlocuteurs assument tour à tour statut de
locuteur ou d’allocutaire en utilisant les indexicaux “je” et “tu” dont la
signification, sémantiquement vide, résulte d’un procès de référence au dire et
à la réalité extra-linguistique des interlocuteurs. Mais concevoir ainsi la
pragmatique comme analyse des seuls phénomènes d’ancrage du discours
dans le réel ou comme prise en compte de l’apport informationnel d’un
contexte plus ou moins élargi est insuffisant. Pour prendre toute la mesure des
pratiques dialogiques, il importe d’élaborer une pragmatique conçue –
conformément à l’étymologie – comme une véritable théorie de l’action
[Vernant, 93].
L’intelligence artificielle
Certains …
2. Du dialogue humain au dialogue homme machine2
La signification d’une quelconque parole ne saurait être épuisée par son
contenu sémantique, elle requiert la considération des intentions et buts du
locuteur, des attitudes de l’allocutaire, de la nature de la situation, des règles
plus ou moins ritualisées qui la régissent, etc., toutes données que seule une
appréhension pragmatique permet de dégager. Les données proprement
linguistiques sont alors réduites au statut d’indices que seules des procédures
inférentielles permettent d’interpréter à l’aide de données complémentaires
d’ordre contextuel.
Il reste toutefois un pas décisif à faire : celui de concevoir les relations entre
les actes, non plus de parole, mais de dialogue, considérés comme éléments
de pratiques effectives d’échanges verbaux répondant à une finalité non
verbale. C’est là que l’étude du dialogue homme machine peut s’avérer d’une
grande utilité. La simulation informatique de dialogues finalisés, orientés par la
tâche, requiert une analyse à la fois trans et interactionnelle de tout acte de
dialogue.
La dimension transactionnelle :
Par ce terme on désigne les relations complexes qui lient l’acte de dialogue
comme pratique langagière aux activités non langagières dans lesquelles il
s’inscrit.
L’étude de dialogues orientés par la tâche présente le mérite de rappeler que
la majorité des dialogues finalisés constituent un moment langagier d’une
chaîne d’actions non langagières ; le capitaine qui crie “Le bateau coule”
constate un fait réel et veut provoquer une réaction effective, non langagière,
de l’équipage.
Activité essentielle, l’usage du langage permet l’analyse des faits, la réflexion
sur les buts, l’évaluation des stratégies, la décision d’action, comme tel, il a
valeur de détour langagier subordonné à des enjeux et des finalités non
langagières. Dans cette perspective transactionnelle, le dialogue est une
pratique langagière visant l’échange d’information, l’accord sur les fins et
moyens. On comprend alors que l’analyse pragmatique requiert la prise en
2
Ce paragraphe est une contribution de D. Vernant, philosophe.
compte de la tâche visée, la constitution d’un modèle de la tâche ayant pour
objet de spécifier le vocabulaire, les scénarios stéréotypés, les stratégies
autorisées. Une demande de réservation SNCF sera déterminée par le fait
qu’un train est un moyen de transport d’une gare à l’autre, individualisé par un
numéro, qu’il possède une heure de départ et d’arrivée, et de même par la
connaissance de scénarios fixes tel celui relatif à l’achat du billet, aux
conventions de réservation de places, etc. Tout acte de dialogue vise toujours,
plus ou moins médiatement, une transformation du monde, sa signification
plénière dépendant ainsi de sa finalité actionnelle : “Le sens d’une proposition
est sa finalité” [Wittgenstein, 52].
Du point de vue linguistique, les informations de nature transactionnelles
seront en partie véhiculées par le contenu locutoire de l’acte de dialogue, i.e.
par le dictum, le dit, e.g. “Le bateau coule” décrit une action non linguistique
dont le sujet n’est pas l’agent de l’acte de dialogue. Dans tout acte de dialogue
on devra alors distinguer :
– l’agent du dire, de l’acte langagier lui-même, généralement implicite, le
locuteur, dans notre exemple, le capitaine,
– le sujet du dit, de l’action non langagière décrite : le bateau en train de
couler.
La dimension interactionnelle :
A cette analyse transactionnelle, il convient d’adjoindre une analyse
interactionnelle prenant en compte la dimension spécifiquement interlocutive,
i.e. l’interaction proprement langagière. Le moment langagier de la transaction
est alors isolé comme forme particulière d’interaction. En effet, la plupart des
actions non langagières visent une transformation immédiate du monde. C’est
par exemple le cas du pilote du navire qui stoppe les machines. Par contre,
les actes langagiers visent indirectement, et plus ou moins médiatement, la
transformation du monde par le truchement d’une action d’autrui provoquée
par la communication d’informations. Le message d’alerte du capitaine – mais
aussi bien le déclenchement de la sirène – provoqueront la réalisation par
l’équipage d’un scénario d’évacuation du navire. Dans ce cas le “dialogue”
sera réduit au minimum puisqu’à l’acte linguistique correspondra quasi
automatiquement une réaction non linguistique. Mais dans les cas où il faudra
persuader, convaincre, menacer, etc., autrui afin d’obtenir sa réaction, le
dialogue sera d’autant plus complexe. Les différentes formes de dialogue
pourront alors se caractériser par des stratégies complexes régies par des
règles plus ou moins strictes. Un dialogue finalisé élémentaire du type de
demande de renseignement SNCF est gouverné par un modèle prédéterminé
partagé par les interlocuteurs qui permet de prévoir les interactions pertinentes
et de mesurer les écarts et l’éventuel échec du dialogue. Schématiquement,
l’interrogation d’une base de données SNCF s’ouvre sur une demande de
l’utilisateur et doit aboutir à une réponse de la machine. Le parcours plus ou
moins long entre la demande initiale et la réponse finale visera à clarifier les
termes de la demande et à obtenir un accord sur les significations et
références des termes employés.
Fournir une compétence dialogique à une machine revient ainsi – entre autres
– à la doter d’un modèle dynamique de dialogue capable de traiter en temps
réel les stratégies d’échange d’information. Il convient alors d’interpréter l’acte
de dialogue selon sa fonction dialogique. Une assertion telle : ”je dois être à
Clermont-Ferrand à 14h ?” sera immédiatement interprétée par la machine
comme une demande d’information : ”Quelle est l’heure du train me
conduisant à Clermont-Ferrand pour 14h ? “ La même assertion répétée en
écho en deux moments différents du dialogue devra prendre une valeur
dialogique différente dans la mesure où elle manifeste une incompréhension,
etc. Dans une telle problématique, un des enjeux majeurs porte sur la capacité
à prévoir la réaction de l’allocutaire. Chez Austin, la dimension perlocutoire
des actes de parole n’était pas thématisée dans la mesure où elle semblait
échapper à toute conventionnalité. Dans le cas des actes de dialogue, il est
possible d’aller plus loin et de restaurer une certaine régularité des échanges
en prenant en compte les contraintes de l'interlocution telles qu’elles sont
définies par le modèle dialogique utilisé. Ainsi, selon qu’elle intervient au début
ou au terme d’un échange, une assertion telle que “Le train part à 7h 30”
pourra donner lieu soit à une demande de précision ouvrant une nouvelle
interaction, soit à un acquiescement clôturant l’échange.
3. Le dialogue homme machine
Le terme dialogue homme machine semble abusif relativement au sens dévolu
au dialogue humain. La machine n’est pas un être social, n’a pas d’intention ni
de culture. Selon les communautés scientifiques dans lequel il est employé, ce
terme ne contient pas les mêmes concepts : pour les concepteurs d’interfaces
graphiques il se réduit presque exclusivement à la manipulation directe d’objets
et au déroulement de menus, pour les chercheurs en LN (Langage Naturel) il
recouvre certains présupposés du dialogue entre humains, du moins les
capacités de compréhension du langage. Personne ne sait exactement ce que
doit être le dialogue homme machine puisqu’aucune machine ne permet de
véritable dialogue — seules des expériences en Magicien d’Oz ont pu en
donner quelques contours.
Il faut donc définir une sémiotique claire et non ambiguë de l’interface pour
offrir un cadre fécond à la communication homme machine. Il est évident que
les capacités limitées de la machine ne peuvent conduire à une sémiotique
générale, puisqu’il serait nécessaire que la machine soit un système non
seulement intelligent mais aussi social (inséré dans le monde). Les
performances de la machine en reconnaissance de la parole, reconnaissance
du geste, vision par ordinateur, etc., semblent intéressantes a priori bien
qu’encore limitées ; en utilisant ces nouveaux médias on peut escompter ainsi
améliorer l’efficacité de l’interaction (entrées de plusieurs commandes
simultanément), sa fiabilité (utilisation de la redondance), sa souplesse (choix
des modes de communication les mieux adaptés à la tâche), en un mot son
ergonomie. Il faut cependant prendre garde au rôle dissymétrique que joue la
machine dans la communication avec un humain et du biais que l’on peut
introduire par une sémiotique mal définie : l’utilisateur, face à la machine, doit
suppléer le manque de naturel, les limitations de compréhension, se contrôler
dans ses productions langagières, inférer les réactions de la machine, adapter
son comportement, etc. En fin de compte, l’attrait des interfaces vocales
pourrait se retourner contre elles si le concepteur complique inutilement les
schémas de planification et les modèles de représentation de la tâche en
machine.
Vis-à-vis de l’humain la machine est (et doit rester) un outil qui doit être le plus
ergonomique possible, c’est-à-dire adapté et efficace : tout en reconnaissant
que l’utilisateur garde ses habitudes linguistiques face à la machine, le
dialogue homme machine ne peut pas être un artefact de la communication
humaine. Le DHM n’a semble-t-il, d’utilité que dans un cadre opératoire, c’està-dire pour effectuer des tâches coordonnées (résoudre des problèmes,
renseigner, aider à la conception, assister l’enseignement, etc.). La
communication se situe donc dans une relation opérateur-tâche où la machine
à un rôle collaboratif [Falzon, 92]. Elle doit par conséquent avoir des capacités
qui lui permettent de coordonner les processus actionnels en fonction des buts
de l’usager. Cette relation opérateur-tâche place le dialogue homme machine
dans un cadre actionnel. A travers et par le dialogue la machine doit également
apprendre de nouvelles actions ou optimiser son comportement face à de
nouvelles situations. Pour cela elle doit pouvoir inférer et gérer les buts de
l’utilisateur, reconnaître ses actes de langage, être capable de les interpréter
en fonction de la situation pour finalement générer et effectuer l’action ou le
plan d’action le plus adéquat.
Les actes de dialogue ?
La fig. 1 présente le cadre que nous avons choisi de donner au dialogue et la
relation qui existe entre chacun des éléments. C’est une extension des actes
de langage aux actes de dialogue : le destinateur agit sur le monde
directement ou par l’intermédiaire d’un destinataire. Dans ce dernier cas
seulement il utilise la langue.
Destinateur
perlocutoire
Destinataire
Effets et suites
locutoire
Contenu
propositionnel
Langue
illocutoire
Force et But
Monde
Fig. 1 : Cadre pour le dialogue humain.
Ce cadre représente les éléments qui entrent en jeu à chaque tour de parole.
C’est à dire aussi bien les relations qui interviennent entre le locuteur (ou
destinateur) et l’allocutaire (ou destinataire), leur connaissance respective du
langage que les rapports qu’ils peuvent avoir au monde. Ce cadre permet
également de voir les différences entre dialogue humain et dialogue homme
machine : l’abandon éventuel de la composante perlocutoire dans les actes de
dialogue et une simplification des formes langagières.
En effet, ce cadre fait apparaître deux pôles au niveau du dialogue humain :
(a) d’un côté, les aspects purement langagiers et référentiels —
représentés par le langage et le monde — que [Searle, 72] a mis en
évidence par la notion de direction d’ajustement entre les mots et le
monde,
(b) de l’autre côté, les aspects intersubjectifs — représentés par le
destinateur et le destinataire — qu’il est indispensable de faire intervenir
dans une situation de dialogue humain, dans laquelle ils coordonnent
leurs actions [Vernant, 92] et règlent leur jeu inter-social.
Dans le cas du DHM les aspects intersubjectifs peuvent être négligés encore
qu’en génération des énoncés par la machine, les utilisateurs sont très
exigeants (expressions complexes, intonation naturelle et variée, etc.). Nous
posons cependant comme hypothèse de travail, même en DHM, que chacun
des éléments, ainsi que les relations qu’ils entretiennent se projettent dans la
langue au niveau de l’énoncé. Et inversement, que les énoncés véhiculent ces
éléments que l’allocutaire (ou la machine) saura reconnaître et interpréter.
La visée globale de l’utilisation de la langue naturelle en dialogue homme
machine est donc d’améliorer l’interactivité de la machine en la rendant plus
pertinente, en agissant sur la forme et sur le contenu des énoncés
(compréhension et génération).
La langue naturelle en interaction homme machine ?
L'usage de la langue naturelle (LN) en communication homme machine est à la
fois un avantage et un obstacle par rapport aux autres moyens de
communication :
(a) c'est un avantage, dans la mesure où le locuteur n'a pas d'effort
particulier d'apprentissage à faire pour acquérir de nouvelles habiletés
pour communiquer (il est sensé posséder et bien dominer sa langue
maternelle) contrairement aux autres moyens de communication tels que
le clavier, la souris, etc. ; il a donc seulement besoin d'un apprentissage
pour acquérir des savoir-faire liés à la tâche proprement dite, mais,
(b) c'est un obstacle, dans la mesure où la machine n'a qu'une
compréhension limitée du langage naturel. Cette limitation engendre
toute une série d'artefacts dans la communication que l'utilisateur doit
compenser ; en particulier, il doit mémoriser toutes les restrictions
imposées par le concepteur au langage d'interaction, et il doit être
préparé aux comportements de la machine en réponse à ses énoncés
(car celle-ci n'aura certainement pas les mêmes comportements qu'un
interlocuteur humain). En particulier la machine n'aura pas la capacité
d'anticipation ni la compréhension des intentions qui permettent toutes les
richesses que l’on observe dans le langage utilisé par les êtres humains.
En général, l'utilisateur ne pourra pas parler par sous-entendus, ni
introduire facilement de nouveaux mots, ni construire des sens dérivés,
etc. toutes choses que l'on fait spontanément en parlant à quelqu'un..
Avec une machine, la tâche de communication en LN risque d'être plus
opaque ou risque d'alourdir le travail lié à la tâche et, si l'on n'y prend pas
garde, on peut finir même par lui faire perdre tous les avantages
qu'apporte le langage naturel.
Il faut donc s'interroger sur les aspects de la communication en langue
naturelle qu'il faut impérativement conserver, pour la rendre attrayante et
compétitive vis-à-vis des autres modes d'interaction.
(a) Ce qui rend attrayant le langage naturel n'a pas vraiment été étudié en
détail — pour répondre à cette question, il faudrait examiner des
situations de communication humaine en langage naturel pour en
rechercher des éléments irréductibles, en deçà desquels, si on les
supprimait, l'intérêt de la communication langagière disparaîtrait. On sait
seulement que le langage de communication doit conserver son pouvoir
négociatif ainsi qu'un minimum de spontanéité pour rester utile en
communication homme machine. On sait aussi que le langage apporte
des modalités temporelles (réitération d'actions, renvoi d'une action dans
le futur), et des expressions référentielles condensées (dénominations
construites en cours de tâche, ellipses, désignations anaphoriques) dont
on ne peut vraiment se passer. Ce qui rend la langue naturelle attrayante
dépend donc de ses capacités d'expression et du type d'action à exécuter
à travers la langue.
(b) Ce qui la rend compétitive par rapport aux autres modes de
communication doit être examiné de manière comparative pour extraire
les modes qui seraient les plus adéquats à la tâche. Des études sur
l'interaction multimodale apportent quelques éléments à cette question
[Catinis, 95], [Zanello, 96]. On sait par exemple que des situations
sémantiquement riches ou des tâches à séquencement complexe font
davantage appel aux ressources du langage naturel. Les objets non
perceptibles, les actions différées, les actions conditionnelles, etc. sont
aussi plus facilement exprimables en LN. Mais aussi, et surtout, avec le
LN il est possible de former facilement de nouveaux concepts et de
construire de nouveaux énoncés.
La langue, le dialogue et l’action
« Le langage se construit par l'action » : c’est un des résultats principaux de
Piaget [Piaget, 64]. Pour lui, l’enfant construit son langage comme résultat de
l’assimilation des actions sur le monde. Appeler cette personne « maman » ne
fonctionne que si celle-ci accourt au cri de « maman ».
Réciproquement « Le langage construit l'action ». C’est la thèse principale de
l’école anglo-saxonne en philosophie du langage [Austin, 70], [Searle, 72].
Nous avons vu que dans cette théorie, parler c’est agir, produire des actes ;
communiquer, c’est agir sur l’interlocuteur. Cette théorie permet de considérer
le langage comme une forme d’action et, par généralisation, de considérer le
dialogue comme une séquence d’actions planifiées ayant pour objectif un but
visé sous-tendu par une intention. Cette conception présume qu’il existe un
équilibre rationnel entre les connaissances, actions et intentions du locuteur.
Par exemple, on espère que la série d’actions que l’utilisateur est en train de
faire, coïncide avec la réalisation de ses intentions, et qu’en effet, l’utilisateur
adopte seulement des intentions qui sont possibles à réaliser.
« Le dialogue est une interaction : il renvoie le langage à l'action et
réciproquement ». Le dialogue est une suite coordonnée d’actions (langagières
et non-langagières) devant conduire à un but [Vernant, 92]. Ce but doit être à
la fois atteint et satisfait pour que le dialogue aboutisse à un succès
[Vanderveken, 90]. Le dialogue avance dans le temps et tend à réduire les
écarts entre les interlocuteurs. Ceux-ci agissent sous forme de requêtes,
répliques, réponses, mises en question ou même remises en cause (fig. 2). Au
cours de cette interaction ils modifient leurs connaissances, leurs croyances,
acquièrent de nouvelles connaissances tant sur la situation, que sur leur
interlocuteur ou sur la langue.
Mises en
question
Avancement
π
Réponses
Répliques
Requêtes
Mises en
cause
But
ε+
ε++
Demandes
ε ε−
ε−−
Offres
A(t)
α(t)
t = to
Demandeur
par ex. U
Répondeur
par ex. M
Ecartement
ε
Fig. 2 : Modèle projectif du dialogue [Vernant, 92]. Dans le cas d’un dialogue réussi, la
convergence du dialogue au cours du temps est conduite par le but à atteindre. Ce schéma –
qui représente un Echange – montre les axes convergents (Demandes, Offres) et les axes
divergents (Mises en question, Mises en cause, Répliques et Requêtes) du dialogue.
« Le langage est propre à chaque locuteur mais le sens se négocie », c’est une
évidence, mais disons plutôt que chaque locuteur s’approprie un langage. Ce
langage suit les structures syntaxiques admises par tous (sous peine de se voir
corrigé en permanence par son entourage) mais ne partage pas forcément
exactement le même sens. Le sens général d’un mot s’affine en cours du
dialogue, se négocie entre les interlocuteurs. Voici un exemple tiré de [Luzzatti,
95] :
D : Pouvez-vous me donner l’adresse d’un taxidermiste ?
R : Comment ? Qu’est-ce qu’un taxidermiste ?
D : C’est un empailleur d’animaux.
R : Ah d’accord ! Non, je ne connais pas de taxidermiste…
Apprentissage, langue et dialogue : que retenir ?
Notre hypothèse est que pour favoriser au maximum l’interaction en langue
naturelle entre l’homme et la machine, il faut donner à cette dernière des
capacités d’apprentissage de la langue par le dialogue — le dialogue étant
alors vu comme un double processus de conduite interactive de la tâche et
d’acquisition de connaissances langagières :
(a) d’une part, la machine doit acquérir les concepts manipulés à travers
le langage et qui sont souvent « naturels » (donc implicites) pour
l’utilisateur,
(b) d’autre part elle doit apprendre de nouveaux plans d’action dans le
contexte d’usage donné et de manière suffisamment générique pour être
réutilisables.
Comme dans le dialogue humain, il est opportun de profiter du dialogue non
seulement pour obtenir des renseignements, échanger des points de vue,
coordonner les actions, etc., mais aussi pour apprendre. L'idée est donc de
fonder un modèle de dialogue sur la notion d’apprentissage des savoirs et des
savoir-faire. Cela conduit notamment à la recherche d’un modèle adéquat de
représentation des connaissances apte à faciliter l’apprentissage incrémental,
l’élaboration de mécanismes de raisonnement et la construction de plans. Pour
être capable d’un tel dialogue, la machine doit avoir des capacités qui lui
permettent de coordonner les processus actionnels en fonction des buts de
l’usager [Caelen, 95a].
Nous faisons ainsi un pari vis-à-vis de l’usage de la langue naturelle en
interaction homme machine, celui de libérer au maximum l’utilisateur de la
tâche de communication proprement dite en lui permettant de s’exprimer de
manière suffisamment spontanée. Nous pensons que l’apprentissage
permanent présente une voie de progrès, car plutôt que de prévoir toutes les
situations d’usage et tous les types d’utilisateurs a priori, nous préférons
installer des processus suffisamment génériques pour permettre à la machine
de s’adapter.
La question est maintenant de bien spécifier ce que signifie « s’exprimer de
manière suffisamment spontanée » ? Cela ne veut pas dire ici, comme il est
d’usage dans le domaine du traitement du langage naturel, permettre à
l’utilisateur de s’exprimer de manière relâchée vis-à-vis de la syntaxe ou de
l’élocution (reprises, hésitations, etc.), mais cela veut dire :
(a) pouvoir former des concepts nouveaux,
(b) pouvoir exprimer des actions nouvelles.
Nous ne cherchons pas à enrichir la syntaxe du langage de la machine car
cette question n’est pas un problème d’interaction homme machine mais de
TALN (Traitement Automatique du Langage Naturel), dont nous ne nous
occupons pas ici. Nous cherchons à enrichir, non pas la langue de la machine
en tant que telle mais sa portée dans l’interaction. Avec cette optique, la
machine pourra acquérir un nouveau concept X de deux manières différentes :
(a1) par inférence à partir d’un énoncé tel que « X est Y »
(a2) ou comme résultat d’une série d’actions.
La machine pourra faire des actions nouvelles (sorte de macro-instructions) à
partir d’un corps d’actions de base (sorte d’instructions de base dans un
langage de programmation) en y associant ces nouveaux concepts, dessiner
une maison par exemple. Dans cet exemple « dessiner une maison » sera une
séquence d’actions telle que « dessiner quatre murs » puis « dessiner le toit »
puis « dessiner une porte » puis « dessiner deux fenêtres », toutes ces actions
étant soit prédéfinies, soit apprises au cours du dialogue.
Ceci étant, nous ne voulons pas considérer pour autant le langage naturel
comme une sorte de super-langage de programmation : cette approche
reviendrait aussi à doter la machine de capacités de produire de nouvelles
actions mais le dialogue se réduirait à une entrée interactive de programmes et
de sous-programmes. Il nous semble que dans ce cas, le dialogue serait guidé
par la structure de ce « super-langage de programmation » et perdrait de sa
spontanéité (il adopterait celle des langages structurés ou des langages à
objets). Il ne s’agit donc pas de cela ici, mais si l’on reste dans le cadre de la
métaphore informatique, il s’agirait plutôt d’une sorte de programmation
interactive par l’exemple.
La génération d'énoncés
Dans ce livre il ne sera pas beaucoup question de génération des réponses de
la machine. Aussi nous en donnerons un tout petit aperçu maintenant.
Dans le domaine de la synthèse de la parole, dit text-to-speech, on part d’un
texte écrit pour produire un énoncé oral, et l’effet produit sur l’auditeur est
plutôt celui d’une lecture à voix haute du texte. Dans le domaine du dialogue
homme machine deux cas se présentent au concepteur du système :
(a) soit l’éventail des interventions de la machine est peu étendu, il suffit
alors d’enregistrer des séquences de parole naturelle à trous et de les
enchaîner convenablement (les trous servent de cases de remplissage
pour les éléments variables),
(b) soit on connecte un système de synthèse text-to-speech pour produire
des réponses orales, en mettant en entrée de ce système les énoncés
écrits, générés automatiquement.
Dans les deux cas les limites de ces solutions sont évidentes : l’adéquation des
réponses de la machine vis-à-vis des interventions de l’utilisateur peut-être
contestable d’une part et les échanges peuvent paraître très artificiels d’autre
part. En effet on ne dialogue pas comme on lit, on ne dialogue pas non plus
comme on écrit : les formes linguistiques sont différentes (au niveau syntaxique
et au niveau prosodique, mais aussi par un emploi plus fréquent d’ellipses, de
formes emphatiques, etc.), et surtout ces formes véhiculent une composante
perlocutoire évidente. Plus que la recherche du naturel qui n’est peut-être pas
une fin en soi, il faut viser l’intelligibilité et l’adéquation ou la justesse d’une
réponse qui procède de sa pertinence ; on sait également qu’une réponse peu
pertinente n’est pas compréhensible. Au niveau des interfaces homme
machine actuelles il y a donc nécessité de contrôler cette pertinence pour deux
raisons :
(a) pour diminuer le coût cognitif de l’utilisateur (avec des retombées
évidentes sur la performance d’exécution de la tâche, la diminution de la
fatigue, etc.) et,
(b) pour respecter le principe ergonomique d’observabilité qui stipule que
l’utilisateur doit avoir une conscience claire des véritables capacités de la
machine.
La solution idéale est de générer des réponses en tenant compte du contexte
du dialogue, de la force illocutoire et des effets perlocutoires à produire sur
l’utilisateur du système de dialogue homme machine. Il n’existe pas à notre
connaissance une telle solution toute faite mais seulement des éléments de
départ pour la recherche. Les éléments pragmatiques que sont capables de
gérer les interfaces homme machine se situent ou bien à un niveau de
planification — [Pollack, 90] par exemple — ou au niveau des problèmes de
résolution des références ; ce qu’on pourrait appeler la pragmatique illocutoire,
qui concerne les aspects d’intersubjectivité et ce qui se rapporte au niveau de
l’illocution, n’est généralement pas pris en compte. D’autre part si l’on s’en tient
strictement à la phase de génération de texte on constate que la plupart des
systèmes [Ponton, 96] sont conçus à l’intérieur d’une application particulière.
Les conséquences d’une telle approche sont la difficulté à concevoir et réaliser
rapidement de nouvelles applications par manque de généricité de la méthode,
mais aussi l’absence de résolution du vrai problème de génération sous
contrainte interlocutoire.
Appelons F la forme et P le contenu propositionnel d’un énoncé. Il s’agit pour la
machine (jouant le rôle du locuteur L), de produire l’énoncé F(P, L, A) dans le
contexte du dialogue, c’est-à-dire sous la contrainte de réalisation du but B et à
l’intention de l’allocutaire A. La forme (ou force illocutoire chez Vanderveken)
est définie par le but illocutoire b et le degré de force f. On pose F = <b, f>.
Notre hypothèse de travail est que F et P sont indépendants ce qui permet
d’une part de réaliser le système de génération à l’aide de modules
indépendants, et d’autre part de prétendre à la généricité. Ainsi on peut
envisager quatre étapes dans le processus :
• prise en compte des rôles que jouent A et L,
• génération du contenu propositionnel P en fonction de l’avancée du
dialogue et de la tâche,
• calcul du but illocutoire b, en fonction du but B,
• calcul du degré de force f.
Une fois ces informations obtenues, on procède à la mise en forme du
message de sortie, c’est-à-dire à la production proprement dite de l’énoncé en
ajustant sa forme finale (et la prosodie dans le cas de la parole).
Par exemple, F(P, A, L) avec :
rôles(A, L) = relation de familiarité,
P = venir(agent=L, patient=A),
b = faire-faire,
et f variable
engendrerait :
si f = expressif
“j’aimerais que tu viennes”
si f = insistance
“j’aimerais que tu viennes vite”
si f = indirect
“peux-tu venir ?”
si f = directif
“viens”
si f = ordre
“je t’ordonne de venir tout de suite”
4. Synthèse
Le programme de recherche du dialogue homme machine est plus ambitieux
que celui de l’interaction verbale. Pour le premier c’est considérer que la
machine (plus exactement l’ordinateur) peut être un assistant dans la tâche
c’est-à-dire qu’elle a des compétences langagières et qu’elle coopère à la
tâche. Pour le second, c’est considérer que le couple humain-machine est
plongé dans l’action et interagissent au moyen de la langue. La différence se
mesure donc dans le rapport du sujet à la langue : l’assistant-machine est dans
un cas suffisamment évolué pour mettre ses compétences linguistiques au
service de la collaboration, tandis que dans l’autre cas il reste centré sur
l’interaction à propos de laquelle il utilise des compétences langagières.