F12-1041

Transcription

F12-1041
Vers une mesure automatique de l’adaptation prosodique
en interaction conversationnelle
Céline De Looze1 Stefan Scherer2
Brian Vaughan1
Nick Campbell1
(1) Speech Communication Lab, Trinity College Dublin, Dublin 2, Irlande
(2) ICT, University of Southern California, Playa Vista, CA, 90094, California
[email protected], [email protected], [email protected], [email protected]
RÉSUMÉ
Il a été observé dans de nombreuses études qu’un locuteur, au cours d’une conversation, adapte
son comportement verbal et non-verbal (lexique, syntaxe, prosodie, postures, gestuelle) à celui
de son interlocuteur. Cette adaptation inter-personnelle participe d’une part à faciliter l’échange
d’information, la compréhension mutuelle entre interactants et l’atteinte d’un terrain commun.
D’autre part, elle augmente chez les acteurs le sentiment d’une interaction sociale réussie en
termes de rapport (i.e. relation harmonieuse et attention mutuelle) et d’appartenance sociale. Si
l’adaptation inter-personnelle est un phénomène omniprésent de l’interaction conversationnelle,
peu de systèmes automatiques et de métriques ont été développés pour la quantifier. Dans
cet article, nous présentons un modèle qui permet de mesurer automatiquement l’adaptation
prosodique et ses dynamiques en conversation. Sur la base de ce modèle, nous discutons
les différentes formes et les dynamiques de l’adaptation prosodique mesurées à partir de
conversations téléphoniques enregistrées sur une période de plusieurs mois.
ABSTRACT
Automatic measurement of prosodic accommodation in conversational interaction
It has been observed in many studies that speakers, over the course of a conversation, adapt
their verbal and non-verbal behaviour (lexicon, syntax, prosody, postures, gesture) to their
interlocutor. This accommodation facilitates, on the one hand, the exchange of information,
mutual understanding between interactants and the reaching of common ground. Moreover, it
increases the social success of the interaction in terms of rapport (i.e. harmonious relation and
mutual attention) and affiliation. While accommodation is a ubiquitous component of social
interaction, few automatic systems and metrics have been developed to quantify it. In this
paper, we present a model which provides metrics for the automatic measurement of prosodic
accommodation and its dynamic manifestation in conversation. Based on this model, we discuss
the different forms and the dynamics of prosodic accommodation, measured from conversations
recorded over a period of several months.
MOTS-CLÉS : Adaptation prosodique, dynamiques de la parole, interaction sociale.
KEYWORDS: Prosodic adaptation, speech dynamics, social interaction.
Actes de la conférence conjointe JEP-TALN-RECITAL 2012, volume 1: JEP, pages 321–328,
Grenoble, 4 au 8 juin 2012. 2012
c
ATALA & AFCP
321
1
Introduction
De nombreux systèmes de dialogue ont été développés ces dernières années et sont aujourd’hui
largement utilisés dans de nombreux domaines tels que la téléphonie mobile, les jeux vidéos ou
encore les technologies d’assistance pour les personnes âgées ou handicapées. Si ces systèmes
sont capables de traiter la composante linguistique de la communication humaine, ils ne peuvent
en revanche toujours pas traiter les dynamiques complexes et les ajustements inter-locuteurs
qu’implique l’interaction. Il a été observé dans de nombreuses études qu’un locuteur, au cours
d’une conversation, adapte son comportement verbal et non-verbal (lexique, syntaxe, prosodie,
postures, gestuelle) à celui de son interlocuteur (Giles et al., 1991; Brennan, 1996; Coulston et al.,
2002; Richardson et al., 2007). Cette adaptation inter-personnelle participe d’une part à faciliter
l’échange d’information, la compréhension mutuelle entre interactants et l’atteinte d’un terrain
commun (Pickering et Garrod, 2004). D’autre part, elle augmente chez les acteurs le sentiment
d’une interaction sociale réussie en termes de rapport (i.e. relation harmonieuse et attention
mutuelle) et d’appartenance sociale (Tickle-Degnen et Rosenthal, 1990; Duncan et al., 2007).
Parce qu’elle joue un rôle important dans l’élaboration du sens mais aussi dans l’expression et la
reconnaissance des intentions et états sociaux, son implémentation dans des systèmes existants
améliorerait leur efficacité et pourrait faire d’un robot ou d’un avatar un interactant socialement
compétent.
Si l’adaptation inter-personnelle est un phénomène omniprésent de l’interaction conversationnelle
et a été largement étudiée 1 , peu de systèmes automatiques et de métriques ont cependant été
développés pour la quantifier. Dans cet article, nous présentons un modèle qui permet de mesurer
automatiquement l’adaptation prosodique et ses dynamiques en conversation. Sur la base de
ce modèle, nous discutons les différentes formes et les dynamiques de l’adaptation prosodique
mesurée à partir de conversations téléphoniques enregistrées sur une période de plusieurs mois.
2
2.1
Mesure automatique de l’adaptation prosodique
Définition d’états
Nous avons proposé dans De Looze et Rauzy (2011) que l’adaptation prosodique (figure 1) peut
être décrite au travers d’un ensemble d’états, regroupés autour de trois catégories : l’adaptation,
la différentiation et le maintien (cf. la Communication Accommodation Theory (Giles et al., 1991)).
Dans notre définition, ces catégories sont subdivisées en deux états distincts : la convergence et
la synchronie. Lorsque les interactants adoptent un comportement commun, formé au travers des
caractéristiques intrinsèques et personnelles de chacun, l’adaptation est convergente. Lorsque les
locuteurs coordonnent temporellement les changements ou variations de leur comportement et
que ces variations évoluent dans la même direction, l’adaptation est synchrone. En termes de
prosodie, une adaptation convergente est par exemple observée lorsque deux locuteurs adoptent
un débit de parole similaire ; une adaptation synchrone lorsque deux locuteurs accélèrent
et ralentissent leur débit de parole au “même moment” (sujet à décalage temporel du fait de
l’organisation des tours de parole). Dans la même veine, la divergence et la synchronie symétrique
sont les états de la différentiation. Une divergence peut-être par exemple observée lorsque deux
locuteurs exagèrent leurs caractéristiques prosodiques intrinsèques de manière à accentuer leurs
différences ; une synchronie symétrique lorsque les variations prosodiques évoluent vers des
1. cf. dans la littérature anglophone les termes alignement (Pickering et Garrod, 2004), convergence (Giles et al.,
1991), entrainment (Brennan, 1996), cameleon effect (Chartrand et Bargh, 1999), ou encore mimicry (Meltzoff et Moore,
1977).
322
directions opposées (i.e. vers un débit plus rapide vs vers un débit plus lent). Nous émettons
l’hypothèse que ces états peuvent être observés individuellement ou en combinaison, ce qui
donne un ensemble de 7 états possibles.
FIGURE 1 – Adaptation prosodique : états
2.2 Extraction des caractéristiques prosodiques
Mesurer automatiquement l’adaptation prosodique entre locuteurs nécessite de définir en premier
lieu un domaine ou empan temporel à partir duquel les caractéristiques prosodiques de chaque
locuteur seront extraites. Le choix doit se porter vers un empan qui permet une comparaison
pertinente des caractéristiques prosodiques des interlocuteurs. La difficulté qui se pose est que
leur parole n’est pas alignée temporellement, les locuteurs s’exprimant tour à tour.
Deux méthodes ont été proposées pour l’extraction des caractéristiques prosodiques : la méthode
basée sur les tours de parole (turn-based ou utterance-based ; ex : Levitan et Hirschberg (2011))
et la méthode TAMA (Time Aligned Moving Average ; Kousidis et al. (2008)). La méthode basée sur
les tours de parole consiste à comparer les caractéristiques prosodiques des interlocuteurs tour à
tour. L’unité de construction de tour du locuteur A est ainsi comparée à l’unité de construction
de tour suivante du locuteur B. Cette méthode présuppose que l’adaptation prosodique se
fait très localement, où la production du locuteur A influence directement et uniquement la
production consécutive du locuteur B. On peut cependant supposer que l’adaptation prosodique,
du fait des dynamiques complexes qu’implique l’interaction, s’effectue sur un empan temporel
plus large. Extraire les caractéristiques prosodiques sur chaque tour de parole et mener une
comparaison à partir de tours consécutifs uniquement ne parait donc pas une unité pertinente
pour mesurer l’adaptation prosodique entre deux locuteurs. Une solution possible est d’étendre
cet empan temporel à plusieurs tours de parole comme cela a été suggéré par Nishimura et al.
(2008). Une autre solution est de choisir une fenêtre temporelle fixe qui recouvre les paroles des
deux locuteurs, comme dans la méthode TAMA. La méthode TAMA ne présuppose pas d’empan
temporel pour lequel l’adaptation inter-personnelle s’établit. Les caractéristiques prosodiques
sont extraites à partir de fenêtres fixes glissantes de durée constante qui se chevauchent en
fonction d’un pas d’analyse pré-déterminé. Une telle méthode permet d’obtenir une mesure
des indices prosodiques pour chaque locuteur à des intervalles réguliers qui correspondent à
un même empan temporel pour les deux locuteurs. Si cette méthode est efficace car elle ne
présuppose pas de domaine temporel pour l’adaptation prosodique, elle coupe en revanche de
façon aléatoire les productions orales des locuteurs.
Dans notre modèle, nous proposons une méthode hybride inspirée de ces deux méthodes. Nous
utilisons comme pour la méthode TAMA un ensemble de fenêtres glissantes qui se chevauchent
pour l’extraction des indices prosodiques. A l’instar de la méthode TAMA, les fenêtres glissantes
par défaut fixes sont étendues aux bornes de la première et de la dernière unité de construction
de tour qu’elles chevauchent. La figure 2 fournit une représentation graphique de ces trois
323
méthodes. Dans cette étude, la durée de la fenêtre a été fixée à 20 secondes et le pas d’analyse à
10 secondes ; une valeur prosodique pour chaque locuteur est donc extraite toutes les 10 secondes.
Les valeurs obtenues sont fonction de la durée de l’énoncé considéré, elles correspondent donc à
des moyennes pondérées.
FIGURE 2 – Représentation graphique de la méthode basée sur les tours de parole, de la méthode TAMA et
de la méthode hybride.
2.3
Mesures prosodiques
Le modèle extrait un ensemble de paramètres acoustiques à partir des logiciels Praat et MatLab.
Ces paramètres rendent compte du registre, de l’intensité de voix et du débit d’élocution des
locuteurs.
– registre : médiane (med-f0) et écart type (sd-f0) de la fréquence fondamentale
– intensité : médiane (med-Int) et écart type (sd-Int) de la courbe d’intensité
– débit d’élocution : nombre de syllabes par seconde (syllsec)
Nous avons utilisé une méthode basée sur les modulations à long terme de l’énergie et des
caractéristiques spectrales (Maganti et al., 2007) pour une segmentation automatique en intervalles sonores et silencieux. Les noyaux syllabiques ont été automatiquement annotés à partir de
l’algorithme de De Jong et Wempe (2009).
2.4
Quantification de l’adaptation prosodique
Dans ce modèle, la synchronie est mesurée à partir du coefficient de corrélation linéaire de
Bravais-Pearson ρ x y ∈ [−1, 1] qui mesure les dépendances linéaires entre deux ensembles
d’observations x and y :
PN
ρx y =
i=1 (x i
− µx )
PN
i=1 ( yi
(N − 1)s x s y
− µy)
,
(1)
où |x| = | y| = N , µ x la valeur moyenne de x (respectivement µ y ) , s x l’écart type de x
(respectivement s y ), and x i ∈ x ∀i = 1, ..., N (respectivement yi ). Lorsque ρ x y >> 0 et proche
de 1, la synchronie est très forte ; lorsque ρ x y << 0 et proche de -1 la synchronie symétrique est
très forte ; lorsque ρ x y est proche de zéro, on n’observe aucune forme de synchronie.
La convergence est mesurée à partir de l’intersection de droites linéaires ajustées aux paramètres
prosodiques extraits pour chaque locuteur. Pour chaque ensemble de paramètres, l’équation
suivante est donnée, où i est l’identifiant du locuteur :
324
y = αi x + βi ,
∀i ∈ {1, 2},
(2)
Pour trouver le point d’intersection, on suppose l’égalité des deux équations pour i ∈ 1, 2
(équation 3), ce qui mène après conversion à l’équation 4 :
α1 x + β1 = α2 x + β2 ,
x=
β2 − β1
α1 − α2
(3)
(4)
Si x, à savoir le point d’intersection, est positif, les deux locuteurs convergent ; si x est négatif,
leurs caratéristiques prosodiques divergent. De plus, la valeur x indique la vitesse de convergence
(ou de divergence) à partir de laquelle nous estimons la direction ou la force de convergence de
chaque locuteur : si x est proche de zéro la vitesse de convergence est rapide : il y a donc une
forte convergence de la part de l’interlocuteur. Si x est plutôt loin de zéro, la vitesse est très
lente : le locuteur ne converge que très peu vers son interlocuteur.
2.5
Empan temporel de mesure
Dans de nombreuses études, le phénomène d’adaptation a été investigué en supposant qu’il
augmente linéairement au cours du temps. Or, ce qui fait d’une conversation un dialogue interactif,
ce sont les changements dynamiques impliqués dans l’interaction. On peut donc supposer que
l’adaptation prosodique varie au cours du temps, fonction par exemple de l’engagement des
interlocuteurs, comme cela a été observé pour l’anglais dans De Looze et Rauzy (2011) et
Vaughan (2011). Afin de mesurer les dynamiques de l’adaptation inter-personnelle, les valeurs
de convergence et de synchronie sont extraites dans notre modèle à partir de fenêtres glissantes,
similaires à celles utilisées pour la méthode TAMA. Dans notre étude, pour chaque conversation,
chaque fenêtre d’analyse correspond à 10 fenêtres d’extraction des caractéristiques prosodiques
TAMA 2 ; le pas d’analyse est fixé à 5. La force d’adaptation est donc calculée sur une période
de 100 sec. toutes les 50 sec. Pour mesurer l’évolution de l’adaptation au cours de plusieurs
conversations, le modèle calule les ratios (ou pourcentages) des états de synchronie et de
convergence pour chaque conversation.
3
Données et hypothèses
Pour cette étude, nous avons sélectionné les conversations téléphoniques de 6 locuteurs japonais
(3 hommes et 3 femmes formant 4 paires) du corpus JST ESP (Campbell, 2004) ; un total de 40
conversations (10 pour chaque paire et chacune d’une durée de 30 minutes) enregistrées sur
une période de plusieurs mois. Pour chaque conversation, les locuteurs étaient libres de parler
de ce qu’ils voulaient. Par ailleurs, ils ne se connaissaient pas au début des enregistrements.
Ce corpus nous permet de tester deux hypothèses : (1) l’adaptation inter-personnelle est un
phénomène dynamique, qui augmente et diminue plusieurs fois au cours du temps ; (2) les 7
états théoriquement définis en 2.1 sont observables en interaction conversationnelle.
2. fenêtres d’extraction décrites en 2.2.
325
4
4.1
Résultats
Dynamiques intra-conversation
Nos analyses révèlent que pour toutes les conversations, plusieurs phases de synchronie, de
synchronie symétrique, de convergence, de divergence et de maintien sont détectées (cf. figure
3). Par ailleurs, les analyses ANOVA (méthode Tukey-Kramer) montrent que le nombre de phases
de synchronie pour les paramètres med-f0 et sd-f0 est plus élevé que pour le paramètre syllsec
(p<0.01). Excepté pour une paire de locuteurs, le nombre de phases de synchronie pour les
paramètres med-f0 et sd-f0 est aussi plus élevé que pour le paramètre sd-Int (p<0.01). De plus,
le nombre de phases de convergence pour les paramètres med-f0 et sd-f0 est plus petit que pour
les paramètres syllsec, sd-Int et med-Int (p<0.01).
FIGURE 3 –
Données extraites pour chaque locuteur (locuteur 1 en bleu, locuteur 2 en vert) pour chaque
fenêtre d’analyse (axe des abscisses) : les deux graphiques du haut représentent les valeurs
obtenues pour le paramètre med-f0 (donné en Hz sur l’axe des ordonnées à gauche), les deux
graphiques du bas les valeurs obtenues pour le paramètre syllsec (donné en nombre de syllabes
par seconde sur l’axe des ordonnées à gauche). Les valeurs de synchronie et de synchronie
symétrique sont représentées dans les graphiques de gauche par la ligne en pointillés rouge
(valeurs comprises entre -1 et 1, axe des ordonnées à droite). Les phases de synchronie sont
colorées en rose, les phases de synchronie symétrique en vert. Les valeurs de convergence et
de divergence sont représentées dans les graphiques de droite par la ligne en pointillés rouge
(au centre, la convergence/divergence est lente ; aux extrêmes de l’axe des ordonnées, elle est
rapide). Les phases de convergence sont colorées en rose, les phases de divergence en vert. Les
lignes en gras représentent le locuteur le plus convergeant/divergeant.
4.2
Dynamiques inter-conversations
L’étude de l’évolution des ratios de synchronie/asynchronie et convergence/divergence révèle
que le degré d’adaptation inter-personnelle est spécifique à l’interaction. Pour les 4 paires de
locuteurs, et pour tous les paramètres prosodiques, ces états varient d’une conversation à l’autre,
et ce, de façon non-linéaire.
4.3
Co-occurence des états d’adaptation
L’étude de co-occurence temporelle des états d’adaptation (à partir des graphiques de couleurs
en 4) montre que les sept états définis en 2.1 sont observés en interaction conversationnelle.
Les états sont observés le plus fréquemment individuellement : l’état de convergence est très
peu observé en simultané avec l’état de synchronie ; de même, l’état de divergence est très peu
326
observé en combinaison avec l’état de synchronie symétrique. Aussi, nous observons que les états
de convergence et de synchronie symétrique apparaissent simultanément assez fréquemment
pour les paramètres sd-Int et syllsec.
FIGURE 4 – Co-occurences des états de synchronie (S), de synchronie symétrique (Ss), de convergence (C),
de divergence (D) et de maintien (M), pour toutes les paires et toutes les conversations ; de gauche à droite
pour les paramètres sd-f0, med-f0, med-Int, sd-Int et syllsec. Une couleur chaude réfère à une combinaison
très fréquente, une couleur froide à une combinaison peu fréquente.
5
Discussion et conclusion
Dans cet article, nous avons proposé un modèle pour la mesure automatique des dynamiques de
l’adaptation prosodique en interaction conversationnelle. Nous avons proposé que l’adaptation
prosodique peut être observée et mesurée à partir d’un ensemble de sept états et qu’elle varie au
cours du temps (intra- et inter-conversations).
Notre étude montre tout d’abord que les états définis dans notre modèle sont observables à
partir de conversations téléphoniques tenues en japonais et que les états les plus fréquents
sont ceux observés individuellement. Elle corrobore aussi les observations d’études récentes
menées sur l’anglais et confirment que l’adaptation prosodique est un phénomène dynamique :
l’adaptation prosodique n’augmente pas linéairement mais varie plusieurs fois au cours d’une
conversation. Elle varie aussi au cours du temps (inter-conversations) ce qui suggère qu’elle est
plutôt spécifique à l’interaction. Ce travail doit être maintenant complété par plus d’investigations
afin de déterminer quelles phases d’adaptation prosodique détectées sont fonctionnellement
pertinentes en interaction conversationnelle et quelle(s) méthode(s) (i.e. tours, TAMA, hybride),
fenêtre(s) et pas d’analyse (i.e. durée) permettent une description plus fine des dynamiques de
l’adaptation prosodique. Notre étude (intra-conversations, section 4.1) révèle par ailleurs que
les locuteurs ont tendance à synchroniser les variations temporelles de leur registre plutôt que
converger vers des registres similaires ; ils ont au contraire tendance à converger vers un débit de
parole similaire plutôt qu’à adapter temporellement leurs variations de débits. Si ces résultats
nécessitent plus ample investigation, ils suggèrent que l’adaptation prosodique est contrainte
par différents facteurs qui présagent des états à partir desquels elle est observée. On peut par
exemple supposer que des contraintes physiques soient la cause d’une adaptation synchrone
plutôt que convergente des registres des locuteurs. On peut aussi supposer qu’une perception plus
difficile des changements de vitesse d’articulation que des changements de registre se traduise
par une vitesse de parole convergente plutôt que synchrone. Cette étude mériterait aussi une
investigation systématique du degré d’adaptation de chaque locuteur pour chaque paire, la
littérature soulignant une adaptation plus importante chez les femmes et les dyades du même
sexe.
Remerciements
Ce travail a été effectué dans le cadre du projet FASTNET - Focus on Action in Social Talk :
Network Enabling Technology financé par Science Foundation Ireland (SFI) 09/IN.1/I2631.
327
Références
BRENNAN, S. (1996). Lexical entrainment in spontaneous dialog. Proceedings of ISSD, pages
41–44.
CAMPBELL, N. (2004). Speech and expression ; the value of a longitudinal corpus’. In Proceedings
4th International Conference on Language Resources and Evaluation (LREC’04), pages 183–186.
CHARTRAND, T. et BARGH, J. (1999). The chameleon effect : The perception–behavior link and
social interaction. Journal of personality and social psychology, 76(6):893.
COULSTON, R., OVIATT, S. et DARVES, C. (2002). Amplitude convergence in children’s conversational speech with animated personas. In Seventh International Conference on Spoken Language
Processing.
DE JONG, N. et WEMPE, T. (2009). Praat script to detect syllable nuclei and measure speech rate
automatically. Behavior research methods, 41(2):385–390.
DE LOOZE, C. et RAUZY, S. (2011). Measuring speakers’ similarity in speech by means of prosodic
cues : methods and potential. In Proceedings of Interspeech 2011, pages 1393–1396. ISCA.
DUNCAN, S., FRANKLIN, A., PARRILL, F. et WELJI, H. (2007). Cognitive processing effects of social
resonance in interaction. Proceedings Gesture 2007-The Conference of the International Society of
Gesture Studies, Evanston, IL.
GILES, H., COUPLAND, N. et COUPLAND, J. (1991). Accommodation theory : Communication,
context, and consequence. Contexts of accommodation : Developments in applied sociolinguistics,
pages 1–68.
KOUSIDIS, S., DORRAN, D., MCDONNELL, C. et COYLE, E. (2008). Times series analysis of acoustic
feature convergence in human dialogues. Interspeech.
LEVITAN, R. et HIRSCHBERG, J. (2011). Measuring acoustic-prosodic entrainment with respect to
multiple levels and dimensions.
MAGANTI, H., MOTLICEK, P. et GATICA-PEREZ, D. (2007). Unsupervised speech/non-speech
detection for automatic speech recognition in meeting rooms. In Acoustics, Speech and Signal
Processing, 2007. ICASSP 2007. IEEE International Conference on, volume 4, pages IV–1037.
IEEE.
MELTZOFF, A. et MOORE, M. (1977). Imitation of facial and manual gestures by human neonates.
Science, 198(4312):75.
NISHIMURA, R., KITAOKA, N. et NAKAGAWA, S. (2008). Analysis of relationship between impression
of human-to-human conversations and prosodic change and its modeling. In Ninth Annual
Conference of the International Speech Communication Association.
PICKERING, M. et GARROD, S. (2004). Toward a mechanistic psychology of dialogue. Behavioral
and Brain Sciences, 27(02):169–190.
RICHARDSON, M., MARSH, K., ISENHOWER, R., GOODMAN, J. et SCHMIDT, R. (2007). Rocking
together : Dynamics of intentional and unintentional interpersonal coordination. Human
Movement Science, 26(6):867–891.
TICKLE-DEGNEN, L. et ROSENTHAL, R. (1990). The nature of rapport and its nonverbal correlates.
Psychological Inquiry, 1(4):285–293.
VAUGHAN, B. (2011). Prosodic Synchrony in Co-operative Task-based Dialogues : A Measure of
Agreement and Disagreement. In Proceedings of Interspeech 2011, pages 1865–1868. ISCA.
328