Les illusions McGurk dans la parole : 25 ans de recherches

Transcription

1
Les illusions McGurk dans la parole : 25 ans de recherches
Titre courant : L’effet McGurk
Colin, C. (1) (2) & Radeau, M. (1) (2)
(1)
(2)
Unité de Recherche en Neurosciences Cognitives CP 191, Université Libre de Bruxelles, 50,
av. Roosevelt, B-1050 Bruxelles, Belgique.
F.N.R.S., Belgique.
Correspondance :
Cécile Colin
Unité de Recherche en Neurosciences Cognitives
CP 191
Université Libre de Bruxelles
50, av. F. Roosevelt
1050 Bruxelles
Belgique
e-mail : [email protected]
2
The McGurk illusions in speech : 25 years of research
When presented with an auditory /b/ dubbed onto a visual /g/, listeners sometimes perceive a
fused phoneme like /d/ while with the reverse presentation, they experience a combination such as
/bg/, two kinds of illusions that were reported by McGurk and MacDonald (1976).
The aim of this paper is to review research on the McGurk effect and on the underlying
cognitive processes. Different experimental manipulations that are likely to modulate the size of the
effect are examined, among which spatial separation and temporal desynchronisation between the
signals, vocalic and consonantic environment, articulation rate, stimulus quality, cognitive influences,
cross-linguistic differences, … Data from studies bearing on the issue of the level of processing at
which audiovisual integration occurs relative to phonetic categorization are considered. The place of
the McGurk effect in current theories of speech perception is also discussed, as well as the
development of the effect during childhood, and finally the possible cerebral bases.
Keywords : audiovisual integration, speechreading, speech perception
3
Résumé
Lorsque la vision et l’audition fournissent des signaux de parole incongrus, deux types
d’illusions (fusions et combinaisons) ont été rapportées (McGurk et MacDonald, 1976). L’objectif de
cet article est de faire le point sur l’état des connaissances relatives à l’effet McGurk.
Nous considérons les divers paramètres susceptibles de moduler la taille de l’effet. Nous nous
interrogeons ensuite sur le niveau de traitement auquel se produit l’intégration par rapport à la
catégorisation phonétique. Nous discutons également de la place de l’effet dans les différentes théories
de perception de la parole, ainsi que du développement de l’effet et de ses bases cérébrales possibles.
Mots-clés : Intégration audiovisuelle, lecture labiale, perception de la parole
4
La complémentarité de l’audition et de la vision dans la perception de la
parole
La perception de la parole a longtemps été considérée comme un processus purement auditif.
En effet, dans de nombreuses situations de communication (conversation téléphonique, écoute de
programmes radiophoniques, …), la parole auditive est la seule source d’information disponible et elle
semble suffisante pour atteindre un niveau de compréhension satisfaisant.
Durant la seconde moitié du vingtième siècle, de nombreuses études ont mis en évidence
l’apport essentiel de l’information visuelle dans la perception de la parole. Sumby et Pollack (1954)
sont parmi les premiers à avoir montré que l’intelligibilité d’un signal acoustique (des mots mono-, biou trisyllabiques), mêlé à du bruit, était fortement améliorée par la lecture labiale. Celle-ci contribuait
d’autant plus à la perception de la parole que le bruit était important. Ces résultats ont été largement
reproduits lors d’études ultérieures menées en anglais (Erber, 1969 ; Dodd, 1977 ; Middleweerd et
Plomp, 1987 ; MacLeod et Summerfield, 1990). Ils ont été reproduits par Mohamadi et Benoît (1992)
pour le français. La lecture labiale s’avère également extrêmement bénéfique chez les personnes
souffrant de déficience auditive. Elle contribue notamment à l’acquisition du langage oral chez les
enfants sourds (Dodd, McIntosh et Woodhouse, 1998).
L’influence de la parole visuelle ne se limite pas aux situations dans lesquelles le signal auditif
est dégradé. Elle améliore la compréhension d’un signal de parole clair, mais comprenant un contenu
sémantiquement complexe (Reisberg, McLean et Goldfield, 1987), ou prononcé dans une langue
étrangère (Davis et Kim, 1998), ou encore prononcé dans la langue maternelle mais par un locuteur
parlant avec un accent étranger (Burnham, 1998). Dans des conditions normales d’écoute, elle
améliore également la compréhension de la parole conversationnelle (Cerrato et Leoni, 1998) ou celle
de logatomes VCVCV1 (Benoît, Mohamadi et Kandel, 1994). Enfin, Mills (1987) a montré que des
1
C = consonne ; V = voyelle
5
enfants aveugles, d’une moyenne d’âge de deux ans, acquéraient plus lentement que les voyants des
sons caractérisés par une articulation clairement visible (des bilabiales comme /b/, /m/, …) et qu’ils
commettaient des erreurs spécifiques à leur déficit (substitution d’un phonème par un autre
appartenant à une catégorie visuelle différente).
L’augmentation de l’intelligibilité de la parole par l’information visuelle est en toute logique
due au fait que cette dernière est complémentaire de l’information auditive (Summerfield, 1987). Pour
les consonnes, Miller et Nicely (1955) ont souligné que le lieu d’articulation (spécifié par des
changements acoustiques rapides, de faible intensité) est difficile à isoler du signal auditif présenté
seul. Ce dernier fournirait par contre l’information relative au mode d’articulation et au voisement.
Ces constatations ont été confirmées par Smeele et Sittig (1991). Ces auteurs ont demandé à des
participants néerlandophones d’identifier des consonnes placées dans différents contextes syllabiques.
La présentation était visuelle, auditive ou audiovisuelle. Dans la condition visuelle, le lieu
d’articulation était le trait le mieux transmis. Dans la condition auditive, le mode d’articulation était
bien perçu tandis que les scores relatifs au lieu étaient très faibles. L’information concernant les traits
phonétiques n’était cependant pas transmise exclusivement par l’une ou l’autre modalité sensorielle
puisque la perception bimodale était meilleure que la somme des deux conditions unimodales. RobertRibès, Schwartz, Lallouache et Escudier (1998) ont décrit le même type de résultats pour les voyelles
du français.
Une étude de Rosen, Fourcin et Moore (1981) a bien illustré cette complémentarité entre
audition et vision. La fréquence fondamentale (F0), qui présentée seule n’est pas intelligible, constitue
pourtant un indice important dans la compréhension du langage. La F0 n’est quasiment pas détectable
via la modalité visuelle mais la complète bien. Les auteurs ont montré que les performances en lecture
labiale augmentaient considérablement lorsque l’information acoustique de la F0 était disponible.
Breeuwer et Plomp (1985) ont obtenu le même type de résultats en utilisant les fréquences des premier
et second formants (F1 et F2) à la place de la F0.
6
L’effet McGurk ou la perception de la parole audiovisuelle incongrue
Le rôle crucial de la lecture labiale, ainsi que le caractère spontané et irrépressible de son
utilisation, s’illustrent particulièrement bien lorsque la vision et l’audition fournissent des signaux
incongrus. Pour preuve, la présentation d’un message acoustique parfaitement audible en même temps
que des mouvements articulatoires correspondant à un message différent donne souvent lieu à un
percept qui ne correspond pas à l’information auditive mais intègre des traits du signal visuel. Cette
illusion, mise en évidence par McGurk et MacDonald en 1976, démontre que le système perceptif
utilise l’information visuelle même lorsque le signal auditif est clair et non ambigu. McGurk et
MacDonald (1976) ont doublé des syllabes auditives de type CV redoublées, comme /baba/, de
mouvements articulatoires correspondant à d’autres syllabes, comme /gaga/, et ont observé deux types
d’illusions : des fusions et des combinaisons. Lorsque la consonne vélaire était présentée visuellement
et la bilabiale auditivement, la perception qui en résultait était, chez 98% des adultes, une fusion entre
les deux informations (/dada/). Par contre, la présentation d’un /baba/ visuel doublé d’un /gaga/ auditif
suscitait une réponse de type combinaison, telle que /baga/, /gaba/, /gabga/ ou /bagba/ chez 54% des
adultes. Ces premiers résultats ont été confirmés dans une étude ultérieure utilisant davantage de
consonnes (MacDonald et McGurk, 1978).
Notons qu’en présence d’un /ga/ auditif doublé d’un /ba/ visuel, la combinaison la plus
courante est /bga/. Puisque à l’initiale d’un item monosyllabique, l’information visuelle articulatoire
précède l’information auditive, le lieu d’articulation est donc identifié plus vite via la modalité visuelle
que via la modalité auditive. Selon Smeele, Sittig et van Heuven (1994), ceci explique en partie
pourquoi les combinaisons sont plutôt de type /bg/ que /gb/. Une autre explication, complémentaire, a
été proposée par Massaro et Cohen (1993 ; voir aussi Cathiard, 1994). Un facteur déterminant de la
formation de combinaisons de type /bg/ serait la compatibilité entre la configuration articulatoire du
signal visuel et celle du percept combinaison attendu. Ainsi, les percepts /gb/ seraient peu fréquents à
7
cause de la grande différence de configuration articulatoire entre /b/ et /gb/ alors que les articulations
de /b/ et de /bg/ sont plus semblables.
Outre les réponses de type fusion ou combinaison, on observe parfois des captures visuelles.
La modalité visuelle domine alors complètement le percept. En présentant tous les doublages possibles
des syllabes auditives et visuelles /va/, /da/, /Da/ et /ba/, Repp, Manuel, Liberman et Studdert-Kennedy
(1983) ont obtenu de très hauts pourcentages de captures visuelles. Rosenblum et Saldaña (1996) ont
également montré que la présentation d’un /ba/ auditif avec un /va/ visuel donnait lieu à la perception
de /va/. De nombreux exemples de captures ont également été rapportés entre des syllabes visuelles et
auditives ayant des lieux d’articulation plus éloignés. Ainsi, bien que dans le cas d’un /ga/ auditif
doublé d’un /ba/ visuel la réponse attendue soit une combinaison (/bga/), il arrive fréquemment que la
réponse fournie soit /ba/ ; de même, avec un /ga/ visuel doublé d’un /ba/ auditif, des réponses /ga/ sont
parfois observées (McGurk et MacDonald, 1976 ; Colin, Radeau, Deltenre, Demolin et Soquet , 2002).
Enfin, l’effet McGurk peut aussi être mis en évidence sous forme de biais de catégorisation au
sein de continua auditifs ou visuels synthétiques. Ainsi, par exemple, dans certaines études de Massaro
(1987 ; 1998a), neuf pas le long d’un continuum auditif /ba-da/ sont combinés avec un visage
articulant /ba/ ou /da/. Les participants doivent décider s’ils perçoivent /ba/ ou /da/. On constate que la
contribution du signal visuel est d’autant plus importante que la source auditive est ambiguë.
Depuis les premières études de McGurk et MacDonald, l’effet McGurk a été reproduit et
réexaminé par de nombreuses équipes de recherche. Un aperçu de ces différentes études et des
pourcentages d’illusions auxquels elles ont donné lieu est présenté dans le tableau I.
Insérer le tableau I ici
L’examen du tableau I montre que pour certaines des études présentées, un grand nombre
d’informations méthodologiques manquent. Ceci s’explique probablement par le fait qu’une partie
importante des études citées ont été publiées sous forme de « proceedings », format imposant des
8
limitations d’espace et ne permettant pas de donner tous les détails méthodologiques ou de présenter
les analyses de résultats complètes. En ce qui concerne le texte, bien que nous citions dans la mesure
du possible tous les articles de « proceedings » disponibles, il nous a souvent été difficile d’intégrer
complètement les données faute d’information suffisante.
Pour une revue des travaux relatifs à la perception audiovisuelle de la parole, nous renvoyons
les lecteurs aux livres, thèses et articles suivants : Benoît et Campbell (1997), Burnham, Robert-Ribès
et Vatikiotis-Bateson (1998), Campbell, Dodd et Burham (1998), Cathiard (1988/1989 ; 1994), Colin
(2001), Dodd et Campbell (1987), Massaro (1987 ; 1998a), Massaro, Light et Geraci (2001), RobertRibès (1995), Stork et Hennecke (1996) et Vroomen (1992).
En dépit du nombre important d’études consacrées à l’effet McGurk, les mécanismes sousjacents à cet effet ne sont toujours pas complètement élucidés. Les différentes théories de perception
de la parole que nous développerons plus loin ne fournissent pas de cadre détaillé d’explication de la
phénoménologie complexe des différents types d’illusions observées.
Une première tentative, partielle, d’explication a été avancée par MacDonald et McGurk
(1978) eux-mêmes dans leur théorie VPAM (Visual Place – Auditory Manner theory ou théorie du
lieu visuel – mode auditif). Suivant cette théorie, le mode d’articulation serait identifié à partir de
l’entrée auditive uniquement, tandis que le lieu d’articulation serait fourni par le signal visuel
uniquement. Dans une situation de conflit audiovisuel, la perception résultante serait le stimulus
s’accordant le mieux avec ces données. A titre d’exemple, lorsqu’un /b/ auditif est combiné à un /g/
visuel, le /d/ qui en résulte partage le mode d’articulation du stimulus auditif et le lieu postérieur (donc
peu visible) de la consonne visuelle. Cependant, cette théorie ne rend pas compte de la situation
inverse où un /g/ auditif doublé d’un /b/ visuel entraîne la perception d’un groupe consonantique :
/bg/.
Un peu plus tard, Summerfield (1987) a précisé et complété l’hypothèse VPAM. Selon sa
théorie de Fonction de transfert du tractus vocal, le percept illusoire qui surviendra le plus
probablement en cas de conflit audiovisuel sera la consonne se confondant auditivement le plus
9
facilement avec la consonne acoustique effectivement présentée et étant la plus compatible
visuellement avec la consonne visuelle présentée. Ainsi, lorsque qu’un /b/ auditif est doublé d’un /g/
visuel, la fonction de filtre la plus compatible avec les signaux des deux modalités correspondra au
percept /d/ (ou /D/ pour les anglophones). Comme l’illustrent les données de Miller et Nicely (1955),
un /b/ acoustique se confond aisément avec un /d/. D’autre part, le /g/ visuel est similaire à /d/. En
effet, pour un /g/, l’observateur peut voir que la langue se dirige vers l’arrière de la bouche mais ne
peut voir la localisation précise. Dans le cas de la présentation inverse (/b/ visuel sur /g/ auditif), les
données visuelles de fermeture de la bouche sont très fortes et supplantent la faible donnée acoustique
d'une montée de fréquence du deuxième formant. La fonction moyenne sera interprétée comme /b/. Au
seuil d’ouverture de la bouche, les données visuelles de la fonction de filtre deviennent ambiguës. Les
données acoustiques indiquent que les fréquences des deuxième et troisième formants divergent ; d'où,
la perception d'une consonne vélaire, /g/. La perception globale qui en résulte sera donc /bg/.
L’interprétation de Summerfield peut être reliée à la notion de saillance perceptive. Selon
Colin et al. (2002), l’obtention de l’une ou l’autre forme d’illusion semble dépendre du poids perceptif
plus ou moins grand de l’information visuelle et acoustique. Visuellement, la saillance serait plus
importante pour les consonnes bilabiales que pour les vélaires (pour des données en anglais : Walden,
Prosek, Montgomery, Scherr et Jones, 1977 ; Benguerel et Pichora-Fuller, 1982 ; pour le français :
Mourand-Dournier, 1980 ; Gentil, 1981 ; Colin, Radeau, Demolin et Soquet, 2000). Phonétiquement
cependant, la saillance augmente à mesure que le point d’occlusion recule dans la bouche, l’énergie de
l’explosion étant plus importante pour les consonnes vélaires que pour les bilabiales (Dorman,
Studdert-Kennedy et Raphael, 1977). Dans le cas des combinaisons, où l’on perçoit à la fois la
composante acoustique et la composante visuelle, l’information visuelle d’une bilabiale /p/ ou /b/ est
tellement saillante qu’elle ne peut être ignorée ; il en est de même pour l’information phonétique
fournie par /k/ ou /g/. Les deux modalités sont donc naturellement combinées. Pour les fusions,
l’information visuelle de la consonne vélaire et l’information acoustique de la bilabiale sont plus
ambiguës. Les « visèmes » /g/ et /k/ sont associés à plusieurs lieux d’articulation possibles, tandis que,
10
sur le plan acoustique, l’explosion des bilabiales est peu saillante. Cette double ambiguïté mènerait à
un percept intermédiaire entre le son et l’image (/d/). Notons cependant que l’hypothèse présentée cidessus n’explique pas l’obtention par Cathiard, Schwartz et Abry (2001) d’un nombre plus important
de percepts /d/ en doublant un /b/ auditif d’un /g/ visuel qu’en doublant un /b/ auditif d’un /d/ visuel.
Conditions d’occurrence de l’effet McGurk
L’effet McGurk est un effet robuste, se produisant dans un grand nombre de contextes. Il ne se
manifeste pas uniquement pour des consonnes dans un contexte CV, mais peut aussi se produire au
sein d’autres structures syllabiques. Il peut prendre place dans un contexte de mots ou de phrases et se
produire avec des voyelles. En outre, les stimuli de parole ne doivent pas obligatoirement être naturels.
L’effet McGurk au sein de différentes structures syllabiques
Dans les études de l’effet McGurk, des monosyllabes de type CV (McGurk et MacDonald,
1976 ; MacDonald et McGurk, 1978 ; Green, Kuhl, Meltzoff et Stevens, 1991 ; Massaro et Cohen,
1993 ; Walker, Bruce et O’Malley, 1995) ou des dissyllabes de type VCV (Bertelson, Vroomen,
Wiegeraad et de Gelder, 1994 ; Munhall, Gribble, Sacco et Ward, 1996 ; Cathiard et al., 2001) sont
habituellement utilisées. Une comparaison systématique de monosyllabes, telles que /ba/, /ga/, … à
des dissyllabes, telles que /aba/, /aga/, … n’a montré aucun avantage de l’une ou l’autre structure
syllabique (Colin, Radeau et Deltenre, 1998a ; Colin, Radeau et Deltenre, 1998b ; Colin, 2001 ).
L’effet McGurk dans des contextes de mots et de phrases
11
Si la majorité des chercheurs ont utilisé des syllabes pour mettre en évidence l’effet McGurk,
Dekle, Fowler et Funnell (1992) ont montré que l’intégration entre la parole auditive et visuelle se
manifestait aussi lorsque les phonèmes critiques étaient placés dans des mots réels. Par exemple,
«mail» (courrier) présenté auditivement et «deal» (négociation) présenté visuellement suscitaient la
perception de «nail» (ongle). Ces auteurs ont, du même coup, infirmé les conclusions contradictoires
d’Easton et Basala (1982) qui n’avaient pas obtenu d’effet McGurk en utilisant des mots. Selon Dekle
et al. (1992), ce résultat négatif était dû à un choix inapproprié de combinaisons audiovisuelles de
mots conduisant souvent à des percepts non-mots. McGurk lui-même (1981) a rapporté que l’effet
pouvait également se produire dans le cadre de phrases. La production acoustique de « my bab pope
me poo brive » doublée des mouvements articulatoires de « my gag koke me koo grive » (deux séries
d’items sans signification) a donné lieu à « my dad taught me to drive » (mon papa m’a appris à
conduire).
L’effet McGurk avec des voyelles
Le phénomène d’intégration entre la modalité auditive et la modalité visuelle ne se manifeste
pas seulement pour les consonnes, mais également pour les voyelles. Avec des paires de voyelles
audiovisuelles incongrues différant au niveau du trait d’arrondissement, Lisker et Rossi (1992) ont
montré que les mouvements articulatoires modifiaient significativement les jugements auditifs, une
voyelle arrondie telle que /y/ recevant moins de jugements d’arrondissement lorsqu’elle était
visuellement accompagnée d’une voyelle étirée, telle que /i/. Abry, Lallouache et Cathiard (1996) ont
également rapporté des effets McGurk avec des voyelles.
En utilisant des continua de voyelles synthétiques auditives variant de /u/ à /a/, de /a/ à /i/ ou de
/i/ à /u/ dans un contexte CVC (comme dans /bad/ par exemple), doublées du visage d’un locuteur
articulant /u/, /a/ ou /i/ (comme dans /bud/ par exemple), Summerfield et McGrath (1984) ont obtenu,
dans les conditions incongrues, des biais de la voyelle acoustique dans la direction de la voyelle
12
visuelle. De tels biais ont également été observés par Massaro et Cohen (1993) avec un continuum
synthétique allant de /i/ à /u/, ces voyelles étant présentées de façon isolée. Un /u/ visuel présenté avec
un /i/ auditif augmentait la proportion de réponses /u/ et vice versa pour le /i/ visuel. Cependant, les
réponses de type combinaison, auxquelles donnent fréquemment lieu les consonnes, étaient, ici,
relativement rares. Selon les auteurs, les informations auditives et visuelles des voyelles auraient une
durée trop longue pour autoriser une perception sérielle, laquelle est à la base des combinaisons qui se
produisent pour les consonnes dont l’information transitoire visuelle et acoustique est brève. Dans une
réplication de l’étude de 1993, Cohen et Massaro (1995) insistent sur le fait que l’influence visuelle
des voyelles est plus faible que celle des consonnes, les voyelles fournissant une information auditive
plus robuste. Toutefois, si l’information est différente, la manière de la traiter serait la même.
L’effet McGurk avec des stimuli synthétiques
Comme nous l’avons déjà mentionné, l’effet McGurk ne nécessite pas l’usage de la parole
naturelle. On l’observe aussi avec des stimuli auditifs synthétiques doublés des mouvements
articulatoires du locuteur. Massaro et Cohen (1990) ont montré que la présentation d’un locuteur réel
n’est pas non plus indispensable. L’influence de la vision sur la perception de la parole se manifeste
aussi lorsque l’articulation est produite par des visages synthétiques. Les stimuli utilisés dans cette
étude étaient des exemplaires de continua de stimuli visuels, croisés avec des exemplaires de continua
auditifs. Notons que dans cette condition, le cas prototypique de fusion n’a pas été démontré. Lorsque
/ba/ auditif était doublé de mouvements articulatoires synthétiques correspondant à /ga/, aucun biais
visuel n’était observé. Par contre, le doublage inverse (/ga/ auditif sur /ba/ visuel) donnait bien lieu à
des combinaisons (Massaro, 1998b).
Variables susceptibles de moduler la taille de l’effet McGurk
13
Si comme nous l’avons vu, l’effet McGurk se produit dans des contextes expérimentaux très
variés, il peut néanmoins se manifester de façon différente en fonction de divers paramètres. Dans la
section présente, nous allons examiner dans quelle mesure la taille de l’effet McGurk peut être
modulée par des variables de bas niveau (tels que la séparation spatiale entre les stimuli auditifs et
visuels, l’orientation spatiale du visage du locuteur et la désynchronisation temporelle), des variables
relatives aux propriétés des stimuli (tels que l’environnement vocalique, l’environnement
consonantique, la langue de test, le débit de parole des locuteurs et la qualité des stimuli auditifs et
visuels) et des variables cognitives.
La séparation spatiale
L’effet McGurk ne semble pas affecté par la séparation spatiale entre l’image du locuteur et
l’origine du signal acoustique. Dans une étude récente, Colin, Radeau, Deltenre et Morais (2001), le
visage du locuteur était présenté droit devant les participants, tandis que le son était émis via des hautparleurs situé de 0° à 80° vers la droite ou vers la gauche, par pas de 20°. Tant les pourcentages de
fusions que ceux de combinaisons étaient de taille comparable quelle que fût la position du hautparleur actif ; en particulier, ils étaient aussi importants pour les positions extrêmes que pour la
position frontale. Ces résultats confirment ceux rapportés par Bertelson et al. (1994) pour des
séparations spatiales relativement modérées (n’excédant pas 37,5°) et par Jones et Munhall (1997)
pour des séparations spatiales importantes (atteignant 90°) dans une étude utilisant toutefois une
méthodologie rendant l’interprétation des données problématique. D’une part, la mesure de l’effet
McGurk n’était pas le nombre de réponses illusoires, mais le nombre de réponses congruentes avec le
stimulus auditif, lesquelles ne sont pas forcément le complément du pourcentage d’illusions. D’autre
part, les stimuli utilisés étaient ceux ayant donné lieu à l’effet McGurk le plus fort sur base d’études
pilotes menées avec plusieurs locuteurs. On ne peut évidemment pas exclure la possibilité que des
14
percepts plus faibles seraient affectés par la séparation spatiale. Enfin, seules les illusions de type
fusions ont été étudiées ; les combinaisons n’ont pas été considérées.
L’orientation spatiale du visage du locuteur
De nombreux auteurs ont montré que l’effet McGurk était altéré lorsque le visage du locuteur
était incliné (Jordan et Bevan, 1997) ou présenté à l’envers (Bertelson et al., 1994 ; Green, 1994 ;
Yakel, Rosenblum, Green, Bosley et Vasquez, 1995 ; Massaro et Cohen, 1996 ; Jordan et Bevan,
1997 ; Colin et al., 2001 ). L’influence de la présentation inversée des stimuli visuels résulte
probablement de la modification de la configuration spatiale des articulateurs (Massaro et Cohen,
1996). Cette dernière s’associe vraisemblablement à une rupture de ce que Abry et al. (1994) appellent
la « cohérence configurationnelle » entre les mouvements articulatoires et le signal auditif. La perte de
cohérence configurationnelle expliquerait donc à la fois l’effet néfaste de la désynchronisation
temporelle et celui de l’inversion du visage du locuteur.
La désynchronisation temporelle
Quelques travaux ont évalué l’influence de la désynchronisation entre un signal auditif et un
signal visuel incongru sur l’intégration audiovisuelle de la parole.
De nombreuses études ont montré qu’un retard du son de quelques centaines de msec
n’affectait pas l’effet McGurk (Jones et Munhall, 1996 ; Massaro, Cohen et Smeele, 1996 ; Munhall et
al., 1996 ; Bertelson, Vroomen et de Gelder, 1997 ). Massaro et Cohen (1993) ont même obtenu une
augmentation du pourcentage de combinaisons avec un retard du son de 200 msec. Selon les auteurs,
le fait que le signal visuel soit traité avant le signal auditif favoriserait l’occurrence de groupes
consonantiques, du moins lorsque les syllabes visuelles et auditives sont congruentes avec ce genre de
15
réponse. Par contre, un retard de l’image par rapport au son affecte l’effet McGurk dès 60 msec. de
décalage (Munhall et al., 1996).
Le fait que l’intégration de stimuli audiovisuels incongrus résiste à des désynchronisations
d’environ 200 msec., du moins pour une avance de l’image sur le son, est compatible avec l’idée d’un
système de stockage sensoriel (e.g. Cowan, 1995), dont la trace persisterait pendant 200 à 250 msec. et
qui permettrait au traitement des stimuli audiovisuels de se poursuivre même lorsque la stimulation
pertinente a disparu. D’autre part, selon Cathiard et Tiberghien (1994), ainsi que selon Abry et al.
(1996), le retard du signal auditif peut être comblé sans conséquence pour l’intégration tant que le son
ne franchit pas la frontière visuelle du geste, c’est-à-dire, tant qu’il ne démarre pas après la fin visible
du geste articulatoire. Aussi longtemps que cette condition est remplie, la « cohérence
configurationnelle » entre les mouvements de la bouche et le signal auditif est maintenue. Or, selon
Abry, Cathiard, Robert-Ribès et Schwartz (1994), ce qui serait critique dans la perception
audiovisuelle de la parole ne serait pas tant la synchronisation que le maintien de cette cohérence. En
tout état de cause, une stricte synchronisation entre les signaux auditifs et visuels n’est pas nécessaire
pour que l’intégration se produise.
L’environnement vocalique
Tous les environnements vocaliques ne semblent pas favoriser l’émergence de l’effet McGurk.
Ainsi, Schorradt, Piroth et Tillmann (1987) ont testé l’influence de /a/, de /i/ et de /u/ sur les illusions
de type fusion. Celles-ci se produisaient peu en contexte /u/ (20%) et étaient plus importantes dans les
contextes /a/ et /i/ (60% dans les deux cas). Green et Kuhl (1988) ont retrouvé cette faiblesse du
contexte /u/ et ont obtenu des illusions plus fortes en contexte /i/ qu’en contexte /a/. Green et
Gerdeman (1995) ont, quant à eux, examiné si la taille de l’effet McGurk pouvait être affectée par une
discordance dans l’environnement vocalique des deux signaux (exemple : /ba/ auditif doublé de /gi/
visuel). Leur expérience incluait également des conditions sans discordance vocalique. Dans ce dernier
16
cas, l’environnement /i/ a produit un plus grand effet McGurk que l’environnement /a/, mais ce
résultat n’était significatif que pour les combinaisons. Récemment, les résultats de Green et ses
collègues ont été confirmés dans une étude montrant que les fusions et les combinaisons McGurk sont
de 3 à 6% plus nombreuses avec /i/ qu’avec /a/ (Colin, 2001).
Dans l’étude de Green et Gerdeman (1995), il y avait également plus de fusions /d/ lorsque
l’environnement vocalique était /i/ et plus de percepts /D/ avec /a/. Le même pattern de résultats a été
obtenu dans d’autres études (Green et al., 1991 ; Green et Norrix, 1997). Selon Green (1996), cet effet
s’explique du fait que, dans un contexte /i/, les transitions formantiques d’un /b/ et d’un /d/ sont
fortement compatibles. Par contre, dans un contexte /a/, les transitions formantiques de /b/ et de /D/
sont plus compatibles que celles de /b/ et de /d/. Par conséquent, dans une langue où la fricative
interdentale n’est pas phonologiquement pertinente (comme en français), la réponse la plus congruente
avec un /b/ auditif et un /g/ visuel pourrait ne pas être le phonème dental /d/ mais le bilabial
(correspondant donc à l’information auditive), du moins dans un contexte /a/. Cette constatation
expliquerait pourquoi, pour les fusions, le nombre de réponses dentales illusoires est plus important
avec /i/ qu’avec /a/. Le fait qu’un phonème dental puisse ne pas être la réponse la plus congruente en
présence d’un /b/ auditif et d’un /g/ visuel a été proposé par Green et Gerdeman (1995) pour expliquer
pourquoi, dans des conditions normales d’écoute, l’effet McGurk est faible en japonais (où le /D/
n’existe pas). En effet, dans leur étude, Sekiyama et Tokhura (1991) n’ont utilisé comme contexte que
/a/. L’utilisation de l’environnement vocalique /i/ dans cette langue pourrait donc augmenter les
pourcentages d’illusions. Bien que cette hypothèse doive encore être testée, il faut mentionner que
Burnham et Keane (1997), avec un locuteur anglophone, ont reproduit l’effet de croisement /a/, /i/ x
/d/, /D/ en japonais, indépendamment de la non pertinence phonologique du /D/ dans cette langue.
L’environnement consonantique (consonnes voisées vs non-voisées)
17
On sait peu de choses de l’influence du voisement sur l’effet McGurk. La plupart des études
ont été réalisées avec des consonnes occlusives voisées, telles que /b/ et /g/. Certains chercheurs ont
utilisé des consonnes voisées et des consonnes non-voisées, mais sans les comparer explicitement.
Que ce soit à partir des résultats de Diesch (1995), ou de ceux de Sekiyama (1997), il n’a pas été
possible de déterminer quel type de consonnes a produit le plus d’illusions. Les données brutes de
Sekiyama et Tokhura (1991) ont indiqué davantage d’influence visuelle avec les consonnes nonvoisées. Cependant, chez MacDonald et McGurk (1978), les fusions semblaient plus nombreuses avec
les consonnes voisées, alors qu’aucune différence n’apparaissait pour les combinaisons.
Colin et al. (2002) ont mis en évidence un effet différentiel du type de consonne sur les deux
sortes d’illusions. Les consonnes non-voisées produisaient plus de combinaisons que les voisées mais
pour les fusions, le pattern avait tendance à s’inverser. Cet effet différentiel du voisement peut
s’interpréter en termes des principes généraux de saillance perceptive sous-jacents à l’occurrence des
combinaisons et des fusions. Il résulterait du poids perceptif plus grand de l’explosion pour les nonvoisées que pour les voisées. L’explosion est un indice important non seulement pour la perception du
lieu d’articulation (Dorman et al., 1977) mais aussi pour celle du voisement : elle est plus intense pour
des consonnes non-voisées que pour des voisées (Calliope, 1989). L’explosion étant plus intense pour
un /k/ que pour un /g/, /k/ est auditivement plus saillant que /g/ et donne donc lieu à plus de
combinaisons. Pour les fusions, c’étaient les consonnes voisées qui donnaient lieu au plus grand
nombre d’illusions, une tendance qui cependant n’était pas statistiquement significative. Du fait de la
moindre intensité de l’explosion, les consonnes voisées sont moins saillantes et donc plus susceptibles
d’être « attirées » par la modalité visuelle et de produire une illusion telle qu’un /d/.
Un autre type d’explication fait intervenir la notion de confusions acoustiques dans le bruit.
Selon Summerfield (1987), le percept audiovisuel émergeant dans l’effet McGurk est la consonne qui
se confond le plus facilement dans le bruit avec la consonne présentée auditivement et qui, de plus, est
la plus compatible avec la consonne présentée visuellement. Les données sur les confusions
acoustiques, dans le bruit, rapportées par cet auteur fournissent quelque support à son hypothèse. Par
18
exemple, un /b/ auditif est moins bien identifié dans le bruit qu’un /p/ auditif. De plus, /b/ est plus
souvent confondu avec /d/ que ne l’est /p/ avec /t/. Ces constatations pourraient expliquer les plus
hauts pourcentages de fusions obtenus avec un /b/ auditif plutôt qu’avec un /p/. Cependant, cette
explication s’applique moins aisément aux combinaisons.
Il faut toutefois noter que l’interaction entre voisement et type d’illusion n’a pas été reproduite
dans deux des études rapportées par Colin (2001).
La langue utilisée
Si la majorité des études relatives à l’effet McGurk ont été conduites en anglais (McGurk et
MacDonald, 1976 ; MacDonald et McGurk, 1978 ; Easton et Basala, 1982 ; Massaro, 1987 ; Green et
al., 1991 ; Green et Gerdeman, 1995 ; Walker et al., 1995, …), il faut reconnaître qu’une quantité non
négligeable de travaux ont été menés dans diverses autres langues (voir le tableau I) : en
néerlandais (e.g. Massaro, Cohen et Smeele, 1995), en allemand (e.g. Tillman, Pompino-Marschall et
Porzig, 1984), en japonais (e.g. Sekiyama et Tokhura, 1991, 1993), en chinois (e.g. Sekiyama, 1997),
en finnois (e.g. Sams, Surakka, Helin et Kättö, 1997), en espagnol (e.g. Fuster-Duran, 1996), en malais
(Hardison, 1996), en coréen (Hardison, 1996), en !Xóõ, une langue africaine à clics (Traill, 1999) et en
français (Cathiard et al., 2001 ; Colin et al., 2001 ; Colin et al., 2002).
Les travaux réalisés dans ces différentes langues révèlent des résultats relativement variables
quant à la robustesse de l’effet McGurk. Par exemple, dans des conditions normales d’écoute, les
Japonais (Sekiyama et Tohkura, 1991 ; 1993) et les Chinois (Sekiyama, 1997) ne sont que peu
sensibles à l’effet. Ces résultats pourraient être interprétés en termes de similarités culturelles entre la
Chine et le Japon (dans les deux cultures, il est considéré comme impoli de regarder le visage du
locuteur) mais aussi en termes d’utilité de l’information visuelle dans ces langues. Le chinois (et le
japonais dans une moindre mesure) sont des langues tonales. Certains mots sont ainsi uniquement
déterminés par leur son et seule la modalité auditive peut fournir des indices désambiguïsants utiles.
19
Cette caractéristique linguistique pourrait expliquer la faiblesse de l’effet McGurk dans ces deux
langues. Remarquons cependant que Massaro, dont la théorie prédit que les mécanismes d’intégration
audiovisuelle dans la parole sont équivalents d’une langue à l’autre (Massaro, 1987) n’a pas obtenu de
différence dans la taille de l’effet McGurk que ce soit en comparant des Japonais, des Espagnols et des
anglophones (Massaro, Cohen, Gesi, Heredia et Tsuzaki, 1993), ou en comparant des néerlandophones
et des anglophones (Massaro et al., 1995), tous testés dans leur langue maternelle.
Les variations notées dans certaines études pourraient résulter, non pas de mécanismes
d’intégration différents, mais du système phonétique propre à chaque langue, de ses contraintes
phonotactiques particulières et de l’importance relative des informations auditives et visuelles.
L’influence des contraintes phonotactiques a été démontrée par Fuster-Duran (1996) dans une
étude portant sur l’effet McGurk auprès d’Allemands et d’Espagnols testés chacun dans les deux
langues. Lorsque /rra/ auditif (trille alvéolaire typique de l’espagnol) était doublé d’un /da/ visuel, les
Espagnols faisaient assez peu de combinaisons de type /dra/. En effet, la syllabe /rra/ est, pour eux,
auditivement très fréquente et très intelligible. La syllabe auditive /rra/ étant inexistante en allemand,
les participants germanophones manifestaient, par contre, énormément de percepts /dra/ lorsqu’elle
était combinée à /da/ visuel. Cependant, même si, de façon générale, les règles phonotactiques
influencent la perception, la plupart du temps on observe malgré tout des percepts violant ces règles.
Comme le montrent les études réalisées en chinois et en japonais, il pourrait y avoir un lien
entre la taille de l’effet McGurk et le degré d’informativité de la modalité visuelle. En effet, si les
Japonais perçoivent effectivement l’information visuelle (ils sont capables de rapporter les
incongruités audiovisuelles), ils ne l’intègreraient pas avec l’information auditive parce qu’elle est
relativement superflue (Burnham, 1998). L’information visuelle serait également d’autant plus utile (et
donc l’effet McGurk d’autant plus fort) que le participant est peu familier avec la langue de test et est
donc contraint d’exploiter au maximum toutes les informations qui sont à sa disposition (FusterDuran, 1996 ; Hardison, 1996 ; Sekiyama, Tokhura et Umeda, 1996 ; Davis et Kim, 1998 ).
20
Contrairement aux deux langues asiatiques pré-citées, en anglais ou en français, le signal visuel
est essentiel pour désambiguïser des contrastes phonétiques proches, notamment celui relatif au lieu
d’articulation. Le fait que beaucoup d’études menées en anglais aient donné lieu à un effet McGurk
important est en accord avec cette observation. En ce qui concerne le français, la situation est plus
complexe. La littérature ne relate que très peu de recherches consacrées à l’effet McGurk.
L’une des rares études habituellement citée dans le domaine est celle de Werker, Frost et
McGurk (1992) dont l’objectif n’était pas d’étudier l’effet McGurk en français mais en anglais sur des
francophones de différents niveaux d’expérience linguistique. A cette fin, les syllabes audiovisuelles
étaient prononcées par un locuteur canadien anglophone. Le matériel consistait en un /ba/ auditif
doublé d’un /ba/, d’un /va/, d’un /da/, d’un /ga/, d’un /Za/, ou d’un /Da/ visuel. Rappelons que
l’interdentale /D/ existe en anglais, mais pas en français. Un groupe d’anglophones et cinq groupes de
Canadiens francophones variant par leur niveau de connaissances de l’anglais, ont été testés. La
proportion de captures visuelles pour le stimulus /D/ a augmenté en fonction de la maîtrise de cette
langue. Les francophones débutant dans leur apprentissage de l’anglais ont assimilé ce « visème » à
celui qui, dans leur langue maternelle, possède le lieu d’articulation le plus proche : /d/. Il ressort de
cette étude qu’un haut degré d’expérience linguistique avec une langue facilite l’utilisation et
l’intégration de la lecture labiale dans la perception de cette langue.
Lors d’études récentes de l’effet McGurk en français (Colin et al., 1998a ; Colin et al., 1998b ;
Colin et Radeau, 1999 ; Radeau et Colin, 1999 ; Colin et al., 2002), il est apparu qu’à un niveau
confortable d’intensité des stimuli auditifs (70 dB), l’effet McGurk était très faible : environ 40% de
combinaisons et presque pas de fusions. Des fusions (environ 25%) n’ont pu être observées qu’en
réduisant l’intensité à 40 dB, condition qui favorisait également l’occurrence d’un plus grand nombre
de combinaisons (entre 50% et 70%). Ces pourcentages sont assez similaires à ceux rapportés par
Cathiard et al. (2001) dans une étude menée sur un large échantillon de francophones (126). Ainsi,
avec /aba/ auditif doublé de /aga/ visuel, la fusion (/ada/) n’était présente que dans 23% des cas, alors
21
que la présentation inverse donnait lieu à 73.5% de combinaisons. Les auteurs ne précisent
malheureusement pas le niveau d’intensité sonore auquel les stimuli ont été présentés.
Les influences possibles du matériel (synchronisation plus ou moins précise induite par
l’utilisation d’une technique analogique ou d’une technique digitale), du locuteur (masculin vs
féminin) et du type de présentation des stimuli (mélange d’essais audiovisuels congruents et incongrus
vs présentation d’essais incongrus uniquement) sur la taille des illusions McGurk en français ont été
examinées par Colin et al. (2002). Parmi ces facteurs, seule la technique de synchronisation utilisée a
eu un effet, la synchronisation digitale suscitant dans l’ensemble 10% d’illusions de plus que la
technique analogique, moins précise.
Le débit d’articulation
L’influence du débit de parole des locuteurs peut être étudiée plus facilement en utilisant des
dissyllabes que des monosyllabes car les changements de débit concernent principalement les pauses
(Miller et Dexter, 1988). Colin (2001), Colin et al. (1998a) et Colin et al. (1998b) ont comparé trois
conditions congruentes de débit : lent, normal et rapide. Dans l’ensemble, la condition lente a suscité
une légère augmentation des pourcentages d’illusions par rapport aux deux autres conditions (un
avantage qui était cependant restreint à certaines conditions expérimentales). Munhall et al. (1996)
ont, quant à eux, manipulé, indépendamment, le débit du signal auditif et celui du signal visuel,
chacun pouvant être lent, normal ou rapide. Alors qu’aucune différence significative n’a été obtenue
entre les trois conditions congruentes, l’effet McGurk diminuait lorsque les débits auditif et visuel
étaient discordants. En particulier, les illusions augmentaient à mesure que le débit visuel était ralenti
ou que le débit auditif s’accélérait. Un débit visuel plus lent laisse plus de temps pour lire sur les
lèvres. Un débit auditif rapide (de même qu’une intensité faible) réduit l’intelligibilité des sons,
augmentant, de la sorte, la nécessité d’avoir recours au signal visuel.
22
Beaucoup de données illustrent l’importance du temps dans le traitement auditif (pour une
revue, voir Mattys, 1997). La perception de la hauteur de sons simples (Massaro, 1972) et
l’identification de voyelles (Massaro, 1974), par exemple, peuvent être fortement améliorées en
augmentant la quantité d’information disponible par allongement du son ou du segment vocalique
présentés ou en augmentant le temps de traitement. Dans la lecture labiale, comme dans la parole
auditive, l’information est délivrée séquentiellement. On peut donc en inférer que le temps de
traitement est également un élément critique. Ralentir le débit pourrait contribuer à désambiguïser le
signal visuel en rendant le lieu d’articulation plus évident, favorisant ainsi l'usage de la modalité
visuelle.
Alors que cette interprétation amènerait à prédire que le ralentissement du débit de parole
pourrait améliorer les performances de lecture labiale (en l’absence de son), toutefois et de façon assez
inattendue, les données disponibles ne plaident pas en faveur d’une influence du débit visuel. Ijsseldijk
(1992) a montré, chez des enfants sourds, que les performances de lecture labiale de mots, de
propositions et de phrases n’étaient pas affectées par le débit de parole visuelle (celui-ci correspondait
à 100%, 50%, 33% ou 25% d’un débit normal). De même, Colin et al. (2000) n’ont observé aucune
influence du débit de parole sur l’intelligibilité de syllabes visuelles pour trois débits (lent, normal et
rapide) représentant 140%, 100% et 70% du débit normal. Les raisons de cette dissociation entre
l’effet du débit de parole sur la parole audiovisuelle incongrue d’une part et sur la lecture labiale
d’autre part restent à déterminer.
La qualité des stimuli
La qualité est une notion connexe à celle d’informativité. Des stimuli de bonne qualité
délivrent plus d’information que des stimuli de qualité médiocre. Comme nous allons le voir, l’effet
McGurk est affecté par la qualité de l’information tant auditive que visuelle.
23
Au niveau auditif, les principales façons de modifier la qualité du stimulus consistent à en
réduire l’intensité ou/et à lui ajouter du bruit. Comme indiqué dans la section précédente, ce type de
manipulation entraîne une augmentation, souvent très significative, de l’effet McGurk (Colin et al.,
2002).
On peut se demander si l’augmentation des illusions dans des conditions d’écoute dégradées
est bien un phénomène perceptif et non stratégique. Des conditions d’écoute défavorables pourraient
en effet déclencher un comportement de type « résolution de problèmes ». Etant incapables d’utiliser
efficacement la modalité auditive, les participants pourraient recourir intentionnellement à la lecture
labiale afin de « deviner » ce qui a été dit. Cette explication semble toutefois peu plausible dans la
mesure où, dans l’étude de Colin et al. (2002), même à 40 dB, 90% des réponses visuelles observées
(cas où seul le signal visuel est rapporté) étaient exemptes d’erreurs relatives au voisement. Si seule la
lecture labiale avait été prise en compte, le voisement n’aurait sans doute été correct que dans 50% des
cas.
L’augmentation du nombre d’illusions par diminution de l’intensité du stimulus auditif ou
ajout de bruit auditif a été rapportée dans d’autres études. Par exemple, en Japonais, Sekiyama et
Tokhura (1991) ont obtenu un très faible effet McGurk dans des conditions normales d’écoute. L’ajout
de bruit auditif leur a permis d’obtenir un effet bien plus important (50% d’augmentation). Pour des
anglophones, testés en anglais, Hardison (1996) a relevé un effet similaire dans une de ses
expériences. Il en était de même dans l’étude de Jordan et Sergeant (1998), également menée en
anglais, où le pourcentage de fusions est passé d’environ 30% (à 55 dB) à 95 % (en ajoutant du bruit
blanc continu d’un niveau de 70 dB aux stimuli). Le lien entre l’influence visuelle sur la perception
auditive et la saillance des stimuli auditifs a même été mis en évidence dans la langue !Xóõ, une
langue à clics (Traill, 1999). Des clics auditifs de faible intensité ont été beaucoup plus influencés par
l’information visuelle que des clics de forte intensité. Notons cependant les données paradoxales de
Kuhl et Green (1988), publiées sous forme de résumé, indiquant une augmentation des nombres de
24
réponses illusoires à mesure que le niveau d’intensité sonore augmentait (de 45 dB à 58 dB et à 66
dB).
L’intensité sonore ne semble pas être le seul facteur à pouvoir exercer une influence sur la
taille de l’effet McGurk, l’intelligibilité auditive du locuteur joue aussi un rôle. Dans une étude menée
en japonais, Sekiyama (1998) a comparé différents locuteurs choisis d’après leur réputation à pouvoir
susciter un effet McGurk faible ou fort. Si les combinaisons étaient peu affectées par le type de
locuteur, les fusions augmentaient de 50% entre un « mauvais » locuteur et un « bon » locuteur. Les
données obtenues lors de conditions unimodales ont montré que ces deux types de locuteurs
différaient principalement sur le plan de l’intelligibilité auditive, un locuteur très intelligible ne
provoquant que peu d’effet McGurk.
Le rôle de la qualité du stimulus dans l’effet McGurk ne se limite pas aux stimuli auditifs. Bien
que Sekiyama (1998) n’ait pas obtenu de corrélation entre la taille de l’effet McGurk et l’intelligibilité
visuelle, il faut noter que cette dernière est pourtant susceptible de varier énormément d’un locuteur à
l’autre, en fonction du débit de parole, de la précision des gestes articulatoires, etc. (Demorest et
Bernstein, 1992 ; Kricos, 1996). Nelson et Hodge (2000) ont montré que l’identification de syllabes
audiovisuelles, en particulier celles qui comportent des occlusives bilabiales, est rendue plus difficile
lorsque le locuteur souffre de paralysie faciale et est donc moins intelligible sur le plan visuel.
D’autres manipulations de la qualité du stimulus visuel ont également été menées. Par
exemple, Fixmer et Hawkins (1998) ont montré que si le nombre de réponses McGurk augmente avec
l’ajout de bruit auditif, il diminue avec l’ajout de bruit visuel (image brouillée). MacDonald, Andersen
et Bachmann (1999) ont, pour leur part, observé que l’effet McGurk diminuait graduellement à mesure
que les stimuli visuels étaient dégradés par un processus de « quantisation spatiale » (procédé
consistant à réduire la résolution d’une image par le moyennage local de pixels).
Jordan et Sergeant (1998) ont comparé l’occurrence de fusions McGurk à différents niveaux de
taille d’image, l’intensité sonore (55 dB) et la distance des participants par rapport à l’écran (1m)
restant constants. L’image avait une taille maximale de 210 cm de haut. Elle a été réduite à 20%, 10%,
25
5% et 2,5% de ce maximum (soit 42 cm, 21 cm, 10.5 cm et 5.25 cm). Les fusions McGurk n’ont
commencé à diminuer qu’à partir de la réduction à 5% et cette diminution était de l’ordre de 20 à 25%.
L’effet McGurk semble donc résister à des réductions assez importantes de la taille de l’image.
Il se manifeste aussi lorsque l’image se limite à des points lumineux reproduisant le mouvement des
lèvres (Rosenblum et Saldaña, 1996). Dans ces deux cas, la dégradation visuelle n’altère pas l’aspect
dynamique des stimulations. Ce n’est, par contre, pas le cas des études de Fixmer et Hawkins (1998),
de MacDonald et al. (1999) et de Nelson et Hodge (2000).
En règle générale, l’effet McGurk semble donc plus robuste lorsque les conditions d’écoute
sont dégradées (en diminuant l’intensité sonore ou en ajoutant du bruit) et lorsque l’aspect dynamique
des stimuli visuels est respecté. Ceci semble valable même dans une langue comme l’anglais, pour
laquelle l’effet McGurk a été décrit comme particulièrement robuste dans des conditions normales
d’écoute.
Les variables cognitives
L'effet McGurk est irrépressible : on ne peut s’empêcher d’y être sensible, même en ayant
parfaitement connaissance des mécanismes de doublage. Cette caractéristique a parfois conduit à
considérer comme impénétrables sur le plan cognitif les mécanismes sous-tendant l’effet McGurk.
Selon Fodor (1983), la notion d'impénétrabilité cognitive implique qu’un système donné effectue ses
traitements sans être affecté, ni par les influences cognitives, comme les croyances, les attentes, ni par
les opérations effectuées par les autres systèmes.
S’il est indéniable que les participants sont sensibles à l’effet McGurk alors même qu’ils sont
conscients du conflit (Repp et al., 1983 ; Summerfield et McGrath, 1984 ; Massaro, 1987 ; Rosenblum
et Saldaña, 1996 ), cela ne signifie pas que l’effet ne soit pas affecté par des manipulations cognitives.
Ainsi, dans l'étude de Summerfield et McGrath (1984), des participants avertis de la manipulation
expérimentale et dont la tâche consistait à répéter ce qu'ils avaient entendu étaient moins influencés
26
par la modalité visuelle que des participants complètement « naïfs » et dont la tâche consistait à répéter
ce que le locuteur avait prononcé (une consigne qui, selon les auteurs, mettait moins l’accent sur la
modalité auditive). Summerfield et McGrath ont suggéré que cette différence entre les deux groupes
pouvait être due à des mécanismes attentionnels mis en jeu lorsque les participants devaient se
concentrer sur la modalité auditive. Les mécanismes attentionnels pourraient donc agir sur les
processus d'intégration audiovisuelle mais sans les inhiber totalement. Amano et Sekiyama (1998) ont
également émis l’hypothèse que l’intégration audiovisuelle pourrait, en partie, dépendre de facteurs
attentionnels. Ces auteurs ont constaté que l’effet McGurk était plus fort lorsque les stimuli
audiovisuels faisaient partie d’un ensemble de petite taille (par exemple, les syllabes /pa/ et /ta/) que
lorsqu’ils appartenaient à un large ensemble de stimuli (par exemple, /pa/, /ta/, /ma/, /na/, /ba/, /ga/,
/da/, /ka/). Ils ont attribué cet effet de taille de l’ensemble des stimuli au fait que lorsque l’ensemble
comprenait de nombreux types de consonnes différentes, les participants se devaient d’orienter
préférentiellement leur attention vers la modalité auditive afin de pouvoir discriminer les différentes
consonnes. Récemment, des effets de l’attention visuelle ont également été mis en évidence par
Tiippana, Sams et Andersen (2001) qui ont obtenu un effet McGurk plus fort en demandant
explicitement aux participants de faire attention au visage du locuteur qu’en leur demandant de prêter
attention à un distracteur visuel présenté au même endroit que le visage (une feuille d’arbre bougeant
lentement sur le visage mais ne masquant pas les lèvres du locuteur).
Des effets de contexte de phrases tels ceux obtenus par McGurk (1988) ont parfois été
considérés comme suggérant le rôle de facteurs cognitifs. Avec la production auditive du mot anglais
«part» (pièce de théâtre) doublée des mouvements articulatoires de «cart» (la charrette), la perception
était «part» après la phrase «the actor played the …» (l’acteur a joué la/le …) , «tart» (tarte) après «the
baker baked the …» (le boulanger a cuit la/le …) et «cart» après «the horse pulled the …» (le cheval a
tiré la/le ...). Ces résultats ont amené McGurk à penser que les deux modalités sont d’abord traitées
séparément et que l’intégration de la parole vue et entendue se produirait à un niveau plus tardif (post-
27
catégoriel). Notons cependant que les influences lexicales pourraient ne pas intervenir au niveau des
mécanismes perceptifs d’intégration, mais au niveau des processus de décision.
Le rôle des influences cognitives a aussi été considéré en manipulant la compatibilité entre le
genre féminin ou masculin du visage et celui de la voix. Les résultats, cependant, ne sont pas tout à
fait cohérents. Alors qu’Easton et Basala (1982) ont observé un effet néfaste de l’incompatibilité de
genre entre visage et voix sur l’effet McGurk, aucune diminution ne s’est manifestée dans une étude
analogue de Green et al. (1991). D’autre part, Walker et al. (1995) ont obtenu une interaction entre
l'incongruité de genre et la familiarité, l'effet McGurk n’étant altéré par une discordance de genre
visage/voix que lorsque le visage du locuteur était familier aux observateurs.
Alors que les mécanismes d'intégration de la parole audiovisuelle semblent résister à la prise
de conscience d'une discordance entre les deux modalités, ils ne seraient donc pas à l’abri d’influences
attentionnelles, lexicales, ou liées à l'identification du locuteur. Cette apparente pénétrabilité cognitive
pourrait néanmoins refléter des processus décisionnels plutôt que perceptifs.
S’il est indéniable que les modalités auditive et visuelle contribuent toutes les deux à la
perception de la parole et si de nombreux éléments nous permettent de comprendre à la fois pourquoi
les signaux auditifs et visuels sont complémentaires et pourquoi leur influence est modulée par
différents paramètres expérimentaux, la question des processus d’intégration reste ouverte. Sur quels
mécanismes cognitifs repose l’intégration multimodale de la parole ? A quel niveau du traitement
perceptif ces mécanismes sont-ils mis en œuvre ? Emergent-ils de façon précoce au cours du
développement, ou se développent-ils après un certain temps d’exposition au langage ? Des aires
cérébrales particulières en constituent-t-elles le substrat neural ? Avant de fournir des éléments de
réponse à ces deux dernières questions, nous allons examiner à quel niveau du traitement de la parole
survient l’intégration audiovisuelle et ensuite nous pencher sur les différentes théories qui tentent
d’expliquer la manière dont elle se produit.
28
Le niveau de traitement auquel se situe l’intégration audiovisuelle
L’intégration est dite tardive si l’on estime qu’elle suit l’intervention du processus de
catégorisation phonétique. Elle est dite précoce si l’on pense qu’elle opère sur des représentations
communes aux deux modalités, élaborées par des mécanismes de bas niveau qui seraient antérieurs à
la catégorisation. Notons que cette problématique a été discutée par Summerfield (1987), Massaro
(1987 ; 1998a), Vroomen (1992) et Schwartz, Robert-Ribès et Escudier (1998).
La théorie VPAM établie par MacDonald et McGurk (1978) pour expliquer l’occurrence de
l’effet McGurk est en complète contradiction avec la notion d’intégration précoce. Selon ces auteurs,
les signaux des deux entrées sont donc d’abord évalués indépendamment par deux processus parallèles
de reconnaissance. Ensuite, les traits phonétiques obtenus à partir de chaque modalité sont fusionnés
dans un espace de représentation commun. Le fait que chaque modalité prenne en charge un groupe
particulier de traits phonétiques constitue le problème majeur de cette théorie. En effet, la dichotomie
lieu visuel /mode auditif n’est pas aussi nette que la théorie le suppose. Par exemple, l’audition
véhicule non seulement l’information concernant le mode d’articulation, mais elle peut également
fournir des indices de lieu d’articulation. La prise en compte simultanée des indices auditifs et visuels
de chaque trait phonétique semble donc plus pertinente (Robert-Ribès, Piquemal, Schwartz et
Escudier, 1996). Dans ce cas, la catégorisation phonétique devrait donc bien prendre place après
l’intégration audiovisuelle.
Contrairement à VPAM, la théorie de Fonction de transfert du tractus vocal proposée par
Summerfield (1987), explique l’occurrence des illusions McGurk sur base d’une intégration précoce.
La perception audiovisuelle de la parole impliquerait l’intégration des estimations auditives et
visuelles de la fonction de filtre (ou de transfert) du tractus vocal. La parole produite résulterait d’un
filtre, variant dans le temps, opérant sur la source de l’énergie acoustique, en fonction des cavités de
résonance du conduit vocal. Le système perceptif calculerait, à chaque instant, une fonction de
transfert du tractus vocal pour le signal auditif et une autre pour le signal visuel. Des fonctions
29
moyennes seraient estimées par la suite. La fonction la plus compatible avec les signaux des deux
modalités serait enfin catégorisée.
La théorie de Fonction de transfert du tractus vocal suppose donc bien que l'intégration
audiovisuelle précède la catégorisation phonétique. Selon Summerfield (1987), ce principe est
obligatoire du fait que la fonction principale du signal visuel dans la perception de la parole est de
désambiguïser l’information acoustique lorsque cette dernière est difficile à catégoriser.
Les quelques arguments qui ont été avancés en faveur du concept d’intégration tardive ne sont
pas totalement convaincants :
-
L’un d’eux est issu d’études relatives à l’adaptation sélective auditive. Plusieurs auteurs (Roberts
et Summerfield, 1981 ; Roberts, 1987 ; Saldaña et Rosenblum, 1994) ont montré qu’un /d/
illusoire (/b/ auditif doublé de /g/ visuel) ne produisait pas d’effet d’adaptation comparable à celui
émanant d’un /d/ acoustique. Il provoquait un effet identique à celui d’un /b/ acoustique. Des
effets d’adaptation sélective ne pourraient donc pas se produire dans le cadre de l’intégration de la
parole audiovisuelle. Ceci a parfois été considéré comme signifiant que l’intégration est
consécutive à la catégorisation phonétique. Une telle interprétation repose toutefois sur
l’hypothèse selon laquelle l’adaptation auditive aurait lieu au moment de la catégorisation
phonétique. Or, selon Schwartz et al. (1998), elle pourrait dépendre de mécanismes auditifs de
niveau plus précoce (par exemple, une adaptation au niveau du nerf auditif).
-
Un autre argument plaidant en faveur de l’intégration tardive a été développé par Munhall et
Tohkura (1998). Ces chercheurs ont examiné le décours temporel de l'intégration audiovisuelle à
l'aide d'un paradigme de dévoilement progressif (« gating ») appliqué à des dissyllabes de type
VCV. Le signal d’une des deux modalités était présenté entièrement alors que celui de l’autre
modalité était dévoilé progressivement. Quelle que soit la modalité manipulée par le processus de
dévoilement, l’effet McGurk a augmenté progressivement avec celui-ci. La modification ne suivait
cependant pas le même décours selon la modalité dévoilée. Elle était linéaire pour la modalité
visuelle, indiquant que la perception de l'information visuelle est continue, variant en fonction de
30
la dynamique d'articulation. Dans le cas de l'information auditive la modification n’était pas
linéaire, certains instants acoustiques, comme l’explosion, étant plus saillants. L'information
auditive de la portion VC était considérablement moins efficace que celle de la portion CV
(l'identification de la consonne étant restée difficile jusqu'à l'explosion). Ces données suggèrent
que l'information dynamique serait extraite séparément pour chaque modalité avant que les
informations visuelle et auditive soient intégrées. Un tel processus d’extraction séparée n’implique
évidemment pas que les deux signaux ont nécessairement été catégorisés complètement avant
d’être intégrés.
-
Enfin, Massaro, Cohen et Thompson (1988) ont mis en évidence un effet McGurk lorsque les
mouvements articulatoires visuels étaient remplacés par des mots écrits. Selon les auteurs,
l’interférence entre mots écrits et signal sonore n’a pu se produire que si ces deux types
d’informations ont été intégrées post-catégoriellement. Ces observations n’ont cependant pas été
reproduites par Fowler et Dekle (1991). De plus, Vroomen et de Gelder (1999) en indiquent
quelques limitations. D'une part, les percepts de type combinaison ne se produisent pas avec la
parole écrite. D'autre part, même s'il y a réellement une interaction entre l'information écrite et
acoustique, rien ne permet de déceler à quel niveau elle se produit. La lecture écrite et la lecture
labiale pourraient très bien interagir avec l'information auditive à des niveaux différents. Alors que
la lecture labiale interagirait avec la parole entendue à un niveau perceptif, l’interaction entre la
lecture écrite et la parole entendue pourrait se produire lors d'une étape de prise de décision. Si tel
est le cas, les données de Massaro et al. (1988) ne permettent aucune conclusion quant à la relation
temporelle entre intégration et catégorisation phonétique.
L’hypothèse d’intégration précoce, quant à elle, est confortée par de nombreux résultats :
-
L’expérience de Rosen et al. (1981), détaillée page 5, démontre que lorsqu’elle est combinée à la
lecture labiale, la F0 contribue fortement à la perception de la parole. Cette observation est
incompatible avec une théorie d’intégration tardive dans laquelle, ni les processus de décodage
31
auditif, ni ceux de décodage visuel n’auraient pu fournir d’indices permettant une décision par
rapport au signal.
-
Green et Miller (1985) ont élaboré des bandes vidéo montrant un locuteur articulant /bi/ ou /pi/
suivant un débit tantôt rapide, tantôt lent. Ils ont doublé ces deux syllabes de différents
exemplaires d’un continuum auditif allant de /bi/ à /pi/ et produits suivant un débit de parole
moyen. Le but était de tester un effet possible du débit visuel sur le jugement d’identité
phonémique des syllabes auditives. Lorsque l’information visuelle changeait d’un débit de parole
rapide à un débit lent, il y avait un changement concomitant au niveau de la localisation de la
frontière phonémique du stimulus auditif vers des valeurs de VOT plus longues. L’information
visuelle relative au débit de parole est donc pertinente pour la perception du voisement. Elle ne
peut, par conséquent, être intégrée à l’information auditive qu’avant la catégorisation phonétique.
-
De plus, Green et Kuhl (1989) ont montré que lorsqu’un continuum auditif allant de /ibi/ à /ipi/
était doublé de l’articulation de /igi/, la frontière de voisement des percepts audiovisuels (qui vont
de /idi/ à /iti/) était déplacée vers des valeurs de VOT plus longues que celles observées lorsque le
même continuum était présenté sans stimulation visuelle. L’information visuelle serait donc
combinée avec l’information auditive avant que la décision d’identité phonétique ne soit prise,
excluant, ainsi, toute possibilité d’une intégration audiovisuelle post-phonétique.
-
Une autre étude de Green et Kuhl (1991) confirme l'idée que l’information auditive de voisement
et l’information visuelle de lieu d'articulation sont traitées comme une unité intégrée plutôt que de
façon séparée. Les auteurs ont construit quatre stimuli audiovisuels en combinant /ibi/ et /ipi/
auditifs à /ibi/ et /igi/ visuels. Des participants devaient classifier chaque stimulus audiovisuel le
plus rapidement possible comme voisé ou non-voisé et comme bilabial ou vélaire. Les temps de
réaction pour l’identification du voisement et du lieu d’articulation ont été plus lents dans une
condition où les stimuli variaient selon les deux dimensions que dans une condition où les stimuli
ne variaient qu’en fonction d’une seule dimension. Les indices auditifs et visuels seraient donc
traités de façon interactive plutôt que séparée.
32
-
Par ailleurs, Green et Gerdeman (1995) ont montré que l’effet McGurk diminuait lorsque les
stimuli auditifs et visuels divergeaient en termes d’environnement vocalique (par exemple, /ba/
auditif doublé de /gi/ visuel). Ce résultat suggère qu’en intégrant la parole audiovisuelle, les
participants sont sensibles à l’information de coarticulation entre une consonne et la voyelle qui la
suit. Si les signaux auditifs et visuels étaient catégorisés avant d’être intégrés, l’information de
coarticulation ne jouerait aucun rôle.
-
L’enregistrement des Potentiels Evoqués cérébraux, et en particulier de la négativité de
discordance (Mismatch Negativity ou MMN), une composante précoce des potentiels évoqués
endogènes, permet d’étudier le décours temporel des mécanismes d’intégration audiovisuelle. La
MMN indexe la détection automatique, pré-attentive, d’une disparité physique d’un stimulus
déviant se produisant occasionnellement dans une séquence homogène de stimuli standards et
présentant une disparité physique par rapport à ces derniers (pour une revue, voir Näätänen, 1992 ;
Lang, Eerola, Korpilahti, Holopainen, Salos et Aaltonen, 1995 ). La MMN est évoquée par des
contrastes acoustiques divers, mais aussi phonétiques. Colin, Radeau, Soquet, Colin et Deltenre
(2002) ont montré que cette composante était évoquée par la présentation occasionnelle de syllabes
audiovisuelles incongrues, apparaissant dans une séquence homogène de syllabes congruentes et
ne différant de ces dernières qu’en termes de mouvements articulatoires visibles, le signal sonore
étant constant tout au long de la séquence. Comme la présentation des mêmes mouvements
articulatoires en l’absence de contexte auditif ne générait aucune MMN, il en résulte que la MMN
de la condition audiovisuelle était générée par la signification phonétique conférée aux
mouvements articulatoires par le contexte auditif. La MMN étant une composante automatique et
pré-attentive, ces résultats suggèrent que les mécanismes d’intégration de la parole audiovisuelle
se produisent à un niveau perceptif pré-attentif et automatique. Bernstein, Ponton et Auer (2001)
ont également obtenu une MMN dans une condition de parole audiovisuelle.
Il semble donc que les informations auditives et visuelles interagissent à un niveau précoce de
traitement phonétique, bien avant que l’information soit appariée avec une représentation phonétique.
33
Les théories de perception de la parole et l’effet McGurk
La Théorie de « Perception à Logique Floue »
Cette théorie proposée par Massaro (1987, 1998a) et connue sous le nom de FLMP (Fuzzy
Logical Model of Perception) ne s’applique pas uniquement aux mécanismes de perception de la
parole, mais a pour objectif d’expliquer les mécanismes généraux de la perception, quelle que soit la
modalité sensorielle d’entrée. L’hypothèse centrale de la théorie postule que la perception (ou
reconnaissance de patterns selon la terminologie de Massaro) implique un ensemble commun de
processus et ce, quelle que soit la nature de ces patterns. La perception de la parole n’est pas associée à
un mode particulier de traitement (comme c’est le cas dans la Théorie Motrice de la perception de la
parole, que nous détaillerons ultérieurement). La reconnaissance de patterns s’effectuerait, pour tous
les types d’entrées, selon un algorithme général décomposé en trois étapes :
-
La première étape, l’évaluation, consiste à convertir les sources d’information disponibles à partir
des systèmes sensoriels en un ensemble de propriétés (référées comme « traits »). A chaque trait
est attribuée une valeur continue qui détermine le degré auquel chaque trait s'apparie au trait
correspondant de chaque prototype en mémoire. Cette étape du FLMP se caractérise par deux
propriétés centrales : d’une part, l'évaluation s’effectue indépendamment pour chaque source,
chacune d’elles étant catégorisée avant d’être intégrée, d’autre part, l’algorithme de perception
attribue à chaque trait une valeur continue. Notons toutefois que la « catégorisation » au sens du
FLMP ne consiste pas à attribuer une étiquette discrète à un stimulus mais plutôt à lui donner des
scores de bonne adéquation avec tous les prototypes possibles.
-
Au cours d'une seconde étape d’intégration, les valeurs de traits sont intégrées les unes aux autres
de façon à déterminer le degré global d'appariement de l'entrée sensorielle avec chacun des
prototypes en mémoire.
34
-
Durant l'étape finale de décision, tous les prototypes sont évalués les uns par rapport aux autres.
Une réponse est alors sélectionnée sur base du prototype le plus consistant avec les indices auditifs
et visuels. Lorsqu’un conflit partiel entre des indices acoustiques et optiques est détecté, le
participant sélectionne la représentation en mémoire la plus consistante avec les indices des deux
modalités et c'est celle-là qui constituera le percept entendu.
Une implication majeure du FLMP est que les signaux des deux modalités sont d’abord
catégorisés avant d’être intégrés. Or, comme nous l’avons vu, l’hypothèse d’intégration tardive trouve
assez peu de support parmi les données expérimentales disponibles.
Les théories perceptives spécifiques de la parole rendent sans doute compte de façon plus
adéquate des données relatives à la parole audiovisuelle. Elles sont décrites ci-dessous.
La Théorie Motrice de perception de la parole
Suivant la Théorie Motrice (Liberman, Cooper, Shankweiler et Studdert-Kennedy, 1967), et
contrairement à la théorie de Massaro (1987, 1998a), les signaux de parole ne sont pas traités d’une
manière identique à n'importe quel événement perceptif, ni même à n’importe quel événement auditif
mais par un système biologiquement distinct et spécialisé. Le signal acoustique étant peu systématique
sur le plan phonétique, il est surtout utilisé pour élaborer des hypothèses concernant l'ensemble des
gestes articulatoires ayant généré ce signal. Les gestes articulatoires du locuteur constitueraient ainsi
les objets de la perception. Dans une telle optique, perception et production sont intimement liées. En
utilisant les gestes qui ont donné lieu au signal de parole acoustique et qu’ils devraient eux-mêmes
exécuter pour produire un signal phonétiquement équivalent, les auditeurs ont la possibilité de
retrouver les « intentions phonétiques » du locuteur. Selon Liberman et ses collaborateurs (1967), ce
sont précisément ces intentions qui sont à la base des catégories phonétiques.
Dans une conception révisée de la Théorie Motrice, Liberman et Mattingly (1985) font
explicitement référence à la notion de module spécialisé et inné développée par Fodor (1983). Le
35
module phonétique serait le produit de l'évolution biologique de l'espèce et serait engagé chaque fois
qu'un stimulus acoustique peut être interprété comme le résultat d'un geste linguistique, interdisant à
l'information phonétique l’accès au système général de perception acoustique (Mattingly et Liberman,
1988). Ce postulat implique l'existence d'un lien sériel entre le module phonétique et les mécanismes
auditifs généraux.
Selon les défenseurs de la Théorie Motrice de la parole, l'effet McGurk, illustre la convergence
d'informations acoustiques et visuelles au niveau du module phonétique. En cas de conflit audiovisuel,
les signaux auditifs et visuels sont convertis en gestes articulatoires. Le percept résultant ne serait pas
bimodal (les contributions optiques et acoustiques au percept ne peuvent être distinguées) mais
réellement phonétique. La perception de la parole deviendrait ainsi hétéromorphique puisque l'objet de
la perception possède des dimensionnalités radicalement différentes de celles du stimulus proximal
(Mattingly et Liberman, 1988).
La perception « directe-réaliste » de la parole
La notion de conversion des signaux auditifs et visuels en gestes articulatoires est partagée par
les défenseurs de la Théorie « directe-réaliste », ou théorie écologique, (Fowler, 1986, 1991 ; Fowler et
Rosenblum, 1991). Cette théorie postule toutefois que la perception de la parole ne possèderait pas de
statut spécial et ne nécessiterait, en aucune façon, le recours à un module spécialisé, inné. La
perception de la parole consisterait en la perception d’événements distaux (les gestes du tractus vocal)
récupérés de façon directe. Le signal acoustique ne serait que le médium physique qui permettrait la
perception directe des gestes articulatoires.
A l’appui de la théorie « directe-réaliste », notons que plusieurs études ont montré, à des degrés
divers, l’existence d’interactions de type McGurk avec des stimuli non linguistiques. Ainsi par
exemple, des jugements auditifs d’intensité de frappes de main sont significativement influencés par la
vue d’une personne frappant des mains avec un degré d’effort ne correspondant pas nécessairement à
36
celui du signal auditif (Rosenblum et Fowler, 1991). De même, des jugements auditifs relatifs aux
sons d’onglet et de corde d’un violoncelle sont influencés par le signal visuel correspondant à l’onglet
ou à la corde. Les effets sont cependant plus faibles que dans une situation McGurk classique utilisant
des sons du langage (Saldaña et Rosenblum, 1993). Un effet McGurk a aussi été obtenu avec des sons
n’appartenant pas à l’inventaire phonémique de la langue testée (des « clics » propres à certaines
langues africaines), mais il était de moindre importance qu’avec des consonnes de la langue maternelle
(Brancazio, 1996).
Un autre argument en faveur de la théorie « directe-réaliste » est qu’un effet McGurk se produit
aussi lorsque la modalité visuelle est remplacée par la modalité tactile, comme dans méthode
TADOMA1. où, plutôt que de voir les mouvements articulatoires du locuteur, on les sent
manuellement (Fowler et Dekle, 1991). Que des participants entendants et voyants soient capables
d’avoir une perception intégrée de signaux auditifs et tactiles (dont ils n’ont aucune expérience, mais
qui sont relatifs aux gestes de parole), suggère qu’ils traitent l’accès direct aux causes distales par des
informations proximales et non à travers des prototypes élaborés par l’expérience, comme la théorie de
Massaro (1987) le suppose.
Le développement des mécanismes d’intégration audiovisuelle
Selon de nombreux auteurs, les enfants représenteraient très précocement la parole de façon
bimodale. Ainsi, par exemple, des bébés de quatre à six mois sont capables d’associer des sons de
parole aux configurations correspondantes de la bouche (Kuhl et Meltzoff, 1982 ; 1984 ; MacKain,
Studdert-Kennedy, Spieker et Stern, 1983 ; Walton et Bower, 1993). Lorsqu’ils sont placés face à
1
Cette méthode de communication permet de percevoir les mouvements des lèvres, de la mâchoire, les vibrations du cou
ainsi que l’air s’échappant de la bouche. A cette fin, on place le pouce sur les lèvres du locuteur et les doigts sur ses joues
et son cou. Le voisement, par exemple, est indicé par une vibration qui peut être ressentie au niveau du cou et de la
mâchoire. Différents modes d’articulation peuvent également être distingués par l’intensité et la concentration de l’air
passant à travers les lèvres (Reed, Rabinowitz, Durlach et Braida, 1985).
37
deux écrans vidéo, présentant chacun simultanément un visage, les bébés préfèrent regarder le visage
dont le geste articulatoire est apparié avec le phonème entendu.
Dans l’optique d’une sensibilité précoce à la parole audiovisuelle, une intégration entre des
signaux audiovisuels discordants devrait également apparaître de façon très précoce. L’observation
d’un effet McGurk chez de très jeunes enfants est évidemment rendue complexe par la difficulté de
mesurer la perception d’enfants n’ayant pas encore accès au langage.
En utilisant des mesures du temps de regard, Rosenblum, Schmuckler et Johnson (1997) ont
mis en évidence une intégration des modalités auditive et visuelle chez des bébés de cinq mois.
L’expérience a été menée à l’aide d’une procédure d’habituation/déshabituation, avec habituation à
des stimuli audiovisuels congruents. Lorsque les enfants étaient habitués à ce stimulus, ainsi que le
montrait la diminution de leur temps de regard, un stimulus incongru était présenté qui pouvait
entraîner (chez l’adulte) la même perception que le stimulus congruent ou une perception différente.
Les bébés ont montré un regain d’intérêt envers les stimuli incongrus suscitant une autre perception
que le stimulus congruent. Dès cinq mois, les enfants seraient donc capables d’intégration
audiovisuelle. En utilisant un paradigme d’habituation/déshabituation assez similaire, Burnham et
Dodd (1996) ont également montré que des enfants de quatre mois et demi sont sensibles à l’effet
McGurk.
Les auteurs admettent cependant qu’en cinq mois, les bébés ont pu disposer d’une expérience
suffisante avec la parole audiovisuelle pour qu’elle serve de base aux effets observés. Les parts de
l’innéité et de l’apprentissage dans l’intégration audiovisuelle sont donc difficiles à évaluer.
L’influence de l’apprentissage est d’autant plus vraisemblable que la sensibilité à l’effet McGurk
semble augmenter au cours de l’enfance.
Comme l’ont montré McGurk et MacDonald (1976), l’effet McGurk est déjà très présent chez
les enfants de trois-quatre ans (+- 60% de fusions et 15% de combinaisons). Il augmente chez les
enfants scolarisés de sept-huit ans (+- 55% de fusions et 40% de combinaisons) et est encore plus
important chez les adultes (+- 90% de fusions et 55% de combinaisons).
38
Des résultats conformes à ceux de McGurk et MacDonald (1976) ont été obtenus par Massaro
(1984) et par Hockley et Polka (1994). Massaro (1984) a comparé l’intégration de la parole
audiovisuelle auprès d’enfants préscolaires (âgés de quatre à six ans) et d’adultes. L’influence de la
parole visuelle était présente chez les enfants, mais dans une moindre mesure que chez les adultes.
Selon Massaro, Thompson, Barron et Laren (1986), les enfants pré-scolaires ont de moins bonnes
capacités en lecture labiale que les adultes, ce qui expliquerait cette différence. Hockley et Polka
(1994) ont testé l’intégration de la parole audiovisuelle incongrue chez des enfants de cinq, sept, neuf
et onze ans, ainsi que chez des adultes. L’influence de l’information auditive décroissait avec l’âge,
tandis que l’influence de l’information visuelle et l’intégration des deux modalités augmentaient avec
l’âge. Le fait que les patterns de réponses évoluent encore entre les enfants les plus âgés et les adultes
indique que les capacités d’utilisation de la lecture labiale continuent à se développer au cours de
l’adolescence.
Desjardins, Rogers et Werker (1997) ont tenté d’établir un lien entre la sensibilité à l’effet
McGurk et les capacités de production de la parole. Des enfants pré-scolaires, âgés de trois à cinq ans,
ont été divisés en deux groupes suivant leurs aptitudes à produire correctement des sons (ceux qui
faisaient des confusions de sons ont été classés dans une catégorie « substituteurs »).
Les
performances de tous les enfants à un test de lecture labiale et leurs réponses dans une situation de
parole incongrue ont été comparées à celles d’adultes. Les scores en lecture labiale étaient meilleurs
pour les adultes que pour les enfants. Parmi les enfants, les scores étaient moins bons pour les
« substituteurs ». La sensibilité à l’effet McGurk a montré la même progression entre « substituteurs »,
« non substituteurs » et adultes. Pour Desjardins et al. (1997), la production des sons de parole et la
perception rétroactive qui en résulte pour l’enfant augmenteraient l’influence de la parole visuelle.
Comme en témoignent les recherches concernant le développement de la parole audiovisuelle,
celle-ci serait basée sur des prédispositions précoces. Le lien entre la parole visuelle et la parole
auditive serait établi dès quatre-cinq mois, âge auquel l’effet McGurk serait également déjà
observable. Toutefois, bien que l’effet McGurk soit présent chez des enfants prélinguaux, il n’est pas
39
aussi robuste chez les enfants que chez les adultes. L’expérience et l’apprentissage auraient pour rôle
de moduler le poids perceptif accordé à l’audition et à la vision en fonction de l’expérience sensorielle
propre à chacun, et notamment, en fonction du développement des capacités liées à la production de la
parole (Desjardins et al., 1997) et à la lecture labiale (Massaro et al., 1986).
Les substrats neuraux des mécanismes d’intégration audiovisuelle
De nombreux travaux, déjà anciens, ont démontré le rôle de l’hémisphère gauche dans la
perception de la parole auditive (par exemple, Kimura, 1961). Bien que la spécialisation
hémisphérique pour le langage demeure controversée, des données plus récentes, utilisant les
techniques d’imagerie cérébrale, ont précisé cette hypothèse. Que ce soit à l’aide de la Tomographie
par Emission de Positrons (TEP) ou de l’Imagerie par Résonance Magnétique fonctionnelle (IRMf), il
est apparu que la perception de sons linguistiques activait des régions temporales gauches (Zatorre,
Evans, Meyer et Gjedde, 1992 ; Mazoyer, Tzourio, Frak, Syrota, Murayama, Levrier, Salamon,
Dehaene, Cohen et Mehler, 1993 ; Binder, Rao, Hammeke, Yetkin, Jesmanowicz, Bandettini, Wong,
Estkowski, Goldstein, Haughton et Hyde, 1994 ; Binder, Frost, Hammeke, Rao et Cox, 1996 ; Zatorre,
Meyer, Gjedde et Evans, 1996).
Certains chercheurs (par exemple, Tallal et Piercy, 1973 ; Ivry et Robertson, 1998 ; LiégeoisChauvel, de Graaf, Laguitton et Chauvel, 1999 ) attribuent toutefois la spécificité de l’hémisphère
gauche dans le traitement de la parole, à une supériorité pour le traitement temporel des sons et non à
une supériorité pour le traitement de l’information phonétique en tant que telle. Cette hypothèse trouve
support dans les récentes études de Zatorre, Belin et Penhume (2002) indiquant une supériorité de
l’hémisphère gauche pour le traitement de l’information temporelle (particulièrement critique pour la
perception de la parole) et de l’hémisphère droit pour celui de l’information spectrale
(particulièrement importante pour la perception de la musique). Une contribution importante de
l’hémisphère gauche a pourtant été observée, chez des personnes sourdes, pour le traitement de la
40
langue des signes (Neville, 1991 ; Hickok, Bellugi et Klima, 1996 ; Neville, Coffey, Lawson, Fischer,
Emmorey et Bellugi, 1997 ; Corina, 1998 ). Or, ce traitement porte plutôt sur des informations visuospatiales que sur des informations temporelles. Par ailleurs, des études de TEP menées par Klein,
Zatorre, Milner et Zhao (2001) suggèrent que les structures de l’hémisphère gauche seraient recrutées
pour le traitement des contours tonaux spécifiquement chez des locuteurs de langues à tons, telles que
le chinois. Les personnes ne connaissant pas ces langues traiteraient les mêmes stimuli via
l’hémisphère droit.
Si le traitement phonétique s’effectue au niveau de l’hémisphère gauche, quelle que soit la
modalité d’entrée, on peut supposer que celui de l’information fournie par la lecture labiale serait
également réalisé à gauche. Toutefois, en tant que procédé utilisant fondamentalement l’information
portée par une partie du visage, ce traitement pourrait également être réalisé par l’hémisphère droit
(Hay, 1981).
Dans le cadre d’une étude neuropsychologique de deux patients, Campbell, Landis et Regard
(1986) ont mis en évidence une dissociation entre traitement linguistique et non linguistique lié au
visage, démontrant l’implication de l’hémisphère gauche dans le traitement de la lecture labiale. De
plus, dans une tâche consistant à apparier, entre elles, des photos de locuteurs articulant la même
syllabe, présentées dans l’un ou l’autre hémichamp visuel, un avantage de l’hémichamp droit
(hémisphère gauche) a été observé (Campbell, de Gelder et de Haan, 1996).
Quelles seraient les aires cérébrales impliquées dans la lecture labiale ? Les travaux de Calvert,
Bullmore, Brammer, Campbell, Williams, McGuire, Woodruff, Iversen et David (1997), utilisant la
technique d’IRMf, indiquent, qu’outre les aires visuelles primaires, la lecture labiale active le cortex
auditif bilatéral (avec une prépondérance gauche). La lecture labiale semble requérir un accès au
traitement phonétique réalisé par l’hémisphère gauche (plus précisément, par le cortex auditif). On ne
peut toutefois pas exclure une implication de l’hémisphère droit dans le traitement de la lecture labiale
puisque celle-ci active également des zones visuelles et auditives droites.
41
Etant donné la dominance de l’hémisphère gauche pour le traitement de la parole auditive et
pour celui de la parole visuelle, on peut supposer que cet hémisphère aura également un rôle
prépondérant dans l’intégration de la parole audiovisuelle.
Un argument en faveur de cette hypothèse est que les appariements des mouvements de la
bouche d’un locuteur avec le son correspondant dont de jeunes enfants de cinq à six mois s’avèrent
capables sont plus nombreux lorsque le visage est présenté dans l’hémichamp droit (MacKain et al.,
1983). Notons toutefois que cet avantage de l’hémisphère gauche obtenu avec des monosyllabes CV
n’a été reproduit ni par Kuhl et Meltzoff (1982) ni par Patterson et Werker (1999) avec des voyelles.
Comme le soulignent Patterson et Werker (1999), les consonnes contiennent de l’information
acoustique changeant rapidement et seul l’hémisphère gauche pourrait traiter ce type d’information.
L’effet d’asymétrie rapporté par MacKain et al. (1983) pourrait ainsi être spécifique aux consonnes.
Un autre argument en faveur d’un rôle prépondérant de l’hémisphère gauche provient de
l’étude de quatre cas neuropsychologiques par Campbell, Garwood, Franklin, Landis et Regard
(1990). Deux patients avaient une lésion postérieure droite et souffraient de prosopagnosie. Ils lisaient,
par contre, sans problème sur les lèvres et étaient sensibles à l’effet McGurk. Les deux autres patients
étaient victimes d’une lésion gauche. Le premier souffrait d’aphasie mais était toujours capable de lire
sur les lèvres et manifestait énormément de captures visuelles face aux stimuli McGurk. Le second,
n’était pas aphasique, mais ne pouvait cependant pas lire sur les lèvres et n’était pas sensible à l’effet
McGurk. Les auteurs suggèrent qu’au sein de l’hémisphère gauche, des fonctions séparées seraient
impliquées dans la lecture labiale et dans la parole auditive. L’intégration audiovisuelle serait réalisée
par un processeur phonologique amodal. Si ce processeur est isolé des entrées auditives, le patient
accordera une importance excessive à la lecture labiale (cas du premier patient atteint d’une lésion
gauche). Si le processeur amodal est déconnecté des entrées visuelles, le patient ne rapportera que
l’information auditive dans le cas de stimuli audiovisuels incongrus (second cas de lésion gauche).
42
Si l’hémisphère gauche exerce un rôle prépondérant dans le traitement de la parole
audiovisuelle, quelques données indiquent cependant que l’hémisphère droit pourrait, lui aussi, y
apporter une contribution non négligeable.
Baynes, Funnel et Fowler (1994) ont exposé des sujets de contrôle droitiers, un patient
commissurotomisé et quatre patients souffrant d’épilepsie (servant de contrôle par rapport au patient
commissurotomisé) à des stimuli audiovisuels incongrus, articulés par un locuteur dont le visage
apparaissait dans l’hémichamp gauche ou droit. Les sujets devaient choisir parmi une paire de mots
écrits présentés dans l’un des deux hémichamps visuels le mot qui correspondait à leur perception.
Chez les sujets de contrôle l’influence visuelle a été la plus importante lorsque les mots écrits étaient
présentés à l’hémichamp droit (hémisphère gauche) et lorsque les visages étaient projetés dans
l’hémichamp gauche (hémisphère droit). Quel que fût l’hémichamp de présentation des stimuli
visuels, le patient commissurotomisé a intégré les informations auditives et visuelles, mais dans une
moindre mesure que les patients épileptiques ou que les sujets de contrôle. Les auteurs ont déduit de
ces résultats que les deux hémisphères contribuent à l’intégration de la parole audiovisuelle.
Diesch (1995) a aussi obtenu des données suggérant un apport des deux hémisphères à l’effet
McGurk. Des réponses de type fusion ont été rapportées plus fréquemment lorsque le visage du
locuteur apparaissait dans l’hémichamp gauche (hémisphère droit), tandis que l’inverse s’est produit
pour les combinaisons. Diesch a interprété l’avantage de l’hémisphère droit pour les fusions en termes
d’analyse visuo-spatiale, une fonction de l’hémisphère droit. En effet, les consonnes visuelles donnant
lieu aux fusions (des vélaires) sont moins saillantes que les bilabiales qui suscitent des combinaisons
et nécessiteraient donc une analyse visuo-spatiale plus élaborée. La supériorité de l’hémisphère gauche
pour les combinaisons a, quant à elle, été attribuée au poids perceptif plus important imposé au codage
phonétique, une fonction de l’hémisphère gauche, par les stimuli complexes impliqués dans ces
percepts. Notons cependant que dans une étude utilisant une méthodologie assez similaire à celle de
Diesch, aucune différence entre les deux hémisphères cérébraux pour le traitement des fusions et des
combinaisons ne s’est manifestée (Colin et Radeau, 1999 ; Colin, 2001 ). Par ailleurs, au cours de
43
l’étude électrophysiologique menée par Colin et al. (2002) et décrite dans la partie relative au « niveau
de traitement auquel se situe l’intégration audiovisuelle », aucune différence inter-hémisphérique
relative à la morphologie de la MMN évoquée par des syllabes audiovisuelles incongrues n’a été
observée.
Au niveau de quels sites neuraux particuliers seraient intégrées les informations des deux
modalités ? A l’aide de l’IRMf, Calvert, Brammer, Bullmore, Campbell, Iversen et David (1999) ont
examiné les zones cérébrales spécifiquement impliquées dans la parole audiovisuelle. Par rapport aux
conditions unimodales, une augmentation d’activation bilatérale s’est manifestée au niveau de la zone
visuelle V5, ainsi qu’au niveau des aires auditives bilatérales (aires de Brodmann 41 et 42). Notons
que l’activation au niveau des aires auditives était plus étendue à gauche qu’à droite. Aucune
contribution émanant d’une autre zone cérébrale, représentant un site possible d’intégration
multimodale, n’a été constatée. Des résultats assez similaires ont été obtenus un peu plus tard par
Callan, Callan et Vatikiotis-Bateson (2001) en utilisant la même technique d’imagerie cérébrale. Des
mots anglais monosyllabiques présentés audiovisuellement (avec ou sans bruit auditif) et visuellement
ont suscité une activation des aires temporales bilatérales (y compris le cortex auditif primaire). Par
ailleurs, les aires de Broca ont été activées par la parole audiovisuelle dans des conditions d’écoute
dégradées mais aussi par la parole visuelle. Ces aires pourraient donc être impliquées dans la
reconnaissance des gestes phonétiques.
Sams, Aulanko, Hämäläinen, Hari, Lounasmaa, Lu et Simola (1991) ont obtenu des résultats
compatibles avec les données de Calvert et al. (1999) en utilisant la magnétoencéphalographie (MEG)
et en considérant uniquement l’hémisphère gauche. La présentation de stimuli audiovisuels incongrus,
parmi une séquence de stimuli congruents, a suscité une activation différentielle au niveau du cortex
auditif supratemporal. Une réplication de cette étude utilisant davantage de canaux et considérant
également l’hémisphère droit, menée par Sams et Levänen (1996), a donné lieu à une activation du
cortex supratemporal bilatérale, mais plus faible à droite. Une grande variabilité dans la spécialisation
hémisphérique a, par ailleurs, été observée entre les participants.
44
En résumé, la perception bimodale de la parole active des aires bilatérales. Comme pour la
parole auditive et la parole visuelle, l’hémisphère gauche semble dominant, mais l’hémisphère droit
n’est pas inactif. Selon Campbell (1998), le rôle de l’hémisphère droit consisterait à présenter
l’information visuelle aux aires corticales gauches afin de l’intégrer à la parole auditive. Ce
mécanisme d’intégration pourrait être réalisé dans un premier temps au niveau d’aires associatives,
encore à déterminer, puis l’information visuelle serait renvoyée au niveau du cortex auditif dont elle
modulerait l’activité.
Conclusions
Lorsque nous sommes confrontés à des stimuli linguistiques audiovisuellement discordants,
nous avons souvent tendance à entendre un percept qui ne correspond pas uniquement à l’information
auditive, mais intègre des traits du signal visuel. Cette illusion perceptive, connue sous le nom d’effet
McGurk, a permis de démontrer à quel point la lecture labiale est utilisée par notre système perceptif
dans la compréhension de la parole, puisqu’elle influence la perception alors même que le signal
auditif est clair et non ambigu.
Dans cet article, nous avons montré que l’intégration des signaux auditifs et visuels dans la
perception de la parole repose sur des mécanismes robustes, puisqu’ils sont mis en œuvre même
lorsque les conditions de perception ne sont pas optimales : par exemple, lorsque les signaux des deux
modalités sont séparés dans l’espace ou sont modérément désynchronisés. En outre, ces mécanismes
d’intégration agiraient de façon automatique et irrépressible. L’effet McGurk se manifeste, en effet,
indépendamment de la connaissance éventuelle qu’ont les participants du phénomène. Rappelons
néanmoins que des influences post-perceptives, décisionnelles par exemple, ne sont pas exclues.
Si l’effet McGurk se manifeste de façon obligatoire dans toute situation de parole incongrue, sa
force est susceptible d’être modulée par différents paramètres expérimentaux. De façon générale, les
règles déterminant la taille des illusions reposent sur des principes de saillance perceptive et de degré
45
d’informativité. De tels principes pourraient ainsi, par exemple, rendre compte de l’augmentation des
illusions avec la diminution de l’intensité sonore.
La mise en évidence de l’effet McGurk a non seulement conduit les psycholinguistes à
envisager la parole comme un phénomène multimodal mais a aussi offert un paradigme d’étude des
mécanismes d’intégration audiovisuelle dans la perception de la parole. Bien que les données
expérimentales demeurent controversées, un grand nombre de résultats plaident en faveur de la
conception selon laquelle les signaux auditifs et visuels sont intégrés à un niveau perceptif précoce,
probablement avant que les signaux de l’une et l’autre modalité soient catégorisés. L’intégration
s’effectuerait sur base d’une représentation commune aux deux modalités résultant de la récupération
des intentions articulatoires du locuteur ayant produit le signal de parole. Cette hypothèse est à la fois
défendue par les partisans des théories d’intégration audiovisuelle par recodage moteur (Liberman et
Mattingly, 1985 ; Schwartz et al., 1998) et par ceux de la Théorie « directe-réaliste » (Fowler, 1991).
Le point de désaccord entre ces deux types de théories concerne la façon dont se déroule la
récupération : de façon directe selon Fowler (1991) et via un module phonétique, biologiquement
spécialisé dans la détection des informations linguistiques selon Liberman et Mattingly (1985).
L’effet McGurk a également été utilisé comme paradigme d’investigation du développement et
des substrats neuraux des mécanismes d’intégration audiovisuelle dans la perception de la parole. De
nombreuses études ont montré que ceux-ci reposeraient sur des prédispositions assez précoces mais
continueraient cependant à évoluer au cours du développement en fonction de l’apprentissage et de
l’expérience sensorielle.
Aucune aire cérébrale responsable de l’intégration audiovisuelle dans la perception de la parole
n’a encore pu être mise en évidence à l’aide des techniques d’IRMf ou de PET. A ce jour, les données
les plus convaincantes et les plus cohérentes suggèrent qu’après traitement sensoriel spécifique,
l’information visuelle pourrait être envoyée vers le cortex auditif où elle serait intégrée au signal
auditif.
46
Les nouvelles techniques de cartographie cérébrale procurent ainsi de passionnantes
perspectives d’investigation des processus d’intégration audiovisuelle. Utilisées conjointement aux
méthodes comportementales traditionnelles, elles devraient à la fois nous permettre de localiser les
aires cérébrales activées par la perception audiovisuelle de la parole (grâce à l’IRMf par exemple) et
de suivre le décours temporel de cette activité (une possibilité offerte par la méthode des Potentiels
Evoqués).
Remerciements
Nous remercions chaleureusement deux experts anonymes pour leur lecture très attentive de
l’article ainsi que pour leurs suggestions particulièrement constructives et enrichissantes.
Cette recherche a été subsidiée par la Communauté Française de Belgique dans le cadre d’une
Action de Recherche Concertée (96/01-203) ainsi que d’un Fonds pour la Recherche Fondamentale
Collective (8.4501.98) accordé à Monique Radeau.
Références
ABRY C., CATHIARD M.A., ROBERT-RIBÈS J., SCHWARTZ J.L. - (1994) The coherence
of speech in audio-visual integration, Current Psychology of Cognition, 13, (1), 52-59.
ABRY C., LALLOUACHE M.T., CATHIARD, M.A. – (1996) How can coarticulation models
account for speech sensitivity to audio-visual desynchronisation ? in D. Stork et M. Hennecke (Edit)
Speechreading by Humans and Machines, NATO ASI Series F: Computer and Systems Sciences,
Springer-Verlag, 150, 247-255.
47
AMANO J., SEKIYAMA, K. - (1998) The McGurk effect is influenced by the stimulus set
size, Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia, 43-48.
BAYNES K., FUNNELL M.G., FOWLER C.A. - (1994) Hemispheric contributions to the
integration of visual and auditory information in speech perception, Perception and Psychophysics, 55,
(6), 633-641.
BENGUEREL A.P., PICHORA-FULLER M.K. - (1982) Coarticulation effects in lipreading,
Journal of Speech and Hearing Research, 25, 600-607.
BENOÎT C., CAMPBELL R. (Edit) – (1997) Proceedings of the Auditory-visual Speech
Processing Conference, Rhodes, Greece.
BENOÎT C., MOHAMADI T., KANDEL S. - (1994) Effects of phonetic context on audiovisual intelligibility of speech, Journal of Speech and Hearing Research, 37, 1195-1203.
BERNSTEIN L.E., PONTON C.W., AUER E.T.J. – (2001) Electrophysiology of unimodal and
audiovisual speech perception, Proceedings of the Auditory-visual Speech Processing Conference,
Aalborg, Denmark, 50-55.
BERTELSON P., VROOMEN J., DE GELDER B. - (1997) Auditory-visual interaction in
voice localization and in bimodal speech recognition : The effects of desynchronisation, Proceedings
of the Auditory-Visual Speech Processing Conference, Rhodes, Greece, 97-100.
48
BERTELSON P., VROOMEN J., WIEGERAAD G., DE GELDER B. - (1994) Exploring the
relation between McGurk interference and ventriloquism, Proceedings of the International Conference
on Spoken Language Processing, Yokohama, Japan, 559-562.
BINDER J.R., FROST J.A., HAMMEKE T.A., RAO S.M., COX R.W. - (1996) Function of
the left planum temporale in auditory and linguistic processing, Brain, 119, 1239-1247.
BINDER J.R., RAO S.M., HAMMEKE T.A., YETKIN F.Z., JESMANOWICZ A.,
BANDETTINI P.A., WONG E.C., ESTKOWSKI L.D., GOLDSTEIN M.D., HAUGHTON V.M.,
HYDE J.S. - (1994) Functional magnetic resonance imaging of human auditory cortex, Annals of
Neurology, 35, 662-672.
BRANCAZIO L. - (1996) The McGurk effect for non-native speech sounds perceived as
nonspeech, Journal of the Acoustical Society of America, 99, (4), 2550.
BREEUWER M., PLOMP, R. - (1985) Speechreading supplemented with formant-frequency
information from voiced speech, Journal of the Acoustical Society of America, 77, (1), 314-317.
BURNHAM D. - (1998) Language specificity in the development of auditory-visual speech
perception, in R. Campbell, B. Dodd et D. Burnham (Edit), Hearing by eye II, Psychology Press, 2760.
BURNHAM D., DODD B. - (1996) Auditory-visual speech perception as a direct process: The
McGurk effect in infants and across languages, in D. Stork et M. Hennecke (Edit) Speechreading by
Humans and Machines, NATO ASI Series F: Computer and Systems Sciences, Springer-Verlag, 150,
103-113.
49
BURNHAM D., KEANE S. - (1997) The japanese McGurk effect : The role of linguistic and
cultural factors in auditory-visual speech perception, Proceedings of the Auditory-Visual Speech
Processing Conference, Rhodes, Greece, 93-96.
BURNHAM D., LAU S. - (1998) The effect of tonal information on auditory reliance in the
McGurk effect, Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal,
Australia, 37-42.
BURNHAM D., ROBERT-RIBES J., VATIKIOTIS-BATESON E. (Edit) – (1998)
Proceedings of the Auditory-visual Speech Processing Conference, Terrigal, Australia.
CALLAN D., CALLAN A., VATIKIOTIS-BATESON E. - (2001). Neural areas underlying the
processing of visual speech information under conditions of degraded auditory information.
Proceedings of the Auditory-visual Speech Processing Conference, Aalborg, Denmark, 45-49.
CALLIOPE - (1989) La parole et son traitement automatique (Vol. 1), Paris, Masson.
CALVERT G.A., BRAMMER M.J., BULLMORE E.T., CAMPBELL R., IVERSEN S.D.,
DAVID, S.A. - (1999) Response amplification in sensory-specific cortices during crossmodal binding,
NeuroReport, 10, (12), 2619-2623.
CALVERT G.A., BULLMORE E.T., BRAMMER M.J., CAMPBELL R., WILLIAMS S.C.R.,
MCGUIRE P.K., WOODRUFF P.W.R., IVERSEN S. D., DAVID, A.S. - (1997) Activation of
auditory cortex during silent lipreading, Science, 276, 593-595.
50
CAMPBELL R. - (1998) Speechreading: Advances in understanding its cortical bases and
implications for deafness and speech rehabilitation, Scandinavian Audiology, 27, (Suppl 49), 80-86.
CAMPBELL R., DE GELDER B., DE HAAN E.H.F. - (1996) The lateralization of lipreading:
a second look, Neuropsychologia, 34, 1235-1240.
CAMPBELL R., DODD B., BURNHAM D. (Edit) – (1998) Hearing by Eye II, Psychology
Press.
CAMPBELL R., GARWOOD J., FRANKLIN S., HOWARD D., LANDIS T., REGARD M. (1990) Neuropsychological studies of auditory-visual fusion illusions. Four cases studies and their
implications, Neuropsychologia, 28, (8), 787-802.
CAMPBELL R., LANDIS T., REGARD M. - (1986) Face recognition and lipreading: a
neurological dissociation, Brain, 109, 509-521.
CATHIARD M.A. – (1988/1989) La perception visuelle de la parole : aperçu de l’état des
connaissance, Bulletin de l’Institut de Phonétique de Grenoble, 17-18, 109-193.
CATHIARD M.A. – (1994) La perception visuelle de l’anticipation des gestes vocaliques :
cohérence des événements audibles et visibles dans le flux de la parole, Thèse de Doctorat non
publiée, Université Pierre Mendès, Grenoble, France.
CATHIARD M.A., SCHWARTZ, J.L., ABRY C. – (2001) Asking a naïve question about the
McGurk effect : Why does audio [b] give more [d] percepts with visual [g] than with visual [d]?
Proceedings of the Auditory-Visual Speech Processing Conference, Aalborg, Denmark, 138-142.
51
CATHIARD M.A., TIBERGHIEN G. - (1994) Le visage de la parole: une cohérence bimodale
temporelle ou configurationnelle ? Psychologie Française. Numéro Spécial : La reconnaissance des
visages: 1. Neuroscience cognitive, maturation et développement, 39, (3), 357-374.
CERRATO L., ALBANO LEONI F., FALCONE M. - (1998) Is it possible to evaluate the
contribution of visual information to the process of speech comprehension, Proceedings of the
Auditory-Visual Speech Processing Conference, Terrigal, Australia, 141-146.
COHEN M.M., MASSARO D.W. - (1995) Perceiving visual and auditory information in
consonant-vowel and vowel syllables, in C. Sorin, J. Mariani, H. Méloni et J. Schoentgen (Edit),
Levels in Speech Communication: Relations and Interactions, Elsevier Science B.V., 25-37.
COLIN C. - (2001) Etude comportementale et électrophysiologique des processus impliqués
dans l'effet McGurk et dans l'effet de ventriloquie, Thèse de doctorat non publiée, Université Libre de
Bruxelles, Bruxelles, Belgique.
COLIN C., RADEAU M. - (1999) Are the McGurk illusions affected by left or right
presentation of the speaker face ? Proceedings of Eurospeech, Budapest, Hungria, 4, 1671-1674.
COLIN C., RADEAU M., DELTENRE P. - (1998a). Interactions audiovisuelles dans la
perception de la parole en français. Actes des XXII
Suisse, 205-208.
èmes
Journées d’Etude sur la Parole, Martigny,
52
COLIN C., RADEAU M., DELTENRE P. - (1998b). Intermodal interactions in speech : A
French study. Proceedings of Auditory-Visual Speech Processing Conference, Terrigal, Australia, 5560.
COLIN C., RADEAU M., DELTENRE P., DEMOLIN D., SOQUET A. - (2002) The role of
sound intensity and stop-consonant voicing on McGurk fusions and combinations, European Journal
of Cognitive Psychology.
COLIN C., RADEAU M., DELTENRE P., MORAIS J. - (2001) Rules of intersensory
integration in spatial scene analysis and speechreading, Psychologica Belgica, 41, (3), 131-144.
COLIN C., RADEAU M., DEMOLIN D., SOQUET A. - (2000) Visual lipreading of voicing
for French stop consonants, Proceedings of the 6th International Conference of Spoken Language
Processing, Beijing, China, 2, 583-586.
COLIN C., RADEAU M., SOQUET A., COLIN F., DELTENRE P. - (2002). Mismatch
negativity evoked by the McGurk-MacDonald effect : Evidence for a phonological representation
within auditory sensory short term memory. Clinical Neurophysiology, 113, (4), 495-506.
CORINA D.P. - (1998) Studies of neural processing in deaf signers: Toward a neurocognitive
model of language processing in the deaf, Journal of Deaf Studies and Deaf Education, 3, (1), 35-48.
COWAN N. - (1995) Attention and memory. An integrated framework, Oxford, Oxford
University Press.
53
DAVIS C., KIM J. - (1998) Repeating and remembering foreign language words: Does seeing
help ? Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia, 121126.
DEKLE D.J., FOWLER C.A., FUNNELL M.G. - (1992) Audiovisual integration in perception
of real words, Perception and Psychophysics, 51, (4), 355-362.
DEMOREST M., BERNSTEIN L. - (1992) Sources of variability in speechreading sentences:
A generalizability analysis, Journal of Speech and Hearing Research, 35, 876-891.
DESJARDINS R.N., ROGER J., WERKER J.F. - (1997) An exploration of why preschoolers
perform differently than do adults in audiovisual speech perception tasks, Journal of Experimental
Child Psychology, 66, (1), 85-110.
DIESCH E. - (1995) Left and right hemifield advantages of fusions and combinations in
audiovisual speech perception, Quarterly Journal of Experimental Psychology, 48A, (2), 320-333.
DODD B. - (1977) The role of vision in the perception of speech, Perception, 6, 31-40.
DODD B., CAMPBELL R. (Edit) – (1987) Hearing by Eye : The Psychology of Lip-reading,
London, NJ, Lawrence Erlbaum Associates.
DODD B., MCINTOSH B., WOODHOUSE L. - (1998) Early lipreading ability and speech
and language development of hearing-impaired pre-schoolers, in R. Campbell, B. Dodd et D.
Burnham (Edit), Hearing by eye II, Psychology Press, 229-242.
54
DORMAN M.F., STUDDERT-KENNEDY M., RAPHAEL L.J. - (1977) Stop-consonant
recognition: Release bursts and formant transitions as functionally equivalent, context-dependent cues,
Perception and Psychophysics, 22, (2), 109-122.
EASTON R.D., BASALA M. - (1982) Perceptual dominance during lipreading, Perception and
Psychophysics, 32, (6), 562-570.
ERBER N.P. - (1969) Interaction of audition and vision in the recognition of oral speech
stimuli, Journal of Speech and Hearing Research, 12, 423-425.
FIXMER E., HAWKINS S. - (1998) The influence of quality of information on the McGurk
effect, Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia, 27-32.
FODOR J. A. - (1983) The modularity of mind, Cambridge, MA, MIT Press.
FOWLER C A. - (1986) An event approach to the study of speech perception from a direct
realistic perspective, Journal of Phonetics, 14, 3-28.
FOWLER C.A. - (1991) Auditory perception is not special: We see the world, we feel the
world, we hear the world, Journal of the Acoustical Society of America, 89, (6), 2910-2915.
FOWLER C.A., DEKLE D.J. - (1991) Listening with eye and hand: Cross-modal contributions
to speech perception, Journal of experimental Psychology: Human Perception and Performance, 17,
(3), 816-828.
55
FOWLER C.A., ROSENBLUM, L.D. - (1991) The perception of phonetic gestures, in I. G.
Mattingly et M. Studdert-Kennedy (Edit), Modularity and the motor theory of speech, Hillsdale, NJ,
Lawrence Erlbaum Associates, 33-59.
FUSTER-DURAN A. - (1996) Perception of conflicting audio-visual speech : An examination
across Spanish and German, in D. Stork et M. Hennecke (Edit) Speechreading by Humans and
Machines, NATO ASI Series F: Computer and Systems Sciences, Springer-Verlag, 150, 135-143.
GENTIL M. – (1981) Etude de la perception de la parole : lecture labiale et sosies labiaux,
IBM, France.
GREEN K.P. - (1994) The influence of an inverted face on the McGurk effect, Journal of the
Acoustical Society of America, 95, (4), 3014.
GREEN K.P. – (1996) The use of auditory and visual information in phonetic perception, in D.
Stork et M. Hennecke (Edit) Speechreading by Humans and Machines, NATO ASI Series F:
Computer and Systems Sciences, Springer-Verlag, 150, 55-77.
GREEN K.P., GERDEMAN A. - (1995) Cross-modal discrepancies in coarticulation and the
integration of speech information: The McGurk effect with mismatched vowels, Journal of
Experimental Psychology : Human Perception and Performance, 21, (6), 1409-1426.
GREEN K.P., KUHL P.K. - (1988) Factors affecting the integration of auditory and visual
information in speech: The vowel environment, Journal of the Acoustical Society of America, 84,
(Suppl. 1), S155.
56
GREEN K.P., KUHL, P.K. - (1989) The role of visual information in the processing of place
and manner features in speech perception. Perception and Psychophysics, 45, (1), 34-42.
GREEN K.P., KUHL P.K. - (1991) Integral processing of visual place and auditory voicing
information during phonetic perception, Journal of Experimental Psychology : Human Perception and
Performance, 17, (1), 278-288.
GREEN K.P., KUHL P.K., MELTZOFF A.N., STEVENS E.B. - (1991) Integrating speech
information across talkers, gender and sensory modality : Female faces and male voices in the
McGurk effect, Perception and Psychophysics, 50, (6), 524-536.
GREEN K.P., MILLER J.L. - (1985) On the role of visual rate information in phonetic
perception, Perception and Psychophysics, 38, (3), 269-276.
GREEN K.P., NORRIX L.W. - (1997) Acoustic cues to place of articulation and the McGurk
effect : The role of release bursts, aspiration, and formant transition. Journal of Speech, Language, and
Hearing Research, 40, 646-665.
HARDISON D.B. - (1996) Bimodal perception by native and nonnative speakers of English:
Factors influencing the McGurk effect, Language Learning, 46, (1), 3-73.
HAY D.C. – (1981) Asymmetries in face processing: Evidence for a right hemisphere
perceptual advantage, Quarterly Journal of Experimental Psychology, 33A, (3), 267-274.
57
HAYASHI Y., SEKIYAMA K. - (1998) Native-foreign language effect in the McGurk effect:
A test with Chinese and Japanese, Proceedings of the Auditory-Visual Speech Processing Conference,
Terrigal, Australia, 61-66.
HICKOK G., BELLUGI U., KLIMA E. S. - (1996) The neurobiology of sign language and its
implications for the neural basis of language, Nature, 381, 699-702.
HOCKLEY S.N., POLKA N. - (1994) A developmental study of audio-visual speech
perception using the McGurk paradigm, Journal of the Acoustical Society of America, 96, 3309.
IJSSELDIJK F.J. - (1992) Speechreading under different conditions of video image, repetition,
and speech rate, Journal of Speech and Hearing Research, 35, 466-471.
IVRY R.B., ROBERTSON L.C. - (1998) The Two Sides of Perception, Cambridge, MA, A
Bradford Book.
JONES J.A., MUNHALL K.G. - (1996) Spatial and temporal influences on audiovisual speech
perception, International Journal of Psychology, 31, 473.4.
JONES J.A., MUNHALL K.G. - (1997) The effects of separating auditory and visual sources
on audiovisual integration of speech, Canadian Acoustics, 2, 13-19.
JORDAN T.R., BEVAN K. - (1997) Seeing and hearing rotated faces : Influences of facial
orientation on visual and audiovisual speech recognition, Journal of Experimental Psychology :
Human Perception and Performance, 25, (2), 388-403.
58
JORDAN T.R., SERGEANT P.C. - (1998) Effects of facial image size on visual and audiovisual speech recognition, in R. Campbell, B. Dodd et D. Burnham (Edit), Hearing by eye II,
Psychology Press, 155-176.
KIMURA D. - (1961) Some effects of temporal-lobe damage on auditory perception, Canadian
Journal of Psychology, 15, 156-165.
KLEIN D., ZATORRE R.J., MILNER B., ZHAO V. – (2001) A crosslinguistic PET study of
tone perception in Mandarin Chinese and English speakers, NeuroImage, 13, (4), 646-653.
KRICOS P.B. - (1996) Differences in visual intelligibility across talkers, in D. Stork et M.
Hennecke (Edit) Speechreading by Humans and Machines, NATO ASI Series F: Computer and
Systems Sciences, Springer-Verlag, 150, 43-53.
KUHL P., GREEN K.P. - (1988) Factors affecting the integration of auditory and visual
information in speech : The level effect, Journal of the Acoustical Society of America, 83, (Suppl. 1),
S86.
KUHL P.K., MELTZOFF A.N. - (1982) The bimodal perception of speech in infancy, Science,
218, 1138-1141.
KUHL P.K., MELTZOFF A.N. - (1984) The intermodal representation of speech in infants,
Infant Behavior and Development, 7, 361-381.
59
LANG A.H., EEROLA O., KORPILAHTI P., HOLOPAINEN I., SALO S., AALTONEN O. –
(1995) Practical issues in the clinical application of mismatch negativity. Ear and Hearing, 16, 117129.
LIBERMAN A.M., COOPER F.S., SHANKWEILER D.P., STUDDERT-KENNEDY M. (1967) Perception of the speech code, Psychological Review, 74, (6), 431-461.
LIBERMAN A.M., MATTINGLY I.G. - (1985) The motor-theory of speech revised,
Cognition, 21, 1-36.
LIÉGEOIS-CHAUVEL C., DE GRAAF J.B., LAGUITTON V., CHAUVEL P. - (1999)
Specialization of left auditory cortex for speech perception in man depends on temporal coding,
Cerebral Cortex, 9, 484-496.
LISKER L., ROSSI M. – (1992) Auditory and visual cueing of the [+/- rounded] feature of
vowels, Language and Speech, 35, 391-417.
MACDONALD J., ANDERSEN S., BACHMAN T. - (1999) Hearing by eye: visual spatial
degradation and the McGurk effect, Proceedings of Eurospeech, Budapest, Hungria, 3, 1283-1285.
MACDONALD J., MCGURK H. - (1978) Visual influences on speech perception processes,
Perception and Psychophysics, 24, (3), 253-257.
MACKAIN K., STUDDERT-KENNEDY M., SPIEKER S., STERN S. - (1983) Infant
intermodal speech perception is a left hemisphere function, Science, 219, 1347-1349.
60
MACLEOD A., SUMMERFIELD Q. - (1990) A procedure for measuring auditory and audiovisuals speech-reception thresholds for sentences in noise : Rationale, evaluation, and
recommendations for use, British Journal of Audiology, 24, 29-43.
MASSARO D.W. - (1972) Stimulus information vs processing time in auditory pattern
recognition, Perception and Psychophysics, 12, 50-56.
MASSARO D.W. - (1974) Perceptual units in speech recognition, Journal of Experimental
Psychology, 102, 199-208.
MASSARO D.W. - (1984) Children's perception of visual and auditory speech, Child
Development, 55, 1177-1788.
MASSARO D.W. - (1987) Speech Perception by Ear and by Eye : A Paradigm for
Psychological Inquiry. Hillsdale, NJ, Lawrence Erlbaum Associates.
MASSARO D.W. - (1998a) Perceiving Talking Faces : From Speech Perception to a
Behavioral Principle, The MIT Press.
MASSARO D.W. – (1998b) Proceedings of the Auditory-Visual Speech Processing
Conference, Terrigal, Australia
MASSARO D.W., COHEN M.M. - (1990) Perception of synthesized audible and visible
speech, Psychological Science, 1, (1), 55-63.
61
MASSARO D.W., COHEN M.M. - (1993) Perceiving asynchronous bimodal speech in
consonant-vowel and vowels syllables, Speech Communication, 13, (1-2), 127-134.
MASSARO D.W., COHEN M.M. - (1996) Perceiving speech from inverted faces, Perception
and Psychophysics, 58, (7), 1047-1065.
MASSARO D.W., COHEN M.M., GESI A., HEREDIA R., TSUZAKI M. - (1993) Bimodal
speech perception: An examination across languages, Journal of Phonetics, 21, 445-478.
MASSARO D.W., COHEN M.M., SMEELE P.M.T. - (1995) Cross-linguistic comparisons in
the integration of visual and auditory speech, Memory and Cognition, 23, (1), 113-131.
MASSARO D.W., COHEN M.M., SMEELE P.M.T. - (1996) Perception of asynchronous and
conflicting visual and auditory speech, Journal of the Acoustical Sociey of America, 100, (3), 17771786.
MASSARO D.W., COHEN M.M., THOMPSON L.A. - (1988) Visible language in speech
perception : Lipreading and reading, Visible Language, 1, 8-31.
MASSARO D.W., LIGHT J., GERACI K. – (2001) Proceedings of the Auditory-visual Speech
Processing Conference, Aalbork, Denmark.
MASSARO D.W., THOMPSON L .A., BARRON B., LAREN, E. - (1986) Developmental
changes in visual and auditory contributions to speech perception, Journal of Experimental Child
Psychology, 41, 93-113.
62
MATTINGLY I.G., LIBERMAN A.M. - (1988) Specialized perceiving systems for speech and
other biologically significant sounds, in G. M. Edelman, W. E. Gall et W. N. Cowan (Edit), Auditory
Function : Neurobiology Bases of Hearing, New-York, Wiley, 775-793.
MATTYS S. - (1997) The use of time during lexical processing and segmentation : A review,
Psychonomic Bulletin and Review, 4, (3), 310-329.
MAZOYER B.M., TZOURIO N., FRAK V., SYROTA A., MURAYAMA N., LEVRIER O.,
SALAMON G., DEHAENE S., COHEN L., MEHLER J. - (1993) The cortical representation of
speech, Journal of Cognitive Neuroscience, 5, (4), 467-479.
MCGURK H. - (1981) Listening with eye and ear, in T. Myers, J. Laver et J. Anderson (Edit),
The Cognitive Representation of Speech, North Holland Publishing Company, 336-337.
MCGURK H. - (1988). Developmental psychology and the vision of speech, Inaugural
Professorial Lecture, University of Surrey.
MCGURK H., MACDONALD J. - (1976) Hearing lips and seeing voices, Nature, 264, 746748.
MIDDLEWEERD M.J., PLOMP R. - (1987) The effects of speechreading on the speech
perception threshold of sentences in noise, Journal of the Acoustical Society of America, 82, 21452146.
MILLER G.A., NICELY P.E. - (1955) An analysis of perceptual confusions among some
English consonants, Journal of the Acoustical Society of America, 27, (2), 338-352.
63
MILLER J.L., DEXTER E.R. – (1988) Effects of speaking rate and lexical status on phonetic
perception. Journal of Experimental Psychology : Human Perception and Performance, 14, 369-378.
MILLS A.E. - (1987) The development of phonology in the blind child, in B. Dodd et R.
Campbell (Edit), Hearing by Eye: The Psychology of Lip-reading, London, NJ, Lawrence Erlbaum
Associates, 145-161.
MILLS A.E., THIEM R. - (1980). Auditory-visual fusions and illusions in speech perception,
Linguistische Berichte, 68, 85-107.
MOHAMADI T., BENOÎT C. – (1992) Apport de la vision du locuteur à l’intelligibilité de la
parole bruitée en français, Bulletin de la Communication Parlée, 2, 31-41.
MOURAND-DOURNIER L. – (1980) Le rôle de la lecture labiale dans la reconnaissance de la
parole, Thèse de Médecine non publiée, Université de Franche-Comté, France.
MUNHALL K.G., GRIBBLE P., SACCO L., WARD M. - (1996) Temporal constraints on the
McGurk effect, Perception and Psychophysics, 58, (3), 351-362.
MUNHALL K.G., TOKHURA Y. - (1998) Audiovisual gating and the time course of speech
perception, Journal of the Acoustical Society of America, 104, (1), 530-539.
NAATANEN R. - (1992) Attention and brain function, Hillsdale, NJ, Lawrence Erlbaum
Associates.
64
NELSON M.A., HODGE M.M. - (2000) Effects of facial paralysis and audiovisual
information on stop place identification, Journal of Speech, Language and Hearing Research, 43, (1),
158-171.
NEVILLE H.J. - (1991) Whence the specialization of the language hemisphere ? in I. G.
Mattingly et M. Studdert-Kennedy (Edit), Modularity and the motor theory of speech, Hillsdale, NJ,
Lawrence Erlbaum Associates, 269-294.
NEVILLE H J., COFFEY S.A., LAWSON D.S., FISCHER A., EMMOREY K., BELLUGI U.
- (1997) Neural systems mediating american sign language : Effects of sensory experience and age of
acquisition, Brain and Language, 57, 285-308.
PATTERSON, M.L., WERKER J.F. – (1999) Matching phonetic information in lips and voice
is robust in 4.5-month-old infants. Infant Behavior and Development, 22, (2), 237-247.
RADEAU M. - (1994a) Auditory-visual spatial interaction and modularity, Current Psychology
of Cognition, 13, (1), 3-51.
RADEAU M. – (1994b) Ventriloquism against audio-visual speech: Or, where Japanesespeaking barn owls might help, Current Psychology of Cognition, 13, (1), 124-140.
RADEAU M. – (1997) Du ventriloque à l'embryon: Une réponse à Molyneux dans le cas des
interactions audiovisuelles, in J. Proust (Edit), Perception et intermodalité. Approches actuelles de la
question de Molyneux, Presses Universitaires de France, Paris, 223-252.
65
RADEAU M., COLIN C. - (1999) The role of spatial separation on ventriloquism and McGurk
illusions. Proceedings of Eurospeech, Budapest, Hungria, 3, 1295-1298.
RADEAU M., COLIN C. – (2001) Object identity is not a condition but a result of intersensory
integration: The case of audiovisual interactions, Current Psychology of Cognition, 20, (5), 349-358.
REED C.M., RABINOWITZ W.N., DURLACH N.I., BRAIDA L.D. - (1985) Research on the
Tadoma method of speech communication, Journal of the Acoustical Society of America, 77, (1), 247257.
REISBERG D., MCLEAN J. GOLDFIELD A. - (1987) Easy to hear but hard to understand : A
lip-reading advantage with intact auditory stimuli, in B. Dodd et R. Campbell (Edit), Hearing by Eye :
The Psychology of Lip-Reading, London, NJ, Lawrence Erlbaum Associates, 97-113.
REPP, MANUEL, LIBERMAN, STUDDERT-KENNEDY – (1983) Exploring the McGurk
effect, Proceedings of the 24th Annual Meeting of the Psychonomic Society, San Diego, CA.
ROBERT-RIBES J. – (1995) Modèles d’intégration audiovisuelle de signaux linguistiques : de
la perception humaine à la reconnaissance automatique des voyelles, Thèse de Doctorat non publiée,
Institut National Polytechnique, Grenoble, France.
ROBERT-RIBES J., PIQUEMAL M., SCHWARTZ J.L., ESCUDIER P. - (1996) Exploiting
sensor fusion architectures and stimuli complementarity in AV speech recognition, in D. Stork et M.
Hennecke (Edit) Speechreading by Humans and Machines, NATO ASI Series F: Computer and
Systems Sciences, Springer-Verlag, 150, 193-209.
66
ROBERT-RIBES J., SCHWARTZ J.L., LALLOUACHE T., ESCUDIER P. – (1998)
Complementary and synergy in bimodal speech : auditory, visual and audiovisual identification of
French oral vowels in noise, Journal of the Acoustical Society of America, 103, 3677-3689.
ROBERTS M. - (1987) Audio-visual speech perception and selective adaptation, in B. Dodd et
R. Campbell (Edit), Hearing by Eye : The Psychology of Lip-reading, London, NJ, Lawrence Erlbaum
Associates, 85-96.
ROBERTS M., SUMMERFIELD Q. - (1981) Audiovisual presentation demonstrates that
selective adaptation in speech perception is purely auditory, Perception and Psychophysics, 30, (4),
309-314.
ROSEN S.M., FOURCIN A.J., MOORE B.C.J. - (1981) Voice pitch as an aid to lipreading,
Nature, 291, 150-153.
ROSENBLUM L.D., FOWLER C.A. - (1991) Audiovisual investigation of the loudness-effort
effect for speech and nonspeech events, Journal of Experimental Psychology : Human Perception and
Performance, 17, (4), 976-985.
ROSENBLUM L.D., SALDANA H.M. - (1996) An audiovisual test of kinematic primitives
for visual speech perception, Journal of Experimental Psychology : Human Perception and
Performance, 22, (2), 318-331.
ROSENBLUM L.D., SCHMUCKLER M.A., JOHNSON J.A. - (1997). The McGurk effect in
infants, Perception and Psychophysics, 59, (3), 347-357.
67
SALDANA H.M., ROSENBLUM L.D. - (1993) Visual influences on auditory pluck and bow
judgments, Perception and Psychophysics, 54, (3), 406-416.
SALDANA H.M., ROSENBLUM L.D. - (1994) Selective adaptation in speech perception
using a compelling audiovisual adaptor, Journal of the Acoustical Society of America, 95, (6), 36583661.
SAMS M., AULANKO R., HÄMÄLÄINEN M., HARI R., LOUNASMAA O.V., LU S.T.,
SIMOLA J. - (1991) Seeing speech: Visual information from lip movements modifies activity in the
human auditory cortex, Neuroscience Letters, 127, 141-145.
SAMS M., LEVÄNEN S. - (1996) Where and when are the heard and seen speech integrated:
Magnetoencephalographical (MEG) studies, in D. Stork et M. Hennecke (Edit) Speechreading by
Humans and Machines, NATO ASI Series F: Computer and Systems Sciences, Springer-Verlag, 150,
233-246.
SAMS M., SURAKKA V., HELIN P., KÄTTÖ R. - (1997) Audiovisual fusion in finnish
syllables and words, Proceedings of the Auditory-Visual Speech Processing Conference, Rhodes,
Greece, 101-104.
SCHORRADT J., PIROTH H.G., TILLMANN H.G. - (1987) Audiovisually perceived
"fusions" within different vowel contexts, Proceedings of the XIth International Conference of
Phonetic Sciences, Tallinn, Estonia, 59-62.
68
SCHWARTZ J.L., ROBERT-RIBES J., ESCUDIER P. - (1998) Ten years after Summerfield :
A taxonomy of models for audio-visual fusion in speech perception, in R. Campbell, B. Dodd et D.
Burnham (Edit), Hearing by eye II, Psychology Press, 85-108.
SEKIYAMA K. - (1997) Cultural and linguistic factors in audiovisual speech processing: The
McGurk effect in Chinese subjects, Perception and Psychophysics, 59, (1), 73-80.
SEKIYAMA K. - (1998) Face or voice ? Determinant of compellingness to the McGurk effect,
Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia, 33-36.
SEKIYAMA K., TOHKURA Y. - (1991). McGurk effect in non-English listeners: few visual
effects for Japanese subjects hearing Japanese syllables of high auditory intelligibility, Journal of the
Acoustical Society of America, 90, (4), 1797-1805.
SEKIYAMA K., TOHKURA Y. - (1993) Inter-language differences in the influence of visual
cues in speech perception, Journal of Phonetics, 21, 427-444.
SEKIYAMA K., TOKHURA Y., UMEDA M. - (1996) A few factors which affect the degree
of incorporating lip-read information into speech perception, Proceedings of the International
Conference on Spoken Language Processing, Philadelphia, 1481-1494.
SMEELE P.M.T., SITTIG A.C. - (1991) The contribution of vision to speech perception,
Proceedings of Eurospeech, Genova, Italy, 1495-1497.
69
SMEELE P.M.T., SITTIG A.C., VAN HEUVEN V.J. – (1994) Temporal organization of
bimodal speech information, Proceedings of the International Conference on Spoken Language
Processing, Yokohama, Japan, 1431-1434.
STORCK D.G., HENNECKE M.E. (Edit) – (1996) Speechreading by Humans and Machines,
NATO ASI series F : Computer and Systems Sciences, 150, Springer-Verlag.
SUMBY W.H., POLLACK I. - (1954) Visual contribution to speech intelligibility in noise,
Journal of the Acoustical Society of America, 26, 212-215.
SUMMERFIELD Q. - (1987) Some preliminaries to a comprehensive account of audio-visual
speech perception, in B. Dodd et R. Campbell (Edit), Hearing by Eye : The Psychology of Lip-reading,
London, NJ, Lawrence Erlbaum Associates, 3-51.
SUMMERFIELD Q., MCGRATH M. - (1984) Detection and resolution of audio-visual
incompatibility in the perception of vowels, Quarterly Journal of Experimental Psychology, 36A, 5174.
TALLAL P., PIERCY M. - (1973) Defects of non verbal auditory perception in children with
developmental aphasias, Nature, 241, 468-469.
TIIPPANA K., SAMS M., ANDERSEN T.S. - (2001) Visual attention influences audiovisual
speech perception, Proceedings of the Auditory-Visual Speech Processing Conference, Aalborg,
Denmark, 167-171.
70
TILLMAN H.G., POMPINO-MARSCHALL B., PORZIG U. - (1984) The effects of visually
presented speech movements on the perception of acoustically encoded speech articulation as a
function of acoustic desynchronization, Proceedings of the Xth International Congress of Phonetic
Sciences, Dordrecht, Holland, 469-473.
TRAILL A. - (1999) The McGurk effect and !Xóõ clicks, Proceedings of the International
Conference of Phonetic Sciences, San Francisco, CA, 1933-1935.
VROOMEN J. – (1992) Hearing voices and seeing lips : Investigations in the psychology of
lipreading, Thèse de Doctorat non publiée, Tilburg, Pays-Bas.
VROOMEN J., DE GELDER B. - (1999) Crossmodal integration : A good fit is no criterion,
Trends in Cognitive Science, 4, (2), 37-38.
WALDEN B.E., PROSEK R.A., MONTGOMERY A.A., SCHERR C. K., JONES C.J. (1977) Effects of training on the visual recognition of consonants, Journal of Speech and Hearing
Research, 20, 130-145.
WALKER S., BRUCE V., O'MALLEY C. - (1995) Facial identity and facial speech
processing: familiar faces and voices in the McGurk effect, Perception and Psychophysics, 57, (8),
1124-1133.
WALTON G.E., BOWER T.G.R. - (1993) Amodal representation of speech in infants, Infant
Behavior and Development, 16, 233-243.
71
WERKER J.F., FROST P.E., MCGURK H. - (1992) La langue et les lèvres : Cross-language
influences on bimodal speech perception, Canadian Journal of Psychology, 46, (4), 551-568.
YAKEL D.A., ROSENBLUM L.D., GREEN K.P., BOSLEY C.L., VASQUEZ R.A. - (1995)
The effect of face and lip inversion on audiovisual speech integration, Journal of the Acoustical
Society of America, 97,(5), 3286.
ZATORRE R.J., BELIN, PENHUNE – (2002) Structure and function of auditory cortex :
music and speech, Trends in Cognitive Sciences, 6, (1), 37-46.
ZATORRE R.J., EVANS A.C., MEYER E., GJEDDE A. - (1992) Lateralization of phonetic
and pitch discrimination in speech processing, Science, 256, 846-849.
ZATORRE R.J., MEYER E., GJEDDE A., EVANS A.C. - (1996) PET studies of phonetic
processing of speech: Review, replication and reanalysis, Cerebral Cortex, 6, 21-30.
Tableau I. Revue synthétique de différentes études de l’effet McGurk.
Table I. Synthetic review of different studies of the McGurk effect.
Etude
Langue
Matériel
Consonnes
Amano et Sekiyama, 1998
japonais
CV
/a/
Bertelson et al., 1994
Bertelson et al., 1997
Burnham et Lau, 1998
Cathiard et al., 2001
néerlandais
VCV
VCV
CV
VCV
/p/ /t/ /k/
/m/ /n/
/m/ /n/
/m/ /n/
/b/ /g/
/b/ /g/ /d/
/a/
/a/
/a/
/a/
/b/ /g/
/p/ /k/
/b/ /g/
/p/ /k/
/b/ /g/
/p/ /k/
/b/ /g/
/a/
/i/
/a/
/i/
/i/
/a/
néerlandais
cantonais
français
Colin et al., 1998a
français
Colin et al., 1998b
français
Colin et al., 2001
français
VCV
CV
VCV
CV
CV
Colin et al., 2002
français
CV
Taille
écran
Distance
écran
55 dB
?
?
?
?
?
?
14 *11 cm
14 *11 cm
?
?
?
?
?
?
60
23
40
73
70 dB 33 *25 cm
75 cm
3
41
70 dB 33 *25 cm
40 dB
40 dB 44 *31 cm
75 cm
100 cm
3
18
77
41
49
74
70 dB 33 *25 cm
75 cm
53
8
Voy- Intenelles
sité
% de
fusions
% de
combinaisons
/
/
80
30
72
Dekle et al., 1992
anglais
mots
Fixmer et Hawkins, 1998
Fuster-Duran, 1996
anglais
allemand
espagnol
Green et Gerdeman, 1995
Green et al., 1991
Hardison, 1996
Hayashi et Sekiyama, 1998
Hayashi et Sekiyama, 1998
anglais
anglais
anglais
japonais
mandarin
VCV
CV
CCV
mots
CV
CV
CV
CV
/p/ /k/
/b/ /v/ /d/
/m/
/b/ /g/
/b/ /d/ /n/
/g/ /m/ /l/
/r/ /R/ /rr/
/b/ /g/
/b/ /g/
/p/ /k/ /t/
/b/ /p/ /m/
/n/ /d/ /t/
/g/ /k/
/b/ /g/
/b/ /g/ /t/
/m/
Jones et Munhall, 1997
Jordan et Bevan, 1997
anglais
anglais
VCV
CV
Jordan et Sergeant, 1998
anglais
CV
/b/ /g/
MacDonald et McGurk,
1978
anglais
CV
MacDonald et al., 1999
anglais
CV
Massaro et Cohen, 1993
Massaro et al., 1996
anglais
anglais
CV
CV
McGurk et MacDonald,
1976
Mills et Thiem, 1980
Munhall et al., 1996 exp. I
Munhall et al., 1996 exp. II
Sams et al., 1997
anglais
CVCV
allemand
anglais
CV
VCV
/b/ /g/ /p/
/k/ /d/ /t/
/n/ /m/
/b/ /g/ /d/
/p/ /k/ /t/
/b/ /d/
/b/ /v/ /d/
/D/
/b/ /g/
/p/ /k/
/b/ /g/
/b/ /g/
finnois
CV
mots
/p/ /k/
Sekiyama et Tokhura, 1991
japonais
CV
Sekiyama et Tokhura, 1993
CV
Sekiyama, 1998
Tillman et al., 1984
japonais
anglais
japonais
allemand
/b/ /g/ /d/
/p/ /k/ /t/
/m/ /n/ /r/
idem
Walker et al., 1995
Werker et al., 1992
anglais
anglais
CV
Mots
CV
CV
CV
/i/ 40 dB
vari?
able
/a/
?
/a/
?
64
79
20
/
?
?
40
8
7
/
16
7
?
?
?
?
/a/ /i/
/a/ /i/
/a/
/a/
68 dB
65 dB
70 dB
70 dB
14 pouces
13 pouces
24 pouces
14 pouces
105 cm
115 cm
122 cm
50 cm
69
77
20
34
45
54
66
44
0
0
/ae/ /i/
70 dB 20 pouces
?
?
200 cm
?
90
70
/
75
/a/ /i/ 55 dB 210 cm de
haut
/a/
?
19 pouces
100 cm
30
/
?
55
21
20 pouces
100 cm
50
10
67 dB 12 pouces
67 dB
?
?
50 cm
/
5
52
5
/a/ /i/
/a/
/a/
/a/
?
/a/
?
19 pouces
?
89
49
/a/
/a/ /i/
/ae/
/a/
?
?
?
20 pouces
?
200 cm
?
?
?
61
55
45
32
50
79
/
/
86
/
/a/
?
20 pouces
100 cm
5
0
/a/
?
taille réelle
de visage
100 cm
?
?
?
?
?
?
?
?
22 pouces
10 pouces
150 cm
100 cm
7
26
33
70
/
44
36
0
1
5
/
90
38
/
/b/ /g/
/a/
/b/ /g/
/i:/
/l/ /b/
/a/
/b/ /g/
/a/ /i/
/b/ /v/ /d/
/a/
/D/ /Z/ /g/
Tableau I. Synthèse des études McGurk ayant en commun :
-
l’utilisation de stimuli de parole naturelle
-
la participation d’adultes jeunes sans pathologie particulière connue
-
l’emploi de la langue maternelle des participants comme langue de test
-
la présentation de stimuli audiovisuels
•
articulés à un débit « normal »
•
présentés face aux participants sur un visage apparaissant à l’endroit
•
synchronisés
•
présentés dans des conditions normales d’écoute
73
•
congruents au niveau vocalique
Note : les deux dernières colonnes indiquent les pourcentages d’illusions. Le signe « / » signifie que le type d’illusion
considéré n’a pas été étudié par les auteurs ou que les pourcentages d’illusions n’ont pas été mentionnés.

Les illusions McGurk dans la parole : 25 ans de recherches

Transcription

Documents pareils

Voici un petit tutorial pour ceux qui souhaite ajouter des voix

Programme FEDE EDM 2015 - l`Ameublement français

Services vocaux Répondeurs vocaux interactifs

Photos du Forum.. - Commission Méditerranée de CGLU

Troubles auditifs des jeunes : « Même pas peur

EMUS third conference – AGORA – IRCAM, Paris, France

Synthèse vocale et reconnaissance de la parole