Les illusions McGurk dans la parole : 25 ans de recherches
Transcription
Les illusions McGurk dans la parole : 25 ans de recherches
1 Les illusions McGurk dans la parole : 25 ans de recherches Titre courant : L’effet McGurk Colin, C. (1) (2) & Radeau, M. (1) (2) (1) (2) Unité de Recherche en Neurosciences Cognitives CP 191, Université Libre de Bruxelles, 50, av. Roosevelt, B-1050 Bruxelles, Belgique. F.N.R.S., Belgique. Correspondance : Cécile Colin Unité de Recherche en Neurosciences Cognitives CP 191 Université Libre de Bruxelles 50, av. F. Roosevelt 1050 Bruxelles Belgique e-mail : [email protected] 2 The McGurk illusions in speech : 25 years of research When presented with an auditory /b/ dubbed onto a visual /g/, listeners sometimes perceive a fused phoneme like /d/ while with the reverse presentation, they experience a combination such as /bg/, two kinds of illusions that were reported by McGurk and MacDonald (1976). The aim of this paper is to review research on the McGurk effect and on the underlying cognitive processes. Different experimental manipulations that are likely to modulate the size of the effect are examined, among which spatial separation and temporal desynchronisation between the signals, vocalic and consonantic environment, articulation rate, stimulus quality, cognitive influences, cross-linguistic differences, … Data from studies bearing on the issue of the level of processing at which audiovisual integration occurs relative to phonetic categorization are considered. The place of the McGurk effect in current theories of speech perception is also discussed, as well as the development of the effect during childhood, and finally the possible cerebral bases. Keywords : audiovisual integration, speechreading, speech perception 3 Résumé Lorsque la vision et l’audition fournissent des signaux de parole incongrus, deux types d’illusions (fusions et combinaisons) ont été rapportées (McGurk et MacDonald, 1976). L’objectif de cet article est de faire le point sur l’état des connaissances relatives à l’effet McGurk. Nous considérons les divers paramètres susceptibles de moduler la taille de l’effet. Nous nous interrogeons ensuite sur le niveau de traitement auquel se produit l’intégration par rapport à la catégorisation phonétique. Nous discutons également de la place de l’effet dans les différentes théories de perception de la parole, ainsi que du développement de l’effet et de ses bases cérébrales possibles. Mots-clés : Intégration audiovisuelle, lecture labiale, perception de la parole 4 La complémentarité de l’audition et de la vision dans la perception de la parole La perception de la parole a longtemps été considérée comme un processus purement auditif. En effet, dans de nombreuses situations de communication (conversation téléphonique, écoute de programmes radiophoniques, …), la parole auditive est la seule source d’information disponible et elle semble suffisante pour atteindre un niveau de compréhension satisfaisant. Durant la seconde moitié du vingtième siècle, de nombreuses études ont mis en évidence l’apport essentiel de l’information visuelle dans la perception de la parole. Sumby et Pollack (1954) sont parmi les premiers à avoir montré que l’intelligibilité d’un signal acoustique (des mots mono-, biou trisyllabiques), mêlé à du bruit, était fortement améliorée par la lecture labiale. Celle-ci contribuait d’autant plus à la perception de la parole que le bruit était important. Ces résultats ont été largement reproduits lors d’études ultérieures menées en anglais (Erber, 1969 ; Dodd, 1977 ; Middleweerd et Plomp, 1987 ; MacLeod et Summerfield, 1990). Ils ont été reproduits par Mohamadi et Benoît (1992) pour le français. La lecture labiale s’avère également extrêmement bénéfique chez les personnes souffrant de déficience auditive. Elle contribue notamment à l’acquisition du langage oral chez les enfants sourds (Dodd, McIntosh et Woodhouse, 1998). L’influence de la parole visuelle ne se limite pas aux situations dans lesquelles le signal auditif est dégradé. Elle améliore la compréhension d’un signal de parole clair, mais comprenant un contenu sémantiquement complexe (Reisberg, McLean et Goldfield, 1987), ou prononcé dans une langue étrangère (Davis et Kim, 1998), ou encore prononcé dans la langue maternelle mais par un locuteur parlant avec un accent étranger (Burnham, 1998). Dans des conditions normales d’écoute, elle améliore également la compréhension de la parole conversationnelle (Cerrato et Leoni, 1998) ou celle de logatomes VCVCV1 (Benoît, Mohamadi et Kandel, 1994). Enfin, Mills (1987) a montré que des 1 C = consonne ; V = voyelle 5 enfants aveugles, d’une moyenne d’âge de deux ans, acquéraient plus lentement que les voyants des sons caractérisés par une articulation clairement visible (des bilabiales comme /b/, /m/, …) et qu’ils commettaient des erreurs spécifiques à leur déficit (substitution d’un phonème par un autre appartenant à une catégorie visuelle différente). L’augmentation de l’intelligibilité de la parole par l’information visuelle est en toute logique due au fait que cette dernière est complémentaire de l’information auditive (Summerfield, 1987). Pour les consonnes, Miller et Nicely (1955) ont souligné que le lieu d’articulation (spécifié par des changements acoustiques rapides, de faible intensité) est difficile à isoler du signal auditif présenté seul. Ce dernier fournirait par contre l’information relative au mode d’articulation et au voisement. Ces constatations ont été confirmées par Smeele et Sittig (1991). Ces auteurs ont demandé à des participants néerlandophones d’identifier des consonnes placées dans différents contextes syllabiques. La présentation était visuelle, auditive ou audiovisuelle. Dans la condition visuelle, le lieu d’articulation était le trait le mieux transmis. Dans la condition auditive, le mode d’articulation était bien perçu tandis que les scores relatifs au lieu étaient très faibles. L’information concernant les traits phonétiques n’était cependant pas transmise exclusivement par l’une ou l’autre modalité sensorielle puisque la perception bimodale était meilleure que la somme des deux conditions unimodales. RobertRibès, Schwartz, Lallouache et Escudier (1998) ont décrit le même type de résultats pour les voyelles du français. Une étude de Rosen, Fourcin et Moore (1981) a bien illustré cette complémentarité entre audition et vision. La fréquence fondamentale (F0), qui présentée seule n’est pas intelligible, constitue pourtant un indice important dans la compréhension du langage. La F0 n’est quasiment pas détectable via la modalité visuelle mais la complète bien. Les auteurs ont montré que les performances en lecture labiale augmentaient considérablement lorsque l’information acoustique de la F0 était disponible. Breeuwer et Plomp (1985) ont obtenu le même type de résultats en utilisant les fréquences des premier et second formants (F1 et F2) à la place de la F0. 6 L’effet McGurk ou la perception de la parole audiovisuelle incongrue Le rôle crucial de la lecture labiale, ainsi que le caractère spontané et irrépressible de son utilisation, s’illustrent particulièrement bien lorsque la vision et l’audition fournissent des signaux incongrus. Pour preuve, la présentation d’un message acoustique parfaitement audible en même temps que des mouvements articulatoires correspondant à un message différent donne souvent lieu à un percept qui ne correspond pas à l’information auditive mais intègre des traits du signal visuel. Cette illusion, mise en évidence par McGurk et MacDonald en 1976, démontre que le système perceptif utilise l’information visuelle même lorsque le signal auditif est clair et non ambigu. McGurk et MacDonald (1976) ont doublé des syllabes auditives de type CV redoublées, comme /baba/, de mouvements articulatoires correspondant à d’autres syllabes, comme /gaga/, et ont observé deux types d’illusions : des fusions et des combinaisons. Lorsque la consonne vélaire était présentée visuellement et la bilabiale auditivement, la perception qui en résultait était, chez 98% des adultes, une fusion entre les deux informations (/dada/). Par contre, la présentation d’un /baba/ visuel doublé d’un /gaga/ auditif suscitait une réponse de type combinaison, telle que /baga/, /gaba/, /gabga/ ou /bagba/ chez 54% des adultes. Ces premiers résultats ont été confirmés dans une étude ultérieure utilisant davantage de consonnes (MacDonald et McGurk, 1978). Notons qu’en présence d’un /ga/ auditif doublé d’un /ba/ visuel, la combinaison la plus courante est /bga/. Puisque à l’initiale d’un item monosyllabique, l’information visuelle articulatoire précède l’information auditive, le lieu d’articulation est donc identifié plus vite via la modalité visuelle que via la modalité auditive. Selon Smeele, Sittig et van Heuven (1994), ceci explique en partie pourquoi les combinaisons sont plutôt de type /bg/ que /gb/. Une autre explication, complémentaire, a été proposée par Massaro et Cohen (1993 ; voir aussi Cathiard, 1994). Un facteur déterminant de la formation de combinaisons de type /bg/ serait la compatibilité entre la configuration articulatoire du signal visuel et celle du percept combinaison attendu. Ainsi, les percepts /gb/ seraient peu fréquents à 7 cause de la grande différence de configuration articulatoire entre /b/ et /gb/ alors que les articulations de /b/ et de /bg/ sont plus semblables. Outre les réponses de type fusion ou combinaison, on observe parfois des captures visuelles. La modalité visuelle domine alors complètement le percept. En présentant tous les doublages possibles des syllabes auditives et visuelles /va/, /da/, /Da/ et /ba/, Repp, Manuel, Liberman et Studdert-Kennedy (1983) ont obtenu de très hauts pourcentages de captures visuelles. Rosenblum et Saldaña (1996) ont également montré que la présentation d’un /ba/ auditif avec un /va/ visuel donnait lieu à la perception de /va/. De nombreux exemples de captures ont également été rapportés entre des syllabes visuelles et auditives ayant des lieux d’articulation plus éloignés. Ainsi, bien que dans le cas d’un /ga/ auditif doublé d’un /ba/ visuel la réponse attendue soit une combinaison (/bga/), il arrive fréquemment que la réponse fournie soit /ba/ ; de même, avec un /ga/ visuel doublé d’un /ba/ auditif, des réponses /ga/ sont parfois observées (McGurk et MacDonald, 1976 ; Colin, Radeau, Deltenre, Demolin et Soquet , 2002). Enfin, l’effet McGurk peut aussi être mis en évidence sous forme de biais de catégorisation au sein de continua auditifs ou visuels synthétiques. Ainsi, par exemple, dans certaines études de Massaro (1987 ; 1998a), neuf pas le long d’un continuum auditif /ba-da/ sont combinés avec un visage articulant /ba/ ou /da/. Les participants doivent décider s’ils perçoivent /ba/ ou /da/. On constate que la contribution du signal visuel est d’autant plus importante que la source auditive est ambiguë. Depuis les premières études de McGurk et MacDonald, l’effet McGurk a été reproduit et réexaminé par de nombreuses équipes de recherche. Un aperçu de ces différentes études et des pourcentages d’illusions auxquels elles ont donné lieu est présenté dans le tableau I. Insérer le tableau I ici L’examen du tableau I montre que pour certaines des études présentées, un grand nombre d’informations méthodologiques manquent. Ceci s’explique probablement par le fait qu’une partie importante des études citées ont été publiées sous forme de « proceedings », format imposant des 8 limitations d’espace et ne permettant pas de donner tous les détails méthodologiques ou de présenter les analyses de résultats complètes. En ce qui concerne le texte, bien que nous citions dans la mesure du possible tous les articles de « proceedings » disponibles, il nous a souvent été difficile d’intégrer complètement les données faute d’information suffisante. Pour une revue des travaux relatifs à la perception audiovisuelle de la parole, nous renvoyons les lecteurs aux livres, thèses et articles suivants : Benoît et Campbell (1997), Burnham, Robert-Ribès et Vatikiotis-Bateson (1998), Campbell, Dodd et Burham (1998), Cathiard (1988/1989 ; 1994), Colin (2001), Dodd et Campbell (1987), Massaro (1987 ; 1998a), Massaro, Light et Geraci (2001), RobertRibès (1995), Stork et Hennecke (1996) et Vroomen (1992). En dépit du nombre important d’études consacrées à l’effet McGurk, les mécanismes sousjacents à cet effet ne sont toujours pas complètement élucidés. Les différentes théories de perception de la parole que nous développerons plus loin ne fournissent pas de cadre détaillé d’explication de la phénoménologie complexe des différents types d’illusions observées. Une première tentative, partielle, d’explication a été avancée par MacDonald et McGurk (1978) eux-mêmes dans leur théorie VPAM (Visual Place – Auditory Manner theory ou théorie du lieu visuel – mode auditif). Suivant cette théorie, le mode d’articulation serait identifié à partir de l’entrée auditive uniquement, tandis que le lieu d’articulation serait fourni par le signal visuel uniquement. Dans une situation de conflit audiovisuel, la perception résultante serait le stimulus s’accordant le mieux avec ces données. A titre d’exemple, lorsqu’un /b/ auditif est combiné à un /g/ visuel, le /d/ qui en résulte partage le mode d’articulation du stimulus auditif et le lieu postérieur (donc peu visible) de la consonne visuelle. Cependant, cette théorie ne rend pas compte de la situation inverse où un /g/ auditif doublé d’un /b/ visuel entraîne la perception d’un groupe consonantique : /bg/. Un peu plus tard, Summerfield (1987) a précisé et complété l’hypothèse VPAM. Selon sa théorie de Fonction de transfert du tractus vocal, le percept illusoire qui surviendra le plus probablement en cas de conflit audiovisuel sera la consonne se confondant auditivement le plus 9 facilement avec la consonne acoustique effectivement présentée et étant la plus compatible visuellement avec la consonne visuelle présentée. Ainsi, lorsque qu’un /b/ auditif est doublé d’un /g/ visuel, la fonction de filtre la plus compatible avec les signaux des deux modalités correspondra au percept /d/ (ou /D/ pour les anglophones). Comme l’illustrent les données de Miller et Nicely (1955), un /b/ acoustique se confond aisément avec un /d/. D’autre part, le /g/ visuel est similaire à /d/. En effet, pour un /g/, l’observateur peut voir que la langue se dirige vers l’arrière de la bouche mais ne peut voir la localisation précise. Dans le cas de la présentation inverse (/b/ visuel sur /g/ auditif), les données visuelles de fermeture de la bouche sont très fortes et supplantent la faible donnée acoustique d'une montée de fréquence du deuxième formant. La fonction moyenne sera interprétée comme /b/. Au seuil d’ouverture de la bouche, les données visuelles de la fonction de filtre deviennent ambiguës. Les données acoustiques indiquent que les fréquences des deuxième et troisième formants divergent ; d'où, la perception d'une consonne vélaire, /g/. La perception globale qui en résulte sera donc /bg/. L’interprétation de Summerfield peut être reliée à la notion de saillance perceptive. Selon Colin et al. (2002), l’obtention de l’une ou l’autre forme d’illusion semble dépendre du poids perceptif plus ou moins grand de l’information visuelle et acoustique. Visuellement, la saillance serait plus importante pour les consonnes bilabiales que pour les vélaires (pour des données en anglais : Walden, Prosek, Montgomery, Scherr et Jones, 1977 ; Benguerel et Pichora-Fuller, 1982 ; pour le français : Mourand-Dournier, 1980 ; Gentil, 1981 ; Colin, Radeau, Demolin et Soquet, 2000). Phonétiquement cependant, la saillance augmente à mesure que le point d’occlusion recule dans la bouche, l’énergie de l’explosion étant plus importante pour les consonnes vélaires que pour les bilabiales (Dorman, Studdert-Kennedy et Raphael, 1977). Dans le cas des combinaisons, où l’on perçoit à la fois la composante acoustique et la composante visuelle, l’information visuelle d’une bilabiale /p/ ou /b/ est tellement saillante qu’elle ne peut être ignorée ; il en est de même pour l’information phonétique fournie par /k/ ou /g/. Les deux modalités sont donc naturellement combinées. Pour les fusions, l’information visuelle de la consonne vélaire et l’information acoustique de la bilabiale sont plus ambiguës. Les « visèmes » /g/ et /k/ sont associés à plusieurs lieux d’articulation possibles, tandis que, 10 sur le plan acoustique, l’explosion des bilabiales est peu saillante. Cette double ambiguïté mènerait à un percept intermédiaire entre le son et l’image (/d/). Notons cependant que l’hypothèse présentée cidessus n’explique pas l’obtention par Cathiard, Schwartz et Abry (2001) d’un nombre plus important de percepts /d/ en doublant un /b/ auditif d’un /g/ visuel qu’en doublant un /b/ auditif d’un /d/ visuel. Conditions d’occurrence de l’effet McGurk L’effet McGurk est un effet robuste, se produisant dans un grand nombre de contextes. Il ne se manifeste pas uniquement pour des consonnes dans un contexte CV, mais peut aussi se produire au sein d’autres structures syllabiques. Il peut prendre place dans un contexte de mots ou de phrases et se produire avec des voyelles. En outre, les stimuli de parole ne doivent pas obligatoirement être naturels. L’effet McGurk au sein de différentes structures syllabiques Dans les études de l’effet McGurk, des monosyllabes de type CV (McGurk et MacDonald, 1976 ; MacDonald et McGurk, 1978 ; Green, Kuhl, Meltzoff et Stevens, 1991 ; Massaro et Cohen, 1993 ; Walker, Bruce et O’Malley, 1995) ou des dissyllabes de type VCV (Bertelson, Vroomen, Wiegeraad et de Gelder, 1994 ; Munhall, Gribble, Sacco et Ward, 1996 ; Cathiard et al., 2001) sont habituellement utilisées. Une comparaison systématique de monosyllabes, telles que /ba/, /ga/, … à des dissyllabes, telles que /aba/, /aga/, … n’a montré aucun avantage de l’une ou l’autre structure syllabique (Colin, Radeau et Deltenre, 1998a ; Colin, Radeau et Deltenre, 1998b ; Colin, 2001 ). L’effet McGurk dans des contextes de mots et de phrases 11 Si la majorité des chercheurs ont utilisé des syllabes pour mettre en évidence l’effet McGurk, Dekle, Fowler et Funnell (1992) ont montré que l’intégration entre la parole auditive et visuelle se manifestait aussi lorsque les phonèmes critiques étaient placés dans des mots réels. Par exemple, «mail» (courrier) présenté auditivement et «deal» (négociation) présenté visuellement suscitaient la perception de «nail» (ongle). Ces auteurs ont, du même coup, infirmé les conclusions contradictoires d’Easton et Basala (1982) qui n’avaient pas obtenu d’effet McGurk en utilisant des mots. Selon Dekle et al. (1992), ce résultat négatif était dû à un choix inapproprié de combinaisons audiovisuelles de mots conduisant souvent à des percepts non-mots. McGurk lui-même (1981) a rapporté que l’effet pouvait également se produire dans le cadre de phrases. La production acoustique de « my bab pope me poo brive » doublée des mouvements articulatoires de « my gag koke me koo grive » (deux séries d’items sans signification) a donné lieu à « my dad taught me to drive » (mon papa m’a appris à conduire). L’effet McGurk avec des voyelles Le phénomène d’intégration entre la modalité auditive et la modalité visuelle ne se manifeste pas seulement pour les consonnes, mais également pour les voyelles. Avec des paires de voyelles audiovisuelles incongrues différant au niveau du trait d’arrondissement, Lisker et Rossi (1992) ont montré que les mouvements articulatoires modifiaient significativement les jugements auditifs, une voyelle arrondie telle que /y/ recevant moins de jugements d’arrondissement lorsqu’elle était visuellement accompagnée d’une voyelle étirée, telle que /i/. Abry, Lallouache et Cathiard (1996) ont également rapporté des effets McGurk avec des voyelles. En utilisant des continua de voyelles synthétiques auditives variant de /u/ à /a/, de /a/ à /i/ ou de /i/ à /u/ dans un contexte CVC (comme dans /bad/ par exemple), doublées du visage d’un locuteur articulant /u/, /a/ ou /i/ (comme dans /bud/ par exemple), Summerfield et McGrath (1984) ont obtenu, dans les conditions incongrues, des biais de la voyelle acoustique dans la direction de la voyelle 12 visuelle. De tels biais ont également été observés par Massaro et Cohen (1993) avec un continuum synthétique allant de /i/ à /u/, ces voyelles étant présentées de façon isolée. Un /u/ visuel présenté avec un /i/ auditif augmentait la proportion de réponses /u/ et vice versa pour le /i/ visuel. Cependant, les réponses de type combinaison, auxquelles donnent fréquemment lieu les consonnes, étaient, ici, relativement rares. Selon les auteurs, les informations auditives et visuelles des voyelles auraient une durée trop longue pour autoriser une perception sérielle, laquelle est à la base des combinaisons qui se produisent pour les consonnes dont l’information transitoire visuelle et acoustique est brève. Dans une réplication de l’étude de 1993, Cohen et Massaro (1995) insistent sur le fait que l’influence visuelle des voyelles est plus faible que celle des consonnes, les voyelles fournissant une information auditive plus robuste. Toutefois, si l’information est différente, la manière de la traiter serait la même. L’effet McGurk avec des stimuli synthétiques Comme nous l’avons déjà mentionné, l’effet McGurk ne nécessite pas l’usage de la parole naturelle. On l’observe aussi avec des stimuli auditifs synthétiques doublés des mouvements articulatoires du locuteur. Massaro et Cohen (1990) ont montré que la présentation d’un locuteur réel n’est pas non plus indispensable. L’influence de la vision sur la perception de la parole se manifeste aussi lorsque l’articulation est produite par des visages synthétiques. Les stimuli utilisés dans cette étude étaient des exemplaires de continua de stimuli visuels, croisés avec des exemplaires de continua auditifs. Notons que dans cette condition, le cas prototypique de fusion n’a pas été démontré. Lorsque /ba/ auditif était doublé de mouvements articulatoires synthétiques correspondant à /ga/, aucun biais visuel n’était observé. Par contre, le doublage inverse (/ga/ auditif sur /ba/ visuel) donnait bien lieu à des combinaisons (Massaro, 1998b). Variables susceptibles de moduler la taille de l’effet McGurk 13 Si comme nous l’avons vu, l’effet McGurk se produit dans des contextes expérimentaux très variés, il peut néanmoins se manifester de façon différente en fonction de divers paramètres. Dans la section présente, nous allons examiner dans quelle mesure la taille de l’effet McGurk peut être modulée par des variables de bas niveau (tels que la séparation spatiale entre les stimuli auditifs et visuels, l’orientation spatiale du visage du locuteur et la désynchronisation temporelle), des variables relatives aux propriétés des stimuli (tels que l’environnement vocalique, l’environnement consonantique, la langue de test, le débit de parole des locuteurs et la qualité des stimuli auditifs et visuels) et des variables cognitives. La séparation spatiale L’effet McGurk ne semble pas affecté par la séparation spatiale entre l’image du locuteur et l’origine du signal acoustique. Dans une étude récente, Colin, Radeau, Deltenre et Morais (2001), le visage du locuteur était présenté droit devant les participants, tandis que le son était émis via des hautparleurs situé de 0° à 80° vers la droite ou vers la gauche, par pas de 20°. Tant les pourcentages de fusions que ceux de combinaisons étaient de taille comparable quelle que fût la position du hautparleur actif ; en particulier, ils étaient aussi importants pour les positions extrêmes que pour la position frontale. Ces résultats confirment ceux rapportés par Bertelson et al. (1994) pour des séparations spatiales relativement modérées (n’excédant pas 37,5°) et par Jones et Munhall (1997) pour des séparations spatiales importantes (atteignant 90°) dans une étude utilisant toutefois une méthodologie rendant l’interprétation des données problématique. D’une part, la mesure de l’effet McGurk n’était pas le nombre de réponses illusoires, mais le nombre de réponses congruentes avec le stimulus auditif, lesquelles ne sont pas forcément le complément du pourcentage d’illusions. D’autre part, les stimuli utilisés étaient ceux ayant donné lieu à l’effet McGurk le plus fort sur base d’études pilotes menées avec plusieurs locuteurs. On ne peut évidemment pas exclure la possibilité que des 14 percepts plus faibles seraient affectés par la séparation spatiale. Enfin, seules les illusions de type fusions ont été étudiées ; les combinaisons n’ont pas été considérées. L’orientation spatiale du visage du locuteur De nombreux auteurs ont montré que l’effet McGurk était altéré lorsque le visage du locuteur était incliné (Jordan et Bevan, 1997) ou présenté à l’envers (Bertelson et al., 1994 ; Green, 1994 ; Yakel, Rosenblum, Green, Bosley et Vasquez, 1995 ; Massaro et Cohen, 1996 ; Jordan et Bevan, 1997 ; Colin et al., 2001 ). L’influence de la présentation inversée des stimuli visuels résulte probablement de la modification de la configuration spatiale des articulateurs (Massaro et Cohen, 1996). Cette dernière s’associe vraisemblablement à une rupture de ce que Abry et al. (1994) appellent la « cohérence configurationnelle » entre les mouvements articulatoires et le signal auditif. La perte de cohérence configurationnelle expliquerait donc à la fois l’effet néfaste de la désynchronisation temporelle et celui de l’inversion du visage du locuteur. La désynchronisation temporelle Quelques travaux ont évalué l’influence de la désynchronisation entre un signal auditif et un signal visuel incongru sur l’intégration audiovisuelle de la parole. De nombreuses études ont montré qu’un retard du son de quelques centaines de msec n’affectait pas l’effet McGurk (Jones et Munhall, 1996 ; Massaro, Cohen et Smeele, 1996 ; Munhall et al., 1996 ; Bertelson, Vroomen et de Gelder, 1997 ). Massaro et Cohen (1993) ont même obtenu une augmentation du pourcentage de combinaisons avec un retard du son de 200 msec. Selon les auteurs, le fait que le signal visuel soit traité avant le signal auditif favoriserait l’occurrence de groupes consonantiques, du moins lorsque les syllabes visuelles et auditives sont congruentes avec ce genre de 15 réponse. Par contre, un retard de l’image par rapport au son affecte l’effet McGurk dès 60 msec. de décalage (Munhall et al., 1996). Le fait que l’intégration de stimuli audiovisuels incongrus résiste à des désynchronisations d’environ 200 msec., du moins pour une avance de l’image sur le son, est compatible avec l’idée d’un système de stockage sensoriel (e.g. Cowan, 1995), dont la trace persisterait pendant 200 à 250 msec. et qui permettrait au traitement des stimuli audiovisuels de se poursuivre même lorsque la stimulation pertinente a disparu. D’autre part, selon Cathiard et Tiberghien (1994), ainsi que selon Abry et al. (1996), le retard du signal auditif peut être comblé sans conséquence pour l’intégration tant que le son ne franchit pas la frontière visuelle du geste, c’est-à-dire, tant qu’il ne démarre pas après la fin visible du geste articulatoire. Aussi longtemps que cette condition est remplie, la « cohérence configurationnelle » entre les mouvements de la bouche et le signal auditif est maintenue. Or, selon Abry, Cathiard, Robert-Ribès et Schwartz (1994), ce qui serait critique dans la perception audiovisuelle de la parole ne serait pas tant la synchronisation que le maintien de cette cohérence. En tout état de cause, une stricte synchronisation entre les signaux auditifs et visuels n’est pas nécessaire pour que l’intégration se produise. L’environnement vocalique Tous les environnements vocaliques ne semblent pas favoriser l’émergence de l’effet McGurk. Ainsi, Schorradt, Piroth et Tillmann (1987) ont testé l’influence de /a/, de /i/ et de /u/ sur les illusions de type fusion. Celles-ci se produisaient peu en contexte /u/ (20%) et étaient plus importantes dans les contextes /a/ et /i/ (60% dans les deux cas). Green et Kuhl (1988) ont retrouvé cette faiblesse du contexte /u/ et ont obtenu des illusions plus fortes en contexte /i/ qu’en contexte /a/. Green et Gerdeman (1995) ont, quant à eux, examiné si la taille de l’effet McGurk pouvait être affectée par une discordance dans l’environnement vocalique des deux signaux (exemple : /ba/ auditif doublé de /gi/ visuel). Leur expérience incluait également des conditions sans discordance vocalique. Dans ce dernier 16 cas, l’environnement /i/ a produit un plus grand effet McGurk que l’environnement /a/, mais ce résultat n’était significatif que pour les combinaisons. Récemment, les résultats de Green et ses collègues ont été confirmés dans une étude montrant que les fusions et les combinaisons McGurk sont de 3 à 6% plus nombreuses avec /i/ qu’avec /a/ (Colin, 2001). Dans l’étude de Green et Gerdeman (1995), il y avait également plus de fusions /d/ lorsque l’environnement vocalique était /i/ et plus de percepts /D/ avec /a/. Le même pattern de résultats a été obtenu dans d’autres études (Green et al., 1991 ; Green et Norrix, 1997). Selon Green (1996), cet effet s’explique du fait que, dans un contexte /i/, les transitions formantiques d’un /b/ et d’un /d/ sont fortement compatibles. Par contre, dans un contexte /a/, les transitions formantiques de /b/ et de /D/ sont plus compatibles que celles de /b/ et de /d/. Par conséquent, dans une langue où la fricative interdentale n’est pas phonologiquement pertinente (comme en français), la réponse la plus congruente avec un /b/ auditif et un /g/ visuel pourrait ne pas être le phonème dental /d/ mais le bilabial (correspondant donc à l’information auditive), du moins dans un contexte /a/. Cette constatation expliquerait pourquoi, pour les fusions, le nombre de réponses dentales illusoires est plus important avec /i/ qu’avec /a/. Le fait qu’un phonème dental puisse ne pas être la réponse la plus congruente en présence d’un /b/ auditif et d’un /g/ visuel a été proposé par Green et Gerdeman (1995) pour expliquer pourquoi, dans des conditions normales d’écoute, l’effet McGurk est faible en japonais (où le /D/ n’existe pas). En effet, dans leur étude, Sekiyama et Tokhura (1991) n’ont utilisé comme contexte que /a/. L’utilisation de l’environnement vocalique /i/ dans cette langue pourrait donc augmenter les pourcentages d’illusions. Bien que cette hypothèse doive encore être testée, il faut mentionner que Burnham et Keane (1997), avec un locuteur anglophone, ont reproduit l’effet de croisement /a/, /i/ x /d/, /D/ en japonais, indépendamment de la non pertinence phonologique du /D/ dans cette langue. L’environnement consonantique (consonnes voisées vs non-voisées) 17 On sait peu de choses de l’influence du voisement sur l’effet McGurk. La plupart des études ont été réalisées avec des consonnes occlusives voisées, telles que /b/ et /g/. Certains chercheurs ont utilisé des consonnes voisées et des consonnes non-voisées, mais sans les comparer explicitement. Que ce soit à partir des résultats de Diesch (1995), ou de ceux de Sekiyama (1997), il n’a pas été possible de déterminer quel type de consonnes a produit le plus d’illusions. Les données brutes de Sekiyama et Tokhura (1991) ont indiqué davantage d’influence visuelle avec les consonnes nonvoisées. Cependant, chez MacDonald et McGurk (1978), les fusions semblaient plus nombreuses avec les consonnes voisées, alors qu’aucune différence n’apparaissait pour les combinaisons. Colin et al. (2002) ont mis en évidence un effet différentiel du type de consonne sur les deux sortes d’illusions. Les consonnes non-voisées produisaient plus de combinaisons que les voisées mais pour les fusions, le pattern avait tendance à s’inverser. Cet effet différentiel du voisement peut s’interpréter en termes des principes généraux de saillance perceptive sous-jacents à l’occurrence des combinaisons et des fusions. Il résulterait du poids perceptif plus grand de l’explosion pour les nonvoisées que pour les voisées. L’explosion est un indice important non seulement pour la perception du lieu d’articulation (Dorman et al., 1977) mais aussi pour celle du voisement : elle est plus intense pour des consonnes non-voisées que pour des voisées (Calliope, 1989). L’explosion étant plus intense pour un /k/ que pour un /g/, /k/ est auditivement plus saillant que /g/ et donne donc lieu à plus de combinaisons. Pour les fusions, c’étaient les consonnes voisées qui donnaient lieu au plus grand nombre d’illusions, une tendance qui cependant n’était pas statistiquement significative. Du fait de la moindre intensité de l’explosion, les consonnes voisées sont moins saillantes et donc plus susceptibles d’être « attirées » par la modalité visuelle et de produire une illusion telle qu’un /d/. Un autre type d’explication fait intervenir la notion de confusions acoustiques dans le bruit. Selon Summerfield (1987), le percept audiovisuel émergeant dans l’effet McGurk est la consonne qui se confond le plus facilement dans le bruit avec la consonne présentée auditivement et qui, de plus, est la plus compatible avec la consonne présentée visuellement. Les données sur les confusions acoustiques, dans le bruit, rapportées par cet auteur fournissent quelque support à son hypothèse. Par 18 exemple, un /b/ auditif est moins bien identifié dans le bruit qu’un /p/ auditif. De plus, /b/ est plus souvent confondu avec /d/ que ne l’est /p/ avec /t/. Ces constatations pourraient expliquer les plus hauts pourcentages de fusions obtenus avec un /b/ auditif plutôt qu’avec un /p/. Cependant, cette explication s’applique moins aisément aux combinaisons. Il faut toutefois noter que l’interaction entre voisement et type d’illusion n’a pas été reproduite dans deux des études rapportées par Colin (2001). La langue utilisée Si la majorité des études relatives à l’effet McGurk ont été conduites en anglais (McGurk et MacDonald, 1976 ; MacDonald et McGurk, 1978 ; Easton et Basala, 1982 ; Massaro, 1987 ; Green et al., 1991 ; Green et Gerdeman, 1995 ; Walker et al., 1995, …), il faut reconnaître qu’une quantité non négligeable de travaux ont été menés dans diverses autres langues (voir le tableau I) : en néerlandais (e.g. Massaro, Cohen et Smeele, 1995), en allemand (e.g. Tillman, Pompino-Marschall et Porzig, 1984), en japonais (e.g. Sekiyama et Tokhura, 1991, 1993), en chinois (e.g. Sekiyama, 1997), en finnois (e.g. Sams, Surakka, Helin et Kättö, 1997), en espagnol (e.g. Fuster-Duran, 1996), en malais (Hardison, 1996), en coréen (Hardison, 1996), en !Xóõ, une langue africaine à clics (Traill, 1999) et en français (Cathiard et al., 2001 ; Colin et al., 2001 ; Colin et al., 2002). Les travaux réalisés dans ces différentes langues révèlent des résultats relativement variables quant à la robustesse de l’effet McGurk. Par exemple, dans des conditions normales d’écoute, les Japonais (Sekiyama et Tohkura, 1991 ; 1993) et les Chinois (Sekiyama, 1997) ne sont que peu sensibles à l’effet. Ces résultats pourraient être interprétés en termes de similarités culturelles entre la Chine et le Japon (dans les deux cultures, il est considéré comme impoli de regarder le visage du locuteur) mais aussi en termes d’utilité de l’information visuelle dans ces langues. Le chinois (et le japonais dans une moindre mesure) sont des langues tonales. Certains mots sont ainsi uniquement déterminés par leur son et seule la modalité auditive peut fournir des indices désambiguïsants utiles. 19 Cette caractéristique linguistique pourrait expliquer la faiblesse de l’effet McGurk dans ces deux langues. Remarquons cependant que Massaro, dont la théorie prédit que les mécanismes d’intégration audiovisuelle dans la parole sont équivalents d’une langue à l’autre (Massaro, 1987) n’a pas obtenu de différence dans la taille de l’effet McGurk que ce soit en comparant des Japonais, des Espagnols et des anglophones (Massaro, Cohen, Gesi, Heredia et Tsuzaki, 1993), ou en comparant des néerlandophones et des anglophones (Massaro et al., 1995), tous testés dans leur langue maternelle. Les variations notées dans certaines études pourraient résulter, non pas de mécanismes d’intégration différents, mais du système phonétique propre à chaque langue, de ses contraintes phonotactiques particulières et de l’importance relative des informations auditives et visuelles. L’influence des contraintes phonotactiques a été démontrée par Fuster-Duran (1996) dans une étude portant sur l’effet McGurk auprès d’Allemands et d’Espagnols testés chacun dans les deux langues. Lorsque /rra/ auditif (trille alvéolaire typique de l’espagnol) était doublé d’un /da/ visuel, les Espagnols faisaient assez peu de combinaisons de type /dra/. En effet, la syllabe /rra/ est, pour eux, auditivement très fréquente et très intelligible. La syllabe auditive /rra/ étant inexistante en allemand, les participants germanophones manifestaient, par contre, énormément de percepts /dra/ lorsqu’elle était combinée à /da/ visuel. Cependant, même si, de façon générale, les règles phonotactiques influencent la perception, la plupart du temps on observe malgré tout des percepts violant ces règles. Comme le montrent les études réalisées en chinois et en japonais, il pourrait y avoir un lien entre la taille de l’effet McGurk et le degré d’informativité de la modalité visuelle. En effet, si les Japonais perçoivent effectivement l’information visuelle (ils sont capables de rapporter les incongruités audiovisuelles), ils ne l’intègreraient pas avec l’information auditive parce qu’elle est relativement superflue (Burnham, 1998). L’information visuelle serait également d’autant plus utile (et donc l’effet McGurk d’autant plus fort) que le participant est peu familier avec la langue de test et est donc contraint d’exploiter au maximum toutes les informations qui sont à sa disposition (FusterDuran, 1996 ; Hardison, 1996 ; Sekiyama, Tokhura et Umeda, 1996 ; Davis et Kim, 1998 ). 20 Contrairement aux deux langues asiatiques pré-citées, en anglais ou en français, le signal visuel est essentiel pour désambiguïser des contrastes phonétiques proches, notamment celui relatif au lieu d’articulation. Le fait que beaucoup d’études menées en anglais aient donné lieu à un effet McGurk important est en accord avec cette observation. En ce qui concerne le français, la situation est plus complexe. La littérature ne relate que très peu de recherches consacrées à l’effet McGurk. L’une des rares études habituellement citée dans le domaine est celle de Werker, Frost et McGurk (1992) dont l’objectif n’était pas d’étudier l’effet McGurk en français mais en anglais sur des francophones de différents niveaux d’expérience linguistique. A cette fin, les syllabes audiovisuelles étaient prononcées par un locuteur canadien anglophone. Le matériel consistait en un /ba/ auditif doublé d’un /ba/, d’un /va/, d’un /da/, d’un /ga/, d’un /Za/, ou d’un /Da/ visuel. Rappelons que l’interdentale /D/ existe en anglais, mais pas en français. Un groupe d’anglophones et cinq groupes de Canadiens francophones variant par leur niveau de connaissances de l’anglais, ont été testés. La proportion de captures visuelles pour le stimulus /D/ a augmenté en fonction de la maîtrise de cette langue. Les francophones débutant dans leur apprentissage de l’anglais ont assimilé ce « visème » à celui qui, dans leur langue maternelle, possède le lieu d’articulation le plus proche : /d/. Il ressort de cette étude qu’un haut degré d’expérience linguistique avec une langue facilite l’utilisation et l’intégration de la lecture labiale dans la perception de cette langue. Lors d’études récentes de l’effet McGurk en français (Colin et al., 1998a ; Colin et al., 1998b ; Colin et Radeau, 1999 ; Radeau et Colin, 1999 ; Colin et al., 2002), il est apparu qu’à un niveau confortable d’intensité des stimuli auditifs (70 dB), l’effet McGurk était très faible : environ 40% de combinaisons et presque pas de fusions. Des fusions (environ 25%) n’ont pu être observées qu’en réduisant l’intensité à 40 dB, condition qui favorisait également l’occurrence d’un plus grand nombre de combinaisons (entre 50% et 70%). Ces pourcentages sont assez similaires à ceux rapportés par Cathiard et al. (2001) dans une étude menée sur un large échantillon de francophones (126). Ainsi, avec /aba/ auditif doublé de /aga/ visuel, la fusion (/ada/) n’était présente que dans 23% des cas, alors 21 que la présentation inverse donnait lieu à 73.5% de combinaisons. Les auteurs ne précisent malheureusement pas le niveau d’intensité sonore auquel les stimuli ont été présentés. Les influences possibles du matériel (synchronisation plus ou moins précise induite par l’utilisation d’une technique analogique ou d’une technique digitale), du locuteur (masculin vs féminin) et du type de présentation des stimuli (mélange d’essais audiovisuels congruents et incongrus vs présentation d’essais incongrus uniquement) sur la taille des illusions McGurk en français ont été examinées par Colin et al. (2002). Parmi ces facteurs, seule la technique de synchronisation utilisée a eu un effet, la synchronisation digitale suscitant dans l’ensemble 10% d’illusions de plus que la technique analogique, moins précise. Le débit d’articulation L’influence du débit de parole des locuteurs peut être étudiée plus facilement en utilisant des dissyllabes que des monosyllabes car les changements de débit concernent principalement les pauses (Miller et Dexter, 1988). Colin (2001), Colin et al. (1998a) et Colin et al. (1998b) ont comparé trois conditions congruentes de débit : lent, normal et rapide. Dans l’ensemble, la condition lente a suscité une légère augmentation des pourcentages d’illusions par rapport aux deux autres conditions (un avantage qui était cependant restreint à certaines conditions expérimentales). Munhall et al. (1996) ont, quant à eux, manipulé, indépendamment, le débit du signal auditif et celui du signal visuel, chacun pouvant être lent, normal ou rapide. Alors qu’aucune différence significative n’a été obtenue entre les trois conditions congruentes, l’effet McGurk diminuait lorsque les débits auditif et visuel étaient discordants. En particulier, les illusions augmentaient à mesure que le débit visuel était ralenti ou que le débit auditif s’accélérait. Un débit visuel plus lent laisse plus de temps pour lire sur les lèvres. Un débit auditif rapide (de même qu’une intensité faible) réduit l’intelligibilité des sons, augmentant, de la sorte, la nécessité d’avoir recours au signal visuel. 22 Beaucoup de données illustrent l’importance du temps dans le traitement auditif (pour une revue, voir Mattys, 1997). La perception de la hauteur de sons simples (Massaro, 1972) et l’identification de voyelles (Massaro, 1974), par exemple, peuvent être fortement améliorées en augmentant la quantité d’information disponible par allongement du son ou du segment vocalique présentés ou en augmentant le temps de traitement. Dans la lecture labiale, comme dans la parole auditive, l’information est délivrée séquentiellement. On peut donc en inférer que le temps de traitement est également un élément critique. Ralentir le débit pourrait contribuer à désambiguïser le signal visuel en rendant le lieu d’articulation plus évident, favorisant ainsi l'usage de la modalité visuelle. Alors que cette interprétation amènerait à prédire que le ralentissement du débit de parole pourrait améliorer les performances de lecture labiale (en l’absence de son), toutefois et de façon assez inattendue, les données disponibles ne plaident pas en faveur d’une influence du débit visuel. Ijsseldijk (1992) a montré, chez des enfants sourds, que les performances de lecture labiale de mots, de propositions et de phrases n’étaient pas affectées par le débit de parole visuelle (celui-ci correspondait à 100%, 50%, 33% ou 25% d’un débit normal). De même, Colin et al. (2000) n’ont observé aucune influence du débit de parole sur l’intelligibilité de syllabes visuelles pour trois débits (lent, normal et rapide) représentant 140%, 100% et 70% du débit normal. Les raisons de cette dissociation entre l’effet du débit de parole sur la parole audiovisuelle incongrue d’une part et sur la lecture labiale d’autre part restent à déterminer. La qualité des stimuli La qualité est une notion connexe à celle d’informativité. Des stimuli de bonne qualité délivrent plus d’information que des stimuli de qualité médiocre. Comme nous allons le voir, l’effet McGurk est affecté par la qualité de l’information tant auditive que visuelle. 23 Au niveau auditif, les principales façons de modifier la qualité du stimulus consistent à en réduire l’intensité ou/et à lui ajouter du bruit. Comme indiqué dans la section précédente, ce type de manipulation entraîne une augmentation, souvent très significative, de l’effet McGurk (Colin et al., 2002). On peut se demander si l’augmentation des illusions dans des conditions d’écoute dégradées est bien un phénomène perceptif et non stratégique. Des conditions d’écoute défavorables pourraient en effet déclencher un comportement de type « résolution de problèmes ». Etant incapables d’utiliser efficacement la modalité auditive, les participants pourraient recourir intentionnellement à la lecture labiale afin de « deviner » ce qui a été dit. Cette explication semble toutefois peu plausible dans la mesure où, dans l’étude de Colin et al. (2002), même à 40 dB, 90% des réponses visuelles observées (cas où seul le signal visuel est rapporté) étaient exemptes d’erreurs relatives au voisement. Si seule la lecture labiale avait été prise en compte, le voisement n’aurait sans doute été correct que dans 50% des cas. L’augmentation du nombre d’illusions par diminution de l’intensité du stimulus auditif ou ajout de bruit auditif a été rapportée dans d’autres études. Par exemple, en Japonais, Sekiyama et Tokhura (1991) ont obtenu un très faible effet McGurk dans des conditions normales d’écoute. L’ajout de bruit auditif leur a permis d’obtenir un effet bien plus important (50% d’augmentation). Pour des anglophones, testés en anglais, Hardison (1996) a relevé un effet similaire dans une de ses expériences. Il en était de même dans l’étude de Jordan et Sergeant (1998), également menée en anglais, où le pourcentage de fusions est passé d’environ 30% (à 55 dB) à 95 % (en ajoutant du bruit blanc continu d’un niveau de 70 dB aux stimuli). Le lien entre l’influence visuelle sur la perception auditive et la saillance des stimuli auditifs a même été mis en évidence dans la langue !Xóõ, une langue à clics (Traill, 1999). Des clics auditifs de faible intensité ont été beaucoup plus influencés par l’information visuelle que des clics de forte intensité. Notons cependant les données paradoxales de Kuhl et Green (1988), publiées sous forme de résumé, indiquant une augmentation des nombres de 24 réponses illusoires à mesure que le niveau d’intensité sonore augmentait (de 45 dB à 58 dB et à 66 dB). L’intensité sonore ne semble pas être le seul facteur à pouvoir exercer une influence sur la taille de l’effet McGurk, l’intelligibilité auditive du locuteur joue aussi un rôle. Dans une étude menée en japonais, Sekiyama (1998) a comparé différents locuteurs choisis d’après leur réputation à pouvoir susciter un effet McGurk faible ou fort. Si les combinaisons étaient peu affectées par le type de locuteur, les fusions augmentaient de 50% entre un « mauvais » locuteur et un « bon » locuteur. Les données obtenues lors de conditions unimodales ont montré que ces deux types de locuteurs différaient principalement sur le plan de l’intelligibilité auditive, un locuteur très intelligible ne provoquant que peu d’effet McGurk. Le rôle de la qualité du stimulus dans l’effet McGurk ne se limite pas aux stimuli auditifs. Bien que Sekiyama (1998) n’ait pas obtenu de corrélation entre la taille de l’effet McGurk et l’intelligibilité visuelle, il faut noter que cette dernière est pourtant susceptible de varier énormément d’un locuteur à l’autre, en fonction du débit de parole, de la précision des gestes articulatoires, etc. (Demorest et Bernstein, 1992 ; Kricos, 1996). Nelson et Hodge (2000) ont montré que l’identification de syllabes audiovisuelles, en particulier celles qui comportent des occlusives bilabiales, est rendue plus difficile lorsque le locuteur souffre de paralysie faciale et est donc moins intelligible sur le plan visuel. D’autres manipulations de la qualité du stimulus visuel ont également été menées. Par exemple, Fixmer et Hawkins (1998) ont montré que si le nombre de réponses McGurk augmente avec l’ajout de bruit auditif, il diminue avec l’ajout de bruit visuel (image brouillée). MacDonald, Andersen et Bachmann (1999) ont, pour leur part, observé que l’effet McGurk diminuait graduellement à mesure que les stimuli visuels étaient dégradés par un processus de « quantisation spatiale » (procédé consistant à réduire la résolution d’une image par le moyennage local de pixels). Jordan et Sergeant (1998) ont comparé l’occurrence de fusions McGurk à différents niveaux de taille d’image, l’intensité sonore (55 dB) et la distance des participants par rapport à l’écran (1m) restant constants. L’image avait une taille maximale de 210 cm de haut. Elle a été réduite à 20%, 10%, 25 5% et 2,5% de ce maximum (soit 42 cm, 21 cm, 10.5 cm et 5.25 cm). Les fusions McGurk n’ont commencé à diminuer qu’à partir de la réduction à 5% et cette diminution était de l’ordre de 20 à 25%. L’effet McGurk semble donc résister à des réductions assez importantes de la taille de l’image. Il se manifeste aussi lorsque l’image se limite à des points lumineux reproduisant le mouvement des lèvres (Rosenblum et Saldaña, 1996). Dans ces deux cas, la dégradation visuelle n’altère pas l’aspect dynamique des stimulations. Ce n’est, par contre, pas le cas des études de Fixmer et Hawkins (1998), de MacDonald et al. (1999) et de Nelson et Hodge (2000). En règle générale, l’effet McGurk semble donc plus robuste lorsque les conditions d’écoute sont dégradées (en diminuant l’intensité sonore ou en ajoutant du bruit) et lorsque l’aspect dynamique des stimuli visuels est respecté. Ceci semble valable même dans une langue comme l’anglais, pour laquelle l’effet McGurk a été décrit comme particulièrement robuste dans des conditions normales d’écoute. Les variables cognitives L'effet McGurk est irrépressible : on ne peut s’empêcher d’y être sensible, même en ayant parfaitement connaissance des mécanismes de doublage. Cette caractéristique a parfois conduit à considérer comme impénétrables sur le plan cognitif les mécanismes sous-tendant l’effet McGurk. Selon Fodor (1983), la notion d'impénétrabilité cognitive implique qu’un système donné effectue ses traitements sans être affecté, ni par les influences cognitives, comme les croyances, les attentes, ni par les opérations effectuées par les autres systèmes. S’il est indéniable que les participants sont sensibles à l’effet McGurk alors même qu’ils sont conscients du conflit (Repp et al., 1983 ; Summerfield et McGrath, 1984 ; Massaro, 1987 ; Rosenblum et Saldaña, 1996 ), cela ne signifie pas que l’effet ne soit pas affecté par des manipulations cognitives. Ainsi, dans l'étude de Summerfield et McGrath (1984), des participants avertis de la manipulation expérimentale et dont la tâche consistait à répéter ce qu'ils avaient entendu étaient moins influencés 26 par la modalité visuelle que des participants complètement « naïfs » et dont la tâche consistait à répéter ce que le locuteur avait prononcé (une consigne qui, selon les auteurs, mettait moins l’accent sur la modalité auditive). Summerfield et McGrath ont suggéré que cette différence entre les deux groupes pouvait être due à des mécanismes attentionnels mis en jeu lorsque les participants devaient se concentrer sur la modalité auditive. Les mécanismes attentionnels pourraient donc agir sur les processus d'intégration audiovisuelle mais sans les inhiber totalement. Amano et Sekiyama (1998) ont également émis l’hypothèse que l’intégration audiovisuelle pourrait, en partie, dépendre de facteurs attentionnels. Ces auteurs ont constaté que l’effet McGurk était plus fort lorsque les stimuli audiovisuels faisaient partie d’un ensemble de petite taille (par exemple, les syllabes /pa/ et /ta/) que lorsqu’ils appartenaient à un large ensemble de stimuli (par exemple, /pa/, /ta/, /ma/, /na/, /ba/, /ga/, /da/, /ka/). Ils ont attribué cet effet de taille de l’ensemble des stimuli au fait que lorsque l’ensemble comprenait de nombreux types de consonnes différentes, les participants se devaient d’orienter préférentiellement leur attention vers la modalité auditive afin de pouvoir discriminer les différentes consonnes. Récemment, des effets de l’attention visuelle ont également été mis en évidence par Tiippana, Sams et Andersen (2001) qui ont obtenu un effet McGurk plus fort en demandant explicitement aux participants de faire attention au visage du locuteur qu’en leur demandant de prêter attention à un distracteur visuel présenté au même endroit que le visage (une feuille d’arbre bougeant lentement sur le visage mais ne masquant pas les lèvres du locuteur). Des effets de contexte de phrases tels ceux obtenus par McGurk (1988) ont parfois été considérés comme suggérant le rôle de facteurs cognitifs. Avec la production auditive du mot anglais «part» (pièce de théâtre) doublée des mouvements articulatoires de «cart» (la charrette), la perception était «part» après la phrase «the actor played the …» (l’acteur a joué la/le …) , «tart» (tarte) après «the baker baked the …» (le boulanger a cuit la/le …) et «cart» après «the horse pulled the …» (le cheval a tiré la/le ...). Ces résultats ont amené McGurk à penser que les deux modalités sont d’abord traitées séparément et que l’intégration de la parole vue et entendue se produirait à un niveau plus tardif (post- 27 catégoriel). Notons cependant que les influences lexicales pourraient ne pas intervenir au niveau des mécanismes perceptifs d’intégration, mais au niveau des processus de décision. Le rôle des influences cognitives a aussi été considéré en manipulant la compatibilité entre le genre féminin ou masculin du visage et celui de la voix. Les résultats, cependant, ne sont pas tout à fait cohérents. Alors qu’Easton et Basala (1982) ont observé un effet néfaste de l’incompatibilité de genre entre visage et voix sur l’effet McGurk, aucune diminution ne s’est manifestée dans une étude analogue de Green et al. (1991). D’autre part, Walker et al. (1995) ont obtenu une interaction entre l'incongruité de genre et la familiarité, l'effet McGurk n’étant altéré par une discordance de genre visage/voix que lorsque le visage du locuteur était familier aux observateurs. Alors que les mécanismes d'intégration de la parole audiovisuelle semblent résister à la prise de conscience d'une discordance entre les deux modalités, ils ne seraient donc pas à l’abri d’influences attentionnelles, lexicales, ou liées à l'identification du locuteur. Cette apparente pénétrabilité cognitive pourrait néanmoins refléter des processus décisionnels plutôt que perceptifs. S’il est indéniable que les modalités auditive et visuelle contribuent toutes les deux à la perception de la parole et si de nombreux éléments nous permettent de comprendre à la fois pourquoi les signaux auditifs et visuels sont complémentaires et pourquoi leur influence est modulée par différents paramètres expérimentaux, la question des processus d’intégration reste ouverte. Sur quels mécanismes cognitifs repose l’intégration multimodale de la parole ? A quel niveau du traitement perceptif ces mécanismes sont-ils mis en œuvre ? Emergent-ils de façon précoce au cours du développement, ou se développent-ils après un certain temps d’exposition au langage ? Des aires cérébrales particulières en constituent-t-elles le substrat neural ? Avant de fournir des éléments de réponse à ces deux dernières questions, nous allons examiner à quel niveau du traitement de la parole survient l’intégration audiovisuelle et ensuite nous pencher sur les différentes théories qui tentent d’expliquer la manière dont elle se produit. 28 Le niveau de traitement auquel se situe l’intégration audiovisuelle L’intégration est dite tardive si l’on estime qu’elle suit l’intervention du processus de catégorisation phonétique. Elle est dite précoce si l’on pense qu’elle opère sur des représentations communes aux deux modalités, élaborées par des mécanismes de bas niveau qui seraient antérieurs à la catégorisation. Notons que cette problématique a été discutée par Summerfield (1987), Massaro (1987 ; 1998a), Vroomen (1992) et Schwartz, Robert-Ribès et Escudier (1998). La théorie VPAM établie par MacDonald et McGurk (1978) pour expliquer l’occurrence de l’effet McGurk est en complète contradiction avec la notion d’intégration précoce. Selon ces auteurs, les signaux des deux entrées sont donc d’abord évalués indépendamment par deux processus parallèles de reconnaissance. Ensuite, les traits phonétiques obtenus à partir de chaque modalité sont fusionnés dans un espace de représentation commun. Le fait que chaque modalité prenne en charge un groupe particulier de traits phonétiques constitue le problème majeur de cette théorie. En effet, la dichotomie lieu visuel /mode auditif n’est pas aussi nette que la théorie le suppose. Par exemple, l’audition véhicule non seulement l’information concernant le mode d’articulation, mais elle peut également fournir des indices de lieu d’articulation. La prise en compte simultanée des indices auditifs et visuels de chaque trait phonétique semble donc plus pertinente (Robert-Ribès, Piquemal, Schwartz et Escudier, 1996). Dans ce cas, la catégorisation phonétique devrait donc bien prendre place après l’intégration audiovisuelle. Contrairement à VPAM, la théorie de Fonction de transfert du tractus vocal proposée par Summerfield (1987), explique l’occurrence des illusions McGurk sur base d’une intégration précoce. La perception audiovisuelle de la parole impliquerait l’intégration des estimations auditives et visuelles de la fonction de filtre (ou de transfert) du tractus vocal. La parole produite résulterait d’un filtre, variant dans le temps, opérant sur la source de l’énergie acoustique, en fonction des cavités de résonance du conduit vocal. Le système perceptif calculerait, à chaque instant, une fonction de transfert du tractus vocal pour le signal auditif et une autre pour le signal visuel. Des fonctions 29 moyennes seraient estimées par la suite. La fonction la plus compatible avec les signaux des deux modalités serait enfin catégorisée. La théorie de Fonction de transfert du tractus vocal suppose donc bien que l'intégration audiovisuelle précède la catégorisation phonétique. Selon Summerfield (1987), ce principe est obligatoire du fait que la fonction principale du signal visuel dans la perception de la parole est de désambiguïser l’information acoustique lorsque cette dernière est difficile à catégoriser. Les quelques arguments qui ont été avancés en faveur du concept d’intégration tardive ne sont pas totalement convaincants : - L’un d’eux est issu d’études relatives à l’adaptation sélective auditive. Plusieurs auteurs (Roberts et Summerfield, 1981 ; Roberts, 1987 ; Saldaña et Rosenblum, 1994) ont montré qu’un /d/ illusoire (/b/ auditif doublé de /g/ visuel) ne produisait pas d’effet d’adaptation comparable à celui émanant d’un /d/ acoustique. Il provoquait un effet identique à celui d’un /b/ acoustique. Des effets d’adaptation sélective ne pourraient donc pas se produire dans le cadre de l’intégration de la parole audiovisuelle. Ceci a parfois été considéré comme signifiant que l’intégration est consécutive à la catégorisation phonétique. Une telle interprétation repose toutefois sur l’hypothèse selon laquelle l’adaptation auditive aurait lieu au moment de la catégorisation phonétique. Or, selon Schwartz et al. (1998), elle pourrait dépendre de mécanismes auditifs de niveau plus précoce (par exemple, une adaptation au niveau du nerf auditif). - Un autre argument plaidant en faveur de l’intégration tardive a été développé par Munhall et Tohkura (1998). Ces chercheurs ont examiné le décours temporel de l'intégration audiovisuelle à l'aide d'un paradigme de dévoilement progressif (« gating ») appliqué à des dissyllabes de type VCV. Le signal d’une des deux modalités était présenté entièrement alors que celui de l’autre modalité était dévoilé progressivement. Quelle que soit la modalité manipulée par le processus de dévoilement, l’effet McGurk a augmenté progressivement avec celui-ci. La modification ne suivait cependant pas le même décours selon la modalité dévoilée. Elle était linéaire pour la modalité visuelle, indiquant que la perception de l'information visuelle est continue, variant en fonction de 30 la dynamique d'articulation. Dans le cas de l'information auditive la modification n’était pas linéaire, certains instants acoustiques, comme l’explosion, étant plus saillants. L'information auditive de la portion VC était considérablement moins efficace que celle de la portion CV (l'identification de la consonne étant restée difficile jusqu'à l'explosion). Ces données suggèrent que l'information dynamique serait extraite séparément pour chaque modalité avant que les informations visuelle et auditive soient intégrées. Un tel processus d’extraction séparée n’implique évidemment pas que les deux signaux ont nécessairement été catégorisés complètement avant d’être intégrés. - Enfin, Massaro, Cohen et Thompson (1988) ont mis en évidence un effet McGurk lorsque les mouvements articulatoires visuels étaient remplacés par des mots écrits. Selon les auteurs, l’interférence entre mots écrits et signal sonore n’a pu se produire que si ces deux types d’informations ont été intégrées post-catégoriellement. Ces observations n’ont cependant pas été reproduites par Fowler et Dekle (1991). De plus, Vroomen et de Gelder (1999) en indiquent quelques limitations. D'une part, les percepts de type combinaison ne se produisent pas avec la parole écrite. D'autre part, même s'il y a réellement une interaction entre l'information écrite et acoustique, rien ne permet de déceler à quel niveau elle se produit. La lecture écrite et la lecture labiale pourraient très bien interagir avec l'information auditive à des niveaux différents. Alors que la lecture labiale interagirait avec la parole entendue à un niveau perceptif, l’interaction entre la lecture écrite et la parole entendue pourrait se produire lors d'une étape de prise de décision. Si tel est le cas, les données de Massaro et al. (1988) ne permettent aucune conclusion quant à la relation temporelle entre intégration et catégorisation phonétique. L’hypothèse d’intégration précoce, quant à elle, est confortée par de nombreux résultats : - L’expérience de Rosen et al. (1981), détaillée page 5, démontre que lorsqu’elle est combinée à la lecture labiale, la F0 contribue fortement à la perception de la parole. Cette observation est incompatible avec une théorie d’intégration tardive dans laquelle, ni les processus de décodage 31 auditif, ni ceux de décodage visuel n’auraient pu fournir d’indices permettant une décision par rapport au signal. - Green et Miller (1985) ont élaboré des bandes vidéo montrant un locuteur articulant /bi/ ou /pi/ suivant un débit tantôt rapide, tantôt lent. Ils ont doublé ces deux syllabes de différents exemplaires d’un continuum auditif allant de /bi/ à /pi/ et produits suivant un débit de parole moyen. Le but était de tester un effet possible du débit visuel sur le jugement d’identité phonémique des syllabes auditives. Lorsque l’information visuelle changeait d’un débit de parole rapide à un débit lent, il y avait un changement concomitant au niveau de la localisation de la frontière phonémique du stimulus auditif vers des valeurs de VOT plus longues. L’information visuelle relative au débit de parole est donc pertinente pour la perception du voisement. Elle ne peut, par conséquent, être intégrée à l’information auditive qu’avant la catégorisation phonétique. - De plus, Green et Kuhl (1989) ont montré que lorsqu’un continuum auditif allant de /ibi/ à /ipi/ était doublé de l’articulation de /igi/, la frontière de voisement des percepts audiovisuels (qui vont de /idi/ à /iti/) était déplacée vers des valeurs de VOT plus longues que celles observées lorsque le même continuum était présenté sans stimulation visuelle. L’information visuelle serait donc combinée avec l’information auditive avant que la décision d’identité phonétique ne soit prise, excluant, ainsi, toute possibilité d’une intégration audiovisuelle post-phonétique. - Une autre étude de Green et Kuhl (1991) confirme l'idée que l’information auditive de voisement et l’information visuelle de lieu d'articulation sont traitées comme une unité intégrée plutôt que de façon séparée. Les auteurs ont construit quatre stimuli audiovisuels en combinant /ibi/ et /ipi/ auditifs à /ibi/ et /igi/ visuels. Des participants devaient classifier chaque stimulus audiovisuel le plus rapidement possible comme voisé ou non-voisé et comme bilabial ou vélaire. Les temps de réaction pour l’identification du voisement et du lieu d’articulation ont été plus lents dans une condition où les stimuli variaient selon les deux dimensions que dans une condition où les stimuli ne variaient qu’en fonction d’une seule dimension. Les indices auditifs et visuels seraient donc traités de façon interactive plutôt que séparée. 32 - Par ailleurs, Green et Gerdeman (1995) ont montré que l’effet McGurk diminuait lorsque les stimuli auditifs et visuels divergeaient en termes d’environnement vocalique (par exemple, /ba/ auditif doublé de /gi/ visuel). Ce résultat suggère qu’en intégrant la parole audiovisuelle, les participants sont sensibles à l’information de coarticulation entre une consonne et la voyelle qui la suit. Si les signaux auditifs et visuels étaient catégorisés avant d’être intégrés, l’information de coarticulation ne jouerait aucun rôle. - L’enregistrement des Potentiels Evoqués cérébraux, et en particulier de la négativité de discordance (Mismatch Negativity ou MMN), une composante précoce des potentiels évoqués endogènes, permet d’étudier le décours temporel des mécanismes d’intégration audiovisuelle. La MMN indexe la détection automatique, pré-attentive, d’une disparité physique d’un stimulus déviant se produisant occasionnellement dans une séquence homogène de stimuli standards et présentant une disparité physique par rapport à ces derniers (pour une revue, voir Näätänen, 1992 ; Lang, Eerola, Korpilahti, Holopainen, Salos et Aaltonen, 1995 ). La MMN est évoquée par des contrastes acoustiques divers, mais aussi phonétiques. Colin, Radeau, Soquet, Colin et Deltenre (2002) ont montré que cette composante était évoquée par la présentation occasionnelle de syllabes audiovisuelles incongrues, apparaissant dans une séquence homogène de syllabes congruentes et ne différant de ces dernières qu’en termes de mouvements articulatoires visibles, le signal sonore étant constant tout au long de la séquence. Comme la présentation des mêmes mouvements articulatoires en l’absence de contexte auditif ne générait aucune MMN, il en résulte que la MMN de la condition audiovisuelle était générée par la signification phonétique conférée aux mouvements articulatoires par le contexte auditif. La MMN étant une composante automatique et pré-attentive, ces résultats suggèrent que les mécanismes d’intégration de la parole audiovisuelle se produisent à un niveau perceptif pré-attentif et automatique. Bernstein, Ponton et Auer (2001) ont également obtenu une MMN dans une condition de parole audiovisuelle. Il semble donc que les informations auditives et visuelles interagissent à un niveau précoce de traitement phonétique, bien avant que l’information soit appariée avec une représentation phonétique. 33 Les théories de perception de la parole et l’effet McGurk La Théorie de « Perception à Logique Floue » Cette théorie proposée par Massaro (1987, 1998a) et connue sous le nom de FLMP (Fuzzy Logical Model of Perception) ne s’applique pas uniquement aux mécanismes de perception de la parole, mais a pour objectif d’expliquer les mécanismes généraux de la perception, quelle que soit la modalité sensorielle d’entrée. L’hypothèse centrale de la théorie postule que la perception (ou reconnaissance de patterns selon la terminologie de Massaro) implique un ensemble commun de processus et ce, quelle que soit la nature de ces patterns. La perception de la parole n’est pas associée à un mode particulier de traitement (comme c’est le cas dans la Théorie Motrice de la perception de la parole, que nous détaillerons ultérieurement). La reconnaissance de patterns s’effectuerait, pour tous les types d’entrées, selon un algorithme général décomposé en trois étapes : - La première étape, l’évaluation, consiste à convertir les sources d’information disponibles à partir des systèmes sensoriels en un ensemble de propriétés (référées comme « traits »). A chaque trait est attribuée une valeur continue qui détermine le degré auquel chaque trait s'apparie au trait correspondant de chaque prototype en mémoire. Cette étape du FLMP se caractérise par deux propriétés centrales : d’une part, l'évaluation s’effectue indépendamment pour chaque source, chacune d’elles étant catégorisée avant d’être intégrée, d’autre part, l’algorithme de perception attribue à chaque trait une valeur continue. Notons toutefois que la « catégorisation » au sens du FLMP ne consiste pas à attribuer une étiquette discrète à un stimulus mais plutôt à lui donner des scores de bonne adéquation avec tous les prototypes possibles. - Au cours d'une seconde étape d’intégration, les valeurs de traits sont intégrées les unes aux autres de façon à déterminer le degré global d'appariement de l'entrée sensorielle avec chacun des prototypes en mémoire. 34 - Durant l'étape finale de décision, tous les prototypes sont évalués les uns par rapport aux autres. Une réponse est alors sélectionnée sur base du prototype le plus consistant avec les indices auditifs et visuels. Lorsqu’un conflit partiel entre des indices acoustiques et optiques est détecté, le participant sélectionne la représentation en mémoire la plus consistante avec les indices des deux modalités et c'est celle-là qui constituera le percept entendu. Une implication majeure du FLMP est que les signaux des deux modalités sont d’abord catégorisés avant d’être intégrés. Or, comme nous l’avons vu, l’hypothèse d’intégration tardive trouve assez peu de support parmi les données expérimentales disponibles. Les théories perceptives spécifiques de la parole rendent sans doute compte de façon plus adéquate des données relatives à la parole audiovisuelle. Elles sont décrites ci-dessous. La Théorie Motrice de perception de la parole Suivant la Théorie Motrice (Liberman, Cooper, Shankweiler et Studdert-Kennedy, 1967), et contrairement à la théorie de Massaro (1987, 1998a), les signaux de parole ne sont pas traités d’une manière identique à n'importe quel événement perceptif, ni même à n’importe quel événement auditif mais par un système biologiquement distinct et spécialisé. Le signal acoustique étant peu systématique sur le plan phonétique, il est surtout utilisé pour élaborer des hypothèses concernant l'ensemble des gestes articulatoires ayant généré ce signal. Les gestes articulatoires du locuteur constitueraient ainsi les objets de la perception. Dans une telle optique, perception et production sont intimement liées. En utilisant les gestes qui ont donné lieu au signal de parole acoustique et qu’ils devraient eux-mêmes exécuter pour produire un signal phonétiquement équivalent, les auditeurs ont la possibilité de retrouver les « intentions phonétiques » du locuteur. Selon Liberman et ses collaborateurs (1967), ce sont précisément ces intentions qui sont à la base des catégories phonétiques. Dans une conception révisée de la Théorie Motrice, Liberman et Mattingly (1985) font explicitement référence à la notion de module spécialisé et inné développée par Fodor (1983). Le 35 module phonétique serait le produit de l'évolution biologique de l'espèce et serait engagé chaque fois qu'un stimulus acoustique peut être interprété comme le résultat d'un geste linguistique, interdisant à l'information phonétique l’accès au système général de perception acoustique (Mattingly et Liberman, 1988). Ce postulat implique l'existence d'un lien sériel entre le module phonétique et les mécanismes auditifs généraux. Selon les défenseurs de la Théorie Motrice de la parole, l'effet McGurk, illustre la convergence d'informations acoustiques et visuelles au niveau du module phonétique. En cas de conflit audiovisuel, les signaux auditifs et visuels sont convertis en gestes articulatoires. Le percept résultant ne serait pas bimodal (les contributions optiques et acoustiques au percept ne peuvent être distinguées) mais réellement phonétique. La perception de la parole deviendrait ainsi hétéromorphique puisque l'objet de la perception possède des dimensionnalités radicalement différentes de celles du stimulus proximal (Mattingly et Liberman, 1988). La perception « directe-réaliste » de la parole La notion de conversion des signaux auditifs et visuels en gestes articulatoires est partagée par les défenseurs de la Théorie « directe-réaliste », ou théorie écologique, (Fowler, 1986, 1991 ; Fowler et Rosenblum, 1991). Cette théorie postule toutefois que la perception de la parole ne possèderait pas de statut spécial et ne nécessiterait, en aucune façon, le recours à un module spécialisé, inné. La perception de la parole consisterait en la perception d’événements distaux (les gestes du tractus vocal) récupérés de façon directe. Le signal acoustique ne serait que le médium physique qui permettrait la perception directe des gestes articulatoires. A l’appui de la théorie « directe-réaliste », notons que plusieurs études ont montré, à des degrés divers, l’existence d’interactions de type McGurk avec des stimuli non linguistiques. Ainsi par exemple, des jugements auditifs d’intensité de frappes de main sont significativement influencés par la vue d’une personne frappant des mains avec un degré d’effort ne correspondant pas nécessairement à 36 celui du signal auditif (Rosenblum et Fowler, 1991). De même, des jugements auditifs relatifs aux sons d’onglet et de corde d’un violoncelle sont influencés par le signal visuel correspondant à l’onglet ou à la corde. Les effets sont cependant plus faibles que dans une situation McGurk classique utilisant des sons du langage (Saldaña et Rosenblum, 1993). Un effet McGurk a aussi été obtenu avec des sons n’appartenant pas à l’inventaire phonémique de la langue testée (des « clics » propres à certaines langues africaines), mais il était de moindre importance qu’avec des consonnes de la langue maternelle (Brancazio, 1996). Un autre argument en faveur de la théorie « directe-réaliste » est qu’un effet McGurk se produit aussi lorsque la modalité visuelle est remplacée par la modalité tactile, comme dans méthode TADOMA1. où, plutôt que de voir les mouvements articulatoires du locuteur, on les sent manuellement (Fowler et Dekle, 1991). Que des participants entendants et voyants soient capables d’avoir une perception intégrée de signaux auditifs et tactiles (dont ils n’ont aucune expérience, mais qui sont relatifs aux gestes de parole), suggère qu’ils traitent l’accès direct aux causes distales par des informations proximales et non à travers des prototypes élaborés par l’expérience, comme la théorie de Massaro (1987) le suppose. Le développement des mécanismes d’intégration audiovisuelle Selon de nombreux auteurs, les enfants représenteraient très précocement la parole de façon bimodale. Ainsi, par exemple, des bébés de quatre à six mois sont capables d’associer des sons de parole aux configurations correspondantes de la bouche (Kuhl et Meltzoff, 1982 ; 1984 ; MacKain, Studdert-Kennedy, Spieker et Stern, 1983 ; Walton et Bower, 1993). Lorsqu’ils sont placés face à 1 Cette méthode de communication permet de percevoir les mouvements des lèvres, de la mâchoire, les vibrations du cou ainsi que l’air s’échappant de la bouche. A cette fin, on place le pouce sur les lèvres du locuteur et les doigts sur ses joues et son cou. Le voisement, par exemple, est indicé par une vibration qui peut être ressentie au niveau du cou et de la mâchoire. Différents modes d’articulation peuvent également être distingués par l’intensité et la concentration de l’air passant à travers les lèvres (Reed, Rabinowitz, Durlach et Braida, 1985). 37 deux écrans vidéo, présentant chacun simultanément un visage, les bébés préfèrent regarder le visage dont le geste articulatoire est apparié avec le phonème entendu. Dans l’optique d’une sensibilité précoce à la parole audiovisuelle, une intégration entre des signaux audiovisuels discordants devrait également apparaître de façon très précoce. L’observation d’un effet McGurk chez de très jeunes enfants est évidemment rendue complexe par la difficulté de mesurer la perception d’enfants n’ayant pas encore accès au langage. En utilisant des mesures du temps de regard, Rosenblum, Schmuckler et Johnson (1997) ont mis en évidence une intégration des modalités auditive et visuelle chez des bébés de cinq mois. L’expérience a été menée à l’aide d’une procédure d’habituation/déshabituation, avec habituation à des stimuli audiovisuels congruents. Lorsque les enfants étaient habitués à ce stimulus, ainsi que le montrait la diminution de leur temps de regard, un stimulus incongru était présenté qui pouvait entraîner (chez l’adulte) la même perception que le stimulus congruent ou une perception différente. Les bébés ont montré un regain d’intérêt envers les stimuli incongrus suscitant une autre perception que le stimulus congruent. Dès cinq mois, les enfants seraient donc capables d’intégration audiovisuelle. En utilisant un paradigme d’habituation/déshabituation assez similaire, Burnham et Dodd (1996) ont également montré que des enfants de quatre mois et demi sont sensibles à l’effet McGurk. Les auteurs admettent cependant qu’en cinq mois, les bébés ont pu disposer d’une expérience suffisante avec la parole audiovisuelle pour qu’elle serve de base aux effets observés. Les parts de l’innéité et de l’apprentissage dans l’intégration audiovisuelle sont donc difficiles à évaluer. L’influence de l’apprentissage est d’autant plus vraisemblable que la sensibilité à l’effet McGurk semble augmenter au cours de l’enfance. Comme l’ont montré McGurk et MacDonald (1976), l’effet McGurk est déjà très présent chez les enfants de trois-quatre ans (+- 60% de fusions et 15% de combinaisons). Il augmente chez les enfants scolarisés de sept-huit ans (+- 55% de fusions et 40% de combinaisons) et est encore plus important chez les adultes (+- 90% de fusions et 55% de combinaisons). 38 Des résultats conformes à ceux de McGurk et MacDonald (1976) ont été obtenus par Massaro (1984) et par Hockley et Polka (1994). Massaro (1984) a comparé l’intégration de la parole audiovisuelle auprès d’enfants préscolaires (âgés de quatre à six ans) et d’adultes. L’influence de la parole visuelle était présente chez les enfants, mais dans une moindre mesure que chez les adultes. Selon Massaro, Thompson, Barron et Laren (1986), les enfants pré-scolaires ont de moins bonnes capacités en lecture labiale que les adultes, ce qui expliquerait cette différence. Hockley et Polka (1994) ont testé l’intégration de la parole audiovisuelle incongrue chez des enfants de cinq, sept, neuf et onze ans, ainsi que chez des adultes. L’influence de l’information auditive décroissait avec l’âge, tandis que l’influence de l’information visuelle et l’intégration des deux modalités augmentaient avec l’âge. Le fait que les patterns de réponses évoluent encore entre les enfants les plus âgés et les adultes indique que les capacités d’utilisation de la lecture labiale continuent à se développer au cours de l’adolescence. Desjardins, Rogers et Werker (1997) ont tenté d’établir un lien entre la sensibilité à l’effet McGurk et les capacités de production de la parole. Des enfants pré-scolaires, âgés de trois à cinq ans, ont été divisés en deux groupes suivant leurs aptitudes à produire correctement des sons (ceux qui faisaient des confusions de sons ont été classés dans une catégorie « substituteurs »). Les performances de tous les enfants à un test de lecture labiale et leurs réponses dans une situation de parole incongrue ont été comparées à celles d’adultes. Les scores en lecture labiale étaient meilleurs pour les adultes que pour les enfants. Parmi les enfants, les scores étaient moins bons pour les « substituteurs ». La sensibilité à l’effet McGurk a montré la même progression entre « substituteurs », « non substituteurs » et adultes. Pour Desjardins et al. (1997), la production des sons de parole et la perception rétroactive qui en résulte pour l’enfant augmenteraient l’influence de la parole visuelle. Comme en témoignent les recherches concernant le développement de la parole audiovisuelle, celle-ci serait basée sur des prédispositions précoces. Le lien entre la parole visuelle et la parole auditive serait établi dès quatre-cinq mois, âge auquel l’effet McGurk serait également déjà observable. Toutefois, bien que l’effet McGurk soit présent chez des enfants prélinguaux, il n’est pas 39 aussi robuste chez les enfants que chez les adultes. L’expérience et l’apprentissage auraient pour rôle de moduler le poids perceptif accordé à l’audition et à la vision en fonction de l’expérience sensorielle propre à chacun, et notamment, en fonction du développement des capacités liées à la production de la parole (Desjardins et al., 1997) et à la lecture labiale (Massaro et al., 1986). Les substrats neuraux des mécanismes d’intégration audiovisuelle De nombreux travaux, déjà anciens, ont démontré le rôle de l’hémisphère gauche dans la perception de la parole auditive (par exemple, Kimura, 1961). Bien que la spécialisation hémisphérique pour le langage demeure controversée, des données plus récentes, utilisant les techniques d’imagerie cérébrale, ont précisé cette hypothèse. Que ce soit à l’aide de la Tomographie par Emission de Positrons (TEP) ou de l’Imagerie par Résonance Magnétique fonctionnelle (IRMf), il est apparu que la perception de sons linguistiques activait des régions temporales gauches (Zatorre, Evans, Meyer et Gjedde, 1992 ; Mazoyer, Tzourio, Frak, Syrota, Murayama, Levrier, Salamon, Dehaene, Cohen et Mehler, 1993 ; Binder, Rao, Hammeke, Yetkin, Jesmanowicz, Bandettini, Wong, Estkowski, Goldstein, Haughton et Hyde, 1994 ; Binder, Frost, Hammeke, Rao et Cox, 1996 ; Zatorre, Meyer, Gjedde et Evans, 1996). Certains chercheurs (par exemple, Tallal et Piercy, 1973 ; Ivry et Robertson, 1998 ; LiégeoisChauvel, de Graaf, Laguitton et Chauvel, 1999 ) attribuent toutefois la spécificité de l’hémisphère gauche dans le traitement de la parole, à une supériorité pour le traitement temporel des sons et non à une supériorité pour le traitement de l’information phonétique en tant que telle. Cette hypothèse trouve support dans les récentes études de Zatorre, Belin et Penhume (2002) indiquant une supériorité de l’hémisphère gauche pour le traitement de l’information temporelle (particulièrement critique pour la perception de la parole) et de l’hémisphère droit pour celui de l’information spectrale (particulièrement importante pour la perception de la musique). Une contribution importante de l’hémisphère gauche a pourtant été observée, chez des personnes sourdes, pour le traitement de la 40 langue des signes (Neville, 1991 ; Hickok, Bellugi et Klima, 1996 ; Neville, Coffey, Lawson, Fischer, Emmorey et Bellugi, 1997 ; Corina, 1998 ). Or, ce traitement porte plutôt sur des informations visuospatiales que sur des informations temporelles. Par ailleurs, des études de TEP menées par Klein, Zatorre, Milner et Zhao (2001) suggèrent que les structures de l’hémisphère gauche seraient recrutées pour le traitement des contours tonaux spécifiquement chez des locuteurs de langues à tons, telles que le chinois. Les personnes ne connaissant pas ces langues traiteraient les mêmes stimuli via l’hémisphère droit. Si le traitement phonétique s’effectue au niveau de l’hémisphère gauche, quelle que soit la modalité d’entrée, on peut supposer que celui de l’information fournie par la lecture labiale serait également réalisé à gauche. Toutefois, en tant que procédé utilisant fondamentalement l’information portée par une partie du visage, ce traitement pourrait également être réalisé par l’hémisphère droit (Hay, 1981). Dans le cadre d’une étude neuropsychologique de deux patients, Campbell, Landis et Regard (1986) ont mis en évidence une dissociation entre traitement linguistique et non linguistique lié au visage, démontrant l’implication de l’hémisphère gauche dans le traitement de la lecture labiale. De plus, dans une tâche consistant à apparier, entre elles, des photos de locuteurs articulant la même syllabe, présentées dans l’un ou l’autre hémichamp visuel, un avantage de l’hémichamp droit (hémisphère gauche) a été observé (Campbell, de Gelder et de Haan, 1996). Quelles seraient les aires cérébrales impliquées dans la lecture labiale ? Les travaux de Calvert, Bullmore, Brammer, Campbell, Williams, McGuire, Woodruff, Iversen et David (1997), utilisant la technique d’IRMf, indiquent, qu’outre les aires visuelles primaires, la lecture labiale active le cortex auditif bilatéral (avec une prépondérance gauche). La lecture labiale semble requérir un accès au traitement phonétique réalisé par l’hémisphère gauche (plus précisément, par le cortex auditif). On ne peut toutefois pas exclure une implication de l’hémisphère droit dans le traitement de la lecture labiale puisque celle-ci active également des zones visuelles et auditives droites. 41 Etant donné la dominance de l’hémisphère gauche pour le traitement de la parole auditive et pour celui de la parole visuelle, on peut supposer que cet hémisphère aura également un rôle prépondérant dans l’intégration de la parole audiovisuelle. Un argument en faveur de cette hypothèse est que les appariements des mouvements de la bouche d’un locuteur avec le son correspondant dont de jeunes enfants de cinq à six mois s’avèrent capables sont plus nombreux lorsque le visage est présenté dans l’hémichamp droit (MacKain et al., 1983). Notons toutefois que cet avantage de l’hémisphère gauche obtenu avec des monosyllabes CV n’a été reproduit ni par Kuhl et Meltzoff (1982) ni par Patterson et Werker (1999) avec des voyelles. Comme le soulignent Patterson et Werker (1999), les consonnes contiennent de l’information acoustique changeant rapidement et seul l’hémisphère gauche pourrait traiter ce type d’information. L’effet d’asymétrie rapporté par MacKain et al. (1983) pourrait ainsi être spécifique aux consonnes. Un autre argument en faveur d’un rôle prépondérant de l’hémisphère gauche provient de l’étude de quatre cas neuropsychologiques par Campbell, Garwood, Franklin, Landis et Regard (1990). Deux patients avaient une lésion postérieure droite et souffraient de prosopagnosie. Ils lisaient, par contre, sans problème sur les lèvres et étaient sensibles à l’effet McGurk. Les deux autres patients étaient victimes d’une lésion gauche. Le premier souffrait d’aphasie mais était toujours capable de lire sur les lèvres et manifestait énormément de captures visuelles face aux stimuli McGurk. Le second, n’était pas aphasique, mais ne pouvait cependant pas lire sur les lèvres et n’était pas sensible à l’effet McGurk. Les auteurs suggèrent qu’au sein de l’hémisphère gauche, des fonctions séparées seraient impliquées dans la lecture labiale et dans la parole auditive. L’intégration audiovisuelle serait réalisée par un processeur phonologique amodal. Si ce processeur est isolé des entrées auditives, le patient accordera une importance excessive à la lecture labiale (cas du premier patient atteint d’une lésion gauche). Si le processeur amodal est déconnecté des entrées visuelles, le patient ne rapportera que l’information auditive dans le cas de stimuli audiovisuels incongrus (second cas de lésion gauche). 42 Si l’hémisphère gauche exerce un rôle prépondérant dans le traitement de la parole audiovisuelle, quelques données indiquent cependant que l’hémisphère droit pourrait, lui aussi, y apporter une contribution non négligeable. Baynes, Funnel et Fowler (1994) ont exposé des sujets de contrôle droitiers, un patient commissurotomisé et quatre patients souffrant d’épilepsie (servant de contrôle par rapport au patient commissurotomisé) à des stimuli audiovisuels incongrus, articulés par un locuteur dont le visage apparaissait dans l’hémichamp gauche ou droit. Les sujets devaient choisir parmi une paire de mots écrits présentés dans l’un des deux hémichamps visuels le mot qui correspondait à leur perception. Chez les sujets de contrôle l’influence visuelle a été la plus importante lorsque les mots écrits étaient présentés à l’hémichamp droit (hémisphère gauche) et lorsque les visages étaient projetés dans l’hémichamp gauche (hémisphère droit). Quel que fût l’hémichamp de présentation des stimuli visuels, le patient commissurotomisé a intégré les informations auditives et visuelles, mais dans une moindre mesure que les patients épileptiques ou que les sujets de contrôle. Les auteurs ont déduit de ces résultats que les deux hémisphères contribuent à l’intégration de la parole audiovisuelle. Diesch (1995) a aussi obtenu des données suggérant un apport des deux hémisphères à l’effet McGurk. Des réponses de type fusion ont été rapportées plus fréquemment lorsque le visage du locuteur apparaissait dans l’hémichamp gauche (hémisphère droit), tandis que l’inverse s’est produit pour les combinaisons. Diesch a interprété l’avantage de l’hémisphère droit pour les fusions en termes d’analyse visuo-spatiale, une fonction de l’hémisphère droit. En effet, les consonnes visuelles donnant lieu aux fusions (des vélaires) sont moins saillantes que les bilabiales qui suscitent des combinaisons et nécessiteraient donc une analyse visuo-spatiale plus élaborée. La supériorité de l’hémisphère gauche pour les combinaisons a, quant à elle, été attribuée au poids perceptif plus important imposé au codage phonétique, une fonction de l’hémisphère gauche, par les stimuli complexes impliqués dans ces percepts. Notons cependant que dans une étude utilisant une méthodologie assez similaire à celle de Diesch, aucune différence entre les deux hémisphères cérébraux pour le traitement des fusions et des combinaisons ne s’est manifestée (Colin et Radeau, 1999 ; Colin, 2001 ). Par ailleurs, au cours de 43 l’étude électrophysiologique menée par Colin et al. (2002) et décrite dans la partie relative au « niveau de traitement auquel se situe l’intégration audiovisuelle », aucune différence inter-hémisphérique relative à la morphologie de la MMN évoquée par des syllabes audiovisuelles incongrues n’a été observée. Au niveau de quels sites neuraux particuliers seraient intégrées les informations des deux modalités ? A l’aide de l’IRMf, Calvert, Brammer, Bullmore, Campbell, Iversen et David (1999) ont examiné les zones cérébrales spécifiquement impliquées dans la parole audiovisuelle. Par rapport aux conditions unimodales, une augmentation d’activation bilatérale s’est manifestée au niveau de la zone visuelle V5, ainsi qu’au niveau des aires auditives bilatérales (aires de Brodmann 41 et 42). Notons que l’activation au niveau des aires auditives était plus étendue à gauche qu’à droite. Aucune contribution émanant d’une autre zone cérébrale, représentant un site possible d’intégration multimodale, n’a été constatée. Des résultats assez similaires ont été obtenus un peu plus tard par Callan, Callan et Vatikiotis-Bateson (2001) en utilisant la même technique d’imagerie cérébrale. Des mots anglais monosyllabiques présentés audiovisuellement (avec ou sans bruit auditif) et visuellement ont suscité une activation des aires temporales bilatérales (y compris le cortex auditif primaire). Par ailleurs, les aires de Broca ont été activées par la parole audiovisuelle dans des conditions d’écoute dégradées mais aussi par la parole visuelle. Ces aires pourraient donc être impliquées dans la reconnaissance des gestes phonétiques. Sams, Aulanko, Hämäläinen, Hari, Lounasmaa, Lu et Simola (1991) ont obtenu des résultats compatibles avec les données de Calvert et al. (1999) en utilisant la magnétoencéphalographie (MEG) et en considérant uniquement l’hémisphère gauche. La présentation de stimuli audiovisuels incongrus, parmi une séquence de stimuli congruents, a suscité une activation différentielle au niveau du cortex auditif supratemporal. Une réplication de cette étude utilisant davantage de canaux et considérant également l’hémisphère droit, menée par Sams et Levänen (1996), a donné lieu à une activation du cortex supratemporal bilatérale, mais plus faible à droite. Une grande variabilité dans la spécialisation hémisphérique a, par ailleurs, été observée entre les participants. 44 En résumé, la perception bimodale de la parole active des aires bilatérales. Comme pour la parole auditive et la parole visuelle, l’hémisphère gauche semble dominant, mais l’hémisphère droit n’est pas inactif. Selon Campbell (1998), le rôle de l’hémisphère droit consisterait à présenter l’information visuelle aux aires corticales gauches afin de l’intégrer à la parole auditive. Ce mécanisme d’intégration pourrait être réalisé dans un premier temps au niveau d’aires associatives, encore à déterminer, puis l’information visuelle serait renvoyée au niveau du cortex auditif dont elle modulerait l’activité. Conclusions Lorsque nous sommes confrontés à des stimuli linguistiques audiovisuellement discordants, nous avons souvent tendance à entendre un percept qui ne correspond pas uniquement à l’information auditive, mais intègre des traits du signal visuel. Cette illusion perceptive, connue sous le nom d’effet McGurk, a permis de démontrer à quel point la lecture labiale est utilisée par notre système perceptif dans la compréhension de la parole, puisqu’elle influence la perception alors même que le signal auditif est clair et non ambigu. Dans cet article, nous avons montré que l’intégration des signaux auditifs et visuels dans la perception de la parole repose sur des mécanismes robustes, puisqu’ils sont mis en œuvre même lorsque les conditions de perception ne sont pas optimales : par exemple, lorsque les signaux des deux modalités sont séparés dans l’espace ou sont modérément désynchronisés. En outre, ces mécanismes d’intégration agiraient de façon automatique et irrépressible. L’effet McGurk se manifeste, en effet, indépendamment de la connaissance éventuelle qu’ont les participants du phénomène. Rappelons néanmoins que des influences post-perceptives, décisionnelles par exemple, ne sont pas exclues. Si l’effet McGurk se manifeste de façon obligatoire dans toute situation de parole incongrue, sa force est susceptible d’être modulée par différents paramètres expérimentaux. De façon générale, les règles déterminant la taille des illusions reposent sur des principes de saillance perceptive et de degré 45 d’informativité. De tels principes pourraient ainsi, par exemple, rendre compte de l’augmentation des illusions avec la diminution de l’intensité sonore. La mise en évidence de l’effet McGurk a non seulement conduit les psycholinguistes à envisager la parole comme un phénomène multimodal mais a aussi offert un paradigme d’étude des mécanismes d’intégration audiovisuelle dans la perception de la parole. Bien que les données expérimentales demeurent controversées, un grand nombre de résultats plaident en faveur de la conception selon laquelle les signaux auditifs et visuels sont intégrés à un niveau perceptif précoce, probablement avant que les signaux de l’une et l’autre modalité soient catégorisés. L’intégration s’effectuerait sur base d’une représentation commune aux deux modalités résultant de la récupération des intentions articulatoires du locuteur ayant produit le signal de parole. Cette hypothèse est à la fois défendue par les partisans des théories d’intégration audiovisuelle par recodage moteur (Liberman et Mattingly, 1985 ; Schwartz et al., 1998) et par ceux de la Théorie « directe-réaliste » (Fowler, 1991). Le point de désaccord entre ces deux types de théories concerne la façon dont se déroule la récupération : de façon directe selon Fowler (1991) et via un module phonétique, biologiquement spécialisé dans la détection des informations linguistiques selon Liberman et Mattingly (1985). L’effet McGurk a également été utilisé comme paradigme d’investigation du développement et des substrats neuraux des mécanismes d’intégration audiovisuelle dans la perception de la parole. De nombreuses études ont montré que ceux-ci reposeraient sur des prédispositions assez précoces mais continueraient cependant à évoluer au cours du développement en fonction de l’apprentissage et de l’expérience sensorielle. Aucune aire cérébrale responsable de l’intégration audiovisuelle dans la perception de la parole n’a encore pu être mise en évidence à l’aide des techniques d’IRMf ou de PET. A ce jour, les données les plus convaincantes et les plus cohérentes suggèrent qu’après traitement sensoriel spécifique, l’information visuelle pourrait être envoyée vers le cortex auditif où elle serait intégrée au signal auditif. 46 Les nouvelles techniques de cartographie cérébrale procurent ainsi de passionnantes perspectives d’investigation des processus d’intégration audiovisuelle. Utilisées conjointement aux méthodes comportementales traditionnelles, elles devraient à la fois nous permettre de localiser les aires cérébrales activées par la perception audiovisuelle de la parole (grâce à l’IRMf par exemple) et de suivre le décours temporel de cette activité (une possibilité offerte par la méthode des Potentiels Evoqués). Remerciements Nous remercions chaleureusement deux experts anonymes pour leur lecture très attentive de l’article ainsi que pour leurs suggestions particulièrement constructives et enrichissantes. Cette recherche a été subsidiée par la Communauté Française de Belgique dans le cadre d’une Action de Recherche Concertée (96/01-203) ainsi que d’un Fonds pour la Recherche Fondamentale Collective (8.4501.98) accordé à Monique Radeau. Références ABRY C., CATHIARD M.A., ROBERT-RIBÈS J., SCHWARTZ J.L. - (1994) The coherence of speech in audio-visual integration, Current Psychology of Cognition, 13, (1), 52-59. ABRY C., LALLOUACHE M.T., CATHIARD, M.A. – (1996) How can coarticulation models account for speech sensitivity to audio-visual desynchronisation ? in D. Stork et M. Hennecke (Edit) Speechreading by Humans and Machines, NATO ASI Series F: Computer and Systems Sciences, Springer-Verlag, 150, 247-255. 47 AMANO J., SEKIYAMA, K. - (1998) The McGurk effect is influenced by the stimulus set size, Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia, 43-48. BAYNES K., FUNNELL M.G., FOWLER C.A. - (1994) Hemispheric contributions to the integration of visual and auditory information in speech perception, Perception and Psychophysics, 55, (6), 633-641. BENGUEREL A.P., PICHORA-FULLER M.K. - (1982) Coarticulation effects in lipreading, Journal of Speech and Hearing Research, 25, 600-607. BENOÎT C., CAMPBELL R. (Edit) – (1997) Proceedings of the Auditory-visual Speech Processing Conference, Rhodes, Greece. BENOÎT C., MOHAMADI T., KANDEL S. - (1994) Effects of phonetic context on audiovisual intelligibility of speech, Journal of Speech and Hearing Research, 37, 1195-1203. BERNSTEIN L.E., PONTON C.W., AUER E.T.J. – (2001) Electrophysiology of unimodal and audiovisual speech perception, Proceedings of the Auditory-visual Speech Processing Conference, Aalborg, Denmark, 50-55. BERTELSON P., VROOMEN J., DE GELDER B. - (1997) Auditory-visual interaction in voice localization and in bimodal speech recognition : The effects of desynchronisation, Proceedings of the Auditory-Visual Speech Processing Conference, Rhodes, Greece, 97-100. 48 BERTELSON P., VROOMEN J., WIEGERAAD G., DE GELDER B. - (1994) Exploring the relation between McGurk interference and ventriloquism, Proceedings of the International Conference on Spoken Language Processing, Yokohama, Japan, 559-562. BINDER J.R., FROST J.A., HAMMEKE T.A., RAO S.M., COX R.W. - (1996) Function of the left planum temporale in auditory and linguistic processing, Brain, 119, 1239-1247. BINDER J.R., RAO S.M., HAMMEKE T.A., YETKIN F.Z., JESMANOWICZ A., BANDETTINI P.A., WONG E.C., ESTKOWSKI L.D., GOLDSTEIN M.D., HAUGHTON V.M., HYDE J.S. - (1994) Functional magnetic resonance imaging of human auditory cortex, Annals of Neurology, 35, 662-672. BRANCAZIO L. - (1996) The McGurk effect for non-native speech sounds perceived as nonspeech, Journal of the Acoustical Society of America, 99, (4), 2550. BREEUWER M., PLOMP, R. - (1985) Speechreading supplemented with formant-frequency information from voiced speech, Journal of the Acoustical Society of America, 77, (1), 314-317. BURNHAM D. - (1998) Language specificity in the development of auditory-visual speech perception, in R. Campbell, B. Dodd et D. Burnham (Edit), Hearing by eye II, Psychology Press, 2760. BURNHAM D., DODD B. - (1996) Auditory-visual speech perception as a direct process: The McGurk effect in infants and across languages, in D. Stork et M. Hennecke (Edit) Speechreading by Humans and Machines, NATO ASI Series F: Computer and Systems Sciences, Springer-Verlag, 150, 103-113. 49 BURNHAM D., KEANE S. - (1997) The japanese McGurk effect : The role of linguistic and cultural factors in auditory-visual speech perception, Proceedings of the Auditory-Visual Speech Processing Conference, Rhodes, Greece, 93-96. BURNHAM D., LAU S. - (1998) The effect of tonal information on auditory reliance in the McGurk effect, Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia, 37-42. BURNHAM D., ROBERT-RIBES J., VATIKIOTIS-BATESON E. (Edit) – (1998) Proceedings of the Auditory-visual Speech Processing Conference, Terrigal, Australia. CALLAN D., CALLAN A., VATIKIOTIS-BATESON E. - (2001). Neural areas underlying the processing of visual speech information under conditions of degraded auditory information. Proceedings of the Auditory-visual Speech Processing Conference, Aalborg, Denmark, 45-49. CALLIOPE - (1989) La parole et son traitement automatique (Vol. 1), Paris, Masson. CALVERT G.A., BRAMMER M.J., BULLMORE E.T., CAMPBELL R., IVERSEN S.D., DAVID, S.A. - (1999) Response amplification in sensory-specific cortices during crossmodal binding, NeuroReport, 10, (12), 2619-2623. CALVERT G.A., BULLMORE E.T., BRAMMER M.J., CAMPBELL R., WILLIAMS S.C.R., MCGUIRE P.K., WOODRUFF P.W.R., IVERSEN S. D., DAVID, A.S. - (1997) Activation of auditory cortex during silent lipreading, Science, 276, 593-595. 50 CAMPBELL R. - (1998) Speechreading: Advances in understanding its cortical bases and implications for deafness and speech rehabilitation, Scandinavian Audiology, 27, (Suppl 49), 80-86. CAMPBELL R., DE GELDER B., DE HAAN E.H.F. - (1996) The lateralization of lipreading: a second look, Neuropsychologia, 34, 1235-1240. CAMPBELL R., DODD B., BURNHAM D. (Edit) – (1998) Hearing by Eye II, Psychology Press. CAMPBELL R., GARWOOD J., FRANKLIN S., HOWARD D., LANDIS T., REGARD M. (1990) Neuropsychological studies of auditory-visual fusion illusions. Four cases studies and their implications, Neuropsychologia, 28, (8), 787-802. CAMPBELL R., LANDIS T., REGARD M. - (1986) Face recognition and lipreading: a neurological dissociation, Brain, 109, 509-521. CATHIARD M.A. – (1988/1989) La perception visuelle de la parole : aperçu de l’état des connaissance, Bulletin de l’Institut de Phonétique de Grenoble, 17-18, 109-193. CATHIARD M.A. – (1994) La perception visuelle de l’anticipation des gestes vocaliques : cohérence des événements audibles et visibles dans le flux de la parole, Thèse de Doctorat non publiée, Université Pierre Mendès, Grenoble, France. CATHIARD M.A., SCHWARTZ, J.L., ABRY C. – (2001) Asking a naïve question about the McGurk effect : Why does audio [b] give more [d] percepts with visual [g] than with visual [d]? Proceedings of the Auditory-Visual Speech Processing Conference, Aalborg, Denmark, 138-142. 51 CATHIARD M.A., TIBERGHIEN G. - (1994) Le visage de la parole: une cohérence bimodale temporelle ou configurationnelle ? Psychologie Française. Numéro Spécial : La reconnaissance des visages: 1. Neuroscience cognitive, maturation et développement, 39, (3), 357-374. CERRATO L., ALBANO LEONI F., FALCONE M. - (1998) Is it possible to evaluate the contribution of visual information to the process of speech comprehension, Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia, 141-146. COHEN M.M., MASSARO D.W. - (1995) Perceiving visual and auditory information in consonant-vowel and vowel syllables, in C. Sorin, J. Mariani, H. Méloni et J. Schoentgen (Edit), Levels in Speech Communication: Relations and Interactions, Elsevier Science B.V., 25-37. COLIN C. - (2001) Etude comportementale et électrophysiologique des processus impliqués dans l'effet McGurk et dans l'effet de ventriloquie, Thèse de doctorat non publiée, Université Libre de Bruxelles, Bruxelles, Belgique. COLIN C., RADEAU M. - (1999) Are the McGurk illusions affected by left or right presentation of the speaker face ? Proceedings of Eurospeech, Budapest, Hungria, 4, 1671-1674. COLIN C., RADEAU M., DELTENRE P. - (1998a). Interactions audiovisuelles dans la perception de la parole en français. Actes des XXII Suisse, 205-208. èmes Journées d’Etude sur la Parole, Martigny, 52 COLIN C., RADEAU M., DELTENRE P. - (1998b). Intermodal interactions in speech : A French study. Proceedings of Auditory-Visual Speech Processing Conference, Terrigal, Australia, 5560. COLIN C., RADEAU M., DELTENRE P., DEMOLIN D., SOQUET A. - (2002) The role of sound intensity and stop-consonant voicing on McGurk fusions and combinations, European Journal of Cognitive Psychology. COLIN C., RADEAU M., DELTENRE P., MORAIS J. - (2001) Rules of intersensory integration in spatial scene analysis and speechreading, Psychologica Belgica, 41, (3), 131-144. COLIN C., RADEAU M., DEMOLIN D., SOQUET A. - (2000) Visual lipreading of voicing for French stop consonants, Proceedings of the 6th International Conference of Spoken Language Processing, Beijing, China, 2, 583-586. COLIN C., RADEAU M., SOQUET A., COLIN F., DELTENRE P. - (2002). Mismatch negativity evoked by the McGurk-MacDonald effect : Evidence for a phonological representation within auditory sensory short term memory. Clinical Neurophysiology, 113, (4), 495-506. CORINA D.P. - (1998) Studies of neural processing in deaf signers: Toward a neurocognitive model of language processing in the deaf, Journal of Deaf Studies and Deaf Education, 3, (1), 35-48. COWAN N. - (1995) Attention and memory. An integrated framework, Oxford, Oxford University Press. 53 DAVIS C., KIM J. - (1998) Repeating and remembering foreign language words: Does seeing help ? Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia, 121126. DEKLE D.J., FOWLER C.A., FUNNELL M.G. - (1992) Audiovisual integration in perception of real words, Perception and Psychophysics, 51, (4), 355-362. DEMOREST M., BERNSTEIN L. - (1992) Sources of variability in speechreading sentences: A generalizability analysis, Journal of Speech and Hearing Research, 35, 876-891. DESJARDINS R.N., ROGER J., WERKER J.F. - (1997) An exploration of why preschoolers perform differently than do adults in audiovisual speech perception tasks, Journal of Experimental Child Psychology, 66, (1), 85-110. DIESCH E. - (1995) Left and right hemifield advantages of fusions and combinations in audiovisual speech perception, Quarterly Journal of Experimental Psychology, 48A, (2), 320-333. DODD B. - (1977) The role of vision in the perception of speech, Perception, 6, 31-40. DODD B., CAMPBELL R. (Edit) – (1987) Hearing by Eye : The Psychology of Lip-reading, London, NJ, Lawrence Erlbaum Associates. DODD B., MCINTOSH B., WOODHOUSE L. - (1998) Early lipreading ability and speech and language development of hearing-impaired pre-schoolers, in R. Campbell, B. Dodd et D. Burnham (Edit), Hearing by eye II, Psychology Press, 229-242. 54 DORMAN M.F., STUDDERT-KENNEDY M., RAPHAEL L.J. - (1977) Stop-consonant recognition: Release bursts and formant transitions as functionally equivalent, context-dependent cues, Perception and Psychophysics, 22, (2), 109-122. EASTON R.D., BASALA M. - (1982) Perceptual dominance during lipreading, Perception and Psychophysics, 32, (6), 562-570. ERBER N.P. - (1969) Interaction of audition and vision in the recognition of oral speech stimuli, Journal of Speech and Hearing Research, 12, 423-425. FIXMER E., HAWKINS S. - (1998) The influence of quality of information on the McGurk effect, Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia, 27-32. FODOR J. A. - (1983) The modularity of mind, Cambridge, MA, MIT Press. FOWLER C A. - (1986) An event approach to the study of speech perception from a direct realistic perspective, Journal of Phonetics, 14, 3-28. FOWLER C.A. - (1991) Auditory perception is not special: We see the world, we feel the world, we hear the world, Journal of the Acoustical Society of America, 89, (6), 2910-2915. FOWLER C.A., DEKLE D.J. - (1991) Listening with eye and hand: Cross-modal contributions to speech perception, Journal of experimental Psychology: Human Perception and Performance, 17, (3), 816-828. 55 FOWLER C.A., ROSENBLUM, L.D. - (1991) The perception of phonetic gestures, in I. G. Mattingly et M. Studdert-Kennedy (Edit), Modularity and the motor theory of speech, Hillsdale, NJ, Lawrence Erlbaum Associates, 33-59. FUSTER-DURAN A. - (1996) Perception of conflicting audio-visual speech : An examination across Spanish and German, in D. Stork et M. Hennecke (Edit) Speechreading by Humans and Machines, NATO ASI Series F: Computer and Systems Sciences, Springer-Verlag, 150, 135-143. GENTIL M. – (1981) Etude de la perception de la parole : lecture labiale et sosies labiaux, IBM, France. GREEN K.P. - (1994) The influence of an inverted face on the McGurk effect, Journal of the Acoustical Society of America, 95, (4), 3014. GREEN K.P. – (1996) The use of auditory and visual information in phonetic perception, in D. Stork et M. Hennecke (Edit) Speechreading by Humans and Machines, NATO ASI Series F: Computer and Systems Sciences, Springer-Verlag, 150, 55-77. GREEN K.P., GERDEMAN A. - (1995) Cross-modal discrepancies in coarticulation and the integration of speech information: The McGurk effect with mismatched vowels, Journal of Experimental Psychology : Human Perception and Performance, 21, (6), 1409-1426. GREEN K.P., KUHL P.K. - (1988) Factors affecting the integration of auditory and visual information in speech: The vowel environment, Journal of the Acoustical Society of America, 84, (Suppl. 1), S155. 56 GREEN K.P., KUHL, P.K. - (1989) The role of visual information in the processing of place and manner features in speech perception. Perception and Psychophysics, 45, (1), 34-42. GREEN K.P., KUHL P.K. - (1991) Integral processing of visual place and auditory voicing information during phonetic perception, Journal of Experimental Psychology : Human Perception and Performance, 17, (1), 278-288. GREEN K.P., KUHL P.K., MELTZOFF A.N., STEVENS E.B. - (1991) Integrating speech information across talkers, gender and sensory modality : Female faces and male voices in the McGurk effect, Perception and Psychophysics, 50, (6), 524-536. GREEN K.P., MILLER J.L. - (1985) On the role of visual rate information in phonetic perception, Perception and Psychophysics, 38, (3), 269-276. GREEN K.P., NORRIX L.W. - (1997) Acoustic cues to place of articulation and the McGurk effect : The role of release bursts, aspiration, and formant transition. Journal of Speech, Language, and Hearing Research, 40, 646-665. HARDISON D.B. - (1996) Bimodal perception by native and nonnative speakers of English: Factors influencing the McGurk effect, Language Learning, 46, (1), 3-73. HAY D.C. – (1981) Asymmetries in face processing: Evidence for a right hemisphere perceptual advantage, Quarterly Journal of Experimental Psychology, 33A, (3), 267-274. 57 HAYASHI Y., SEKIYAMA K. - (1998) Native-foreign language effect in the McGurk effect: A test with Chinese and Japanese, Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia, 61-66. HICKOK G., BELLUGI U., KLIMA E. S. - (1996) The neurobiology of sign language and its implications for the neural basis of language, Nature, 381, 699-702. HOCKLEY S.N., POLKA N. - (1994) A developmental study of audio-visual speech perception using the McGurk paradigm, Journal of the Acoustical Society of America, 96, 3309. IJSSELDIJK F.J. - (1992) Speechreading under different conditions of video image, repetition, and speech rate, Journal of Speech and Hearing Research, 35, 466-471. IVRY R.B., ROBERTSON L.C. - (1998) The Two Sides of Perception, Cambridge, MA, A Bradford Book. JONES J.A., MUNHALL K.G. - (1996) Spatial and temporal influences on audiovisual speech perception, International Journal of Psychology, 31, 473.4. JONES J.A., MUNHALL K.G. - (1997) The effects of separating auditory and visual sources on audiovisual integration of speech, Canadian Acoustics, 2, 13-19. JORDAN T.R., BEVAN K. - (1997) Seeing and hearing rotated faces : Influences of facial orientation on visual and audiovisual speech recognition, Journal of Experimental Psychology : Human Perception and Performance, 25, (2), 388-403. 58 JORDAN T.R., SERGEANT P.C. - (1998) Effects of facial image size on visual and audiovisual speech recognition, in R. Campbell, B. Dodd et D. Burnham (Edit), Hearing by eye II, Psychology Press, 155-176. KIMURA D. - (1961) Some effects of temporal-lobe damage on auditory perception, Canadian Journal of Psychology, 15, 156-165. KLEIN D., ZATORRE R.J., MILNER B., ZHAO V. – (2001) A crosslinguistic PET study of tone perception in Mandarin Chinese and English speakers, NeuroImage, 13, (4), 646-653. KRICOS P.B. - (1996) Differences in visual intelligibility across talkers, in D. Stork et M. Hennecke (Edit) Speechreading by Humans and Machines, NATO ASI Series F: Computer and Systems Sciences, Springer-Verlag, 150, 43-53. KUHL P., GREEN K.P. - (1988) Factors affecting the integration of auditory and visual information in speech : The level effect, Journal of the Acoustical Society of America, 83, (Suppl. 1), S86. KUHL P.K., MELTZOFF A.N. - (1982) The bimodal perception of speech in infancy, Science, 218, 1138-1141. KUHL P.K., MELTZOFF A.N. - (1984) The intermodal representation of speech in infants, Infant Behavior and Development, 7, 361-381. 59 LANG A.H., EEROLA O., KORPILAHTI P., HOLOPAINEN I., SALO S., AALTONEN O. – (1995) Practical issues in the clinical application of mismatch negativity. Ear and Hearing, 16, 117129. LIBERMAN A.M., COOPER F.S., SHANKWEILER D.P., STUDDERT-KENNEDY M. (1967) Perception of the speech code, Psychological Review, 74, (6), 431-461. LIBERMAN A.M., MATTINGLY I.G. - (1985) The motor-theory of speech revised, Cognition, 21, 1-36. LIÉGEOIS-CHAUVEL C., DE GRAAF J.B., LAGUITTON V., CHAUVEL P. - (1999) Specialization of left auditory cortex for speech perception in man depends on temporal coding, Cerebral Cortex, 9, 484-496. LISKER L., ROSSI M. – (1992) Auditory and visual cueing of the [+/- rounded] feature of vowels, Language and Speech, 35, 391-417. MACDONALD J., ANDERSEN S., BACHMAN T. - (1999) Hearing by eye: visual spatial degradation and the McGurk effect, Proceedings of Eurospeech, Budapest, Hungria, 3, 1283-1285. MACDONALD J., MCGURK H. - (1978) Visual influences on speech perception processes, Perception and Psychophysics, 24, (3), 253-257. MACKAIN K., STUDDERT-KENNEDY M., SPIEKER S., STERN S. - (1983) Infant intermodal speech perception is a left hemisphere function, Science, 219, 1347-1349. 60 MACLEOD A., SUMMERFIELD Q. - (1990) A procedure for measuring auditory and audiovisuals speech-reception thresholds for sentences in noise : Rationale, evaluation, and recommendations for use, British Journal of Audiology, 24, 29-43. MASSARO D.W. - (1972) Stimulus information vs processing time in auditory pattern recognition, Perception and Psychophysics, 12, 50-56. MASSARO D.W. - (1974) Perceptual units in speech recognition, Journal of Experimental Psychology, 102, 199-208. MASSARO D.W. - (1984) Children's perception of visual and auditory speech, Child Development, 55, 1177-1788. MASSARO D.W. - (1987) Speech Perception by Ear and by Eye : A Paradigm for Psychological Inquiry. Hillsdale, NJ, Lawrence Erlbaum Associates. MASSARO D.W. - (1998a) Perceiving Talking Faces : From Speech Perception to a Behavioral Principle, The MIT Press. MASSARO D.W. – (1998b) Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia MASSARO D.W., COHEN M.M. - (1990) Perception of synthesized audible and visible speech, Psychological Science, 1, (1), 55-63. 61 MASSARO D.W., COHEN M.M. - (1993) Perceiving asynchronous bimodal speech in consonant-vowel and vowels syllables, Speech Communication, 13, (1-2), 127-134. MASSARO D.W., COHEN M.M. - (1996) Perceiving speech from inverted faces, Perception and Psychophysics, 58, (7), 1047-1065. MASSARO D.W., COHEN M.M., GESI A., HEREDIA R., TSUZAKI M. - (1993) Bimodal speech perception: An examination across languages, Journal of Phonetics, 21, 445-478. MASSARO D.W., COHEN M.M., SMEELE P.M.T. - (1995) Cross-linguistic comparisons in the integration of visual and auditory speech, Memory and Cognition, 23, (1), 113-131. MASSARO D.W., COHEN M.M., SMEELE P.M.T. - (1996) Perception of asynchronous and conflicting visual and auditory speech, Journal of the Acoustical Sociey of America, 100, (3), 17771786. MASSARO D.W., COHEN M.M., THOMPSON L.A. - (1988) Visible language in speech perception : Lipreading and reading, Visible Language, 1, 8-31. MASSARO D.W., LIGHT J., GERACI K. – (2001) Proceedings of the Auditory-visual Speech Processing Conference, Aalbork, Denmark. MASSARO D.W., THOMPSON L .A., BARRON B., LAREN, E. - (1986) Developmental changes in visual and auditory contributions to speech perception, Journal of Experimental Child Psychology, 41, 93-113. 62 MATTINGLY I.G., LIBERMAN A.M. - (1988) Specialized perceiving systems for speech and other biologically significant sounds, in G. M. Edelman, W. E. Gall et W. N. Cowan (Edit), Auditory Function : Neurobiology Bases of Hearing, New-York, Wiley, 775-793. MATTYS S. - (1997) The use of time during lexical processing and segmentation : A review, Psychonomic Bulletin and Review, 4, (3), 310-329. MAZOYER B.M., TZOURIO N., FRAK V., SYROTA A., MURAYAMA N., LEVRIER O., SALAMON G., DEHAENE S., COHEN L., MEHLER J. - (1993) The cortical representation of speech, Journal of Cognitive Neuroscience, 5, (4), 467-479. MCGURK H. - (1981) Listening with eye and ear, in T. Myers, J. Laver et J. Anderson (Edit), The Cognitive Representation of Speech, North Holland Publishing Company, 336-337. MCGURK H. - (1988). Developmental psychology and the vision of speech, Inaugural Professorial Lecture, University of Surrey. MCGURK H., MACDONALD J. - (1976) Hearing lips and seeing voices, Nature, 264, 746748. MIDDLEWEERD M.J., PLOMP R. - (1987) The effects of speechreading on the speech perception threshold of sentences in noise, Journal of the Acoustical Society of America, 82, 21452146. MILLER G.A., NICELY P.E. - (1955) An analysis of perceptual confusions among some English consonants, Journal of the Acoustical Society of America, 27, (2), 338-352. 63 MILLER J.L., DEXTER E.R. – (1988) Effects of speaking rate and lexical status on phonetic perception. Journal of Experimental Psychology : Human Perception and Performance, 14, 369-378. MILLS A.E. - (1987) The development of phonology in the blind child, in B. Dodd et R. Campbell (Edit), Hearing by Eye: The Psychology of Lip-reading, London, NJ, Lawrence Erlbaum Associates, 145-161. MILLS A.E., THIEM R. - (1980). Auditory-visual fusions and illusions in speech perception, Linguistische Berichte, 68, 85-107. MOHAMADI T., BENOÎT C. – (1992) Apport de la vision du locuteur à l’intelligibilité de la parole bruitée en français, Bulletin de la Communication Parlée, 2, 31-41. MOURAND-DOURNIER L. – (1980) Le rôle de la lecture labiale dans la reconnaissance de la parole, Thèse de Médecine non publiée, Université de Franche-Comté, France. MUNHALL K.G., GRIBBLE P., SACCO L., WARD M. - (1996) Temporal constraints on the McGurk effect, Perception and Psychophysics, 58, (3), 351-362. MUNHALL K.G., TOKHURA Y. - (1998) Audiovisual gating and the time course of speech perception, Journal of the Acoustical Society of America, 104, (1), 530-539. NAATANEN R. - (1992) Attention and brain function, Hillsdale, NJ, Lawrence Erlbaum Associates. 64 NELSON M.A., HODGE M.M. - (2000) Effects of facial paralysis and audiovisual information on stop place identification, Journal of Speech, Language and Hearing Research, 43, (1), 158-171. NEVILLE H.J. - (1991) Whence the specialization of the language hemisphere ? in I. G. Mattingly et M. Studdert-Kennedy (Edit), Modularity and the motor theory of speech, Hillsdale, NJ, Lawrence Erlbaum Associates, 269-294. NEVILLE H J., COFFEY S.A., LAWSON D.S., FISCHER A., EMMOREY K., BELLUGI U. - (1997) Neural systems mediating american sign language : Effects of sensory experience and age of acquisition, Brain and Language, 57, 285-308. PATTERSON, M.L., WERKER J.F. – (1999) Matching phonetic information in lips and voice is robust in 4.5-month-old infants. Infant Behavior and Development, 22, (2), 237-247. RADEAU M. - (1994a) Auditory-visual spatial interaction and modularity, Current Psychology of Cognition, 13, (1), 3-51. RADEAU M. – (1994b) Ventriloquism against audio-visual speech: Or, where Japanesespeaking barn owls might help, Current Psychology of Cognition, 13, (1), 124-140. RADEAU M. – (1997) Du ventriloque à l'embryon: Une réponse à Molyneux dans le cas des interactions audiovisuelles, in J. Proust (Edit), Perception et intermodalité. Approches actuelles de la question de Molyneux, Presses Universitaires de France, Paris, 223-252. 65 RADEAU M., COLIN C. - (1999) The role of spatial separation on ventriloquism and McGurk illusions. Proceedings of Eurospeech, Budapest, Hungria, 3, 1295-1298. RADEAU M., COLIN C. – (2001) Object identity is not a condition but a result of intersensory integration: The case of audiovisual interactions, Current Psychology of Cognition, 20, (5), 349-358. REED C.M., RABINOWITZ W.N., DURLACH N.I., BRAIDA L.D. - (1985) Research on the Tadoma method of speech communication, Journal of the Acoustical Society of America, 77, (1), 247257. REISBERG D., MCLEAN J. GOLDFIELD A. - (1987) Easy to hear but hard to understand : A lip-reading advantage with intact auditory stimuli, in B. Dodd et R. Campbell (Edit), Hearing by Eye : The Psychology of Lip-Reading, London, NJ, Lawrence Erlbaum Associates, 97-113. REPP, MANUEL, LIBERMAN, STUDDERT-KENNEDY – (1983) Exploring the McGurk effect, Proceedings of the 24th Annual Meeting of the Psychonomic Society, San Diego, CA. ROBERT-RIBES J. – (1995) Modèles d’intégration audiovisuelle de signaux linguistiques : de la perception humaine à la reconnaissance automatique des voyelles, Thèse de Doctorat non publiée, Institut National Polytechnique, Grenoble, France. ROBERT-RIBES J., PIQUEMAL M., SCHWARTZ J.L., ESCUDIER P. - (1996) Exploiting sensor fusion architectures and stimuli complementarity in AV speech recognition, in D. Stork et M. Hennecke (Edit) Speechreading by Humans and Machines, NATO ASI Series F: Computer and Systems Sciences, Springer-Verlag, 150, 193-209. 66 ROBERT-RIBES J., SCHWARTZ J.L., LALLOUACHE T., ESCUDIER P. – (1998) Complementary and synergy in bimodal speech : auditory, visual and audiovisual identification of French oral vowels in noise, Journal of the Acoustical Society of America, 103, 3677-3689. ROBERTS M. - (1987) Audio-visual speech perception and selective adaptation, in B. Dodd et R. Campbell (Edit), Hearing by Eye : The Psychology of Lip-reading, London, NJ, Lawrence Erlbaum Associates, 85-96. ROBERTS M., SUMMERFIELD Q. - (1981) Audiovisual presentation demonstrates that selective adaptation in speech perception is purely auditory, Perception and Psychophysics, 30, (4), 309-314. ROSEN S.M., FOURCIN A.J., MOORE B.C.J. - (1981) Voice pitch as an aid to lipreading, Nature, 291, 150-153. ROSENBLUM L.D., FOWLER C.A. - (1991) Audiovisual investigation of the loudness-effort effect for speech and nonspeech events, Journal of Experimental Psychology : Human Perception and Performance, 17, (4), 976-985. ROSENBLUM L.D., SALDANA H.M. - (1996) An audiovisual test of kinematic primitives for visual speech perception, Journal of Experimental Psychology : Human Perception and Performance, 22, (2), 318-331. ROSENBLUM L.D., SCHMUCKLER M.A., JOHNSON J.A. - (1997). The McGurk effect in infants, Perception and Psychophysics, 59, (3), 347-357. 67 SALDANA H.M., ROSENBLUM L.D. - (1993) Visual influences on auditory pluck and bow judgments, Perception and Psychophysics, 54, (3), 406-416. SALDANA H.M., ROSENBLUM L.D. - (1994) Selective adaptation in speech perception using a compelling audiovisual adaptor, Journal of the Acoustical Society of America, 95, (6), 36583661. SAMS M., AULANKO R., HÄMÄLÄINEN M., HARI R., LOUNASMAA O.V., LU S.T., SIMOLA J. - (1991) Seeing speech: Visual information from lip movements modifies activity in the human auditory cortex, Neuroscience Letters, 127, 141-145. SAMS M., LEVÄNEN S. - (1996) Where and when are the heard and seen speech integrated: Magnetoencephalographical (MEG) studies, in D. Stork et M. Hennecke (Edit) Speechreading by Humans and Machines, NATO ASI Series F: Computer and Systems Sciences, Springer-Verlag, 150, 233-246. SAMS M., SURAKKA V., HELIN P., KÄTTÖ R. - (1997) Audiovisual fusion in finnish syllables and words, Proceedings of the Auditory-Visual Speech Processing Conference, Rhodes, Greece, 101-104. SCHORRADT J., PIROTH H.G., TILLMANN H.G. - (1987) Audiovisually perceived "fusions" within different vowel contexts, Proceedings of the XIth International Conference of Phonetic Sciences, Tallinn, Estonia, 59-62. 68 SCHWARTZ J.L., ROBERT-RIBES J., ESCUDIER P. - (1998) Ten years after Summerfield : A taxonomy of models for audio-visual fusion in speech perception, in R. Campbell, B. Dodd et D. Burnham (Edit), Hearing by eye II, Psychology Press, 85-108. SEKIYAMA K. - (1997) Cultural and linguistic factors in audiovisual speech processing: The McGurk effect in Chinese subjects, Perception and Psychophysics, 59, (1), 73-80. SEKIYAMA K. - (1998) Face or voice ? Determinant of compellingness to the McGurk effect, Proceedings of the Auditory-Visual Speech Processing Conference, Terrigal, Australia, 33-36. SEKIYAMA K., TOHKURA Y. - (1991). McGurk effect in non-English listeners: few visual effects for Japanese subjects hearing Japanese syllables of high auditory intelligibility, Journal of the Acoustical Society of America, 90, (4), 1797-1805. SEKIYAMA K., TOHKURA Y. - (1993) Inter-language differences in the influence of visual cues in speech perception, Journal of Phonetics, 21, 427-444. SEKIYAMA K., TOKHURA Y., UMEDA M. - (1996) A few factors which affect the degree of incorporating lip-read information into speech perception, Proceedings of the International Conference on Spoken Language Processing, Philadelphia, 1481-1494. SMEELE P.M.T., SITTIG A.C. - (1991) The contribution of vision to speech perception, Proceedings of Eurospeech, Genova, Italy, 1495-1497. 69 SMEELE P.M.T., SITTIG A.C., VAN HEUVEN V.J. – (1994) Temporal organization of bimodal speech information, Proceedings of the International Conference on Spoken Language Processing, Yokohama, Japan, 1431-1434. STORCK D.G., HENNECKE M.E. (Edit) – (1996) Speechreading by Humans and Machines, NATO ASI series F : Computer and Systems Sciences, 150, Springer-Verlag. SUMBY W.H., POLLACK I. - (1954) Visual contribution to speech intelligibility in noise, Journal of the Acoustical Society of America, 26, 212-215. SUMMERFIELD Q. - (1987) Some preliminaries to a comprehensive account of audio-visual speech perception, in B. Dodd et R. Campbell (Edit), Hearing by Eye : The Psychology of Lip-reading, London, NJ, Lawrence Erlbaum Associates, 3-51. SUMMERFIELD Q., MCGRATH M. - (1984) Detection and resolution of audio-visual incompatibility in the perception of vowels, Quarterly Journal of Experimental Psychology, 36A, 5174. TALLAL P., PIERCY M. - (1973) Defects of non verbal auditory perception in children with developmental aphasias, Nature, 241, 468-469. TIIPPANA K., SAMS M., ANDERSEN T.S. - (2001) Visual attention influences audiovisual speech perception, Proceedings of the Auditory-Visual Speech Processing Conference, Aalborg, Denmark, 167-171. 70 TILLMAN H.G., POMPINO-MARSCHALL B., PORZIG U. - (1984) The effects of visually presented speech movements on the perception of acoustically encoded speech articulation as a function of acoustic desynchronization, Proceedings of the Xth International Congress of Phonetic Sciences, Dordrecht, Holland, 469-473. TRAILL A. - (1999) The McGurk effect and !Xóõ clicks, Proceedings of the International Conference of Phonetic Sciences, San Francisco, CA, 1933-1935. VROOMEN J. – (1992) Hearing voices and seeing lips : Investigations in the psychology of lipreading, Thèse de Doctorat non publiée, Tilburg, Pays-Bas. VROOMEN J., DE GELDER B. - (1999) Crossmodal integration : A good fit is no criterion, Trends in Cognitive Science, 4, (2), 37-38. WALDEN B.E., PROSEK R.A., MONTGOMERY A.A., SCHERR C. K., JONES C.J. (1977) Effects of training on the visual recognition of consonants, Journal of Speech and Hearing Research, 20, 130-145. WALKER S., BRUCE V., O'MALLEY C. - (1995) Facial identity and facial speech processing: familiar faces and voices in the McGurk effect, Perception and Psychophysics, 57, (8), 1124-1133. WALTON G.E., BOWER T.G.R. - (1993) Amodal representation of speech in infants, Infant Behavior and Development, 16, 233-243. 71 WERKER J.F., FROST P.E., MCGURK H. - (1992) La langue et les lèvres : Cross-language influences on bimodal speech perception, Canadian Journal of Psychology, 46, (4), 551-568. YAKEL D.A., ROSENBLUM L.D., GREEN K.P., BOSLEY C.L., VASQUEZ R.A. - (1995) The effect of face and lip inversion on audiovisual speech integration, Journal of the Acoustical Society of America, 97,(5), 3286. ZATORRE R.J., BELIN, PENHUNE – (2002) Structure and function of auditory cortex : music and speech, Trends in Cognitive Sciences, 6, (1), 37-46. ZATORRE R.J., EVANS A.C., MEYER E., GJEDDE A. - (1992) Lateralization of phonetic and pitch discrimination in speech processing, Science, 256, 846-849. ZATORRE R.J., MEYER E., GJEDDE A., EVANS A.C. - (1996) PET studies of phonetic processing of speech: Review, replication and reanalysis, Cerebral Cortex, 6, 21-30. Tableau I. Revue synthétique de différentes études de l’effet McGurk. Table I. Synthetic review of different studies of the McGurk effect. Etude Langue Matériel Consonnes Amano et Sekiyama, 1998 japonais CV /a/ Bertelson et al., 1994 Bertelson et al., 1997 Burnham et Lau, 1998 Cathiard et al., 2001 néerlandais VCV VCV CV VCV /p/ /t/ /k/ /m/ /n/ /m/ /n/ /m/ /n/ /b/ /g/ /b/ /g/ /d/ /a/ /a/ /a/ /a/ /b/ /g/ /p/ /k/ /b/ /g/ /p/ /k/ /b/ /g/ /p/ /k/ /b/ /g/ /a/ /i/ /a/ /i/ /i/ /a/ néerlandais cantonais français Colin et al., 1998a français Colin et al., 1998b français Colin et al., 2001 français VCV CV VCV CV CV Colin et al., 2002 français CV Taille écran Distance écran 55 dB ? ? ? ? ? ? 14 *11 cm 14 *11 cm ? ? ? ? ? ? 60 23 40 73 70 dB 33 *25 cm 75 cm 3 41 70 dB 33 *25 cm 40 dB 40 dB 44 *31 cm 75 cm 100 cm 3 18 77 41 49 74 70 dB 33 *25 cm 75 cm 53 8 Voy- Intenelles sité % de fusions % de combinaisons / / 80 30 72 Dekle et al., 1992 anglais mots Fixmer et Hawkins, 1998 Fuster-Duran, 1996 anglais allemand espagnol Green et Gerdeman, 1995 Green et al., 1991 Hardison, 1996 Hayashi et Sekiyama, 1998 Hayashi et Sekiyama, 1998 anglais anglais anglais japonais mandarin VCV CV CCV mots CV CV CV CV /p/ /k/ /b/ /v/ /d/ /m/ /b/ /g/ /b/ /d/ /n/ /g/ /m/ /l/ /r/ /R/ /rr/ /b/ /g/ /b/ /g/ /p/ /k/ /t/ /b/ /p/ /m/ /n/ /d/ /t/ /g/ /k/ /b/ /g/ /b/ /g/ /t/ /m/ Jones et Munhall, 1997 Jordan et Bevan, 1997 anglais anglais VCV CV Jordan et Sergeant, 1998 anglais CV /b/ /g/ MacDonald et McGurk, 1978 anglais CV MacDonald et al., 1999 anglais CV Massaro et Cohen, 1993 Massaro et al., 1996 anglais anglais CV CV McGurk et MacDonald, 1976 Mills et Thiem, 1980 Munhall et al., 1996 exp. I Munhall et al., 1996 exp. II Sams et al., 1997 anglais CVCV allemand anglais CV VCV /b/ /g/ /p/ /k/ /d/ /t/ /n/ /m/ /b/ /g/ /d/ /p/ /k/ /t/ /b/ /d/ /b/ /v/ /d/ /D/ /b/ /g/ /p/ /k/ /b/ /g/ /b/ /g/ finnois CV mots /p/ /k/ Sekiyama et Tokhura, 1991 japonais CV Sekiyama et Tokhura, 1993 CV Sekiyama, 1998 Tillman et al., 1984 japonais anglais japonais allemand /b/ /g/ /d/ /p/ /k/ /t/ /m/ /n/ /r/ idem Walker et al., 1995 Werker et al., 1992 anglais anglais CV Mots CV CV CV /i/ 40 dB vari? able /a/ ? /a/ ? 64 79 20 / ? ? 40 8 7 / 16 7 ? ? ? ? /a/ /i/ /a/ /i/ /a/ /a/ 68 dB 65 dB 70 dB 70 dB 14 pouces 13 pouces 24 pouces 14 pouces 105 cm 115 cm 122 cm 50 cm 69 77 20 34 45 54 66 44 0 0 /ae/ /i/ 70 dB 20 pouces ? ? 200 cm ? 90 70 / 75 /a/ /i/ 55 dB 210 cm de haut /a/ ? 19 pouces 100 cm 30 / ? 55 21 20 pouces 100 cm 50 10 67 dB 12 pouces 67 dB ? ? 50 cm / 5 52 5 /a/ /i/ /a/ /a/ /a/ ? /a/ ? 19 pouces ? 89 49 /a/ /a/ /i/ /ae/ /a/ ? ? ? 20 pouces ? 200 cm ? ? ? 61 55 45 32 50 79 / / 86 / /a/ ? 20 pouces 100 cm 5 0 /a/ ? taille réelle de visage 100 cm ? ? ? ? ? ? ? ? 22 pouces 10 pouces 150 cm 100 cm 7 26 33 70 / 44 36 0 1 5 / 90 38 / /b/ /g/ /a/ /b/ /g/ /i:/ /l/ /b/ /a/ /b/ /g/ /a/ /i/ /b/ /v/ /d/ /a/ /D/ /Z/ /g/ Tableau I. Synthèse des études McGurk ayant en commun : - l’utilisation de stimuli de parole naturelle - la participation d’adultes jeunes sans pathologie particulière connue - l’emploi de la langue maternelle des participants comme langue de test - la présentation de stimuli audiovisuels • articulés à un débit « normal » • présentés face aux participants sur un visage apparaissant à l’endroit • synchronisés • présentés dans des conditions normales d’écoute 73 • congruents au niveau vocalique Note : les deux dernières colonnes indiquent les pourcentages d’illusions. Le signe « / » signifie que le type d’illusion considéré n’a pas été étudié par les auteurs ou que les pourcentages d’illusions n’ont pas été mentionnés.