le codage neuronal des visages - Centre de Recherche Cerveau
Transcription
le codage neuronal des visages - Centre de Recherche Cerveau
Collection Neuropsychologie Traitement et reconnaissance des visages : du percept à la personne E. Barbeau, S. Joubert, O. Felician, eds. Solal, éditeur, Marseille - 2008. L. REDDY 1 R. VANRULLEN 1 CHAPITRE 14 LE CODAGE NEURONAL DES VISAGES INTRODUCTION Comment les visages sont-ils représentés dans le cerveau ? Bien que la reconnaissance des visages soit un processus visuel important que nous mettons en jeu constamment, la représentation des visages est encore mal comprise. Même s’il est avéré que des neurones unitaires peuvent répondre sélectivement à différentes propriétés des visages comme l’orientation de la tête ou celle du regard, la nature exacte de ce codage neuronal est inconnue. Est-ce que chaque neurone porte de l’information sur un unique visage, ou cette information est-elle distribuée sur une plus large population de neurones ? De plus, comment ces neurones répondant aux visages sont-ils organisés au sein du cortex ? A ce niveau, le débat oppose l’idée d’un regroupement des neurones sélectifs aux visages en régions corticales dédiées au traitement des visages, et celle d’un codage des visages distribué sur un ensemble de régions corticales distinctes et non spécifiques aux visages. Nous présentons ici les avancées récentes dans notre compréhension de la représentation neuronale des visages. Nous abordons d’abord le codage au niveau de neurones unitaires et comparons les données en faveur des différentes stratégies de codage qui peuvent être impliquées. Ensuite nous visitons le terrain des aires corticales, et discutons les différentes hypothèses 1. CNRS – Centre de Recherche Cerveau et Cognition, Université Paul Sabatier, Toulouse 3, 31062 Toulouse Cedex 9, France. [email protected] [email protected] 367 REDDY, VANRULLEN concernant la spécialisation de différentes régions corticales pour le traitement des visages. REPRÉSENTATION DES VISAGES PAR DES NEURONES UNITAIRES Les premières études montrant que des neurones unitaires peuvent répondre préférentiellement aux visages ont été rapportées par Gross et ses collègues dans les années 1970 et 1980 (Bruce, Desimone, & Gross, 1981 ; Gross, Rocha-Miranda, & Bender, 1972). Ces neurones ont été trouvés dans les niveaux les plus élevés de la hiérarchie visuelle ventrale – le cortex inférotemporal (IT), une aire que l’on connaît maintenant pour sa participation au traitement de catégories d’objets complexes. Des études ultérieures, au début des années 1990, ont confirmé que IT et certaines régions du sulcus temporal supérieur (STS) contiennent une proportion significative de neurones sélectifs à différents attributs des visages, tels que leur expression, l’orientation du regard ou de la tête, et même l’identité (Perrett, Hietanen, Oram, & Benson, 1992 ; Perrett et al., 1988 ; Perrett, Rolls, & Caan, 1982 ; Perrett et al., 1984 ; Rolls, 1992). Le fait que des neurones individuels puissent porter une information concernant l’identité d’un visage a initié un débat sur la nature du code neuronal sousjacent. Est-ce que les neurones peuvent encoder un individu de manière « éparse » et sélective (à l’extrême, ceci correspond au célèbre « codage grand-mère » selon lequel un unique neurone peut représenter le concept de ma grand-mère) (Barlow, 1972 ; Konorksi, 1967), ou cette information est-elle présente seulement au niveau d’une population de neurones répondant chacun à une large gamme de visages individuels ? Il existe déjà des données en faveur de chacune de ces deux alternatives dans différents systèmes. Un codage épars est par exemple utilisé dans le système olfactif des insectes, où chaque odeur individuelle n’active qu’un faible nombre de neurones très sélectifs, typiquement avec juste deux potentiels d’action (Perez-Orive et al., 2002). Un codage de population peut être observé au niveau du cortex moteur – les neurones individuels ont des courbes d’accord assez larges et qui se superposent entre elles, rendant quasi impossible une prédiction de la direction de mouvement (par exemple, du bras) à partir de l’activité d’un seul neurone. Cependant, en combinant l’information sur une population entière, la direction de mouvement peut être obtenue avec une très grande précision (Georgopoulos, Schwartz, & Kettner, 1986). Laquelle de ces deux alternatives est utilisée par le cerveau pour encoder les visages ? CODAGE DE POPULATION POUR LA REPRÉSENTATION DES VISAGES Les avantages d’un codage basé sur une population de neurones sont évidents – une haute capacité représentationnelle, et une résistance au bruit biologique et en particulier à la mort neuronale (Pouget, Dayan, & Zemel, 2000). 368 Le codage neuronal des visages Et il existe de nombreuses données montrant que ce type de codage est utilisé dans la représentation des visages. Des études quantitatives de neurones répondant aux visages ont montré que l’identité des individus est encodée par les réponses d’un large groupe de neurones, et que l’identité faciale peut être décodée avec une grande précision sur la base des taux de décharge de la population (Abbott, Rolls, & Tovee, 1996). Plus récemment, nombre d’auteurs ont trouvé qu’une large proportion des neurones sélectifs aux visages répond à une grande diversité de visages distincts, et de plus, qu’un ensemble de visages relativement restreint peut suffire à activer la plupart des neurones enregistrés. En particulier, Tsao et ses collègues ont récemment utilisé l’IRMf chez le singe macaque pour localiser les régions sélectives aux visages, et ont ensuite dirigé leurs électrodes au sein d’une de ces régions (Tsao, Freiwald, Tootell, & Livingstone, 2006). Ils ont observé que 97 % des neurones de cette région répondaient presque exclusivement à 16 images de visages, et que ces cellules étaient grossièrement sélectives à diverses caractéristiques et dimensions du visage, comme la taille de la pupille, la distance inter-oculaire, ou le ratio hauteur/largeur. Ainsi, chaque visage était représenté par l’activité d’un ensemble de neurones, chacun encodant une combinaison de propriétés faciales élémentaires. De manière similaire, Foldiak et ses collègues ont testé la sélectivité des neurones du STS avec plus de 1000 images naturelles distinctes, et ont trouvé des cellules activées par un nombre élevé de visages (Foldiak, Xiao, Keysers, Edwards, & Perrett, 2004). La capacité élevée de représentation des codages de population les rend adaptés à la représentation des visages et objets visuels car un nombre important de stimuli potentiels peut y être encodé par un nombre d’unités relativement restreint. En effet, il serait coûteux pour le cerveau d’utiliser un code purement épars (où un neurone encoderait un visage ou objet unique), ne serait-ce qu’à cause du grand nombre d’unités qu’il faudrait mettre en jeu pour représenter tous les stimuli et concepts possibles. De plus, comment un tel code pourrait-il représenter un nouveau visage, perçu pour la première fois ? Cela signifie-t-il pour autant que les codes épars ne sont pas utilisés pour la représentation des visages ? Notons d’abord que la représentation de l’information faciale discutée cidessus peut en fait être considérée comme éparse, lorsqu’on se place non pas au niveau individuel mais au niveau catégoriel. En d’autres termes, puisque les cellules sélectives aux visages répondent uniquement à cette catégorie à l’exclusion de toute autre, ces neurones peuvent être vus comme participant à un codage épars de la catégorie visage (Reddy & Kanwisher, 2006). Par contre, c’est au niveau de l’identité ou d’autres propriétés faciales que ces cellules participent à un codage de population, et en effet, jusqu’à maintenant, la plupart des données pointent vers un codage de population pour l’identité faciale. CODAGE ÉPARS POUR LA REPRÉSENTATION DES VISAGES Mais récemment, Quiroga et ses collègues ont mis en évidence l’existence d’un codage épars dans le cerveau humain (Quiroga, Reddy, Kreiman, Koch, & Fried, 2005). Ils ont enregistré l’activité électrique de neurones unitaires grâce 369 REDDY, VANRULLEN à des électrodes implantées dans le cerveau de patients épileptiques. Un grand nombre d’images naturelles différentes étaient présentées aux patients, et de manière étonnante, certains neurones du lobe médial temporal se sont avérés sélectifs à un individu donné, ne répondant pour aucun autre stimulus. De plus, ces neurones maintenaient un niveau de réponse élevé pour des vues remarquablement différentes du même individu. Ainsi, par exemple, un neurone de l’hippocampe répondait à diverses vues de l’actrice Halle Berry, comprenant des photographies, dessins, Halle Berry déguisée en « catwoman », et même le nom imprimé « Halle Berry ». La même cellule n’avait aucune réponse significative pour environ 70 autres images qui ont été montrées au patient, y compris d’autres actrices célèbres. Peu d’études chez le singe ont trouvé des preuves aussi solides d’un codage épars de l’identité. Une des causes principales de cette différence pourrait être liée au fait que dans une expérience typique chez le singe, l’expérimentateur déplace son électrode régulièrement si une réponse visuelle consistante n’est pas obtenue dès les premières minutes d’enregistrement. Une telle approche réduit inévitablement les chances de trouver des neurones aux réponses éparses, puisque par définition ces cellules ne répondent qu’à un faible nombre de stimuli et il est peu probable que ces stimuli fassent partie de ceux choisis par l’expérimentateur. A l’inverse, dans l’expérience décrite cidessus, chez l’humain, la position des électrodes était déterminée par des critères cliniques, et inamovible, ce qui ne laissait aucun autre choix aux expérimentateurs que de tester une large batterie de stimuli sur une période de temps prolongée. Un aspect important du codage épars observé par Quiroga et ses collègues est qu’il existe principalement pour des stimuli avec lesquels les patients sont très familiers, par exemple : acteurs et actrices, ou membres de la famille. De ce fait, il est peu probable que de telles représentations existent pour une sélection arbitraire de stimuli ; ce codage est plutôt restreint aux stimuli familiers et portant une signification importante. Ainsi la représentation des visages au niveau de neurones isolés peut s’appuyer à la fois sur un codage de population et un codage épars. Il est encore difficile de dire quels sont les facteurs exacts qui déterminent si l’une ou l’autre stratégie (ou les deux) sera choisie pour un visage particulier, même si la pertinence et la familiarité du visage semblent avoir une influence. Notons cependant que, bien que toutes les études mentionnées ici constituent une preuve évidente de l’existence de neurones qui encodent explicitement les visages, aucune de ces études n’indique un lien causal direct entre la réponse de ces neurones sélectifs aux visages et la perception réelle du visage. Dans une étude récente Afraz et ses collègues ont réussi à démontrer un rôle causal des neurones de IT dans la perception faciale (Afraz, Kiani, & Esteky, 2006). Ils ont stimulé électriquement grâce à une micro-électrode une région corticale du cerveau d’un singe macaque contenant une forte concentration de neurones sélectifs aux visages, et ont observé suite à cette stimulation une tendance accrue de la part du singe à rapporter qu’un stimulus était un visage. Ainsi l’activité des neurones répondant aux visages dans IT serait impliquée directement dans la perception consciente des visages. 370 Le codage neuronal des visages REPRÉSENTATION DES VISAGES AU NIVEAU DE RÉGIONS CORTICALES A l’encontre des représentations portées par les neurones individuels, la représentation des visages a aussi été étudiée sur de larges régions corticales. Il est établi que certaines régions du cerveau comme le sulcus temporal supérieur (Hoffman & Haxby, 2000) et le gyrus fusiforme (Kanwisher, McDermott, & Chun, 1997) sont activées sélectivement en imagerie par résonance magnétique fonctionnelle (IRMf) lorsqu’un visage est présenté au sujet (voir Chapitre 4). L’existence de ces régions sélectives aux visages implique un regroupement des neurones répondant aux visages dans un rayon limité – sans ce regroupement la sélectivité serait invisible à la résolution spatiale de l’IRMf qui collecte l’activité de centaines de milliers de neurones adjacents au sein de chaque voxel. Il a été montré de manière répétée que la région des visages dans le gyrus fusiforme (nommée l’aire fusiforme des visages ou FFA) est activée préférentiellement par les images de visages, par rapport à d’autres objets (Baker, Hutchison, & Kanwisher, 2007 ; Grill-Spector, Sayres, & Ress, 2006 ; Kanwisher et al., 1997). Cette région hautement spécifique se retrouve approximativement au même endroit chez tous les sujets normaux, et peut être définie par des pics distincts dans les profils d’activation (Spiridon, Fischl, & Kanwisher, 2006). Des régions similaires ont également été trouvées chez le singe macaque par l’IRMf (Tsao, Freiwald, Knutsen, Mandeville, & Tootell, 2003) ; comme mentionné plus haut, une large proportion des neurones de cette région étaient sélectivement activés par les images de visages (Tsao et al., 2006). La FFA humaine semble participer à l’encodage des aspects invariables de l’information faciale, comme l’identité ou le genre du visage (George et al., 1999 ; Sergent, Ohta, & MacDonald, 1992). Les aspects changeants, tels que la direction du regard, auraient tendance à réduire l’ampleur des réponses de la FFA, mais sembleraient à la place activer le STS (Haxby, Hoffman, & Gobbini, 2000 ; Hoffman & Haxby, 2000). La nature de la représentation mise en jeu dans la FFA a donné lieu à un débat vigoureux. D’un côté, Kanwisher a proposé que les réponses fortement sélectives de la FFA indiquaient qu’il s’agit d’un module local, spécialisé dans le traitement des visages (Kanwisher et al., 1997 ; Spiridon & Kanwisher, 2002). Sa position a récemment été renforcée par les résultats de Tsao et ses collègues (discutés ci-dessus) montrant l’existence de neurones extrêmement sélectifs dans cette « région des visages » (Tsao et al., 2006). Le fait que ces neurones ne répondent pas à d’autres stimuli suggère qu’ils ne peuvent pas jouer un rôle important dans la représentation d’autres catégories d’objets. Contrairement à cette vue « locale », Haxby et ses collègues ont proposé que la FFA ferait en fait partie d’un réseau distribué de représentation (Haxby et al., 2001). Selon eux, les faibles réponses de la FFA pour les objets non visages indiquent que de la FFA participerait au codage neuronal de ces catégories d’objets. Inversement, les visages seraient représentés non seulement par les réponses élevées dans la FFA, mais aussi par les réponses plus faibles observées en dehors de la FFA. Ainsi, différentes catégories d’objets seraient encodées par des motifs d’activation distribués, gradués et superposés, s’étendant sur de larges régions de la voie visuelle ventrale. 371 REDDY, VANRULLEN Il existe des données en faveur d’une telle stratégie de représentation distribuée et superposée pour les catégories d’objets. Nombre d’études ont montré que l’information de catégorie pouvait être décodée à partir du motif d’activité IRMf distribué sur l’ensemble du cortex inféro-temporal – et en particulier que les visages sont décodés de manière consistante à partir du motif d’activation en dehors de la FFA, et inversement, que les catégories non visage peuvent être décodées sur la base du motif limité à la seule FFA (Haxby et al., 2001 ; O’Toole, Jiang, Abdi, & Haxby, 2005). Cependant, jusqu’à maintenant ces études ne se sont intéressées qu’à l’information fournie par des objets présentés isolément, une situation qui se produit rarement dans la vie de tous les jours. Afin de s’approcher des environnements naturels, plus chargés, Reddy et Kanwisher ont présenté à des sujets 2 objets simultanés et ont essayé de décoder l’information contenue dans les motifs d’activation IRMf (Reddy & Kanwisher, 2008). Elles ont trouvé que dans ces conditions la performance de décodage pour toutes les catégories d’objets était significativement réduite par rapport aux objets isolés, sauf lorsque l’information portant sur la catégorie « préférée » était lue dans une région sélective (comme par exemple, pour la catégorie visage dans la FFA). De plus, lorsque l’attention était dirigée sur un autre objet présent simultanément, le décodage d’un visage n’était possible que sur la base des informations provenant de la FFA. Ces résultats ont des implications sévères vis-à-vis de l’utilité des motifs distribués et superposés d’activité IRMf. Pour simplifier, ces représentations sont sérieusement limitées dans leur capacité à fournir de l’information sur la catégorie des objets dans des conditions « réelles ». Il semble plutôt que seul un code qui s’appuierait sur l’existence de régions sélectives dans le cortex serait résistant aux effets néfastes induits par les objets multiples et la diversion de l’attention. CONCLUSION Pour résumer, les visages sont représentés dans la voie visuelle ventrale par des neurones individuels, qui se trouvent souvent regroupés spatialement en modules ou régions sélectives aux visages. Comme nous l’avons vu, la représentation des visages repose à la fois sur des stratégies de codage épars et des codes de population, bien que les facteurs qui déterminent quelle stratégie sera favorisée restent encore méconnus. Au niveau cortical, nous avons passé en revue des données en faveur d’un représentation distribuée des visages, mais aussi d’autres résultats en faveur d’une représentation modulaire. A ces deux niveaux de description (micro- et macro-scopiques), cependant, la nature exacte des opérations effectuées est encore mal comprise, et devra faire l’objet de futures recherches. 372 Le codage neuronal des visages RÉFÉRENCES Abbott, L.F., Rolls, E.T., & Tovee, M.J. (1996). Representational Capacity of Face Coding in Monkeys. Cereb. Cortex, 6(3), 498-505. Afraz, S.R., Kiani, R., & Esteky, H. (2006). Microstimulation of inferotemporal cortex influences face categorization. Nature, 442(7103), 692-695. (Grâce à la microstimulation électrique, ces auteurs démontrent pour la première fois le rôle causal des neurones sélectifs aux visages dans la perception consciente des visages.) Baker, C.I., Hutchison, T.L., & Kanwisher, N. (2007). Does the fusiform face area contain subregions highly selective for nonfaces ? Nat Neurosci, 10(1), 3-4. Barlow, H.B. (1972). Single units and sensation : a neuron doctrine for perceptual psychology ? Perception, 1(4), 371-394. Bruce, C., Desimone, R., & Gross, C.G. (1981). Visual properties of neurons in a polysensory area in superior temporal sulcus of the macaque. J Neurophysiol, 46(2), 369-384. Foldiak, P., Xiao, D., Keysers, C., Edwards, R., & Perrett, D.I. (2004). Rapid serial visual presentation for the determination of neural selectivity in area STSa. Prog Brain Res, 144, 107-116. George, N., Dolan, R.J., Fink, G.R., Baylis, G.C., Russell, C., & Driver, J. (1999). Contrast polarity and face recognition in the human fusiform gyrus. Nat Neurosci, 2(6), 574-580. Georgopoulos, A.P., Schwartz, A.B., & Kettner, R.E. (1986). Neuronal population coding of movement direction. Science, 233(4771), 1416-1419. Grill-Spector, K., Sayres, R., & Ress, D. (2006). High-resolution imaging reveals highly selective nonface clusters in the fusiform face area. Nat Neurosci, 9(9), 1177-1185. Gross, C.G., Rocha-Miranda, C.E., & Bender, D.B. (1972). Visual properties of neurons in inferotemporal cortex of the Macaque. J Neurophysiol, 35(1), 96-111. Haxby, J.V., Gobbini, M.I., Furey, M.L., Ishai, A., Schouten, J.L., & Pietrini, P. (2001). Distributed and overlapping representations of faces and objects in ventral temporal cortex. Science, 293(5539), 2425-2430. (Cette étude remet en question l’idée que chaque catégorie puisse être encodée par un module localisé, et est l’une des premières à utiliser une méthode de classification pour décoder l’information concernant les objets à partir des motifs de réponses IRMf.) Haxby, J.V., Hoffman, E.A., & Gobbini, M.I. (2000). The distributed human neural system for face perception. Trends Cogn Sci, 4(6), 223-233. Hoffman, E.A., & Haxby, J.V. (2000). Distinct representations of eye gaze and identity in the distributed human neural system for face perception. Nat Neurosci, 3(1), 80-84. Kanwisher, N., McDermott, J., & Chun, M.M. (1997). The fusiform face area: a module in human extrastriate cortex specialized for face perception. J Neurosci, 17(11), 4302-4311. (Une des premières études IRMf à démontrer l’existence de réponses spécifiques aux visages dans le gyrus fusiforme.) 373 REDDY, VANRULLEN Konorksi, J. (1967). Integrative Activity of the Brain : An Interdisciplinary Approach. Chicago : University of Chicago Press. O’Toole, A.J., Jiang, F., Abdi, H., & Haxby, J.V. (2005). Partially distributed representations of objects and faces in ventral temporal cortex. J Cogn Neurosci, 17(4), 580-590. Perez-Orive, J., Mazor, O., Turner, G.C., Cassenaer, S., Wilson, R.I., & Laurent, G. (2002). Oscillations and sparsening of odor representations in the mushroom body. Science, 297(5580), 359-365. Perrett, D.I., Hietanen, J.K., Oram, M.W., & Benson, P.J. (1992). Organization and functions of cells responsive to faces in the temporal cortex. Philos Trans R Soc Lond B Biol Sci, 335(1273), 23-30. Perrett, D.I., Mistlin, A.J., Chitty, A.J., Smith, P.A., Potter, D.D., Broennimann, R., et al. (1988). Specialized face processing and hemispheric asymmetry in man and monkey : evidence from single unit and reaction time studies. Behav Brain Res, 29(3), 245-258. Perrett, D.I., Rolls, E.T., & Caan, W. (1982). Visual neurones responsive to faces in the monkey temporal cortex. Exp Brain Res, 47(3), 329-342. Perrett, D.I., Smith, P.A., Potter, D.D., Mistlin, A.J., Head, A.S., Milner, A.D., et al. (1984). Neurones responsive to faces in the temporal cortex : studies of functional organization, sensitivity to identity and relation to perception. Hum Neurobiol, 3(4), 197-208. Pouget, A., Dayan, P., & Zemel, R. (2000). Information processing with population codes. Nat Rev Neurosci, 1(2), 125-132. Quiroga, R.Q., Reddy, L., Kreiman, G., Koch, C., & Fried, I. (2005). Invariant visual representation by single neurons in the human brain. Nature, 435(7045), 1102-1107. (Cette étude apporte des preuves solides de l’utilisation d’un code épars explicite pour le codage des visages et autres objets dans le cerveau humain.) Reddy, L., & Kanwisher, N. (2006). Coding of visual objects in the ventral stream. Curr Opin Neurobiol, 16(4), 408-414. Reddy, L., & Kanwisher, N. (2008). Category selectivity in the ventral visual pathway confers robustness to clutter and diverted attention. Curr Biol, in press. Rolls, E.T. (1992). Neurophysiological mechanisms underlying face processing within and beyond the temporal cortical visual areas. Philos Trans R Soc Lond B Biol Sci, 335(1273), 11-20 ; discussion 20-11. Sergent, J., Ohta, S., & MacDonald, B. (1992). Functional neuroanatomy of face and object processing. A positron emission tomography study. Brain, 115 Pt 1, 15-36. Spiridon, M., Fischl, B., & Kanwisher, N. (2006). Location and spatial profile of category-specific regions in human extrastriate cortex. Hum Brain Mapp, 27(1), 77-89. Spiridon, M., & Kanwisher, N. (2002). How distributed is visual category information in human occipito-temporal cortex ? An fMRI study. Neuron, 35(6), 1157-1165. 374 Le codage neuronal des visages Tsao, D.Y., Freiwald, W.A., Knutsen, T.A., Mandeville, J.B., & Tootell, R.B. (2003). Faces and objects in macaque cerebral cortex. Nat Neurosci, 6(9), 989-995. Tsao, D.Y., Freiwald, W.A., Tootell, R.B., & Livingstone, M.S. (2006). A cortical region consisting entirely of face-selective cells. Science, 311(5761), 670674. (Des enregistrements unitaires au sein d’une région identifiée grâce à l’IRMf comme répondant aux visages révèlent que 97 % des cellules de cette région sont activées presque exclusivement par les visages.) 375