le codage neuronal des visages - Centre de Recherche Cerveau

Transcription

le codage neuronal des visages - Centre de Recherche Cerveau
Collection Neuropsychologie
Traitement et reconnaissance
des visages : du percept à la personne
E. Barbeau, S. Joubert, O. Felician, eds.
Solal, éditeur, Marseille - 2008.
L. REDDY 1
R. VANRULLEN 1
CHAPITRE 14
LE CODAGE NEURONAL
DES VISAGES
INTRODUCTION
Comment les visages sont-ils représentés dans le cerveau ? Bien que la
reconnaissance des visages soit un processus visuel important que nous mettons en jeu constamment, la représentation des visages est encore mal comprise. Même s’il est avéré que des neurones unitaires peuvent répondre sélectivement à différentes propriétés des visages comme l’orientation de la tête ou
celle du regard, la nature exacte de ce codage neuronal est inconnue. Est-ce
que chaque neurone porte de l’information sur un unique visage, ou cette information est-elle distribuée sur une plus large population de neurones ? De plus,
comment ces neurones répondant aux visages sont-ils organisés au sein du
cortex ? A ce niveau, le débat oppose l’idée d’un regroupement des neurones
sélectifs aux visages en régions corticales dédiées au traitement des visages,
et celle d’un codage des visages distribué sur un ensemble de régions corticales distinctes et non spécifiques aux visages.
Nous présentons ici les avancées récentes dans notre compréhension de
la représentation neuronale des visages. Nous abordons d’abord le codage
au niveau de neurones unitaires et comparons les données en faveur des différentes stratégies de codage qui peuvent être impliquées. Ensuite nous visitons le terrain des aires corticales, et discutons les différentes hypothèses
1. CNRS – Centre de Recherche Cerveau et Cognition, Université Paul Sabatier,
Toulouse 3, 31062 Toulouse Cedex 9, France.
[email protected]
[email protected]
367
REDDY, VANRULLEN
concernant la spécialisation de différentes régions corticales pour le traitement
des visages.
REPRÉSENTATION DES VISAGES
PAR DES NEURONES UNITAIRES
Les premières études montrant que des neurones unitaires peuvent
répondre préférentiellement aux visages ont été rapportées par Gross et ses
collègues dans les années 1970 et 1980 (Bruce, Desimone, & Gross, 1981 ;
Gross, Rocha-Miranda, & Bender, 1972). Ces neurones ont été trouvés dans
les niveaux les plus élevés de la hiérarchie visuelle ventrale – le cortex inférotemporal (IT), une aire que l’on connaît maintenant pour sa participation au traitement de catégories d’objets complexes. Des études ultérieures, au début des
années 1990, ont confirmé que IT et certaines régions du sulcus temporal
supérieur (STS) contiennent une proportion significative de neurones sélectifs
à différents attributs des visages, tels que leur expression, l’orientation du
regard ou de la tête, et même l’identité (Perrett, Hietanen, Oram, & Benson,
1992 ; Perrett et al., 1988 ; Perrett, Rolls, & Caan, 1982 ; Perrett et al., 1984 ;
Rolls, 1992).
Le fait que des neurones individuels puissent porter une information concernant l’identité d’un visage a initié un débat sur la nature du code neuronal sousjacent. Est-ce que les neurones peuvent encoder un individu de manière
« éparse » et sélective (à l’extrême, ceci correspond au célèbre « codage
grand-mère » selon lequel un unique neurone peut représenter le concept de
ma grand-mère) (Barlow, 1972 ; Konorksi, 1967), ou cette information est-elle
présente seulement au niveau d’une population de neurones répondant chacun
à une large gamme de visages individuels ? Il existe déjà des données en
faveur de chacune de ces deux alternatives dans différents systèmes. Un
codage épars est par exemple utilisé dans le système olfactif des insectes, où
chaque odeur individuelle n’active qu’un faible nombre de neurones très sélectifs, typiquement avec juste deux potentiels d’action (Perez-Orive et al., 2002).
Un codage de population peut être observé au niveau du cortex moteur – les
neurones individuels ont des courbes d’accord assez larges et qui se superposent entre elles, rendant quasi impossible une prédiction de la direction de
mouvement (par exemple, du bras) à partir de l’activité d’un seul neurone.
Cependant, en combinant l’information sur une population entière, la direction
de mouvement peut être obtenue avec une très grande précision
(Georgopoulos, Schwartz, & Kettner, 1986). Laquelle de ces deux alternatives
est utilisée par le cerveau pour encoder les visages ?
CODAGE DE POPULATION POUR LA REPRÉSENTATION
DES VISAGES
Les avantages d’un codage basé sur une population de neurones sont évidents – une haute capacité représentationnelle, et une résistance au bruit biologique et en particulier à la mort neuronale (Pouget, Dayan, & Zemel, 2000).
368
Le codage neuronal des visages
Et il existe de nombreuses données montrant que ce type de codage est utilisé
dans la représentation des visages. Des études quantitatives de neurones
répondant aux visages ont montré que l’identité des individus est encodée par
les réponses d’un large groupe de neurones, et que l’identité faciale peut être
décodée avec une grande précision sur la base des taux de décharge de la
population (Abbott, Rolls, & Tovee, 1996). Plus récemment, nombre d’auteurs
ont trouvé qu’une large proportion des neurones sélectifs aux visages répond à
une grande diversité de visages distincts, et de plus, qu’un ensemble de
visages relativement restreint peut suffire à activer la plupart des neurones
enregistrés. En particulier, Tsao et ses collègues ont récemment utilisé l’IRMf
chez le singe macaque pour localiser les régions sélectives aux visages, et ont
ensuite dirigé leurs électrodes au sein d’une de ces régions (Tsao, Freiwald,
Tootell, & Livingstone, 2006). Ils ont observé que 97 % des neurones de cette
région répondaient presque exclusivement à 16 images de visages, et que ces
cellules étaient grossièrement sélectives à diverses caractéristiques et dimensions du visage, comme la taille de la pupille, la distance inter-oculaire, ou le
ratio hauteur/largeur. Ainsi, chaque visage était représenté par l’activité d’un
ensemble de neurones, chacun encodant une combinaison de propriétés
faciales élémentaires. De manière similaire, Foldiak et ses collègues ont testé
la sélectivité des neurones du STS avec plus de 1000 images naturelles distinctes, et ont trouvé des cellules activées par un nombre élevé de visages
(Foldiak, Xiao, Keysers, Edwards, & Perrett, 2004).
La capacité élevée de représentation des codages de population les rend
adaptés à la représentation des visages et objets visuels car un nombre important de stimuli potentiels peut y être encodé par un nombre d’unités relativement restreint. En effet, il serait coûteux pour le cerveau d’utiliser un code purement épars (où un neurone encoderait un visage ou objet unique), ne serait-ce
qu’à cause du grand nombre d’unités qu’il faudrait mettre en jeu pour représenter tous les stimuli et concepts possibles. De plus, comment un tel code
pourrait-il représenter un nouveau visage, perçu pour la première fois ? Cela
signifie-t-il pour autant que les codes épars ne sont pas utilisés pour la représentation des visages ?
Notons d’abord que la représentation de l’information faciale discutée cidessus peut en fait être considérée comme éparse, lorsqu’on se place non pas
au niveau individuel mais au niveau catégoriel. En d’autres termes, puisque les
cellules sélectives aux visages répondent uniquement à cette catégorie à l’exclusion de toute autre, ces neurones peuvent être vus comme participant à un
codage épars de la catégorie visage (Reddy & Kanwisher, 2006). Par contre,
c’est au niveau de l’identité ou d’autres propriétés faciales que ces cellules participent à un codage de population, et en effet, jusqu’à maintenant, la plupart
des données pointent vers un codage de population pour l’identité faciale.
CODAGE ÉPARS POUR LA REPRÉSENTATION DES VISAGES
Mais récemment, Quiroga et ses collègues ont mis en évidence l’existence
d’un codage épars dans le cerveau humain (Quiroga, Reddy, Kreiman, Koch, &
Fried, 2005). Ils ont enregistré l’activité électrique de neurones unitaires grâce
369
REDDY, VANRULLEN
à des électrodes implantées dans le cerveau de patients épileptiques. Un grand
nombre d’images naturelles différentes étaient présentées aux patients, et de
manière étonnante, certains neurones du lobe médial temporal se sont avérés
sélectifs à un individu donné, ne répondant pour aucun autre stimulus. De plus,
ces neurones maintenaient un niveau de réponse élevé pour des vues remarquablement différentes du même individu. Ainsi, par exemple, un neurone de
l’hippocampe répondait à diverses vues de l’actrice Halle Berry, comprenant
des photographies, dessins, Halle Berry déguisée en « catwoman », et même
le nom imprimé « Halle Berry ». La même cellule n’avait aucune réponse significative pour environ 70 autres images qui ont été montrées au patient, y compris d’autres actrices célèbres.
Peu d’études chez le singe ont trouvé des preuves aussi solides d’un
codage épars de l’identité. Une des causes principales de cette différence pourrait être liée au fait que dans une expérience typique chez le singe, l’expérimentateur déplace son électrode régulièrement si une réponse visuelle consistante n’est pas obtenue dès les premières minutes d’enregistrement. Une telle
approche réduit inévitablement les chances de trouver des neurones aux
réponses éparses, puisque par définition ces cellules ne répondent qu’à un
faible nombre de stimuli et il est peu probable que ces stimuli fassent partie de
ceux choisis par l’expérimentateur. A l’inverse, dans l’expérience décrite cidessus, chez l’humain, la position des électrodes était déterminée par des critères cliniques, et inamovible, ce qui ne laissait aucun autre choix aux expérimentateurs que de tester une large batterie de stimuli sur une période de temps
prolongée.
Un aspect important du codage épars observé par Quiroga et ses collègues
est qu’il existe principalement pour des stimuli avec lesquels les patients sont
très familiers, par exemple : acteurs et actrices, ou membres de la famille. De
ce fait, il est peu probable que de telles représentations existent pour une sélection arbitraire de stimuli ; ce codage est plutôt restreint aux stimuli familiers et
portant une signification importante.
Ainsi la représentation des visages au niveau de neurones isolés peut s’appuyer à la fois sur un codage de population et un codage épars. Il est encore
difficile de dire quels sont les facteurs exacts qui déterminent si l’une ou l’autre
stratégie (ou les deux) sera choisie pour un visage particulier, même si la pertinence et la familiarité du visage semblent avoir une influence. Notons cependant que, bien que toutes les études mentionnées ici constituent une preuve
évidente de l’existence de neurones qui encodent explicitement les visages,
aucune de ces études n’indique un lien causal direct entre la réponse de ces
neurones sélectifs aux visages et la perception réelle du visage. Dans une
étude récente Afraz et ses collègues ont réussi à démontrer un rôle causal des
neurones de IT dans la perception faciale (Afraz, Kiani, & Esteky, 2006). Ils ont
stimulé électriquement grâce à une micro-électrode une région corticale du cerveau d’un singe macaque contenant une forte concentration de neurones
sélectifs aux visages, et ont observé suite à cette stimulation une tendance
accrue de la part du singe à rapporter qu’un stimulus était un visage. Ainsi l’activité des neurones répondant aux visages dans IT serait impliquée directement
dans la perception consciente des visages.
370
Le codage neuronal des visages
REPRÉSENTATION DES VISAGES
AU NIVEAU DE RÉGIONS CORTICALES
A l’encontre des représentations portées par les neurones individuels, la
représentation des visages a aussi été étudiée sur de larges régions corticales.
Il est établi que certaines régions du cerveau comme le sulcus temporal supérieur (Hoffman & Haxby, 2000) et le gyrus fusiforme (Kanwisher, McDermott, &
Chun, 1997) sont activées sélectivement en imagerie par résonance magnétique fonctionnelle (IRMf) lorsqu’un visage est présenté au sujet (voir Chapitre
4). L’existence de ces régions sélectives aux visages implique un regroupement des neurones répondant aux visages dans un rayon limité – sans ce
regroupement la sélectivité serait invisible à la résolution spatiale de l’IRMf qui
collecte l’activité de centaines de milliers de neurones adjacents au sein de
chaque voxel.
Il a été montré de manière répétée que la région des visages dans le gyrus
fusiforme (nommée l’aire fusiforme des visages ou FFA) est activée préférentiellement par les images de visages, par rapport à d’autres objets (Baker, Hutchison,
& Kanwisher, 2007 ; Grill-Spector, Sayres, & Ress, 2006 ; Kanwisher et al., 1997).
Cette région hautement spécifique se retrouve approximativement au même
endroit chez tous les sujets normaux, et peut être définie par des pics distincts
dans les profils d’activation (Spiridon, Fischl, & Kanwisher, 2006). Des régions
similaires ont également été trouvées chez le singe macaque par l’IRMf (Tsao,
Freiwald, Knutsen, Mandeville, & Tootell, 2003) ; comme mentionné plus haut, une
large proportion des neurones de cette région étaient sélectivement activés par les
images de visages (Tsao et al., 2006). La FFA humaine semble participer à l’encodage des aspects invariables de l’information faciale, comme l’identité ou le
genre du visage (George et al., 1999 ; Sergent, Ohta, & MacDonald, 1992). Les
aspects changeants, tels que la direction du regard, auraient tendance à réduire
l’ampleur des réponses de la FFA, mais sembleraient à la place activer le STS
(Haxby, Hoffman, & Gobbini, 2000 ; Hoffman & Haxby, 2000).
La nature de la représentation mise en jeu dans la FFA a donné lieu à un
débat vigoureux. D’un côté, Kanwisher a proposé que les réponses fortement
sélectives de la FFA indiquaient qu’il s’agit d’un module local, spécialisé dans
le traitement des visages (Kanwisher et al., 1997 ; Spiridon & Kanwisher, 2002).
Sa position a récemment été renforcée par les résultats de Tsao et ses collègues (discutés ci-dessus) montrant l’existence de neurones extrêmement
sélectifs dans cette « région des visages » (Tsao et al., 2006). Le fait que ces
neurones ne répondent pas à d’autres stimuli suggère qu’ils ne peuvent pas
jouer un rôle important dans la représentation d’autres catégories d’objets.
Contrairement à cette vue « locale », Haxby et ses collègues ont proposé que
la FFA ferait en fait partie d’un réseau distribué de représentation (Haxby et al.,
2001). Selon eux, les faibles réponses de la FFA pour les objets non visages
indiquent que de la FFA participerait au codage neuronal de ces catégories
d’objets. Inversement, les visages seraient représentés non seulement par les
réponses élevées dans la FFA, mais aussi par les réponses plus faibles observées en dehors de la FFA. Ainsi, différentes catégories d’objets seraient encodées par des motifs d’activation distribués, gradués et superposés, s’étendant
sur de larges régions de la voie visuelle ventrale.
371
REDDY, VANRULLEN
Il existe des données en faveur d’une telle stratégie de représentation distribuée et superposée pour les catégories d’objets. Nombre d’études ont montré que l’information de catégorie pouvait être décodée à partir du motif d’activité IRMf distribué sur l’ensemble du cortex inféro-temporal – et en particulier
que les visages sont décodés de manière consistante à partir du motif d’activation en dehors de la FFA, et inversement, que les catégories non visage peuvent être décodées sur la base du motif limité à la seule FFA (Haxby et al.,
2001 ; O’Toole, Jiang, Abdi, & Haxby, 2005). Cependant, jusqu’à maintenant
ces études ne se sont intéressées qu’à l’information fournie par des objets présentés isolément, une situation qui se produit rarement dans la vie de tous les
jours. Afin de s’approcher des environnements naturels, plus chargés, Reddy et
Kanwisher ont présenté à des sujets 2 objets simultanés et ont essayé de décoder l’information contenue dans les motifs d’activation IRMf (Reddy &
Kanwisher, 2008). Elles ont trouvé que dans ces conditions la performance de
décodage pour toutes les catégories d’objets était significativement réduite par
rapport aux objets isolés, sauf lorsque l’information portant sur la catégorie
« préférée » était lue dans une région sélective (comme par exemple, pour la
catégorie visage dans la FFA). De plus, lorsque l’attention était dirigée sur un
autre objet présent simultanément, le décodage d’un visage n’était possible
que sur la base des informations provenant de la FFA.
Ces résultats ont des implications sévères vis-à-vis de l’utilité des motifs distribués et superposés d’activité IRMf. Pour simplifier, ces représentations sont
sérieusement limitées dans leur capacité à fournir de l’information sur la catégorie des objets dans des conditions « réelles ». Il semble plutôt que seul un
code qui s’appuierait sur l’existence de régions sélectives dans le cortex serait
résistant aux effets néfastes induits par les objets multiples et la diversion de
l’attention.
CONCLUSION
Pour résumer, les visages sont représentés dans la voie visuelle ventrale
par des neurones individuels, qui se trouvent souvent regroupés spatialement
en modules ou régions sélectives aux visages. Comme nous l’avons vu, la
représentation des visages repose à la fois sur des stratégies de codage épars
et des codes de population, bien que les facteurs qui déterminent quelle stratégie sera favorisée restent encore méconnus. Au niveau cortical, nous avons
passé en revue des données en faveur d’un représentation distribuée des
visages, mais aussi d’autres résultats en faveur d’une représentation modulaire. A ces deux niveaux de description (micro- et macro-scopiques), cependant, la nature exacte des opérations effectuées est encore mal comprise, et
devra faire l’objet de futures recherches.
372
Le codage neuronal des visages
RÉFÉRENCES
Abbott, L.F., Rolls, E.T., & Tovee, M.J. (1996). Representational Capacity of Face
Coding in Monkeys. Cereb. Cortex, 6(3), 498-505.
Afraz, S.R., Kiani, R., & Esteky, H. (2006). Microstimulation of inferotemporal cortex influences face categorization. Nature, 442(7103), 692-695. (Grâce à la
microstimulation électrique, ces auteurs démontrent pour la première
fois le rôle causal des neurones sélectifs aux visages dans la perception
consciente des visages.)
Baker, C.I., Hutchison, T.L., & Kanwisher, N. (2007). Does the fusiform face area
contain subregions highly selective for nonfaces ? Nat Neurosci, 10(1), 3-4.
Barlow, H.B. (1972). Single units and sensation : a neuron doctrine for perceptual
psychology ? Perception, 1(4), 371-394.
Bruce, C., Desimone, R., & Gross, C.G. (1981). Visual properties of neurons in a
polysensory area in superior temporal sulcus of the macaque. J Neurophysiol,
46(2), 369-384.
Foldiak, P., Xiao, D., Keysers, C., Edwards, R., & Perrett, D.I. (2004). Rapid serial
visual presentation for the determination of neural selectivity in area STSa.
Prog Brain Res, 144, 107-116.
George, N., Dolan, R.J., Fink, G.R., Baylis, G.C., Russell, C., & Driver, J. (1999).
Contrast polarity and face recognition in the human fusiform gyrus. Nat
Neurosci, 2(6), 574-580.
Georgopoulos, A.P., Schwartz, A.B., & Kettner, R.E. (1986). Neuronal population
coding of movement direction. Science, 233(4771), 1416-1419.
Grill-Spector, K., Sayres, R., & Ress, D. (2006). High-resolution imaging reveals
highly selective nonface clusters in the fusiform face area. Nat Neurosci, 9(9),
1177-1185.
Gross, C.G., Rocha-Miranda, C.E., & Bender, D.B. (1972). Visual properties of neurons in inferotemporal cortex of the Macaque. J Neurophysiol, 35(1), 96-111.
Haxby, J.V., Gobbini, M.I., Furey, M.L., Ishai, A., Schouten, J.L., & Pietrini, P.
(2001). Distributed and overlapping representations of faces and objects in
ventral temporal cortex. Science, 293(5539), 2425-2430. (Cette étude remet
en question l’idée que chaque catégorie puisse être encodée par un
module localisé, et est l’une des premières à utiliser une méthode de
classification pour décoder l’information concernant les objets à partir
des motifs de réponses IRMf.)
Haxby, J.V., Hoffman, E.A., & Gobbini, M.I. (2000). The distributed human neural
system for face perception. Trends Cogn Sci, 4(6), 223-233.
Hoffman, E.A., & Haxby, J.V. (2000). Distinct representations of eye gaze and identity in the distributed human neural system for face perception. Nat Neurosci,
3(1), 80-84.
Kanwisher, N., McDermott, J., & Chun, M.M. (1997). The fusiform face area: a
module in human extrastriate cortex specialized for face perception. J Neurosci,
17(11), 4302-4311. (Une des premières études IRMf à démontrer l’existence de réponses spécifiques aux visages dans le gyrus fusiforme.)
373
REDDY, VANRULLEN
Konorksi, J. (1967). Integrative Activity of the Brain : An Interdisciplinary
Approach. Chicago : University of Chicago Press.
O’Toole, A.J., Jiang, F., Abdi, H., & Haxby, J.V. (2005). Partially distributed
representations of objects and faces in ventral temporal cortex. J Cogn
Neurosci, 17(4), 580-590.
Perez-Orive, J., Mazor, O., Turner, G.C., Cassenaer, S., Wilson, R.I., & Laurent,
G. (2002). Oscillations and sparsening of odor representations in the mushroom body. Science, 297(5580), 359-365.
Perrett, D.I., Hietanen, J.K., Oram, M.W., & Benson, P.J. (1992). Organization
and functions of cells responsive to faces in the temporal cortex. Philos
Trans R Soc Lond B Biol Sci, 335(1273), 23-30.
Perrett, D.I., Mistlin, A.J., Chitty, A.J., Smith, P.A., Potter, D.D., Broennimann,
R., et al. (1988). Specialized face processing and hemispheric asymmetry in
man and monkey : evidence from single unit and reaction time studies.
Behav Brain Res, 29(3), 245-258.
Perrett, D.I., Rolls, E.T., & Caan, W. (1982). Visual neurones responsive to
faces in the monkey temporal cortex. Exp Brain Res, 47(3), 329-342.
Perrett, D.I., Smith, P.A., Potter, D.D., Mistlin, A.J., Head, A.S., Milner, A.D., et
al. (1984). Neurones responsive to faces in the temporal cortex : studies of
functional organization, sensitivity to identity and relation to perception. Hum
Neurobiol, 3(4), 197-208.
Pouget, A., Dayan, P., & Zemel, R. (2000). Information processing with population codes. Nat Rev Neurosci, 1(2), 125-132.
Quiroga, R.Q., Reddy, L., Kreiman, G., Koch, C., & Fried, I. (2005). Invariant
visual representation by single neurons in the human brain. Nature,
435(7045), 1102-1107. (Cette étude apporte des preuves solides de
l’utilisation d’un code épars explicite pour le codage des visages et
autres objets dans le cerveau humain.)
Reddy, L., & Kanwisher, N. (2006). Coding of visual objects in the ventral
stream. Curr Opin Neurobiol, 16(4), 408-414.
Reddy, L., & Kanwisher, N. (2008). Category selectivity in the ventral visual
pathway confers robustness to clutter and diverted attention. Curr Biol, in
press.
Rolls, E.T. (1992). Neurophysiological mechanisms underlying face processing
within and beyond the temporal cortical visual areas. Philos Trans R Soc
Lond B Biol Sci, 335(1273), 11-20 ; discussion 20-11.
Sergent, J., Ohta, S., & MacDonald, B. (1992). Functional neuroanatomy of
face and object processing. A positron emission tomography study. Brain,
115 Pt 1, 15-36.
Spiridon, M., Fischl, B., & Kanwisher, N. (2006). Location and spatial profile of
category-specific regions in human extrastriate cortex. Hum Brain Mapp,
27(1), 77-89.
Spiridon, M., & Kanwisher, N. (2002). How distributed is visual category information in human occipito-temporal cortex ? An fMRI study. Neuron, 35(6),
1157-1165.
374
Le codage neuronal des visages
Tsao, D.Y., Freiwald, W.A., Knutsen, T.A., Mandeville, J.B., & Tootell, R.B.
(2003). Faces and objects in macaque cerebral cortex. Nat Neurosci, 6(9),
989-995.
Tsao, D.Y., Freiwald, W.A., Tootell, R.B., & Livingstone, M.S. (2006). A cortical
region consisting entirely of face-selective cells. Science, 311(5761), 670674. (Des enregistrements unitaires au sein d’une région identifiée
grâce à l’IRMf comme répondant aux visages révèlent que 97 % des
cellules de cette région sont activées presque exclusivement par les
visages.)
375