L`identification des enfants à haut potentiel : Quelles perspectives

Transcription

L`identification des enfants à haut potentiel : Quelles perspectives
Psychologie française 49 (2004) 233–251
www.elsevier.com/locate/
Analyse de la littérature
L’identification des enfants à haut potentiel :
Quelles perspectives pour l’approche
psychométrique ?
Identification of children with high potential:
Which prospects for the psychometric approach?
X. Caroff
Laboratoire Cognition et Développement (UMR CNRS 8605), université René-Descartes – Paris-V,
71, avenue Édouard-Vaillant, 92774 Boulogne-Billancourt, France
Reçu le 7 janvier 2004 ; reçu en forme révisée le 18 mars 2004 ; accepté le 15 juin 2004
Résumé
La question de l’identification des enfants à haut potentiel occupe une place paradoxale dans la
littérature scientifique. Ce thème de recherche est largement minoritaire, malgré la complexité des
questions soulevées. La notion d’identification présente plusieurs facettes lorsqu’elle s’applique aux
enfants à haut potentiel. Au plan théorique, les définitions de la précocité sont susceptibles de varier ;
au plan méthodologique, les domaines mesurés, les techniques d’évaluation et les critères utilisés
sont eux-aussi extrêmement variables. Les limites de l’approche psychométrique « classique » de
l’identification sont présentées à partir de l’exemple du WISC. Différentes questions sont abordées :
la valeur du seuil d’identification, la pertinence des normes disponibles et les qualités métriques du
test. La dernière partie envisage les perspectives offertes par les modèles de réponse à l’item pour
renouveler l’approche psychométrique de l’identification.
© 2004 Publié par Elsevier SAS pour Société française de psychologie.
Abstract
The identification of gifted children is a paradoxical issue in the scientific literature. This topic is
largely underrepresented, in spite of the complexity of the questions it raises. The concept of
Adresse e-mail : [email protected] (X. Caroff).
0033-2984/$ - see front matter © 2004 Publié par Elsevier SAS pour Société française de psychologie.
doi:10.1016/j.psfr.2004.06.001
234
X. Caroff / Psychologie française 49 (2004) 233–251
identification of giftedness is a multifaceted topic. From a theoretical point of view, the definitions of
giftedness diverge. From a methodological point of view, the domains of measurement, the techniques of evaluation and the criteria used are also extremely variable. The limits of the “traditional”
psychometric approach to giftedness are presented starting from the example of the WISC. Several
questions are addressed: the value of the identification threshold, the relevance of available norms and
psychometric qualities of this test. Finally, prospects offered by Item Response Models to renew the
psychometric approach to the identification of giftedness are considered.
© 2004 Publié par Elsevier SAS pour Société française de psychologie.
Mots-clés : Haut potentiel ; Identification ; QI ; WISC ; Modèle de réponse à l’item
Keywords: Gift; Identification; IQ; WISC; Item response models
La question de l’identification des enfants à haut potentiel occupe une place paradoxale
dans la littérature scientifique consacrée à la précocité et au talent. À partir d’une importante revue de la littérature, Heller et Schofield (2000) concluaient récemment que les
principaux thèmes de recherche avaient assez peu évolué comparativement à la précédente
décennie : seulement 5 % des références bibliographiques sont spécifiquement consacrées
à la question de l’identification ; le thème dominant la littérature restant celui de l’éducation
des enfants à haut potentiel. Cette caractéristique contraste assez nettement avec la fréquence d’utilisation des procédures d’identification, puisque toute recherche sérieuse
portant sur le haut potentiel ou le talent doit nécessairement mentionner les critères retenus
par les auteurs et la procédure mise en oeuvre pour recruter un échantillon d’enfants
susceptibles de participer à la recherche. Elle contraste aussi avec la complexité des
questions théoriques et méthodologiques soulevées par l’approche psychométrique de
l’identification. Certaines questions seront ici abordées. Tout d’abord, la diversité des
conceptions du haut potentiel ou du talent, des domaines évalués et des méthodes utilisées,
comme celle des objectifs poursuivis par l’identification ; ensuite, les limites de l’approche
psychométrique « classique » de l’identification seront présentées à propos du WISC ; la
dernière partie envisagera si les modèles de réponse à l’item (MRI) offrent de nouvelles
perspectives pour l’identification du haut potentiel.
1. Les différentes facettes de l’identification
Lorsqu’elle s’applique aux cas des enfants à haut potentiel, la notion d’identification
présente plusieurs facettes (Koren, 1994). Au plan théorique, les définitions de la précocité
et leurs ancrages théoriques sont susceptibles de varier assez nettement selon les auteurs ;
au plan méthodologique, les domaines mesurés, les techniques d’évaluation et les critères
utilisés sont eux-aussi extrêmement variables dans la littérature, nettement moins dans la
pratique. On peut se demander d’ailleurs si ce n’est pas cette grande diversité des approches
qui fait précisément obstacle au développement de la recherche sur l’identification du haut
potentiel et du talent.
X. Caroff / Psychologie française 49 (2004) 233–251
235
1.1. Différentes conceptions de la précocité
Les conceptions de la précocité ont profondément évolué depuis les premiers travaux
consacrés à ce sujet. Si l’on considère, à titre d’exemple, le domaine du haut potentiel
intellectuel, on constatera que l’on est progressivement passé d’une conception unitaire,
appuyée sur une mesure globale (le QI), à des conceptions multifactorielles (Carroll, 1993,
1997) voire multidimensionnelles (par référence à la théorie des intelligences multiples de
Gardner ; par exemple, Chen et Gardner, 1997) ou encore à des conceptions « cognitivistes » (appuyées, par exemple, sur la théorie triarchique de Sternberg, 1997). Par conséquent, les théories auxquelles il est actuellement fait référence dans la littérature scientifique proposent des conceptions bien différentes de l’intelligence et de sa mesure, comme en
témoigne la revue de question de Ziegler et Raul (2000). Après avoir analysé le contenu des
articles publiés la même année dans cinq revues spécialisées, ces auteurs ont constaté que,
parmi les principaux tests utilisés pour l’identification du haut potentiel intellectuel, on
trouvait aussi bien le Standford-Binet LM ou le WISC-III (conceptions globales de
l’intelligence : Binet et Simon, 1905,1908; Wechsler, 1956) que le Raven Standard
Progressive Matrices (inspiré de la théorie du facteur g ; Spearman, 1904,1927) ou le
Comprehensive Test of Basic Skills (théorie des aptitudes multiples de Thurstone, 1938).
Cette diversité des conceptions implique qu’un consensus ne peut être trouvé que sur une
définition minimale (Pfeiffer, 2001). En l’occurrence, on considère qu’un enfant à haut
niveau intellectuel se caractérise avant tout par sa capacité à réaliser, dans un certain
nombre d’activités intellectuelles, des performances que ne parviennent pas accomplir la
plupart des enfants de son âge.
Plus récemment, les conceptions du haut potentiel et du talent ont été étendues à d’autres
domaines que celui de l’intelligence. Selon l’ancrage théorique, des caractéristiques différentes seront privilégiées pour la sélection des participants aux recherches expérimentales.
Ziegler et Raul (2000) ont isolé cinq catégories de critères :
• les traditionnels critères de sélection relatifs à l’intelligence ;
• les réussites extrêmes (comprenant les performances scolaires) ;
• les dimensions de personnalité ;
• la créativité ;
• les intérêts.
Ce constat est cohérent avec le fait que certains auteurs plaident actuellement pour que
l’identification du haut potentiel ou du talent repose sur le principe d’une multiévaluation
(par exemple, Ziegler et Heller, 2000). Toutefois, cette proposition n’est pas encore suivie
d’effet puisque, selon les résultats de Ziegler et Raul (2000), la majorité des recherches
scientifiques publiées ces dernières années ne comportent qu’un seul critère d’identification ; le plus souvent, une mesure d’intelligence ou bien de performance.
La façon dont sont opérationnalisés les critères d’identification du haut potentiel ou du
talent est particulièrement cruciale. Comme conséquence du fait que des conceptions
différentes, parfois divergentes (Pfeiffer, 2002), peuvent être mises à l’épreuve, les résultats
d’une étude particulière risquent d’être difficilement comparables à ceux d’autres études.
236
X. Caroff / Psychologie française 49 (2004) 233–251
1.2. Différentes techniques d’évaluation
Outre la diversité des conceptions, les méthodes d’évaluation varient elles-aussi. Ziegler
et Raul (2000) constatent que différentes catégories d’outils sont fréquemment utilisées
pour recruter les sujets expérimentaux :
• l’entretien, qui se déroule le plus souvent en situation de face-à-face et peut être plus ou
moins standardisé ;
• des épreuves standardisées présentées sous la forme de tests « papier-crayon » ou bien
de tests informatisés ;
• des questionnaires conçus, le plus souvent, pour les besoins de la recherche ou bien
utilisant un matériel ancien et des « check-list » utilisées surtout pour l’évaluation de la
personnalité ;
• des évaluations à partir d’échelles renseignées par les parents, les enseignants, les pairs
voire par l’enfant lui-même, sont parfois utilisées ;
• des productions de l’enfant (cahiers d’école, dessins, etc.) ;
• des observations directes des comportements de l’enfant.
Aux États-Unis, les tests d’intelligence, tels que les échelles de Wechsler (1995, 1996,
2000) et l’échelle Standford-Binet sont, à l’évidence, les instruments d’évaluation les plus
fréquemment utilisés dans la recherche comme dans la pratique. D’autres dispositifs sont
plus rarement utilisés. On peut citer par exemple l’échelle d’évaluation développée par
Renzulli (Scale for Rating Behavioral Characteristics of Superior Students ; Renzulli et
Hartman, 1971; Renzulli et al., 1971) qui permet aux enseignants d’évaluer les comportements des enfants dans quatre domaines différents : l’apprentissage, la motivation, la
créativité et le « leadership ». En France, le rapport Delaubier (2002) indique que le test le
plus utilisé est la troisième version de l’échelle d’intelligence de Wechsler pour enfant :
WISC-III (Wechsler Intelligence Scale for Children ; Wechsler, 1996). Ce que confirme
une enquête réalisée auprès d’établissements scolaires accueillant des enfants à haut niveau
intellectuel (Vrignaud, 2002). Une majorité d’établissements ayant répondu au questionnaire déclarent utiliser une note en QI mesurée par le WISC-III pour sélectionner les
enfants ; les autres domaines d’évaluation ne sont presque jamais cités. Avec ce test, l’une
des rares épreuves utilisées selon Delaubier (2002), est l’Inventaire d’identification développé par Terrassier (1999) pour poser l’hypothèse d’un haut potentiel chez des enfants de
6 à 12 ans, mais qui, à notre connaissance, n’a pas été empiriquement validé.
1.3. Différentes approches de l’identification
Dans la pratique, la demande d’évaluation d’un enfant est très souvent liée à la scolarité.
Elle peut être motivée par le souhait de scolariser un enfant avant le terme fixé par la loi, de
solliciter un passage anticipé en classe supérieure ou bien l’entrée dans un programme
d’éducation spécialisé. Par comparaison, la sélection des participants pour la recherche
répond à d’autres objectifs et repose le plus souvent sur des échantillons d’enfants déjà
identifiés comme présentant un haut niveau intellectuel.
L’analyse de la littérature conduit à distinguer trois sortes de procédures privilégiées
pour l’identification du haut potentiel :
• l’approche « algorithmique » semble être de loin la plus répandue dans la recherche. Son
principe consiste à fixer une valeur seuil au critère d’identification que l’on a retenu ; par
X. Caroff / Psychologie française 49 (2004) 233–251
237
exemple, un QI supérieur à 130 points. Dans cette perspective, plusieurs critères
d’identification peuvent éventuellement être combinés (Sternberg et Subotnik, 2000) ;
• l’approche clinique est, à l’évidence, celle privilégiée par les psychologues praticiens.
Elle se démarque d’une pratique de l’évaluation strictement standardisée, donc de
l’approche précédente, par une évaluation plus qualitative. Certains praticiens souhaitent ainsi dépasser les limites des tests (contraintes imposées par les consignes, effet
« plafond » de certains items, etc.) en adaptant le dispositif de mesure aux caractéristiques du sujet. Le déroulement d’une telle procédure dépendra alors de l’orientation
théorique du psychologue et surtout de son expérience concernant l’identification du
haut potentiel. Elle variera aussi selon la nature du potentiel présenté par l’enfant ;
• l’approche « cybernétique » trouve son application dans les cas de sélection d’enfants
susceptibles d’intégrer des programmes d’éducation spécialisés. Le principe d’une telle
approche a été formalisé par Koren (1994) qui décrit un processus comportant plusieurs
étapes, où l’on commence par sélectionner les enfants dont les compétences élevées
correspondent aux objectifs pédagogiques du programme d’enseignement. Ceux retenus
sont alors admis à suivre un cursus d’enseignements différenciés ; l’identification
proprement dite n’intervenant qu’à la dernière étape, lorsque les résultats scolaires de
l’enfant confirment le diagnostic de précocité. Ces différentes approches de l’identification ne sont pas également efficaces. Celle proposée par Koren (1994), bien qu’assez
coûteuse, est sans doute très efficace pour la sélection des participants à un programme
pédagogique ; elle semble inadaptée dans toute autre situation. L’efficacité des deux
autres approches est mieux connue. Au terme de leur méta-analyse consacrée aux
méthodes de prédiction, Grove et al., (2000) concluaient en effet que, dans la plupart des
circonstances, les prédictions appuyées sur un algorithme ont une valeur pronostique au
moins égale, sinon supérieure, aux méthodes de prédiction appuyées sur les conclusions
d’une approche plus subjective.
Il convient de rappeler cependant qu’il n’existe pas de procédure d’identification
universelle. Il semble au contraire plus judicieux d’adapter chaque fois une procédure de
sélection particulière en intégrant différentes considérations : la conception de la précocité
qui est défendue, les objectifs poursuivis par la démarche et les nombreuses contraintes qui
portent sur la mise en œuvre d’une telle procédure. L’article de Louis et al., (2000) illustre
ce point en présentant trois exemples de procédure de sélection d’enfants à haut niveau de
compétence correspondant à des objectifs théoriques et méthodologiques différents.
2. Avantages et inconvénients de l’approche psychométrique classique
En France, il n’existe pas de test spécialement conçu pour l’identification des enfants à
haut potentiel intellectuel. Le QI mesuré par l’échelle d’intelligence de Wechsler pour
enfant est le critère le plus fréquemment utilisé (Delaubier, 2002; Vrignaud, 2002). C’est
donc à propos de ce test que seront illustrés les avantages et inconvénients d’une approche
psychométrique classique de l’identification des sujets à haut niveau intellectuel.
2.1. Seuil d’identification et norme du test
Dans les publications scientifiques, il ne semble pas y avoir de consensus sur la valeur de
QI pertinente pour le diagnostic d’une compétence intellectuelle supérieure (Pfeiffer,
238
X. Caroff / Psychologie française 49 (2004) 233–251
2002). Selon les auteurs, ce seuil peut varier de 120 à 140, voire plus, avec cependant une
majorité de cas favorables à un seuil de 130. Dans certaines recherches, lorsque les échelles
de Wechsler sont utilisées, on constate parfois une grande tolérance quant au critère
d’identification. Certains auteurs considèrent qu’un enfant présente un haut potentiel
lorsque soit son QI verbal soit son QI performance est supérieur ou égal à la valeur seuil.
Rappelons que le QI est une note étalonnée qui permet de situer la performance du sujet par
rapport à la distribution des scores d’un groupe de référence de même âge que lui. Par
exemple, le seuil de 130 points de QI correspond à une performance supérieure à la
moyenne de ce groupe moins deux écarts-types. La pertinence de l’identification d’un haut
niveau intellectuel dépend donc, en partie, de la qualité de la norme du test. Pour la version
française du WISC actuellement disponible (WISC-III ; Wechsler, 1996), l’étalonnage a été
réalisé entre 1994 et 1995 à partir des résultats de 1120 enfants âgés de 6 à 16 ans. Cet
échantillon d’étalonnage, représentatif de la population nationale, comporte peu de sujets
dont les performances sont extrêmes1.
Parce que le WISC est destiné à la population générale, le principal problème concernant
l’identification des enfants de haut niveau intellectuel est le manque de sensibilité de son
étalonnage pour les notes extrêmes. Aussi, une chose est d’identifier avec précision des
enfants à haut niveau intellectuel parmi des enfants tout-venant, autre chose est de différencier entre-eux ces enfants à haut niveau intellectuel (Kaufman, 1992). Pour atteindre le
premier objectif, par référence au seuil d’identification de 130 points de QI, il suffit que la
note standard maximale dans chaque subtest soit au moins égale à 16 points ; c’est-à-dire,
équivalent à la moyenne (10 points) plus deux fois la valeur de l’écart-type (3 points). La
consultation des tables de conversion des notes brutes en notes standard (annexe A du
manuel ; Wechsler, 1996, pp. 217–249) indique que cette contrainte est satisfaite pour
chaque subtest aux différentes tranches d’âge. Pour atteindre le second objectif, il faut que
des enfants puissent obtenir la note standard maximale (19 points), sans pour autant réussir
tous les items du subtest. Or, selon les praticiens, il n’est pas rare de constater qu’un enfant
particulièrement brillant réussit tous les items d’un ou plusieurs subtests de l’échelle.
Rappelons aussi que certains subtests de la partie performance de l’échelle présentent un
« effet plafond ». Il n’est pas possible, en effet, d’obtenir la note standard maximale dans les
subtests Complètement d’image, Cubes et Assemblage d’objet au-delà de 14 ans et
Labyrinthe dès l’âge de 10 ans, mais l’administration de ce subtest est optionnelle. Par
comparaison, les subtests de la partie verbale conviennent mieux. Information et Arithmétique sont cependant moins discriminants à partir de 16 ans. Comme conséquence de
« l’effet plafond » constaté dans plusieurs subtests, le QI maximum est de 155 pour les
échelles Verbal et Performance et de 160 pour l’échelle Globale (Wechsler, Ibid.). Pour
résumer, si les étalonnages du WISC permettent d’identifier des enfants à haut potentiel
intellectuel avec une relative précision, l’étendue des scores en QI n’est pas suffisante pour
différencier les enfants présentant des compétences extrêmes. Ce problème est bien connu
des psychologues américains (Pfeiffer, 2001). Mais les solutions préconisées par certains
ne sont guère satisfaisantes. Le plus souvent, faute d’une norme adéquate, la performance
1
Selon le modèle de la loi normale, la proportion d’individus présentant un score supérieur ou égale à 130 serait
théoriquement de 2,3 %. Dans l’échantillon utilisé pour étalonner le WISC-III, la proportion d’enfants à haut
potentiel intellectuel était égale à 2,5 % (Vrignaud, 2002).
X. Caroff / Psychologie française 49 (2004) 233–251
239
intellectuelle d’enfants précoces est déterminée par rapport à des normes destinées à des
enfants plus âgés ou bien en administrant le test Stanford-Binet en complément ou à la place
du WISC, voire par extrapolation de la note du sujet à partir du modèle de la loi normale.
Une solution pourrait être d’établir des normes à partir des résultats d’un groupe d’enfants
déjà identifiés comme présentant un haut potentiel intellectuel. Mais cette démarche est
extrêmement coûteuse puisqu’elle nécessiterait de tester un grand nombre de ces enfants
difficilement accessibles.
Une autre difficulté, lorsque l’on utilise des normes trop anciennes pour l’identification
du haut potentiel intellectuel est que l’on risque fort d’être confronté à « l’effet Flynn »
(Flynn, 1984, 1987). Il affecte aussi bien des groupes particuliers que la population
générale, puisqu’il a été constaté auprès d’enfants présentant un retard mental (Solly, 1977)
ou des troubles d’apprentissage scolaire (Truscott et Frank, 2001). Pour ce qui concerne les
enfants de niveau intellectuel élevé (Larabee et Holroyd, 1976) ont administré la version
originale du WISC (publiée en 1949) et la version révisée en 1974 à un groupe d’enfants
déjà identifié comme présentant un haut niveau intellectuel. Leurs QI moyens étaient
respectivement de 132 dans le WISC et de 122,6 dans le WISC-R. Des résultats équivalents
ont été publiés l’année suivante par (Solly 1977 ; voir aussi Wheaton et al., 1980). À notre
connaissance une seule étude n’a pas retrouvé cet effet (Wheaton et Vandergriff, 1978). Il
est intéressant de constater que pour les recherches de Larabee et Holroyd (1976) et Solly
(1977), les résultats moyens au WISC auraient assimilé les sujets à un groupe d’enfants à
haut niveau intellectuel ; ces mêmes sujets n’auraient pas atteint le seuil d’identification
avec le WISC-R. Même s’il y a de bonnes raisons de penser que « l’effet Flynn » est
proportionnellement moins important pour les QI extrêmes par rapport aux QI moyens
(Spitz, 1989), ces résultats devraient inciter les psychologues à adapter la valeur de ce seuil
en tenant compte de l’ampleur de cet effet. Plus généralement, ceci montre que la norme
d’un test d’intelligence risque de devenir rapidement obsolète et qu’il faut la réviser
régulièrement.
2.2. Qualités métriques du WISC pour des enfants à haut potentiel
Les qualités métriques des outils les plus fréquemment utilisés pour le diagnostic du haut
potentiel intellectuel sont généralement bien connues pour la population générale, mais
sont rarement étudiées auprès d’enfants présentant un niveau de compétence extrême (par
exemple, Robinson et Robinson, 1992). Concernant la fidélité du QI mesuré par le WISC,
les recherches disponibles ont principalement éprouvé la stabilité de cette note, négligeant
ainsi d’autres méthodes d’estimation de la fidélité. Deux études, par exemple, ont porté sur
la stabilité des notes au WISC-R auprès d’enfants à haut potentiel. Dans l’une (Cahan et
Gejman, 1993), la version en hébreux du test a été administrée à deux reprises à des enfants
identifiés comme présentant un haut niveau intellectuel, avec un délai extrêmement variable (de 1 mois à 48 mois) selon les sujets. Les corrélations test–retest étaient de 0,64 pour
l’échelle Totale, 0,66 pour l’échelle Verbale et 0,61 pour l’échelle Performance. Dans la
seconde recherche (Ellzey et Karnes, 1990), le délai entre les deux examens variait
nettement moins (de un à deux ans selon les enfants). Dans l’ensemble, les corrélations
étaient peu élevées compte tenu des délais : 0,33 pour le QI Verbal, 0,57 pour le QI
Performance et 0,49 pour le QI Total. Par comparaison, pour des enfants tout-venant et des
240
X. Caroff / Psychologie française 49 (2004) 233–251
intervalles de temps bien supérieurs, ces corrélations sont de l’ordre de 0,80 (Reuchlin et
Bacher, 1989, pp. 77–78). Nous n’avons pas connaissance de recherche analogue ayant
porté sur la dernière version du WISC, ni de recherche ayant éprouvé la fidélité du WISC-R,
auprès d’enfants ayant un QI élevé, pour des intervalles de temps comparables à ceux
présentés dans le manuel (Wechsler, 1996, pp. 182–184). Or, cette dernière information est
indispensable pour interpréter correctement les résultats des recherches de Cahan et
Gejman (1993) et Ellzey et Karnes (1990). En effet, si les mesures d’intelligence ne sont
pas stables à court terme, on ne voit pas comment elles pourraient l’être sur des intervalles
de temps beaucoup plus longs. Toutefois, les résultats de ces deux recherches ne permettent
pas de conclure à une bonne stabilité des QI, lorsqu’il est mesuré par le WISC-R, pour des
enfants à haut niveau intellectuel. Mais nous verrons dans la partie suivante de l’article que
cette conclusion doit être nuancée.
Concernant la validité du QI mesuré par le WISC, deux sortes de recherches ont été
menées auprès d’enfants de haut niveau intellectuel. Les unes ont étudié la structure interne
de la mesure ; les autres se sont intéressées aux relations entre le QI et différents critères de
validation. Pour la population générale, la structure factorielle des échelles du WISC-R
comporte deux facteurs relativement stables intitulés Compréhension verbale et Organisation perceptive, ce qui valide la distinction entre les échelles Verbale et Performance du
test ; un troisième facteur, Attention/concentration (Freedom from distractibility), est
parfois mis en évidence. Plusieurs recherches ont tenté de vérifier cette structure auprès
d’échantillons d’enfants de haut niveau intellectuel (Brown et al., 1991; Brown et Yakimowski, 1987; Karnes et Brown, 1980; Greenberg et al., 1986; Macmann et al., 1991; Sapp
et al., 1985). Leurs conclusions convergent sur deux points : les deux premiers facteurs sont
presque toujours retrouvés ; lorsqu’un troisième apparaît, il ne mesure pas le même concept
que pour la population générale. Toutefois, Macmann et al,. (1991) concluent à l’existence
d’un seul facteur, alors que Brown et Yakimowski (1987) en découvrent un quatrième.
Compte tenu des nombreuses différences entre le WISC-R et le WISC-III, les résultats
obtenus avec l’ancienne version ne peuvent être généralisés à la nouvelle. La structure
factorielle du WISC-III est bien connue pour la population d’enfants tout-venant. Des
recherches américaines ont abouti à la conception d’un modèle à quatre facteurs intitulés :
• compréhension verbale ;
• organisation perceptive ;
• vitesse de traitement ;
• attention/concentration2.
Elles postulent en outre, un facteur général sur-ordonné qui justifierait le calcul d’un QI
global. La stabilité de ce modèle a été vérifiée pour les 11 groupes d’âges de l’échantillon
d’étalonnage américain (Keith, 1997). À notre connaissance, seuls Watkins et al., (2002)
ont éprouvé cette structure auprès d’enfants présentant un haut niveau intellectuel. Ces
auteurs concluent à l’existence de deux facteurs qui correspondent, à peu prés, à Compréhension verbale et Organisation perceptive. Toutefois, avec cette structure factorielle, les
subtests Arrangement d’images et Arithmétique ne sont saturés par aucun facteur et le
subtest Code présente une saturation négative pour le facteur Compréhension verbale. Pour
2
Les analyses factorielles réalisées sur les résultats de l’échantillon d’étalonnage français n’ont pas permis
d’identifier ces quatre facteurs pour la version française du WISC-III (Wechsler, 1996).
X. Caroff / Psychologie française 49 (2004) 233–251
241
cette raison, les auteurs proposent de substituer au QI global l’Indice d’Aptitude Générale
(General Ability Index) développé par et al., (cité par Watkins et al., 2002 ; voir aussi
Tulsky, et al., 2001) qui leur semble mieux adapté à l’identification du haut potentiel
intellectuel, parce qu’il exclut les subtests Code, Arithmétique et les subtests optionnels du
calcul de la somme des notes standards. De ces études portant sur la structure factorielle des
deux dernières versions du WISC, on peut conclure qu’au-delà de la différence de niveau,
il existe des différences qualitatives, dans la résolution des subtests, entre les enfants à haut
potentiel et les enfants tout-venant.
Deux recherches illustrent les limites d’une démarche de validation critériée lorsqu’elle
porte sur des enfants à haut potentiel intellectuel. Dans l’une, Saccuzzo et Johnson (1995)
présentent les résultats d’une étude portant sur deux tests d’intelligence générale, le
WISC-R et les matrices progressives de Raven (Standard Raven Progressive Matrices),
utilisés durant plusieurs années, dans une procédure d’évaluation systématique des enfants
fréquentant les écoles du district de San Diego. Les enfants passaient ensuite, durant la
même année scolaire, une épreuve standardisée de performances scolaires (soit le California Test of Basic Skills, soit le Abbreviated Stanford Achievement Test). Les données
psychométriques analysées par les auteurs indiquent que les deux tests d’intelligence
utilisés pour l’identification présentaient des coefficients de validité prédictive équivalents
par rapport aux critères de performances scolaires. Cependant, ces corrélations n’étaient
pas très élevées pour ce type de test (de l’ordre de 0,20). Dans la seconde recherche, Green
et Kluever (1991) ont administré le Stanford-Binet (forme LM), assez proche du WISC, à
des enfants dont les QI variaient de 120 (seuil de sélection) à 160. Dans le même temps, ces
sujets ont passé la version des Matrices Progressives destinée à leur tranche d’âge : les
Colored Progressive Matrices3. La corrélation entre les deux épreuves était quasi nulle
(r = 0,04). Par comparaison, pour des enfants tout-venant, les corrélations entre le test
Stanford-Binet et différents critères (niveau scolaire, évaluation par les enseignants, différents tests de performance, etc.) sont généralement comprises entre 0,40 et 0,75 (Anastasie
et Urbina, 1997) ; avec les échelles du WISC-III les corrélations sont respectivement de
0,75 avec le QI Verbal, 0,68 avec le QI Performance et 0,82 avec le QI Total (Wechsler,
1996, p. 196). Nous verrons plus loin comment interpréter les résultats des recherches de
Green et Kluever (1991) et de Saccuzzo et Johnson (1995).
2.3. Limites des recherches portant sur les qualités métriques
De l’avis même des psychologues, la plupart des tests utilisés pour l’identification des
enfants à haut potentiel présentent des qualités métriques insuffisantes (Pfeiffer, 2001). Les
conclusions des différentes recherches évoquées dans la partie précédente laisseraient
penser que le WISC ne fait pas exception. Il faut préciser cependant que ce n’est pas ce test
qui doit être remis en cause. Le fait que ses qualités métriques soient douteuses lorsqu’on
l’utilise pour mesurer des QI extrêmes vient de ce que la majorité des recherches ayant
étudié cette question s’appuient sur des procédures empiriques et un modèle de mesure
3
Souvent cité dans les recherches conduites auprès d’enfants à haut potentiel, le test des Progressive Matrices
Couleurs a été conçu pour être utilisé auprès de déficients mentaux et de jeunes enfants. On peut donc supposer
qu’il ne permet pas de mesurer avec précision les niveaux intellectuels extrêmes.
242
X. Caroff / Psychologie française 49 (2004) 233–251
« classiques » (Lord et Novick, 1968 ; en français, voir Dickes et al., 1994 ou Laveault et
Grégoire, 2002). Une telle approche présente cependant plusieurs limites.
La première limite est d’ordre statistique. Elle concerne l’interprétation des résultats
obtenus par les auteurs qui ont cherché à éprouver les qualités métriques du WISC auprès
d’enfants à haut potentiel intellectuel. Pour reprendre les résultats des recherches présentées précédemment, comment expliquer l’absence de stabilité des QI pour ces enfants
(Cahan et Gejman, 1993; Ellzey et Karnes, 1990) ? Comment expliquer aussi qu’un test
relativement valide pour une population générale ne le soit plus (Green et Kluever, 1991) ou
nettement moins (Saccuzzo et Johnson, 1995), lorsqu’il s’agit d’évaluer un échantillon
particulier de celle-ci ? Le constat de corrélations dépréciées s’explique par un biais
statistique qui tient au fait que les sujets ont été sélectionnés. La variation des QI d’un
échantillon sélectionné à partir d’un certain seuil d’intelligence est proportionnellement
plus faible que celle mesurée pour la population générale. Cette plus grande homogénéité
du groupe conduit à sous-estimer la corrélation (McNemar, 1969) entre, d’une part, la note
en QI et, d’autre part, une réplication de celle-ci (coefficient de stabilité) ou un critère
externe (coefficient de validité). Confrontés à ce biais d’estimation, certains auteurs
proposent d’utiliser une formule de correction du coefficient de corrélation (par exemple,
Hunter et Schmidt, 1990) pour obtenir une meilleure estimation des qualités métriques. Il
semble cependant que ce phénomène de restriction de la variation n’est pas systématiquement étudié dans la littérature consacrée à l’identification des enfants à haut potentiel. Dans
les recherches portant sur la structure factorielle du WISC, par exemple, cet effet est signalé
par Karnes et Brown (1981) ; mais seuls Watkins et al., (2002) l’ont réellement intégré dans
l’analyse de leurs résultats.
La deuxième limite d’une approche psychométrique classique de l’identification du haut
potentiel est d’ordre méthodologique. La démarche consistant à mettre à l’épreuve les
qualités d’un test par la méthode des corrélations est certes pertinente si l’on s’intéresse aux
différences individuelles de QI au sein d’un échantillon d’enfants à haut niveau intellectuel ; elle ne l’est plus si l’objectif de l’évaluation est d’identifier des enfants à haut
potentiel parmi des enfants tout-venant. Dans ce cas, il convient d’étudier la stabilité du
classement des enfants présentant un haut niveau intellectuel, c’est-à-dire la stabilité de leur
QI par rapport au seuil de 130 et non pas la stabilité des rangs de classements des sujets. Or,
il est bien connu que la moyenne d’un échantillon d’enfants présentant des scores extrêmes
dans un test aura tendance à régresser vers la moyenne de la population générale lors du
retest si ces deux variables ne sont pas parfaitement corrélées ; c’est l’effet de régression
découvert par Galton4. Cahan et Gejman (1993) ont vérifié l’existence de cet effet pour un
intervalle moyen de 2,5 ans entre le test et le retest. Les résultats de Ellzey et Karnes (1990),
puis ceux de Sprangler et Sabatino (1995), montrent au contraire une grande stabilité des
QI moyens d’un examen à l’autre. Si cet effet n’est apparemment pas vérifié au niveau du
groupe, la question demeure de savoir si des enfants identifiés comme présentant un haut
potentiel dans un test pourrait perdre ce classement dans le retest. De ce point de vue, les
résultats disponibles sont plutôt encourageants. Hall (1985) signale que sept enfants à haut
4
On peut penser qu’outre le biais d’estimation de la corrélation provenant de la restriction de la variation des
scores, cet effet de régression vers la moyenne contribue lui aussi à expliquer l’instabilité des QI constatée par
Ellzey et Karnes (1990), puis par Cahan et Gejman, (1993).
X. Caroff / Psychologie française 49 (2004) 233–251
243
niveau intellectuel sur 57 testés présentent, dans le retest, une différence de QI d’une valeur
supérieure à l’erreur standard de mesure ; mais elle ne précise pas le sens de cette
différence. Cahan et Gejman (1993) constatent que 86 % de leurs sujets restent classés à
haut potentiel pour un intervalle de temps important entre le test et le retest. Sprangler et
Sabatino (1995) ont testé des enfants à trois reprises avec un intervalle régulier de 36 mois ;
tous maintenaient leur classement tout au long des six années. D’après les différents
résultats dont nous disposons, il serait donc permis de conclure à une relative stabilité du
classement d’enfants à haut niveau intellectuel.
Pareillement, c’est la question de la validité du classement de certains enfants, comme
présentant un haut potentiel intellectuel, qui devrait être posée plutôt que celle de la validité
des mesures d’intelligence pour ces enfants. De ce point de vue, des éléments de validation
empirique peuvent être trouvés dans toutes recherches qui visent à comparer systématiquement les enfants identifiés à haut potentiel avec ceux de la population générale.
La dernière limite est d’ordre épistémologique. Dans la recherche, la façon dont sont
conçues les procédures d’identification est particulièrement cruciale. Quels que soient les
objectifs poursuivis par l’identification, toute procédure doit nécessairement s’appuyer sur
une théorie du domaine suffisamment éprouvée (par exemple, Carroll, 1993, 1997; Chen et
Gardner, 1997; Gagné, 2000; Renzulli, 2002; Sternberg, 1997, 2001; Ziegler et Heller,
2000) pour garantir une certaine validité théorique (Standards for educational and
psychological testing, 1999). Force est de constater cependant que la démarche est
généralement plus pragmatique. La grande diversité des conceptions implique, en effet,
qu’un consensus ne peut être trouvé que sur une définition psychométrique, donc réductrice, du haut potentiel (Pfeiffer, 2001; Ziegler et Raul, 2000). Ainsi, le critère communément admis est que les enfants à haut potentiel sont ceux dont les performances dans les
tests sont meilleures que celles de la plupart des enfants de leur âge. Cette façon de procéder
rend délicate, voire compromet, toute démarche de la validation empirique. Dans le
domaine de l’intelligence, par exemple, avoir recours au seul QI pour sélectionner des
enfants, c’est admettre d’utiliser les tests malgré les inconvénients qu’on leur reconnaît.
C’est admettre surtout, mais souvent de façon implicite, qu’un enfant présentant un haut
niveau intellectuel puisse réussir aussi bien dans tous les domaines de compétence. Il est
évident qu’une telle pratique ne tient pas compte de la diversité des conceptions de
l’intelligence, moins encore des différentes sortes de potentiel que l’on peut rencontrer
(Louis et al., 2000). En outre, bien qu’elle soit très utilisée pour l’identification, la mesure
d’un QI, ne reflète aucunement le degré de complexité de certaines théories (Renzulli,
2002), telles que celles proposées par Gagné (2000) ou Ziegler et Heller (2000). Ces
théories impliquant un grand nombre de variables dans différents domaines (intelligence,
créativité, motivation, personnalité, environnement, etc.), elles nécessiteraient des procédures de sélection extrêmement coûteuses pour être empiriquement validées.
À l’opposé, une conception unitaire du haut potentiel intellectuel, centrée sur le QI, pose
la question de savoir s’il est possible de mettre en œuvre une méthode de validation
empirique où les tests d’intelligence seraient confrontés à un critère externe qui ne soit pas
la performance mesurée par un test de même type. On risque sinon d’éprouver seulement le
degré d’accord entre ces tests et non la validité du dispositif d’identification du haut
potentiel (par exemple, Saccuzzo et Johnson, 1995). Un début de réponse peut être trouvé
cependant dans la proposition, relayée par la plupart des chercheurs et praticiens, de
244
X. Caroff / Psychologie française 49 (2004) 233–251
pratiquer plusieurs évaluations pour identifier les sujets (Pfeiffer, 2002). Mais, le plus
souvent, ces auteurs recommandent seulement d’étendre l’évaluation à d’autres domaines
que celui de l’intelligence ; ce qui est sans doute nécessaire mais pas suffisant. Pour assurer
les conditions d’une validation optimale, il faut en outre utiliser des sources d’informations
différentes et, selon les principes méthodologiques proposés par Campbell et Fiske (1959),
prévoir de mesurer chaque domaine par au moins deux techniques différentes. Plusieurs
techniques d’identification, autres que les tests, sont aujourd’hui disponibles. Certains
psychologues américains ont développé des outils permettant l’évaluation d’enfants par
leurs enseignants (par exemple, Scales for Rating the Behavioral Characteristics of
Superior Students : Renzulli et Hartman, 1971 ; Renzulliet al., 1971) ou par leurs parents
(Chan, 2000). D’autres proposent d’utiliser plus systématiquement les productions des
enfants (Wright et Borland, 1993). Cependant, à notre connaissance, il n’existe pas encore
de recherche ayant appliqué les principes d’une approche multitraits–multiméthodes, pour
la validation d’un dispositif d’identification. La procédure retenue par Chan (2000) n’illustre que partiellement une telle démarche. L’auteur a proposé à une centaine d’enfants, déjà
identifiés comme présentant un haut potentiel, de passer le test des Matrices progressives de
Raven et une échelle de leadership. En complément, un parent et un enseignant de chaque
enfant ont complété séparément l’échelle SRBCSS développée par Renzulli (Scale for
Rating Behavioral Characteristics of Superior Students : Renzulli et Hartman, 1971;
Renzulli et al., 1971) qui leur permettait d’évaluer les comportements des sujets dans quatre
domaines différents : l’apprentissage, la motivation, la créativité et le leadership. Cependant, au regard des critères proposés par Campbell et Fiske (1959), les analyses statistiques
réalisées pour cette recherche ne nous permettent pas de conclure quant à la validité
théorique des évaluations. Concernant le leadership, par exemple, les notes obtenues dans
le test par les enfants étaient significativement corrélées, d’une part, avec les évaluations
des parents et, d’autre part, avec celles des professeurs ; mais aucun résultat concernant la
validité discriminante n’était présenté. Souhaitons néanmoins que ce type de recherche se
développe dans un proche avenir.
Une autre possibilité serait d’utiliser des échelles de développement pour l’identification. Elles présentent l’avantage d’exprimer les résultats des enfants en termes de stade et
non plus en termes de normes. En France, l’Échelle de développement de la pensée logique
(EPL : Longeot, 1974–1979), par exemple, permet de situer le niveau de développement
cognitif de l’enfant, du stade concret au stade formel, par référence à la théorie de Piaget.
L’identification à partir de performances dans les tests supérieures à celle d’enfants du
même âge, suggère que ces enfants à haut potentiel puissent présenter une avance développementale. Ce que semblent confirmer, par exemple, les recherches de Keating (1975) et
Carter (1985), qui ont montré que des enfants à haut niveau intellectuel réussissaient mieux
des épreuves du stade formel que des enfants tout venant.
3. Les modèles de réponse à l’item permettent-ils de renouveler l’approche
psychométrique ?
Depuis plusieurs années, on constate une remise en question de la théorie classique de la
mesure en psychologie (par exemple, Embretson et Reise, 2000; Hambleton et Swamina-
X. Caroff / Psychologie française 49 (2004) 233–251
245
than, 1985; Hambleton et al., 1991). Ces critiques pourraient aboutir, à terme, à un
renouvellement de la méthode des tests, sous l’impulsion de nouveaux modèles de mesures : les Modèles de Réponse à l’Item (MRI). Quelle pourrait être la contribution de cette
nouvelle approche pour l’identification du haut potentiel ? Peut-on supposer qu’elle nous
permettra de dépasser les limites rencontrées par l’approche psychométrique classique ?
3.1. Apports des MRI pour l’évaluation de compétences extrêmes
Les MRI permettent de fonder la mesure en psychologie sur de nouveaux principes
(Embretson et Reise, 2000 ; en français voir, Dickes et al., 1994; Laveault et Grégoire,
2002; Vrignaud, 1996). En particulier, le niveau de compétence d’un sujet n’est plus établi
par rapport à une norme, souvent peu discriminante lorsqu’il s’agit de mesurer les compétences de sujets extrêmes (effet « plafond »). Il est estimé statistiquement à partir de son
profil de réponses aux items du test lorsque sont connus les paramètres de chaque items. La
compétence est donc évaluée par rapport à des tâches et non plus par rapport à un groupe de
sujets de référence. Vrignaud (1996) donne un exemple d’application de cette méthode
d’évaluation à partir d’un cas concret. Les MRI présentent en outre une propriété fondamentale qui les distingue du modèle classique. Dans cette approche, si les données
observées correspondent au modèle de mesure, il est possible d’estimer le niveau de
compétence des sujets indépendamment de l’échantillon d’items utilisé et, réciproquement,
d’estimer les caractéristiques des items indépendamment de l’échantillon de sujets auxquels il a été administré.
De cette propriété découlent certains avantages méthodologiques. Les MRI sont à
l’origine de la constitution de banques d’items dont on connaît précisément les paramètres.
Elles permettent d’envisager deux applications qui, sans être spécifiques à l’évaluation du
haut potentiel, répondent assez bien aux contraintes rencontrées dans ce domaine. La
première concerne la construction de tests spécialement conçus pour l’identification des
enfants à haut potentiel. Cette approche permet en effet de construire des échelles adaptées
aux niveaux de compétence extrêmes ; sans qu’il soit nécessaire, en théorie, de faire
correspondre les caractéristiques de l’échantillon de sujets utilisé pour la construction du
test avec les caractéristiques des personnes auxquelles on le destine (Hambleton et Swaminathan, 1985). Toutefois, l’approche MRI de l’identification risque de poser quelques
difficultés méthodologiques concernant le calibrage des items. En effet, si on veut disposer
d’items adaptés à l’identification sur une large gamme d’âges, les paramètres de difficulté
des items peuvent atteindre des valeurs extrêmes5, pour lesquelles l’erreur de mesure est
souvent plus élevée. À l’inverse, si l’on utilise un échantillon de sujets relativement
homogènes, le risque est alors que les paramètres estimés soient instables.
La seconde application est l’utilisation de procédures d’évaluation adaptatives qui
permettraient de dépasser l’un des inconvénients présentés par les tests, lorsqu’ils sont
utilisés pour l’identification des enfants à haut potentiel. Une procédure d’évaluation
5
Grégoire et al., (1996) ont utilisé le modèle de Rasch pour calibrer les items du subtest Information du
WISC-III d’après les réponses de 220 enfants âgés de six ans et demi à 16 ans et demi. Leurs résultats montrent des
valeurs extrêmes, de –6 à + 6 (Tableau 3, p. 500), pour des paramètres de difficulté généralement compris entre
–3 et +3.
246
X. Caroff / Psychologie française 49 (2004) 233–251
standardisée impose de présenter tous les items du test, dont une majorité sont beaucoup
trop facile pour un enfant chez lequel on soupçonne un niveau de compétence extrême. Un
autre inconvénient de cette méthode est qu’elle aboutit à une mesure très imprécise du
niveau exact de l’enfant. Avec les procédures de mesure adaptative, au contraire, une
estimation du niveau du sujet est obtenue durant l’administration du test, ce qui permet
ensuite d’adapter le choix des items au niveau de compétence estimé (voir l’ouvrage de
référence de Wainer, 2000). Cette procédure permet aussi un gain de temps appréciable
puisqu’on peut mesurer le niveau du sujet avec nettement moins d’items que dans la
méthode classique, tout en conservant une bonne fidélité de la mesure (Embretson et Reise,
2000).
Si l’approche MRI trouve un champ d’application privilégié dans le domaine de
l’évaluation scolaire (Dickes et al., 1994), sa popularité reste très limitée dans l’évaluation
psychologique. Une part de l’explication réside sans doute dans le coût important que
représente une telle démarche. Les techniques statistiques correspondant à ces modèles
sont certes complexes, mais différents logiciels d’estimation sont disponibles depuis une
vingtaine d’années (Hambleton, et al., 1991). L’inconvénient majeur des MRI est qu’ils
requièrent un effectif de sujets et un nombre d’items très élevés pour obtenir des estimations stables des compétences des sujets et des paramètres des items.
3.2. Exemples d’applications des MRI auprès d’enfants à haut niveau intellectuel
À ce jour, les rares exemples d’application concernant l’évaluation du haut potentiel ont
porté sur le test des Matrices Progressives (PM38 ; Raven, 1965) qui mesure l’intelligence
générale et, pour cette raison, est assez fréquemment employé pour identifier les sujets à
haut niveau intellectuel. Embretson (1998), puis Van der Ven et Ellis (2000), se sont
inspirés de l’analyse du PM38 proposée par Carpenter et al. (1990) pour développer une
nouvelle version de ce test en s’appuyant sur les MRI. Toutefois, ces recherches aux
résultats prometteurs ont porté sur des sujets tout-venant. À notre connaissance, il n’existe
que deux références concernant les enfants à haut niveau intellectuel. Dans la première
(Green et Kluever, 1991), les participants étaient des enfants âgés de 3 à 12 ans, identifiés
comme présentant un haut niveau intellectuel. Ils ont été testés avec la version des Matrices
Progressives destinée à cette tranche d’âge (Colored Progressive Matrices). Les auteurs
concluaient que le modèle de Rasch s’adaptait à la majorité des items du test, en contradiction avec le fait que les résultats ne vérifiaient pas le postulat d’une mesure unidimensionnelle sur lequel repose ce modèle. Les conclusions de la seconde recherche sont plus
encourageantes. Constatant qu’il n’existait pas en Allemagne de test adapté à l’identification de personnes à haut niveau intellectuel, une équipe de recherche (Preckel et Thiemann,
2001, 2003) a entrepris de développer deux versions d’un test de matrices inspiré de Raven
(1965) : l’une présentée sous une forme « papier-crayon », l’autre informatisée. Comme
pour la recherche de Embretson (1998), le modèle de Rasch s’ajustait parfaitement aux
données. Les deux versions de ce nouveau test présentaient des qualités psychométriques
satisfaisantes. Le coefficient Alpha de Cronbach indiquait une bonne consistance interne du
test (␣ = 0,80 pour les deux versions) et la corrélation entre le score dans la version
« papier-crayon » et le QI des participants était de 0,56 pour les sujets dont le haut niveau
intellectuel avait été identifié par le test original de Raven. Il faut souligner cependant
X. Caroff / Psychologie française 49 (2004) 233–251
247
qu’aucune recherche citée n’a abordé la question délicate du calibrage des items pour ce
test des Matrices de Raven étudié dans le cadre de l’approche MRI.
Si ces quelques recherches indiquent clairement quel pourrait être le champ d’application des MRI pour l’identification du haut potentiel, toutes les possibilités d’une évaluation
fondée sur ces modèles n’ont pas encore été exploitées. Il serait souhaitable de prolonger
ces premiers travaux soit en cherchant à appliquer les MRI à certains tests existants,
particulièrement pertinents pour l’identification du potentiel, soit en construisant de nouveaux instruments fondés sur ces modèles. Rappelons que les techniques d’estimation des
paramètres se sont considérablement développées depuis quelques années. Les premiers
modèles étaient destinés aux items dichotomiques. D’autres sont ensuite apparus, bien plus
complexes, qui permettent d’estimer les paramètres d’items comportant plusieurs échelons
de réponses et pouvant mesurer simultanément plus d’une variable latente (van der Linden
et Hambleton, 1997). Ces nouveaux modèles s’adaptent à la plupart des dispositifs de
réponse utilisés en psychométrie, tels que les questions à choix multiples, les échelles de
type Likert, etc. L’extension des MRI permet aujourd’hui d’envisager leur application dans
de nombreux domaines d’évaluation psychologique (mesure des attitudes, des intérêts, des
traits de personnalité, etc.) et plus seulement dans celui de l’évaluation de l’intelligence.
Cette opportunité correspond assez bien à l’évolution des conceptions de la précocité et, en
particulier, au souhait maintes fois formulé d’étendre le diagnostic du haut potentiel à
d’autres domaines que celui de l’intelligence.
4. Conclusion
Telle qu’elle apparaît dans la littérature scientifique, la question de l’identification du
haut potentiel et du talent se caractérise tout d’abord par la grande diversité des conceptions
et des définitions du haut potentiel. Certaines divergent même assez nettement. Concernant
les procédures d’identification, on constate que les domaines mesurés, les techniques
d’évaluation et les critères utilisés sont eux-aussi extrêmement variables. Cette variabilité
des approches constitue un obstacle majeur pour le développement de la recherche et
explique que cette question soit si peu étudiée dans la littérature scientifique.
En contradiction avec la proposition, défendue par une majorité de psychologues, de
faire reposer l’identification du haut potentiel sur le principe d’une évaluation multidimensionnelle, la pratique d’une mesure de QI, comme seul critère d’identification, est encore
très répandue. Or, dans le cadre d’une approche psychométrique classique, l’identification
des sujets à haut potentiel au moyen de tests est confrontée à de sérieuses difficultés. D’une
part, les normes de ces tests étant destinées à des enfants tout venants, elles sont donc peu
adaptées lorsqu’il s’agit de mesurer des compétences extrêmes. D’autre part, les qualités
psychométriques des tests sont rarement étudiées auprès d’enfants à haut potentiel. Les
conclusions des quelques études disponibles sont, en outre, limitées par plusieurs biais
statistiques et, le plus souvent, ne répondent pas à la question de savoir si le classement des
enfants par rapport au critère d’identification est fiable et valide. En théorie, les possibilités
offertes par la théorie de la réponse à l’item, devrait contribuer à améliorer les dispositifs de
mesure. Mais le recours aux MRI pose lui-même différents problèmes techniques et surtout
n’offre pas de solution de fond au problème de l’identification des individus à haut
248
X. Caroff / Psychologie française 49 (2004) 233–251
potentiel. Ceci devrait inciter les psychologues à rechercher d’autres critères d’identification que le QI et à développer de nouveaux dispositifs d’évaluation.
Références
Anastasi, A., Urbina, S., 1997. Psychological testing, 7th Edition. Prentice-Hall, New York.
Binet, A., Simon, T., 1905. Méthodes nouvelles pour le diagnostic du niveau intellectuel des anormaux. L’Année
Psychologique 11, 191–244.
Binet, A., Simon, T., 1908. Le développement de l’intelligence chez les enfants. L’Année Psychologique 14, 1–94.
Brown, S.W., Hwang, M.T., Baron, M., Yakimowski, M.E., 1991. Factor analysis of responses to the WISC-R for
gifted children. Psychological Reports 69, 99–107.
Brown, S.W., Yakimowski, M.E., 1987. Intelligence scores of gifted students on the WISC-R. Gifted Child
Quarterly 31, 130–134.
Cahan, S., Gejman, A., 1993. Constancy of IQ scores among gifted children. Roeper Review 15, 140–143.
Campbell, D.T., Fiske, D.W., 1959. Convergent and discriminant validation by the multitrait–multimethod matrix.
Psychological Bulletin 56, 81–105.
Carpenter, P.A., Just, M.A., Shell, P., 1990. What one intelligence test measures: A theoretical account of the
processing in the Raven Progressive Matrices test. Psychological Review 97, 404–431.
Carroll, J.B., 1993. Human cognitive abilities: A survey of factor analytic studies. Cambridge University Press,
New York.
Carroll, J.B., 1997. The three-stratum theory of cognitive abilities. In: Flanagan, D.P., Genshaft, J.D., Harrison,
P.L. (Eds.). Contemporary intellectual assessment: Theories, tests and issues. Guilford Press, New York, pp.
122–130.
Carter, K.-R., 1985. Cognitive development of intellectually gifted: A Piagetian perspective. Roeper Review 7,
180–184.
Chan, D.-W., 2000. Exploring identification procedures of gifted students by teacher ratings: Parent ratings and
student self-reports in Hong Kong. High Ability Studies 11, 69–82.
Chen, J.K., Gardner, H., 1997. Alternative assessment from a multiple intelligences theoretical perspective. In:
Flanagan, D.P., Genshaft, J.D., Harrison, P.L. (Eds.). Contemporary intellectual assessment: Theories, tests
and issues. Guilford Press, New York, pp. 105–121.
Delaubier, J.-P., 2002. La scolarisation des enfants intellectuellement précoces. Rapport à Monsieur le Ministre de
l’Éducation Nationale http://www.education.gouv.fr/rapport/delaubier.pdf Rapport téléchargeable sur le site.
Dickes, P., Tournois, J., Flieller, A., Kop, J.-L., 1994. La psychométrie. PUF, Paris.
Ellzey, J.T., Karnes, F.A., 1990. Test-Retest stability of the WISC-R IQs among young gifted students. Psychological Reports 66, 1023–1026.
Embretson, S.E., 1998. A cognitive design system approach to generating valid tests: Application to abstract
reasoning? Psychological Methods 3, 380–396.
Embretson, S.E., Reise, S.P., 2000. Item response theory for psychologists. Lawrence Erlbaum Associates,
Mahwah.
Flynn, J.R., 1984. The mean IQ of Americans: A massive gains 1932 to 1978. Psychological Bulletin 95, 29–51.
Flynn, J.R., 1987. Massive IQ gains 14 nations: What intelligence tests measure? Psychological Bulletin 101,
171–191.
Gagné, F., 2000. Understanding the complex choreography of talent development through DMGT-based analysis.
In: Heller, K.A., Mönks, F.J., Sternberg, R.J., Subotnik, R.F. (Eds.). International Handbook of Giftedness and
talent. Pergamon Press, Elmsford, pp. 67–79.
Green, K.-E., Kluever, R.-C., 1991. Structural properties of Raven’s Coloured Progressive Matrices for a sample
of gifted children. Perceptual and Motor Skills 72, 59–64.
Greenberg, R.D., Stewart, K.J., Hansche, W.J., 1986. Factor analysis of the WISC-R for the white and black
children evaluated for gifted placement. Journal of Psychoeducational Assessment 4, 123–130.
Grégoire, J., Penhouët, C., Boy, T., 1996. L’adaptation française de l’échelle de Wechsler pour enfants, version III
(WISC III). L’Orientation Scolaire et Professionnelle 25, 489–506.
X. Caroff / Psychologie française 49 (2004) 233–251
249
Grove, W.M., Zald, D.H., Lebow, B.S., Snitz, B.E., Nelson, C., 2000. Clinical versus mechanical prediction: A
meta-analysis. Psychological Assessment 12, 19–30.
Hall, E.G., 1985. Longitudinal measures of creativity and achievement for gifted IQ groups. The Creative Child an
Adult Quarterly 10, 7–16.
Hambleton, R.K., Swaminathan, H., 1985. Item response theory: Principles and applications. Kluwer Academic
Press, Norwell.
Hambleton, R.K., Swaminathan, H., Rogers, H.J., 1991. Fundamental of item response theory. Sage Publications,
Newbury Park.
Heller, K.A., Schofield, N.J., 2000. International trends and topics of research on giftedness and talent. In: Heller,
K.A., Mönks, F.J., Sternberg, R.J., Subotnik, R.F. (Eds.). International Handbook of Giftedness and talent.
Pergamon Press, Elmsford, pp. 123–137.
Hunter, J.E., Schmidt, F.L., 1990. Methods of meta-analysis: Correcting error and bias in research findings. Sage
Publications, Beverly Hills.
Karnes, F.A., Brown, K.E., 1980. Factor analysis of the WISC-R for the gifted. Journal of Educational Psychology
72, 197–199.
Karnes, F.A., Brown, K.E., 1981. A short form of the WISC-R for gifted students. Psychology in the School 18,
169–173.
Kaufman, A.S., 1992. Evaluation of the WISC-III and WPPSI-R for gifted children. Roeper Review 14, 154–158.
Keating, D.-P., 1975. Precocious cognitive development at the level of formal operations. Child Development 46,
276–280.
Keith, T.Z., 1997. Using confirmatory factor analysis to aid in understanding the constructs measured by
intelligence tests. In: Flanagan, D.P., Genshaft, J.D., Harrison, P.L. (Eds.). Contemporary intellectual
assessment: Theories, tests and issues. Guilford Press, New York, pp. 373–402.
Koren, I., 1994. Identification of the gifted. In: Heller, K.-A., Hany, E.-A. (Eds.). Competence and responsibility.
2. Hogrefe Huber Publishers, Kirkland, pp. 253–273.
Larabee, G.J., Holroyd, R.G., 1976. Comparison of WISC and WISC-R using a sample of highly intellectual
children. Psychological Report 38, 1071–1074.
Laveault, D., Grégoire, J., 2002. Introduction aux théories des tests en psychologie et en sciences de l’éducation,
2e Édition. De Boeck, Bruxelles.
Longeot, F., 1974–1979. Échelle de développement de la pensée logique (EPL). EAP, Paris.
Lord, F.M., Novisk, M.R., 1968. Statistical theories of mental test scores. Addison-Wesley, Reading.
Louis, B.L., Subotnik, R.F., Breland, P.S., Lewis, M., 2000. Establishing criteria for high ability versus selective
admission to gifted programs: Implications for policy and practice. Educational Psychology Review 12,
295–314.
Macmann, G.M., Mueller Plasket, C., Barnett, D.W., Siler, R.F., 1991. Factor structure of the WISC-R for children
of superior intelligence. Journal of School Psychology 29, 19–36.
McNemar, Q., 1969. Psychological statistics, Fourth edition. John Wiley and Sons, New York.
Pfeiffer, S.-I., 2001. Professional psychology and the gifted: Emerging practices opportunities. Professional
Psychology: Research and Practice 32, 175–180.
Pfeiffer, S.-I., 2002. Identifying Gifted and Talented Students: Recurring Issues and Promising Solutions. Journal
of Applied School Psychology 19, 31–50.
Preckel, F., Thiemann, H., 2001. Testing intellectual giftedness on the Web: Development of a new Figural
Matrices Test - online versus paper-and-pencil-version. In: Jonas, K.-J., Breuer, P., Schauenburg, B., Boos, M.
(Eds.). Perspectives on Internet Research: Concepts and Methods http://www.gor.de/gor01/proceedings/
[WWW document]. Available URL.
Preckel, F., Thiemann, H., 2003. Online- versus paper-pencil-version of a high potential intelligence test. Swiss
Journal of Psychology 62, 131–138.
Raven, 1965. Advanced progressive matrices. The Psychological Corporation, New York.
Renzulli, J.-S., 2002. Emerging conceptions of giftedness: Building a bridge to the new century. Exceptionality
10, 67–75.
Renzulli, J.S., Hartman, R.K., 1971. Scale for Rating Behavioral Characteristics of Superior Students. Exceptional Children 38, 243–248.
Renzulli, J.S., Hartman, R.K., Callahan, C.M., 1971. Teacher identification of superior students. Exceptional
Children 38, 211–214.
250
X. Caroff / Psychologie française 49 (2004) 233–251
Reuchlin, M., Bacher, F., 1989. Les différences individuelles dans le développement cognitif de l’enfant. PUF,
Paris.
Robinson, N.M., Robinson, H., 1992. The use of standardized tests with young gifted children. In: Klein, P.S.,
Tannenbaum, A.J. (Eds.). To be Young and gifted. Ablex Publishing, Westport.
Saccuzzo, D.P., Johnson, N.E., 1995. Traditional psychometric tests and proportionate representation: An
intervention and program evaluation study. Psychological Assessment 7, 183–194.
Sapp, G.L., Chissom, B., Graham, E., 1985. Factor analysis of the WISC-R for gifted students: A replication and
comparison. Psychological Reports 57, 947–951.
Solly, D.C., 1977. Brief report on the WISC-R. Journal of School Psychology 15, 255–258.
Spearman, C., 1904. General intelligence objectively measured and determined. American Journal of Psychology
15, 201–209.
Spearman, C., 1927. The abilities of man: Their nature and measurement. The Macmillan Company, New York.
Spitz, H.H., 1989. Variations in Wechsler interscale IQ disparities at different levels of IQ. Intelligence 13,
157–167.
Sprangler, R.S., Sabatino, D.A., 1995. Temporal stability of gifted children’s intelligence. Roeper Review 17,
207–210.
Standards for educational and psychological testingAmerican Educational Research Association, Washington.
Sternberg, R.J., 1997. The triarchic theory of intelligence. In: Flanagan, D.P., Genshaft, J.D., Harrison, P.L. (Eds.).
Contemporary intellectual assessment: Theories, tests and issues. Guilford Press, New York, pp. 92–104.
Sternberg, R.J., 2001. Giftedness as developing expertise: A theory of the interface between high abilities and
achieved excellence. High Ability Studies 12, 159–179.
Sternberg, R.J., Subotnik, R.F., 2000. A multidimensional framework for synthesizing disparate issues in
identifying, selecting, and serving gifted children. In: Heller, K.A., Mönks, F.J., Sternberg, R.J., Subotnik, R.F.
(Eds.). International Handbook of Giftedness and talent. Pergamon Press, pp. 381–388.
Terrassier, J.-C., 1999. Les enfants surdoués, ou la précocité embarrassante, 4ème édition. ESF, Paris.
Thurstone, L.L., 1938. Primary mental abilities. Chicago University Press, Chicago.
Truscott, S.D., Frank, A.J., 2001. Does Flynn effect affect IQ scores of students classified as LD? Journal of
School Psychology 39, 319–334.
Tulsky, D.S., Saklofske, D.H., Wilkins, C., Weiss, L.G., 2001. Development of a General Ability Index for the
Wechsler Adult Intelligence Scale - Third Edition. Psychological Assessment 13, 566–571.
van der Linden, W.J., Hambleton, R.K., 1997. Handbook of modern item response theory. Springer Verlaag, New
York.
Van der Ven, A.H.G.S., Ellis, J.L., 2000. A Rasch analysis of Raven’s Standard Progressives Matrices. Personality
and Individual Differences 29, 45–64.
Vrignaud, P., 1996. Les tests au XXI e siècle. Que peut-on attendre des évolutions méthodologiques et technologiques dans le domaine de l’évaluation des personnes ? Pratiques Psychologiques 4, 5–27.
Vrignaud, P., 2002. L’identification des surdoués : chimère psychométrique ou réalité psychologique ? Communication présentée aux 15 es Journées de Psychologie Différentielle, 10–13 septembre, Rouen.
Wainer, H., 2000. Computerized adaptive testing: A primer, 2nd Edition. Lawrence Erlbaum Associates, Mahwah.
Watkins, M.W., Greenwalt, C.G., Marcell, C.M., 2002. Factor structure of the Wechsler Intelligence Scale for
Children-Third Edition among gifted students. Educational and Psychological Measurement 62, 164–172.
Wheaton, P.-J., Vandergriff, A.-F., 1978. Comparison of WISC and WISC-R scores of highly gifted students in
public school. Psychological Reports 43, 627–630.
Wheaton, P.-J., Vandergriff, A.-F., Nelson, W.-H., 1980. Comparability of the WISC and WISC-R with bright
elementary school students. Journal of School Psychology 18, 271–275.
Wechsler, D., 1956. La mesure de l’intelligence chez l’adulte. PUF, Paris.
Wechsler, D., 1995. WPPSI-R : Échelle d’intelligence de Wechsler pour la période préscolaire et primaire (forme
révisée). Éditions du Centre de Psychologie Appliquée, Paris.
Wechsler, D., 1996. WISC-III: Échelle d’intelligence de Wechsler pour enfants (troisième édition). Éditions du
Centre de Psychologie Appliquée, Paris.
Wechsler, D., 2000. WAIS-III : Échelle d’intelligence de Wechsler pour adultes (troisième édition). Éditions du
Centre de Psychologie Appliquée, Paris.
Wright, L., Borland, J.H., 1993. Using early childhood developmental portfolios in the identification and
education of young, economically disadvantaged, potentially gifted students. Roeper Review 15, 205–210.
X. Caroff / Psychologie française 49 (2004) 233–251
251
Ziegler, A., Raul, T., 2000. Myth and reality: A review of empirical studies on giftedness. High Abilities Studies
11, 113–136.
Ziegler, A., Heller, K.A., 2000. Conceptions of giftedness from a meta-theoretical perspective. In: Heller, K.A.,
Mönks, F.J., Sternberg, R.J., Subotnik, R.F. (Eds.). International Handbook of Giftedness and talent. Pergamon Press, Elmsford, pp. 3–21.