L`identification des enfants à haut potentiel : Quelles perspectives
Transcription
L`identification des enfants à haut potentiel : Quelles perspectives
Psychologie française 49 (2004) 233–251 www.elsevier.com/locate/ Analyse de la littérature L’identification des enfants à haut potentiel : Quelles perspectives pour l’approche psychométrique ? Identification of children with high potential: Which prospects for the psychometric approach? X. Caroff Laboratoire Cognition et Développement (UMR CNRS 8605), université René-Descartes – Paris-V, 71, avenue Édouard-Vaillant, 92774 Boulogne-Billancourt, France Reçu le 7 janvier 2004 ; reçu en forme révisée le 18 mars 2004 ; accepté le 15 juin 2004 Résumé La question de l’identification des enfants à haut potentiel occupe une place paradoxale dans la littérature scientifique. Ce thème de recherche est largement minoritaire, malgré la complexité des questions soulevées. La notion d’identification présente plusieurs facettes lorsqu’elle s’applique aux enfants à haut potentiel. Au plan théorique, les définitions de la précocité sont susceptibles de varier ; au plan méthodologique, les domaines mesurés, les techniques d’évaluation et les critères utilisés sont eux-aussi extrêmement variables. Les limites de l’approche psychométrique « classique » de l’identification sont présentées à partir de l’exemple du WISC. Différentes questions sont abordées : la valeur du seuil d’identification, la pertinence des normes disponibles et les qualités métriques du test. La dernière partie envisage les perspectives offertes par les modèles de réponse à l’item pour renouveler l’approche psychométrique de l’identification. © 2004 Publié par Elsevier SAS pour Société française de psychologie. Abstract The identification of gifted children is a paradoxical issue in the scientific literature. This topic is largely underrepresented, in spite of the complexity of the questions it raises. The concept of Adresse e-mail : [email protected] (X. Caroff). 0033-2984/$ - see front matter © 2004 Publié par Elsevier SAS pour Société française de psychologie. doi:10.1016/j.psfr.2004.06.001 234 X. Caroff / Psychologie française 49 (2004) 233–251 identification of giftedness is a multifaceted topic. From a theoretical point of view, the definitions of giftedness diverge. From a methodological point of view, the domains of measurement, the techniques of evaluation and the criteria used are also extremely variable. The limits of the “traditional” psychometric approach to giftedness are presented starting from the example of the WISC. Several questions are addressed: the value of the identification threshold, the relevance of available norms and psychometric qualities of this test. Finally, prospects offered by Item Response Models to renew the psychometric approach to the identification of giftedness are considered. © 2004 Publié par Elsevier SAS pour Société française de psychologie. Mots-clés : Haut potentiel ; Identification ; QI ; WISC ; Modèle de réponse à l’item Keywords: Gift; Identification; IQ; WISC; Item response models La question de l’identification des enfants à haut potentiel occupe une place paradoxale dans la littérature scientifique consacrée à la précocité et au talent. À partir d’une importante revue de la littérature, Heller et Schofield (2000) concluaient récemment que les principaux thèmes de recherche avaient assez peu évolué comparativement à la précédente décennie : seulement 5 % des références bibliographiques sont spécifiquement consacrées à la question de l’identification ; le thème dominant la littérature restant celui de l’éducation des enfants à haut potentiel. Cette caractéristique contraste assez nettement avec la fréquence d’utilisation des procédures d’identification, puisque toute recherche sérieuse portant sur le haut potentiel ou le talent doit nécessairement mentionner les critères retenus par les auteurs et la procédure mise en oeuvre pour recruter un échantillon d’enfants susceptibles de participer à la recherche. Elle contraste aussi avec la complexité des questions théoriques et méthodologiques soulevées par l’approche psychométrique de l’identification. Certaines questions seront ici abordées. Tout d’abord, la diversité des conceptions du haut potentiel ou du talent, des domaines évalués et des méthodes utilisées, comme celle des objectifs poursuivis par l’identification ; ensuite, les limites de l’approche psychométrique « classique » de l’identification seront présentées à propos du WISC ; la dernière partie envisagera si les modèles de réponse à l’item (MRI) offrent de nouvelles perspectives pour l’identification du haut potentiel. 1. Les différentes facettes de l’identification Lorsqu’elle s’applique aux cas des enfants à haut potentiel, la notion d’identification présente plusieurs facettes (Koren, 1994). Au plan théorique, les définitions de la précocité et leurs ancrages théoriques sont susceptibles de varier assez nettement selon les auteurs ; au plan méthodologique, les domaines mesurés, les techniques d’évaluation et les critères utilisés sont eux-aussi extrêmement variables dans la littérature, nettement moins dans la pratique. On peut se demander d’ailleurs si ce n’est pas cette grande diversité des approches qui fait précisément obstacle au développement de la recherche sur l’identification du haut potentiel et du talent. X. Caroff / Psychologie française 49 (2004) 233–251 235 1.1. Différentes conceptions de la précocité Les conceptions de la précocité ont profondément évolué depuis les premiers travaux consacrés à ce sujet. Si l’on considère, à titre d’exemple, le domaine du haut potentiel intellectuel, on constatera que l’on est progressivement passé d’une conception unitaire, appuyée sur une mesure globale (le QI), à des conceptions multifactorielles (Carroll, 1993, 1997) voire multidimensionnelles (par référence à la théorie des intelligences multiples de Gardner ; par exemple, Chen et Gardner, 1997) ou encore à des conceptions « cognitivistes » (appuyées, par exemple, sur la théorie triarchique de Sternberg, 1997). Par conséquent, les théories auxquelles il est actuellement fait référence dans la littérature scientifique proposent des conceptions bien différentes de l’intelligence et de sa mesure, comme en témoigne la revue de question de Ziegler et Raul (2000). Après avoir analysé le contenu des articles publiés la même année dans cinq revues spécialisées, ces auteurs ont constaté que, parmi les principaux tests utilisés pour l’identification du haut potentiel intellectuel, on trouvait aussi bien le Standford-Binet LM ou le WISC-III (conceptions globales de l’intelligence : Binet et Simon, 1905,1908; Wechsler, 1956) que le Raven Standard Progressive Matrices (inspiré de la théorie du facteur g ; Spearman, 1904,1927) ou le Comprehensive Test of Basic Skills (théorie des aptitudes multiples de Thurstone, 1938). Cette diversité des conceptions implique qu’un consensus ne peut être trouvé que sur une définition minimale (Pfeiffer, 2001). En l’occurrence, on considère qu’un enfant à haut niveau intellectuel se caractérise avant tout par sa capacité à réaliser, dans un certain nombre d’activités intellectuelles, des performances que ne parviennent pas accomplir la plupart des enfants de son âge. Plus récemment, les conceptions du haut potentiel et du talent ont été étendues à d’autres domaines que celui de l’intelligence. Selon l’ancrage théorique, des caractéristiques différentes seront privilégiées pour la sélection des participants aux recherches expérimentales. Ziegler et Raul (2000) ont isolé cinq catégories de critères : • les traditionnels critères de sélection relatifs à l’intelligence ; • les réussites extrêmes (comprenant les performances scolaires) ; • les dimensions de personnalité ; • la créativité ; • les intérêts. Ce constat est cohérent avec le fait que certains auteurs plaident actuellement pour que l’identification du haut potentiel ou du talent repose sur le principe d’une multiévaluation (par exemple, Ziegler et Heller, 2000). Toutefois, cette proposition n’est pas encore suivie d’effet puisque, selon les résultats de Ziegler et Raul (2000), la majorité des recherches scientifiques publiées ces dernières années ne comportent qu’un seul critère d’identification ; le plus souvent, une mesure d’intelligence ou bien de performance. La façon dont sont opérationnalisés les critères d’identification du haut potentiel ou du talent est particulièrement cruciale. Comme conséquence du fait que des conceptions différentes, parfois divergentes (Pfeiffer, 2002), peuvent être mises à l’épreuve, les résultats d’une étude particulière risquent d’être difficilement comparables à ceux d’autres études. 236 X. Caroff / Psychologie française 49 (2004) 233–251 1.2. Différentes techniques d’évaluation Outre la diversité des conceptions, les méthodes d’évaluation varient elles-aussi. Ziegler et Raul (2000) constatent que différentes catégories d’outils sont fréquemment utilisées pour recruter les sujets expérimentaux : • l’entretien, qui se déroule le plus souvent en situation de face-à-face et peut être plus ou moins standardisé ; • des épreuves standardisées présentées sous la forme de tests « papier-crayon » ou bien de tests informatisés ; • des questionnaires conçus, le plus souvent, pour les besoins de la recherche ou bien utilisant un matériel ancien et des « check-list » utilisées surtout pour l’évaluation de la personnalité ; • des évaluations à partir d’échelles renseignées par les parents, les enseignants, les pairs voire par l’enfant lui-même, sont parfois utilisées ; • des productions de l’enfant (cahiers d’école, dessins, etc.) ; • des observations directes des comportements de l’enfant. Aux États-Unis, les tests d’intelligence, tels que les échelles de Wechsler (1995, 1996, 2000) et l’échelle Standford-Binet sont, à l’évidence, les instruments d’évaluation les plus fréquemment utilisés dans la recherche comme dans la pratique. D’autres dispositifs sont plus rarement utilisés. On peut citer par exemple l’échelle d’évaluation développée par Renzulli (Scale for Rating Behavioral Characteristics of Superior Students ; Renzulli et Hartman, 1971; Renzulli et al., 1971) qui permet aux enseignants d’évaluer les comportements des enfants dans quatre domaines différents : l’apprentissage, la motivation, la créativité et le « leadership ». En France, le rapport Delaubier (2002) indique que le test le plus utilisé est la troisième version de l’échelle d’intelligence de Wechsler pour enfant : WISC-III (Wechsler Intelligence Scale for Children ; Wechsler, 1996). Ce que confirme une enquête réalisée auprès d’établissements scolaires accueillant des enfants à haut niveau intellectuel (Vrignaud, 2002). Une majorité d’établissements ayant répondu au questionnaire déclarent utiliser une note en QI mesurée par le WISC-III pour sélectionner les enfants ; les autres domaines d’évaluation ne sont presque jamais cités. Avec ce test, l’une des rares épreuves utilisées selon Delaubier (2002), est l’Inventaire d’identification développé par Terrassier (1999) pour poser l’hypothèse d’un haut potentiel chez des enfants de 6 à 12 ans, mais qui, à notre connaissance, n’a pas été empiriquement validé. 1.3. Différentes approches de l’identification Dans la pratique, la demande d’évaluation d’un enfant est très souvent liée à la scolarité. Elle peut être motivée par le souhait de scolariser un enfant avant le terme fixé par la loi, de solliciter un passage anticipé en classe supérieure ou bien l’entrée dans un programme d’éducation spécialisé. Par comparaison, la sélection des participants pour la recherche répond à d’autres objectifs et repose le plus souvent sur des échantillons d’enfants déjà identifiés comme présentant un haut niveau intellectuel. L’analyse de la littérature conduit à distinguer trois sortes de procédures privilégiées pour l’identification du haut potentiel : • l’approche « algorithmique » semble être de loin la plus répandue dans la recherche. Son principe consiste à fixer une valeur seuil au critère d’identification que l’on a retenu ; par X. Caroff / Psychologie française 49 (2004) 233–251 237 exemple, un QI supérieur à 130 points. Dans cette perspective, plusieurs critères d’identification peuvent éventuellement être combinés (Sternberg et Subotnik, 2000) ; • l’approche clinique est, à l’évidence, celle privilégiée par les psychologues praticiens. Elle se démarque d’une pratique de l’évaluation strictement standardisée, donc de l’approche précédente, par une évaluation plus qualitative. Certains praticiens souhaitent ainsi dépasser les limites des tests (contraintes imposées par les consignes, effet « plafond » de certains items, etc.) en adaptant le dispositif de mesure aux caractéristiques du sujet. Le déroulement d’une telle procédure dépendra alors de l’orientation théorique du psychologue et surtout de son expérience concernant l’identification du haut potentiel. Elle variera aussi selon la nature du potentiel présenté par l’enfant ; • l’approche « cybernétique » trouve son application dans les cas de sélection d’enfants susceptibles d’intégrer des programmes d’éducation spécialisés. Le principe d’une telle approche a été formalisé par Koren (1994) qui décrit un processus comportant plusieurs étapes, où l’on commence par sélectionner les enfants dont les compétences élevées correspondent aux objectifs pédagogiques du programme d’enseignement. Ceux retenus sont alors admis à suivre un cursus d’enseignements différenciés ; l’identification proprement dite n’intervenant qu’à la dernière étape, lorsque les résultats scolaires de l’enfant confirment le diagnostic de précocité. Ces différentes approches de l’identification ne sont pas également efficaces. Celle proposée par Koren (1994), bien qu’assez coûteuse, est sans doute très efficace pour la sélection des participants à un programme pédagogique ; elle semble inadaptée dans toute autre situation. L’efficacité des deux autres approches est mieux connue. Au terme de leur méta-analyse consacrée aux méthodes de prédiction, Grove et al., (2000) concluaient en effet que, dans la plupart des circonstances, les prédictions appuyées sur un algorithme ont une valeur pronostique au moins égale, sinon supérieure, aux méthodes de prédiction appuyées sur les conclusions d’une approche plus subjective. Il convient de rappeler cependant qu’il n’existe pas de procédure d’identification universelle. Il semble au contraire plus judicieux d’adapter chaque fois une procédure de sélection particulière en intégrant différentes considérations : la conception de la précocité qui est défendue, les objectifs poursuivis par la démarche et les nombreuses contraintes qui portent sur la mise en œuvre d’une telle procédure. L’article de Louis et al., (2000) illustre ce point en présentant trois exemples de procédure de sélection d’enfants à haut niveau de compétence correspondant à des objectifs théoriques et méthodologiques différents. 2. Avantages et inconvénients de l’approche psychométrique classique En France, il n’existe pas de test spécialement conçu pour l’identification des enfants à haut potentiel intellectuel. Le QI mesuré par l’échelle d’intelligence de Wechsler pour enfant est le critère le plus fréquemment utilisé (Delaubier, 2002; Vrignaud, 2002). C’est donc à propos de ce test que seront illustrés les avantages et inconvénients d’une approche psychométrique classique de l’identification des sujets à haut niveau intellectuel. 2.1. Seuil d’identification et norme du test Dans les publications scientifiques, il ne semble pas y avoir de consensus sur la valeur de QI pertinente pour le diagnostic d’une compétence intellectuelle supérieure (Pfeiffer, 238 X. Caroff / Psychologie française 49 (2004) 233–251 2002). Selon les auteurs, ce seuil peut varier de 120 à 140, voire plus, avec cependant une majorité de cas favorables à un seuil de 130. Dans certaines recherches, lorsque les échelles de Wechsler sont utilisées, on constate parfois une grande tolérance quant au critère d’identification. Certains auteurs considèrent qu’un enfant présente un haut potentiel lorsque soit son QI verbal soit son QI performance est supérieur ou égal à la valeur seuil. Rappelons que le QI est une note étalonnée qui permet de situer la performance du sujet par rapport à la distribution des scores d’un groupe de référence de même âge que lui. Par exemple, le seuil de 130 points de QI correspond à une performance supérieure à la moyenne de ce groupe moins deux écarts-types. La pertinence de l’identification d’un haut niveau intellectuel dépend donc, en partie, de la qualité de la norme du test. Pour la version française du WISC actuellement disponible (WISC-III ; Wechsler, 1996), l’étalonnage a été réalisé entre 1994 et 1995 à partir des résultats de 1120 enfants âgés de 6 à 16 ans. Cet échantillon d’étalonnage, représentatif de la population nationale, comporte peu de sujets dont les performances sont extrêmes1. Parce que le WISC est destiné à la population générale, le principal problème concernant l’identification des enfants de haut niveau intellectuel est le manque de sensibilité de son étalonnage pour les notes extrêmes. Aussi, une chose est d’identifier avec précision des enfants à haut niveau intellectuel parmi des enfants tout-venant, autre chose est de différencier entre-eux ces enfants à haut niveau intellectuel (Kaufman, 1992). Pour atteindre le premier objectif, par référence au seuil d’identification de 130 points de QI, il suffit que la note standard maximale dans chaque subtest soit au moins égale à 16 points ; c’est-à-dire, équivalent à la moyenne (10 points) plus deux fois la valeur de l’écart-type (3 points). La consultation des tables de conversion des notes brutes en notes standard (annexe A du manuel ; Wechsler, 1996, pp. 217–249) indique que cette contrainte est satisfaite pour chaque subtest aux différentes tranches d’âge. Pour atteindre le second objectif, il faut que des enfants puissent obtenir la note standard maximale (19 points), sans pour autant réussir tous les items du subtest. Or, selon les praticiens, il n’est pas rare de constater qu’un enfant particulièrement brillant réussit tous les items d’un ou plusieurs subtests de l’échelle. Rappelons aussi que certains subtests de la partie performance de l’échelle présentent un « effet plafond ». Il n’est pas possible, en effet, d’obtenir la note standard maximale dans les subtests Complètement d’image, Cubes et Assemblage d’objet au-delà de 14 ans et Labyrinthe dès l’âge de 10 ans, mais l’administration de ce subtest est optionnelle. Par comparaison, les subtests de la partie verbale conviennent mieux. Information et Arithmétique sont cependant moins discriminants à partir de 16 ans. Comme conséquence de « l’effet plafond » constaté dans plusieurs subtests, le QI maximum est de 155 pour les échelles Verbal et Performance et de 160 pour l’échelle Globale (Wechsler, Ibid.). Pour résumer, si les étalonnages du WISC permettent d’identifier des enfants à haut potentiel intellectuel avec une relative précision, l’étendue des scores en QI n’est pas suffisante pour différencier les enfants présentant des compétences extrêmes. Ce problème est bien connu des psychologues américains (Pfeiffer, 2001). Mais les solutions préconisées par certains ne sont guère satisfaisantes. Le plus souvent, faute d’une norme adéquate, la performance 1 Selon le modèle de la loi normale, la proportion d’individus présentant un score supérieur ou égale à 130 serait théoriquement de 2,3 %. Dans l’échantillon utilisé pour étalonner le WISC-III, la proportion d’enfants à haut potentiel intellectuel était égale à 2,5 % (Vrignaud, 2002). X. Caroff / Psychologie française 49 (2004) 233–251 239 intellectuelle d’enfants précoces est déterminée par rapport à des normes destinées à des enfants plus âgés ou bien en administrant le test Stanford-Binet en complément ou à la place du WISC, voire par extrapolation de la note du sujet à partir du modèle de la loi normale. Une solution pourrait être d’établir des normes à partir des résultats d’un groupe d’enfants déjà identifiés comme présentant un haut potentiel intellectuel. Mais cette démarche est extrêmement coûteuse puisqu’elle nécessiterait de tester un grand nombre de ces enfants difficilement accessibles. Une autre difficulté, lorsque l’on utilise des normes trop anciennes pour l’identification du haut potentiel intellectuel est que l’on risque fort d’être confronté à « l’effet Flynn » (Flynn, 1984, 1987). Il affecte aussi bien des groupes particuliers que la population générale, puisqu’il a été constaté auprès d’enfants présentant un retard mental (Solly, 1977) ou des troubles d’apprentissage scolaire (Truscott et Frank, 2001). Pour ce qui concerne les enfants de niveau intellectuel élevé (Larabee et Holroyd, 1976) ont administré la version originale du WISC (publiée en 1949) et la version révisée en 1974 à un groupe d’enfants déjà identifié comme présentant un haut niveau intellectuel. Leurs QI moyens étaient respectivement de 132 dans le WISC et de 122,6 dans le WISC-R. Des résultats équivalents ont été publiés l’année suivante par (Solly 1977 ; voir aussi Wheaton et al., 1980). À notre connaissance une seule étude n’a pas retrouvé cet effet (Wheaton et Vandergriff, 1978). Il est intéressant de constater que pour les recherches de Larabee et Holroyd (1976) et Solly (1977), les résultats moyens au WISC auraient assimilé les sujets à un groupe d’enfants à haut niveau intellectuel ; ces mêmes sujets n’auraient pas atteint le seuil d’identification avec le WISC-R. Même s’il y a de bonnes raisons de penser que « l’effet Flynn » est proportionnellement moins important pour les QI extrêmes par rapport aux QI moyens (Spitz, 1989), ces résultats devraient inciter les psychologues à adapter la valeur de ce seuil en tenant compte de l’ampleur de cet effet. Plus généralement, ceci montre que la norme d’un test d’intelligence risque de devenir rapidement obsolète et qu’il faut la réviser régulièrement. 2.2. Qualités métriques du WISC pour des enfants à haut potentiel Les qualités métriques des outils les plus fréquemment utilisés pour le diagnostic du haut potentiel intellectuel sont généralement bien connues pour la population générale, mais sont rarement étudiées auprès d’enfants présentant un niveau de compétence extrême (par exemple, Robinson et Robinson, 1992). Concernant la fidélité du QI mesuré par le WISC, les recherches disponibles ont principalement éprouvé la stabilité de cette note, négligeant ainsi d’autres méthodes d’estimation de la fidélité. Deux études, par exemple, ont porté sur la stabilité des notes au WISC-R auprès d’enfants à haut potentiel. Dans l’une (Cahan et Gejman, 1993), la version en hébreux du test a été administrée à deux reprises à des enfants identifiés comme présentant un haut niveau intellectuel, avec un délai extrêmement variable (de 1 mois à 48 mois) selon les sujets. Les corrélations test–retest étaient de 0,64 pour l’échelle Totale, 0,66 pour l’échelle Verbale et 0,61 pour l’échelle Performance. Dans la seconde recherche (Ellzey et Karnes, 1990), le délai entre les deux examens variait nettement moins (de un à deux ans selon les enfants). Dans l’ensemble, les corrélations étaient peu élevées compte tenu des délais : 0,33 pour le QI Verbal, 0,57 pour le QI Performance et 0,49 pour le QI Total. Par comparaison, pour des enfants tout-venant et des 240 X. Caroff / Psychologie française 49 (2004) 233–251 intervalles de temps bien supérieurs, ces corrélations sont de l’ordre de 0,80 (Reuchlin et Bacher, 1989, pp. 77–78). Nous n’avons pas connaissance de recherche analogue ayant porté sur la dernière version du WISC, ni de recherche ayant éprouvé la fidélité du WISC-R, auprès d’enfants ayant un QI élevé, pour des intervalles de temps comparables à ceux présentés dans le manuel (Wechsler, 1996, pp. 182–184). Or, cette dernière information est indispensable pour interpréter correctement les résultats des recherches de Cahan et Gejman (1993) et Ellzey et Karnes (1990). En effet, si les mesures d’intelligence ne sont pas stables à court terme, on ne voit pas comment elles pourraient l’être sur des intervalles de temps beaucoup plus longs. Toutefois, les résultats de ces deux recherches ne permettent pas de conclure à une bonne stabilité des QI, lorsqu’il est mesuré par le WISC-R, pour des enfants à haut niveau intellectuel. Mais nous verrons dans la partie suivante de l’article que cette conclusion doit être nuancée. Concernant la validité du QI mesuré par le WISC, deux sortes de recherches ont été menées auprès d’enfants de haut niveau intellectuel. Les unes ont étudié la structure interne de la mesure ; les autres se sont intéressées aux relations entre le QI et différents critères de validation. Pour la population générale, la structure factorielle des échelles du WISC-R comporte deux facteurs relativement stables intitulés Compréhension verbale et Organisation perceptive, ce qui valide la distinction entre les échelles Verbale et Performance du test ; un troisième facteur, Attention/concentration (Freedom from distractibility), est parfois mis en évidence. Plusieurs recherches ont tenté de vérifier cette structure auprès d’échantillons d’enfants de haut niveau intellectuel (Brown et al., 1991; Brown et Yakimowski, 1987; Karnes et Brown, 1980; Greenberg et al., 1986; Macmann et al., 1991; Sapp et al., 1985). Leurs conclusions convergent sur deux points : les deux premiers facteurs sont presque toujours retrouvés ; lorsqu’un troisième apparaît, il ne mesure pas le même concept que pour la population générale. Toutefois, Macmann et al,. (1991) concluent à l’existence d’un seul facteur, alors que Brown et Yakimowski (1987) en découvrent un quatrième. Compte tenu des nombreuses différences entre le WISC-R et le WISC-III, les résultats obtenus avec l’ancienne version ne peuvent être généralisés à la nouvelle. La structure factorielle du WISC-III est bien connue pour la population d’enfants tout-venant. Des recherches américaines ont abouti à la conception d’un modèle à quatre facteurs intitulés : • compréhension verbale ; • organisation perceptive ; • vitesse de traitement ; • attention/concentration2. Elles postulent en outre, un facteur général sur-ordonné qui justifierait le calcul d’un QI global. La stabilité de ce modèle a été vérifiée pour les 11 groupes d’âges de l’échantillon d’étalonnage américain (Keith, 1997). À notre connaissance, seuls Watkins et al., (2002) ont éprouvé cette structure auprès d’enfants présentant un haut niveau intellectuel. Ces auteurs concluent à l’existence de deux facteurs qui correspondent, à peu prés, à Compréhension verbale et Organisation perceptive. Toutefois, avec cette structure factorielle, les subtests Arrangement d’images et Arithmétique ne sont saturés par aucun facteur et le subtest Code présente une saturation négative pour le facteur Compréhension verbale. Pour 2 Les analyses factorielles réalisées sur les résultats de l’échantillon d’étalonnage français n’ont pas permis d’identifier ces quatre facteurs pour la version française du WISC-III (Wechsler, 1996). X. Caroff / Psychologie française 49 (2004) 233–251 241 cette raison, les auteurs proposent de substituer au QI global l’Indice d’Aptitude Générale (General Ability Index) développé par et al., (cité par Watkins et al., 2002 ; voir aussi Tulsky, et al., 2001) qui leur semble mieux adapté à l’identification du haut potentiel intellectuel, parce qu’il exclut les subtests Code, Arithmétique et les subtests optionnels du calcul de la somme des notes standards. De ces études portant sur la structure factorielle des deux dernières versions du WISC, on peut conclure qu’au-delà de la différence de niveau, il existe des différences qualitatives, dans la résolution des subtests, entre les enfants à haut potentiel et les enfants tout-venant. Deux recherches illustrent les limites d’une démarche de validation critériée lorsqu’elle porte sur des enfants à haut potentiel intellectuel. Dans l’une, Saccuzzo et Johnson (1995) présentent les résultats d’une étude portant sur deux tests d’intelligence générale, le WISC-R et les matrices progressives de Raven (Standard Raven Progressive Matrices), utilisés durant plusieurs années, dans une procédure d’évaluation systématique des enfants fréquentant les écoles du district de San Diego. Les enfants passaient ensuite, durant la même année scolaire, une épreuve standardisée de performances scolaires (soit le California Test of Basic Skills, soit le Abbreviated Stanford Achievement Test). Les données psychométriques analysées par les auteurs indiquent que les deux tests d’intelligence utilisés pour l’identification présentaient des coefficients de validité prédictive équivalents par rapport aux critères de performances scolaires. Cependant, ces corrélations n’étaient pas très élevées pour ce type de test (de l’ordre de 0,20). Dans la seconde recherche, Green et Kluever (1991) ont administré le Stanford-Binet (forme LM), assez proche du WISC, à des enfants dont les QI variaient de 120 (seuil de sélection) à 160. Dans le même temps, ces sujets ont passé la version des Matrices Progressives destinée à leur tranche d’âge : les Colored Progressive Matrices3. La corrélation entre les deux épreuves était quasi nulle (r = 0,04). Par comparaison, pour des enfants tout-venant, les corrélations entre le test Stanford-Binet et différents critères (niveau scolaire, évaluation par les enseignants, différents tests de performance, etc.) sont généralement comprises entre 0,40 et 0,75 (Anastasie et Urbina, 1997) ; avec les échelles du WISC-III les corrélations sont respectivement de 0,75 avec le QI Verbal, 0,68 avec le QI Performance et 0,82 avec le QI Total (Wechsler, 1996, p. 196). Nous verrons plus loin comment interpréter les résultats des recherches de Green et Kluever (1991) et de Saccuzzo et Johnson (1995). 2.3. Limites des recherches portant sur les qualités métriques De l’avis même des psychologues, la plupart des tests utilisés pour l’identification des enfants à haut potentiel présentent des qualités métriques insuffisantes (Pfeiffer, 2001). Les conclusions des différentes recherches évoquées dans la partie précédente laisseraient penser que le WISC ne fait pas exception. Il faut préciser cependant que ce n’est pas ce test qui doit être remis en cause. Le fait que ses qualités métriques soient douteuses lorsqu’on l’utilise pour mesurer des QI extrêmes vient de ce que la majorité des recherches ayant étudié cette question s’appuient sur des procédures empiriques et un modèle de mesure 3 Souvent cité dans les recherches conduites auprès d’enfants à haut potentiel, le test des Progressive Matrices Couleurs a été conçu pour être utilisé auprès de déficients mentaux et de jeunes enfants. On peut donc supposer qu’il ne permet pas de mesurer avec précision les niveaux intellectuels extrêmes. 242 X. Caroff / Psychologie française 49 (2004) 233–251 « classiques » (Lord et Novick, 1968 ; en français, voir Dickes et al., 1994 ou Laveault et Grégoire, 2002). Une telle approche présente cependant plusieurs limites. La première limite est d’ordre statistique. Elle concerne l’interprétation des résultats obtenus par les auteurs qui ont cherché à éprouver les qualités métriques du WISC auprès d’enfants à haut potentiel intellectuel. Pour reprendre les résultats des recherches présentées précédemment, comment expliquer l’absence de stabilité des QI pour ces enfants (Cahan et Gejman, 1993; Ellzey et Karnes, 1990) ? Comment expliquer aussi qu’un test relativement valide pour une population générale ne le soit plus (Green et Kluever, 1991) ou nettement moins (Saccuzzo et Johnson, 1995), lorsqu’il s’agit d’évaluer un échantillon particulier de celle-ci ? Le constat de corrélations dépréciées s’explique par un biais statistique qui tient au fait que les sujets ont été sélectionnés. La variation des QI d’un échantillon sélectionné à partir d’un certain seuil d’intelligence est proportionnellement plus faible que celle mesurée pour la population générale. Cette plus grande homogénéité du groupe conduit à sous-estimer la corrélation (McNemar, 1969) entre, d’une part, la note en QI et, d’autre part, une réplication de celle-ci (coefficient de stabilité) ou un critère externe (coefficient de validité). Confrontés à ce biais d’estimation, certains auteurs proposent d’utiliser une formule de correction du coefficient de corrélation (par exemple, Hunter et Schmidt, 1990) pour obtenir une meilleure estimation des qualités métriques. Il semble cependant que ce phénomène de restriction de la variation n’est pas systématiquement étudié dans la littérature consacrée à l’identification des enfants à haut potentiel. Dans les recherches portant sur la structure factorielle du WISC, par exemple, cet effet est signalé par Karnes et Brown (1981) ; mais seuls Watkins et al., (2002) l’ont réellement intégré dans l’analyse de leurs résultats. La deuxième limite d’une approche psychométrique classique de l’identification du haut potentiel est d’ordre méthodologique. La démarche consistant à mettre à l’épreuve les qualités d’un test par la méthode des corrélations est certes pertinente si l’on s’intéresse aux différences individuelles de QI au sein d’un échantillon d’enfants à haut niveau intellectuel ; elle ne l’est plus si l’objectif de l’évaluation est d’identifier des enfants à haut potentiel parmi des enfants tout-venant. Dans ce cas, il convient d’étudier la stabilité du classement des enfants présentant un haut niveau intellectuel, c’est-à-dire la stabilité de leur QI par rapport au seuil de 130 et non pas la stabilité des rangs de classements des sujets. Or, il est bien connu que la moyenne d’un échantillon d’enfants présentant des scores extrêmes dans un test aura tendance à régresser vers la moyenne de la population générale lors du retest si ces deux variables ne sont pas parfaitement corrélées ; c’est l’effet de régression découvert par Galton4. Cahan et Gejman (1993) ont vérifié l’existence de cet effet pour un intervalle moyen de 2,5 ans entre le test et le retest. Les résultats de Ellzey et Karnes (1990), puis ceux de Sprangler et Sabatino (1995), montrent au contraire une grande stabilité des QI moyens d’un examen à l’autre. Si cet effet n’est apparemment pas vérifié au niveau du groupe, la question demeure de savoir si des enfants identifiés comme présentant un haut potentiel dans un test pourrait perdre ce classement dans le retest. De ce point de vue, les résultats disponibles sont plutôt encourageants. Hall (1985) signale que sept enfants à haut 4 On peut penser qu’outre le biais d’estimation de la corrélation provenant de la restriction de la variation des scores, cet effet de régression vers la moyenne contribue lui aussi à expliquer l’instabilité des QI constatée par Ellzey et Karnes (1990), puis par Cahan et Gejman, (1993). X. Caroff / Psychologie française 49 (2004) 233–251 243 niveau intellectuel sur 57 testés présentent, dans le retest, une différence de QI d’une valeur supérieure à l’erreur standard de mesure ; mais elle ne précise pas le sens de cette différence. Cahan et Gejman (1993) constatent que 86 % de leurs sujets restent classés à haut potentiel pour un intervalle de temps important entre le test et le retest. Sprangler et Sabatino (1995) ont testé des enfants à trois reprises avec un intervalle régulier de 36 mois ; tous maintenaient leur classement tout au long des six années. D’après les différents résultats dont nous disposons, il serait donc permis de conclure à une relative stabilité du classement d’enfants à haut niveau intellectuel. Pareillement, c’est la question de la validité du classement de certains enfants, comme présentant un haut potentiel intellectuel, qui devrait être posée plutôt que celle de la validité des mesures d’intelligence pour ces enfants. De ce point de vue, des éléments de validation empirique peuvent être trouvés dans toutes recherches qui visent à comparer systématiquement les enfants identifiés à haut potentiel avec ceux de la population générale. La dernière limite est d’ordre épistémologique. Dans la recherche, la façon dont sont conçues les procédures d’identification est particulièrement cruciale. Quels que soient les objectifs poursuivis par l’identification, toute procédure doit nécessairement s’appuyer sur une théorie du domaine suffisamment éprouvée (par exemple, Carroll, 1993, 1997; Chen et Gardner, 1997; Gagné, 2000; Renzulli, 2002; Sternberg, 1997, 2001; Ziegler et Heller, 2000) pour garantir une certaine validité théorique (Standards for educational and psychological testing, 1999). Force est de constater cependant que la démarche est généralement plus pragmatique. La grande diversité des conceptions implique, en effet, qu’un consensus ne peut être trouvé que sur une définition psychométrique, donc réductrice, du haut potentiel (Pfeiffer, 2001; Ziegler et Raul, 2000). Ainsi, le critère communément admis est que les enfants à haut potentiel sont ceux dont les performances dans les tests sont meilleures que celles de la plupart des enfants de leur âge. Cette façon de procéder rend délicate, voire compromet, toute démarche de la validation empirique. Dans le domaine de l’intelligence, par exemple, avoir recours au seul QI pour sélectionner des enfants, c’est admettre d’utiliser les tests malgré les inconvénients qu’on leur reconnaît. C’est admettre surtout, mais souvent de façon implicite, qu’un enfant présentant un haut niveau intellectuel puisse réussir aussi bien dans tous les domaines de compétence. Il est évident qu’une telle pratique ne tient pas compte de la diversité des conceptions de l’intelligence, moins encore des différentes sortes de potentiel que l’on peut rencontrer (Louis et al., 2000). En outre, bien qu’elle soit très utilisée pour l’identification, la mesure d’un QI, ne reflète aucunement le degré de complexité de certaines théories (Renzulli, 2002), telles que celles proposées par Gagné (2000) ou Ziegler et Heller (2000). Ces théories impliquant un grand nombre de variables dans différents domaines (intelligence, créativité, motivation, personnalité, environnement, etc.), elles nécessiteraient des procédures de sélection extrêmement coûteuses pour être empiriquement validées. À l’opposé, une conception unitaire du haut potentiel intellectuel, centrée sur le QI, pose la question de savoir s’il est possible de mettre en œuvre une méthode de validation empirique où les tests d’intelligence seraient confrontés à un critère externe qui ne soit pas la performance mesurée par un test de même type. On risque sinon d’éprouver seulement le degré d’accord entre ces tests et non la validité du dispositif d’identification du haut potentiel (par exemple, Saccuzzo et Johnson, 1995). Un début de réponse peut être trouvé cependant dans la proposition, relayée par la plupart des chercheurs et praticiens, de 244 X. Caroff / Psychologie française 49 (2004) 233–251 pratiquer plusieurs évaluations pour identifier les sujets (Pfeiffer, 2002). Mais, le plus souvent, ces auteurs recommandent seulement d’étendre l’évaluation à d’autres domaines que celui de l’intelligence ; ce qui est sans doute nécessaire mais pas suffisant. Pour assurer les conditions d’une validation optimale, il faut en outre utiliser des sources d’informations différentes et, selon les principes méthodologiques proposés par Campbell et Fiske (1959), prévoir de mesurer chaque domaine par au moins deux techniques différentes. Plusieurs techniques d’identification, autres que les tests, sont aujourd’hui disponibles. Certains psychologues américains ont développé des outils permettant l’évaluation d’enfants par leurs enseignants (par exemple, Scales for Rating the Behavioral Characteristics of Superior Students : Renzulli et Hartman, 1971 ; Renzulliet al., 1971) ou par leurs parents (Chan, 2000). D’autres proposent d’utiliser plus systématiquement les productions des enfants (Wright et Borland, 1993). Cependant, à notre connaissance, il n’existe pas encore de recherche ayant appliqué les principes d’une approche multitraits–multiméthodes, pour la validation d’un dispositif d’identification. La procédure retenue par Chan (2000) n’illustre que partiellement une telle démarche. L’auteur a proposé à une centaine d’enfants, déjà identifiés comme présentant un haut potentiel, de passer le test des Matrices progressives de Raven et une échelle de leadership. En complément, un parent et un enseignant de chaque enfant ont complété séparément l’échelle SRBCSS développée par Renzulli (Scale for Rating Behavioral Characteristics of Superior Students : Renzulli et Hartman, 1971; Renzulli et al., 1971) qui leur permettait d’évaluer les comportements des sujets dans quatre domaines différents : l’apprentissage, la motivation, la créativité et le leadership. Cependant, au regard des critères proposés par Campbell et Fiske (1959), les analyses statistiques réalisées pour cette recherche ne nous permettent pas de conclure quant à la validité théorique des évaluations. Concernant le leadership, par exemple, les notes obtenues dans le test par les enfants étaient significativement corrélées, d’une part, avec les évaluations des parents et, d’autre part, avec celles des professeurs ; mais aucun résultat concernant la validité discriminante n’était présenté. Souhaitons néanmoins que ce type de recherche se développe dans un proche avenir. Une autre possibilité serait d’utiliser des échelles de développement pour l’identification. Elles présentent l’avantage d’exprimer les résultats des enfants en termes de stade et non plus en termes de normes. En France, l’Échelle de développement de la pensée logique (EPL : Longeot, 1974–1979), par exemple, permet de situer le niveau de développement cognitif de l’enfant, du stade concret au stade formel, par référence à la théorie de Piaget. L’identification à partir de performances dans les tests supérieures à celle d’enfants du même âge, suggère que ces enfants à haut potentiel puissent présenter une avance développementale. Ce que semblent confirmer, par exemple, les recherches de Keating (1975) et Carter (1985), qui ont montré que des enfants à haut niveau intellectuel réussissaient mieux des épreuves du stade formel que des enfants tout venant. 3. Les modèles de réponse à l’item permettent-ils de renouveler l’approche psychométrique ? Depuis plusieurs années, on constate une remise en question de la théorie classique de la mesure en psychologie (par exemple, Embretson et Reise, 2000; Hambleton et Swamina- X. Caroff / Psychologie française 49 (2004) 233–251 245 than, 1985; Hambleton et al., 1991). Ces critiques pourraient aboutir, à terme, à un renouvellement de la méthode des tests, sous l’impulsion de nouveaux modèles de mesures : les Modèles de Réponse à l’Item (MRI). Quelle pourrait être la contribution de cette nouvelle approche pour l’identification du haut potentiel ? Peut-on supposer qu’elle nous permettra de dépasser les limites rencontrées par l’approche psychométrique classique ? 3.1. Apports des MRI pour l’évaluation de compétences extrêmes Les MRI permettent de fonder la mesure en psychologie sur de nouveaux principes (Embretson et Reise, 2000 ; en français voir, Dickes et al., 1994; Laveault et Grégoire, 2002; Vrignaud, 1996). En particulier, le niveau de compétence d’un sujet n’est plus établi par rapport à une norme, souvent peu discriminante lorsqu’il s’agit de mesurer les compétences de sujets extrêmes (effet « plafond »). Il est estimé statistiquement à partir de son profil de réponses aux items du test lorsque sont connus les paramètres de chaque items. La compétence est donc évaluée par rapport à des tâches et non plus par rapport à un groupe de sujets de référence. Vrignaud (1996) donne un exemple d’application de cette méthode d’évaluation à partir d’un cas concret. Les MRI présentent en outre une propriété fondamentale qui les distingue du modèle classique. Dans cette approche, si les données observées correspondent au modèle de mesure, il est possible d’estimer le niveau de compétence des sujets indépendamment de l’échantillon d’items utilisé et, réciproquement, d’estimer les caractéristiques des items indépendamment de l’échantillon de sujets auxquels il a été administré. De cette propriété découlent certains avantages méthodologiques. Les MRI sont à l’origine de la constitution de banques d’items dont on connaît précisément les paramètres. Elles permettent d’envisager deux applications qui, sans être spécifiques à l’évaluation du haut potentiel, répondent assez bien aux contraintes rencontrées dans ce domaine. La première concerne la construction de tests spécialement conçus pour l’identification des enfants à haut potentiel. Cette approche permet en effet de construire des échelles adaptées aux niveaux de compétence extrêmes ; sans qu’il soit nécessaire, en théorie, de faire correspondre les caractéristiques de l’échantillon de sujets utilisé pour la construction du test avec les caractéristiques des personnes auxquelles on le destine (Hambleton et Swaminathan, 1985). Toutefois, l’approche MRI de l’identification risque de poser quelques difficultés méthodologiques concernant le calibrage des items. En effet, si on veut disposer d’items adaptés à l’identification sur une large gamme d’âges, les paramètres de difficulté des items peuvent atteindre des valeurs extrêmes5, pour lesquelles l’erreur de mesure est souvent plus élevée. À l’inverse, si l’on utilise un échantillon de sujets relativement homogènes, le risque est alors que les paramètres estimés soient instables. La seconde application est l’utilisation de procédures d’évaluation adaptatives qui permettraient de dépasser l’un des inconvénients présentés par les tests, lorsqu’ils sont utilisés pour l’identification des enfants à haut potentiel. Une procédure d’évaluation 5 Grégoire et al., (1996) ont utilisé le modèle de Rasch pour calibrer les items du subtest Information du WISC-III d’après les réponses de 220 enfants âgés de six ans et demi à 16 ans et demi. Leurs résultats montrent des valeurs extrêmes, de –6 à + 6 (Tableau 3, p. 500), pour des paramètres de difficulté généralement compris entre –3 et +3. 246 X. Caroff / Psychologie française 49 (2004) 233–251 standardisée impose de présenter tous les items du test, dont une majorité sont beaucoup trop facile pour un enfant chez lequel on soupçonne un niveau de compétence extrême. Un autre inconvénient de cette méthode est qu’elle aboutit à une mesure très imprécise du niveau exact de l’enfant. Avec les procédures de mesure adaptative, au contraire, une estimation du niveau du sujet est obtenue durant l’administration du test, ce qui permet ensuite d’adapter le choix des items au niveau de compétence estimé (voir l’ouvrage de référence de Wainer, 2000). Cette procédure permet aussi un gain de temps appréciable puisqu’on peut mesurer le niveau du sujet avec nettement moins d’items que dans la méthode classique, tout en conservant une bonne fidélité de la mesure (Embretson et Reise, 2000). Si l’approche MRI trouve un champ d’application privilégié dans le domaine de l’évaluation scolaire (Dickes et al., 1994), sa popularité reste très limitée dans l’évaluation psychologique. Une part de l’explication réside sans doute dans le coût important que représente une telle démarche. Les techniques statistiques correspondant à ces modèles sont certes complexes, mais différents logiciels d’estimation sont disponibles depuis une vingtaine d’années (Hambleton, et al., 1991). L’inconvénient majeur des MRI est qu’ils requièrent un effectif de sujets et un nombre d’items très élevés pour obtenir des estimations stables des compétences des sujets et des paramètres des items. 3.2. Exemples d’applications des MRI auprès d’enfants à haut niveau intellectuel À ce jour, les rares exemples d’application concernant l’évaluation du haut potentiel ont porté sur le test des Matrices Progressives (PM38 ; Raven, 1965) qui mesure l’intelligence générale et, pour cette raison, est assez fréquemment employé pour identifier les sujets à haut niveau intellectuel. Embretson (1998), puis Van der Ven et Ellis (2000), se sont inspirés de l’analyse du PM38 proposée par Carpenter et al. (1990) pour développer une nouvelle version de ce test en s’appuyant sur les MRI. Toutefois, ces recherches aux résultats prometteurs ont porté sur des sujets tout-venant. À notre connaissance, il n’existe que deux références concernant les enfants à haut niveau intellectuel. Dans la première (Green et Kluever, 1991), les participants étaient des enfants âgés de 3 à 12 ans, identifiés comme présentant un haut niveau intellectuel. Ils ont été testés avec la version des Matrices Progressives destinée à cette tranche d’âge (Colored Progressive Matrices). Les auteurs concluaient que le modèle de Rasch s’adaptait à la majorité des items du test, en contradiction avec le fait que les résultats ne vérifiaient pas le postulat d’une mesure unidimensionnelle sur lequel repose ce modèle. Les conclusions de la seconde recherche sont plus encourageantes. Constatant qu’il n’existait pas en Allemagne de test adapté à l’identification de personnes à haut niveau intellectuel, une équipe de recherche (Preckel et Thiemann, 2001, 2003) a entrepris de développer deux versions d’un test de matrices inspiré de Raven (1965) : l’une présentée sous une forme « papier-crayon », l’autre informatisée. Comme pour la recherche de Embretson (1998), le modèle de Rasch s’ajustait parfaitement aux données. Les deux versions de ce nouveau test présentaient des qualités psychométriques satisfaisantes. Le coefficient Alpha de Cronbach indiquait une bonne consistance interne du test (␣ = 0,80 pour les deux versions) et la corrélation entre le score dans la version « papier-crayon » et le QI des participants était de 0,56 pour les sujets dont le haut niveau intellectuel avait été identifié par le test original de Raven. Il faut souligner cependant X. Caroff / Psychologie française 49 (2004) 233–251 247 qu’aucune recherche citée n’a abordé la question délicate du calibrage des items pour ce test des Matrices de Raven étudié dans le cadre de l’approche MRI. Si ces quelques recherches indiquent clairement quel pourrait être le champ d’application des MRI pour l’identification du haut potentiel, toutes les possibilités d’une évaluation fondée sur ces modèles n’ont pas encore été exploitées. Il serait souhaitable de prolonger ces premiers travaux soit en cherchant à appliquer les MRI à certains tests existants, particulièrement pertinents pour l’identification du potentiel, soit en construisant de nouveaux instruments fondés sur ces modèles. Rappelons que les techniques d’estimation des paramètres se sont considérablement développées depuis quelques années. Les premiers modèles étaient destinés aux items dichotomiques. D’autres sont ensuite apparus, bien plus complexes, qui permettent d’estimer les paramètres d’items comportant plusieurs échelons de réponses et pouvant mesurer simultanément plus d’une variable latente (van der Linden et Hambleton, 1997). Ces nouveaux modèles s’adaptent à la plupart des dispositifs de réponse utilisés en psychométrie, tels que les questions à choix multiples, les échelles de type Likert, etc. L’extension des MRI permet aujourd’hui d’envisager leur application dans de nombreux domaines d’évaluation psychologique (mesure des attitudes, des intérêts, des traits de personnalité, etc.) et plus seulement dans celui de l’évaluation de l’intelligence. Cette opportunité correspond assez bien à l’évolution des conceptions de la précocité et, en particulier, au souhait maintes fois formulé d’étendre le diagnostic du haut potentiel à d’autres domaines que celui de l’intelligence. 4. Conclusion Telle qu’elle apparaît dans la littérature scientifique, la question de l’identification du haut potentiel et du talent se caractérise tout d’abord par la grande diversité des conceptions et des définitions du haut potentiel. Certaines divergent même assez nettement. Concernant les procédures d’identification, on constate que les domaines mesurés, les techniques d’évaluation et les critères utilisés sont eux-aussi extrêmement variables. Cette variabilité des approches constitue un obstacle majeur pour le développement de la recherche et explique que cette question soit si peu étudiée dans la littérature scientifique. En contradiction avec la proposition, défendue par une majorité de psychologues, de faire reposer l’identification du haut potentiel sur le principe d’une évaluation multidimensionnelle, la pratique d’une mesure de QI, comme seul critère d’identification, est encore très répandue. Or, dans le cadre d’une approche psychométrique classique, l’identification des sujets à haut potentiel au moyen de tests est confrontée à de sérieuses difficultés. D’une part, les normes de ces tests étant destinées à des enfants tout venants, elles sont donc peu adaptées lorsqu’il s’agit de mesurer des compétences extrêmes. D’autre part, les qualités psychométriques des tests sont rarement étudiées auprès d’enfants à haut potentiel. Les conclusions des quelques études disponibles sont, en outre, limitées par plusieurs biais statistiques et, le plus souvent, ne répondent pas à la question de savoir si le classement des enfants par rapport au critère d’identification est fiable et valide. En théorie, les possibilités offertes par la théorie de la réponse à l’item, devrait contribuer à améliorer les dispositifs de mesure. Mais le recours aux MRI pose lui-même différents problèmes techniques et surtout n’offre pas de solution de fond au problème de l’identification des individus à haut 248 X. Caroff / Psychologie française 49 (2004) 233–251 potentiel. Ceci devrait inciter les psychologues à rechercher d’autres critères d’identification que le QI et à développer de nouveaux dispositifs d’évaluation. Références Anastasi, A., Urbina, S., 1997. Psychological testing, 7th Edition. Prentice-Hall, New York. Binet, A., Simon, T., 1905. Méthodes nouvelles pour le diagnostic du niveau intellectuel des anormaux. L’Année Psychologique 11, 191–244. Binet, A., Simon, T., 1908. Le développement de l’intelligence chez les enfants. L’Année Psychologique 14, 1–94. Brown, S.W., Hwang, M.T., Baron, M., Yakimowski, M.E., 1991. Factor analysis of responses to the WISC-R for gifted children. Psychological Reports 69, 99–107. Brown, S.W., Yakimowski, M.E., 1987. Intelligence scores of gifted students on the WISC-R. Gifted Child Quarterly 31, 130–134. Cahan, S., Gejman, A., 1993. Constancy of IQ scores among gifted children. Roeper Review 15, 140–143. Campbell, D.T., Fiske, D.W., 1959. Convergent and discriminant validation by the multitrait–multimethod matrix. Psychological Bulletin 56, 81–105. Carpenter, P.A., Just, M.A., Shell, P., 1990. What one intelligence test measures: A theoretical account of the processing in the Raven Progressive Matrices test. Psychological Review 97, 404–431. Carroll, J.B., 1993. Human cognitive abilities: A survey of factor analytic studies. Cambridge University Press, New York. Carroll, J.B., 1997. The three-stratum theory of cognitive abilities. In: Flanagan, D.P., Genshaft, J.D., Harrison, P.L. (Eds.). Contemporary intellectual assessment: Theories, tests and issues. Guilford Press, New York, pp. 122–130. Carter, K.-R., 1985. Cognitive development of intellectually gifted: A Piagetian perspective. Roeper Review 7, 180–184. Chan, D.-W., 2000. Exploring identification procedures of gifted students by teacher ratings: Parent ratings and student self-reports in Hong Kong. High Ability Studies 11, 69–82. Chen, J.K., Gardner, H., 1997. Alternative assessment from a multiple intelligences theoretical perspective. In: Flanagan, D.P., Genshaft, J.D., Harrison, P.L. (Eds.). Contemporary intellectual assessment: Theories, tests and issues. Guilford Press, New York, pp. 105–121. Delaubier, J.-P., 2002. La scolarisation des enfants intellectuellement précoces. Rapport à Monsieur le Ministre de l’Éducation Nationale http://www.education.gouv.fr/rapport/delaubier.pdf Rapport téléchargeable sur le site. Dickes, P., Tournois, J., Flieller, A., Kop, J.-L., 1994. La psychométrie. PUF, Paris. Ellzey, J.T., Karnes, F.A., 1990. Test-Retest stability of the WISC-R IQs among young gifted students. Psychological Reports 66, 1023–1026. Embretson, S.E., 1998. A cognitive design system approach to generating valid tests: Application to abstract reasoning? Psychological Methods 3, 380–396. Embretson, S.E., Reise, S.P., 2000. Item response theory for psychologists. Lawrence Erlbaum Associates, Mahwah. Flynn, J.R., 1984. The mean IQ of Americans: A massive gains 1932 to 1978. Psychological Bulletin 95, 29–51. Flynn, J.R., 1987. Massive IQ gains 14 nations: What intelligence tests measure? Psychological Bulletin 101, 171–191. Gagné, F., 2000. Understanding the complex choreography of talent development through DMGT-based analysis. In: Heller, K.A., Mönks, F.J., Sternberg, R.J., Subotnik, R.F. (Eds.). International Handbook of Giftedness and talent. Pergamon Press, Elmsford, pp. 67–79. Green, K.-E., Kluever, R.-C., 1991. Structural properties of Raven’s Coloured Progressive Matrices for a sample of gifted children. Perceptual and Motor Skills 72, 59–64. Greenberg, R.D., Stewart, K.J., Hansche, W.J., 1986. Factor analysis of the WISC-R for the white and black children evaluated for gifted placement. Journal of Psychoeducational Assessment 4, 123–130. Grégoire, J., Penhouët, C., Boy, T., 1996. L’adaptation française de l’échelle de Wechsler pour enfants, version III (WISC III). L’Orientation Scolaire et Professionnelle 25, 489–506. X. Caroff / Psychologie française 49 (2004) 233–251 249 Grove, W.M., Zald, D.H., Lebow, B.S., Snitz, B.E., Nelson, C., 2000. Clinical versus mechanical prediction: A meta-analysis. Psychological Assessment 12, 19–30. Hall, E.G., 1985. Longitudinal measures of creativity and achievement for gifted IQ groups. The Creative Child an Adult Quarterly 10, 7–16. Hambleton, R.K., Swaminathan, H., 1985. Item response theory: Principles and applications. Kluwer Academic Press, Norwell. Hambleton, R.K., Swaminathan, H., Rogers, H.J., 1991. Fundamental of item response theory. Sage Publications, Newbury Park. Heller, K.A., Schofield, N.J., 2000. International trends and topics of research on giftedness and talent. In: Heller, K.A., Mönks, F.J., Sternberg, R.J., Subotnik, R.F. (Eds.). International Handbook of Giftedness and talent. Pergamon Press, Elmsford, pp. 123–137. Hunter, J.E., Schmidt, F.L., 1990. Methods of meta-analysis: Correcting error and bias in research findings. Sage Publications, Beverly Hills. Karnes, F.A., Brown, K.E., 1980. Factor analysis of the WISC-R for the gifted. Journal of Educational Psychology 72, 197–199. Karnes, F.A., Brown, K.E., 1981. A short form of the WISC-R for gifted students. Psychology in the School 18, 169–173. Kaufman, A.S., 1992. Evaluation of the WISC-III and WPPSI-R for gifted children. Roeper Review 14, 154–158. Keating, D.-P., 1975. Precocious cognitive development at the level of formal operations. Child Development 46, 276–280. Keith, T.Z., 1997. Using confirmatory factor analysis to aid in understanding the constructs measured by intelligence tests. In: Flanagan, D.P., Genshaft, J.D., Harrison, P.L. (Eds.). Contemporary intellectual assessment: Theories, tests and issues. Guilford Press, New York, pp. 373–402. Koren, I., 1994. Identification of the gifted. In: Heller, K.-A., Hany, E.-A. (Eds.). Competence and responsibility. 2. Hogrefe Huber Publishers, Kirkland, pp. 253–273. Larabee, G.J., Holroyd, R.G., 1976. Comparison of WISC and WISC-R using a sample of highly intellectual children. Psychological Report 38, 1071–1074. Laveault, D., Grégoire, J., 2002. Introduction aux théories des tests en psychologie et en sciences de l’éducation, 2e Édition. De Boeck, Bruxelles. Longeot, F., 1974–1979. Échelle de développement de la pensée logique (EPL). EAP, Paris. Lord, F.M., Novisk, M.R., 1968. Statistical theories of mental test scores. Addison-Wesley, Reading. Louis, B.L., Subotnik, R.F., Breland, P.S., Lewis, M., 2000. Establishing criteria for high ability versus selective admission to gifted programs: Implications for policy and practice. Educational Psychology Review 12, 295–314. Macmann, G.M., Mueller Plasket, C., Barnett, D.W., Siler, R.F., 1991. Factor structure of the WISC-R for children of superior intelligence. Journal of School Psychology 29, 19–36. McNemar, Q., 1969. Psychological statistics, Fourth edition. John Wiley and Sons, New York. Pfeiffer, S.-I., 2001. Professional psychology and the gifted: Emerging practices opportunities. Professional Psychology: Research and Practice 32, 175–180. Pfeiffer, S.-I., 2002. Identifying Gifted and Talented Students: Recurring Issues and Promising Solutions. Journal of Applied School Psychology 19, 31–50. Preckel, F., Thiemann, H., 2001. Testing intellectual giftedness on the Web: Development of a new Figural Matrices Test - online versus paper-and-pencil-version. In: Jonas, K.-J., Breuer, P., Schauenburg, B., Boos, M. (Eds.). Perspectives on Internet Research: Concepts and Methods http://www.gor.de/gor01/proceedings/ [WWW document]. Available URL. Preckel, F., Thiemann, H., 2003. Online- versus paper-pencil-version of a high potential intelligence test. Swiss Journal of Psychology 62, 131–138. Raven, 1965. Advanced progressive matrices. The Psychological Corporation, New York. Renzulli, J.-S., 2002. Emerging conceptions of giftedness: Building a bridge to the new century. Exceptionality 10, 67–75. Renzulli, J.S., Hartman, R.K., 1971. Scale for Rating Behavioral Characteristics of Superior Students. Exceptional Children 38, 243–248. Renzulli, J.S., Hartman, R.K., Callahan, C.M., 1971. Teacher identification of superior students. Exceptional Children 38, 211–214. 250 X. Caroff / Psychologie française 49 (2004) 233–251 Reuchlin, M., Bacher, F., 1989. Les différences individuelles dans le développement cognitif de l’enfant. PUF, Paris. Robinson, N.M., Robinson, H., 1992. The use of standardized tests with young gifted children. In: Klein, P.S., Tannenbaum, A.J. (Eds.). To be Young and gifted. Ablex Publishing, Westport. Saccuzzo, D.P., Johnson, N.E., 1995. Traditional psychometric tests and proportionate representation: An intervention and program evaluation study. Psychological Assessment 7, 183–194. Sapp, G.L., Chissom, B., Graham, E., 1985. Factor analysis of the WISC-R for gifted students: A replication and comparison. Psychological Reports 57, 947–951. Solly, D.C., 1977. Brief report on the WISC-R. Journal of School Psychology 15, 255–258. Spearman, C., 1904. General intelligence objectively measured and determined. American Journal of Psychology 15, 201–209. Spearman, C., 1927. The abilities of man: Their nature and measurement. The Macmillan Company, New York. Spitz, H.H., 1989. Variations in Wechsler interscale IQ disparities at different levels of IQ. Intelligence 13, 157–167. Sprangler, R.S., Sabatino, D.A., 1995. Temporal stability of gifted children’s intelligence. Roeper Review 17, 207–210. Standards for educational and psychological testingAmerican Educational Research Association, Washington. Sternberg, R.J., 1997. The triarchic theory of intelligence. In: Flanagan, D.P., Genshaft, J.D., Harrison, P.L. (Eds.). Contemporary intellectual assessment: Theories, tests and issues. Guilford Press, New York, pp. 92–104. Sternberg, R.J., 2001. Giftedness as developing expertise: A theory of the interface between high abilities and achieved excellence. High Ability Studies 12, 159–179. Sternberg, R.J., Subotnik, R.F., 2000. A multidimensional framework for synthesizing disparate issues in identifying, selecting, and serving gifted children. In: Heller, K.A., Mönks, F.J., Sternberg, R.J., Subotnik, R.F. (Eds.). International Handbook of Giftedness and talent. Pergamon Press, pp. 381–388. Terrassier, J.-C., 1999. Les enfants surdoués, ou la précocité embarrassante, 4ème édition. ESF, Paris. Thurstone, L.L., 1938. Primary mental abilities. Chicago University Press, Chicago. Truscott, S.D., Frank, A.J., 2001. Does Flynn effect affect IQ scores of students classified as LD? Journal of School Psychology 39, 319–334. Tulsky, D.S., Saklofske, D.H., Wilkins, C., Weiss, L.G., 2001. Development of a General Ability Index for the Wechsler Adult Intelligence Scale - Third Edition. Psychological Assessment 13, 566–571. van der Linden, W.J., Hambleton, R.K., 1997. Handbook of modern item response theory. Springer Verlaag, New York. Van der Ven, A.H.G.S., Ellis, J.L., 2000. A Rasch analysis of Raven’s Standard Progressives Matrices. Personality and Individual Differences 29, 45–64. Vrignaud, P., 1996. Les tests au XXI e siècle. Que peut-on attendre des évolutions méthodologiques et technologiques dans le domaine de l’évaluation des personnes ? Pratiques Psychologiques 4, 5–27. Vrignaud, P., 2002. L’identification des surdoués : chimère psychométrique ou réalité psychologique ? Communication présentée aux 15 es Journées de Psychologie Différentielle, 10–13 septembre, Rouen. Wainer, H., 2000. Computerized adaptive testing: A primer, 2nd Edition. Lawrence Erlbaum Associates, Mahwah. Watkins, M.W., Greenwalt, C.G., Marcell, C.M., 2002. Factor structure of the Wechsler Intelligence Scale for Children-Third Edition among gifted students. Educational and Psychological Measurement 62, 164–172. Wheaton, P.-J., Vandergriff, A.-F., 1978. Comparison of WISC and WISC-R scores of highly gifted students in public school. Psychological Reports 43, 627–630. Wheaton, P.-J., Vandergriff, A.-F., Nelson, W.-H., 1980. Comparability of the WISC and WISC-R with bright elementary school students. Journal of School Psychology 18, 271–275. Wechsler, D., 1956. La mesure de l’intelligence chez l’adulte. PUF, Paris. Wechsler, D., 1995. WPPSI-R : Échelle d’intelligence de Wechsler pour la période préscolaire et primaire (forme révisée). Éditions du Centre de Psychologie Appliquée, Paris. Wechsler, D., 1996. WISC-III: Échelle d’intelligence de Wechsler pour enfants (troisième édition). Éditions du Centre de Psychologie Appliquée, Paris. Wechsler, D., 2000. WAIS-III : Échelle d’intelligence de Wechsler pour adultes (troisième édition). Éditions du Centre de Psychologie Appliquée, Paris. Wright, L., Borland, J.H., 1993. Using early childhood developmental portfolios in the identification and education of young, economically disadvantaged, potentially gifted students. Roeper Review 15, 205–210. X. Caroff / Psychologie française 49 (2004) 233–251 251 Ziegler, A., Raul, T., 2000. Myth and reality: A review of empirical studies on giftedness. High Abilities Studies 11, 113–136. Ziegler, A., Heller, K.A., 2000. Conceptions of giftedness from a meta-theoretical perspective. In: Heller, K.A., Mönks, F.J., Sternberg, R.J., Subotnik, R.F. (Eds.). International Handbook of Giftedness and talent. Pergamon Press, Elmsford, pp. 3–21.