Les deux dimensions des tests psychométrie et édumétrie
Transcription
Les deux dimensions des tests psychométrie et édumétrie
LES DEUX DIMENSIONS DES TESTS PSYCHOMETRIE ET EDUMETRIE1 Ronald P. Carver Traduit par Marc Demeuse 1. Introduction Les développements récents dans le domaine des tests impliquent la préparation et la construction de tests à référence critériée2. La notion de tests critériés peut être définie comme « l’établissement d’une mesure qui est directement interprétable en termes de standards de performance » (Glaser & Nitko, 1971, p. 653). Les tests traditionnels, c’est-àdire ceux qui sont élaborés pour mesurer un individu par rapport à un groupe de référence, ont été appelés tests à référence normative3 (cf. Popham, 1971). La distinction entre les nouveaux tests à référence critériée et les tests traditionnels à référence normative est importante. Cependant, la distinction est aussi trompeuse. Elle suggère que les nouveaux tests développés doivent être soit référencés à un critère, soit référencés à une norme, de manière mutuellement exclusive. Il s’agit en fait d’une erreur parce qu’un test critérié peut être référencé à un groupe de référence, et un test normatif, l’être à un critère. Il ne s’agit pas seulement d’un problème sémantique sous-jacent au mouvement nouveau de création de tests, mais d’un problème essentiel. Le problème réside dans la distinction entre la mesure des différences individuelles et celle de la mesure (des résultats) de l’apprentissage. Cronbach (1971) souligne que l’engouement pour les tests en psychologie débute avec l’amplification darwinienne des différences entre individus, et tout le travail théorique soustendant le calcul des scores des tests tend à conceptualiser des différences d’aptitudes ou de traits (p. 446). McClelland (1973) soutient, assez justement, que les écoles doivent tester les compétences4, plutôt que les aptitudes5. En d’autres mots, les écoles doivent utiliser davantage les tests critériés que les tests nomatifs. McClelland semble cependant généraliser au-delà du domaine scolaire lorsqu’il affirme que les tests devraient être construits de 1 2 3 4 5 MD : Ces notes s’adressant aussi bien à l’étudiant en psychologie qu’en sciences de l’éducation, nous avons cru utile de reproduire ici en traduction une partie du texte de Ronald P. Carver intitulé « Two Dimensions of Tests. Psychometric and Edumetric », publié en 1974 dans l’American Psychologist, 29(7), 512-518. Ce texte propose une utile distinction entre deux manières de concevoir des tests et d’en analyser les résultats. Les exemples qui sont présentés par l’auteur sont volontairement simplifiés et ne permettent pas toujours de contrôler l’ensemble des biais relatifs à la mesure. Ils doivent être pris uniquement dans le sens d’une illustration. Nous n’avons pas traduit l’analyse d’un exemple particulier proposée par l’auteur (pp. 515-516) parce qu’il fait référence à des instruments américains anciens qui ne sont pas susceptibles d’évoquer quelque chose au lecteur francophone actuel. Nous avons conservé le ton polémique du texte original. Lorsque l’auteur fait référence à des développements récents, il faudra garder à l’esprit qu’il s’agit d’un texte écrit il y a plus d’un quart de siècle. Il n’en reste pas moins vrai que celui-ci conserve tout son intérêt (et que la théorie classique des tests à laquelle il s’oppose pour partie et dont nous avons présenté les développements dans les chapitres précédents, est encore bien plus ancienne !). MD : En anglais : criterion-referenced tests. Pour alléger le texte, nous utiliserons aussi bien « test à référence critériée » que « test critérié ». MD : En anglais : norm-referenced tests. Pour alléger le texte, nous utiliserons aussi bien « test à référence normative » que « test normatif ». MD : En anglais : competence. MD : En anglais : ability. Partie VI - Chapitre 3 263 Carver Les deux dimensions des tests manière à refléter ce que les individus ont appris (p. 8). Tous les tests ne doivent néanmoins pas maximiser la sensibilité à l’accroissement de l’expérience ou des connaissances des sujets. Certains tests doivent aussi pouvoir mesurer les aptitudes. La thèse développée [par Carver] dans cet article est qu’il existe de la place pour les tests qui s’intéressent aux différences stables entre individus et ceux qui mesurent les gains réalisés par les individus eux-mêmes. Chacune de ces deux préoccupations peut être considérée comme une dimension particulière de tout test. Tous les tests, jusqu’à un certain point, peuvent refléter à la fois les différences entre les individus et les progrès individuels. A cause de leur design et de leur développement, cependant, la plupart des tests sont mieux à même de mesurer l’une ou l’autre chose. Le test qui a été développé pour mesurer les différences inter-individuelles a été baptisé du terme de « test psychométrique ». Cette dimension du test est donc logiquement appelée « dimension psychométrique ». Un test peut ainsi être évalué en fonction de ses qualités psychométriques, c’est-à-dire, la mesure dans laquelle il reflète correctement des différences inter-individuelles stables, ce qui constitue traditionnellement l’intérêt premier du psychologue. L’autre dimension d’un test peut être appelée « dimension édumétrique » (cf. Carver, 1972, 1973). Un test peut être évalué en fonction de ses qualités édumétriques, c’està-dire la mesure dans laquelle il reflète les différences intra-individuelles liées aux développements des individus eux-mêmes, ce qui constitue plus généralement l’intérêt premier des tests dans le domaine de l’éducation. Les tests préparés par les enseignants, par exemple, sont ordinairement plus centrés sur la dimension édumétrique que sur la dimension psychométrique. La difficulté qui consiste à conserver séparées, d’un point de vue conceptuel, les dimensions psychométriques et édumétriques a conduit à un certain nombre de confusions lors de l’évaluation de tests. Par exemple, les Standards for Educational and Psychological Test and Manual de l’Américan Psychological Association (1966)1 établit que le résultat des études relatives à la fidélité est habituellement communiqué en termes de variances d’erreur (ou de sa racine carré) ou d’erreur standard de mesure, ou de coefficients de fidélité2 (p. 29). Cette centration sur la variance ou les coefficients de corrélation est totalement pertinente dans la perspective d’évaluer les propriétés psychométriques d’un test, mais complètement hors de propos lorsqu’il s’agit de ses qualités édumétriques. Un test peut ainsi être parfaitement fidèle d’un point de vue édumétrique, alors qu’en même temps il est parfaitement non fidèle d’un point de vue psychométrique. Les Standards évoqués ci-dessus ne font malheureusement pas cette distinction, mais reflètent bien la tendance générale conduisant à évaluer tous les tests d’un point de vue psychométrique. Ils marquent en effet peut d’intérêt pour le fait qu’il est parfaitement possible qu’un test soit extrêment bon d’un point de vue édumétrique et extrêmement mauvais d’un point de vue psychométrique. 1 2 MD : association professionnelle regroupant les psychologues américains. La dernière édition des "Standards for Educational and Psychological Testing" a été publiée en 2002, conjointement par l'American Educational Research Association, l'American Psychological Association et le National Council on Measurement in Education. Il n'existe pas de document équivalent en langue française. Le texte américain précise (p. 137), dans le chapitre consacré à l'Educational Testing and Assessment que les informations récoltées par les tests sont aussi destinées à évaluer et contrôler la qualité des programmes éducatifs et déduire le succès de politiques éducatives ou d'interventions. Plus loin (p. 139), le texte souligne la difficulté de concilier les impératifs différents (évaluer les élèves, mais aussi les programmes d'enseignement). Il convient donc toujours d'apprécier la validité des instruments en regard des objectifs et des résultats qui sont ainsi obtenus. MD : En fait, Carver évoque les « product-moment reliability coefficients ». Il fait référence aux indices de fidélités abordés dans le chapitre qui a été consacré à ce sujet. Partie VI - Chapitre 3 264 Carver Les deux dimensions des tests La suite de ce chapitre se concentrera sur la manière d’évaluer un test, aussi bien selon la dimension psychométrique que selon la dimension édumétrique. 2. Les objectifs 2.1. Psychométrie Si l’objectif premier d’un test est de mesurer les différences individuelles, par exemple, une aptitude générale ou un trait, le test doit d’abord être évalué selon des principes psychométriques. Cependant, il peut également être évaluer d’un point de vue édumétrique. 2.2. Edumétrie Quand l’objectif premier d’un test est de mesurer des gains ou le développement de certains individus, par exemple la mesure de connaissances, d’habiletés ou de réussites, le test doit d’abord être évalué selon des principes édumétriques, même si le test peut, par la suite, être évalué d’un point de vue psychométrique. 2.3. Exemple L’objectif premier d’un test d’aptitude mathématique consiste à refléter les différences stables qui peuvent exister entre individus de manière à prédire la réussite à une variété de tâches de nature mathématique. L’objectif de ce type de tests peut être de prédire, par exemple, le temps plus ou moins long qui sera nécessaire à des élèves de 8e année d’étude pour apprendre à calculer la racine carrée d’un nombre quelconque. Cependant, si le test avait été développé de manière à déterminer si un individu a appris ou non à calculer une racine carrée, l’objectif serait d’abord édumétrique. 3. La sélection des items 3.1. Psychométrie Les items les plus efficaces, d’un point de vue psychométrique, sont ceux qui obtiennent un taux de réussite de 0,50 (c’est-à-dire p=0,50). Les items qui sont réussis par tous les étudiants ou ceux qu’aucun étudiant ne réussit sont alors supprimés ou révisés. La qualité psychométrique d’un test est maximisée quand p=0,50 parce que c’est pour cette valeur que la variance des scores de test est la plus grande. Des variances plus faibles diminuent automatiquement la fidélité et la validité, d’un point de vue psychométrique. Une autre manière de sélectionner les « bons » items d’un point de vue psychométrique est de se rapporter aux corrélations item-test1. En corrélant les scores de chaque item d’un test avec le score total du test, les items qui obtiennent les corrélations les plus élevées sont sélectionnés parce qu’ils sont les items qui discriminent le mieux parmi les individus soumis à ce test. Les items qui tendent à être réussis par tous ou auxquels tous les individus échouent auront automatiquement des corrélations basses avec le score total et seront donc rejetés. 3.2. Edumétrie Les items les plus efficaces d’un point de vue édumétrique sont ceux qui maximisent la sensibilité aux progrès ou aux gains. Le meilleur item, de ce point de vue, est celui qui subit la plus forte augmentation de réussite dans les conditions d’un prétest-posttest. Une façon de sélectionner les meilleurs items d’un point de vue édumétrique, c’est d’administrer ceux-ci de manière à ce qu’ils puissent refléter au mieux un changement ou un progrès et de sélectionner 1 MD : par exemple à l’aide du r.bis (coefficient de corrélation bisériale). Partie VI - Chapitre 3 265 Carver Les deux dimensions des tests ceux qui connaissent les plus forts gains. Les meilleurs items sont alors ceux qui ont une valeur p proche de 0,00 avant traitement et une valeur p proche de 1,00 après le traitement. 3.3. Exemple [Dans une perspective psychométrique,] le test d’aptitude mathématique, mentionné précédemment, peut être développé en administrant un ensemble d’items à un groupe d’élèves de 8e année et en supprimant les items qui sont réussis ou ratés par presque tous les élèves. [Par contre, dans une perspective édumétrique,] le test de la racine carrée, qui a également été évoqué ci-dessus, peut être développé en administrant un ensemble d’items à un groupe d’étudiants qui n’a jamais été confronté à un apprentissage dans ce domaine et à un autre groupe d’étudiants qui a reçu un apprentissage à ce sujet. Les items qui montrent peu de différences entre les deux groupes seront écartés. 4. Validité 4.1. Psychométrie Pour évaluer empiriquement la validité psychométrique d’un test, les différences individuelles au test peuvent être comparées aux différences individuelles sur une autre variable qui est réputée liée largement au critère. Si les discriminations opérées par le test au sein des individus s’effectuent d’une manière approximativement identique à celles qui peuvent être opérées à travers l’autre variable, prise comme critère, on a mis en évidence une preuve empirique de la validité du test. La preuve empirique, pertinente dans le domaine de la psychométrie, peut être habituellement obtenue en administrant le test à un seul groupe de sujets, lors d’une seule passation. 4.2. Edumétrie Pour évaluer empiriquement la validité d’un test, il est nécessaire de mettre en évidence sa sensibilité aux gains ou aux progrès des sujets. Si un test reflète peu les gains ou les progrès dans une situation dans laquelle des gains ou des progrès importants sont attendus, la validité d’un point de vue édumétrique est mise en faux. Cette validité édumétrique n’est habituellement pas déterminée par l’administration à un seul groupe de sujet d’un test à une seule occasion. De manière classique, le test doit être administré à deux moments ou dans deux conditions entre lesquelles des gains ou des progrès sont attendus. L’importance des gains observés peut alors être comparée à l’importance des gains attendus de manière à estimer la validité édumétrique du test. 4.3. Exemple L’estimation empirique de la validité psychométrique d’un test d’aptitude en mathématique peut être réalisée en administrant le test à un groupe d’individus dont les aptitudes ont été évaluées par un enseignant sur une échelle en 7 points allant de « aptitude faible » à « aptitude élevée ». La corrélation entre le score du test et la valeur obtenue sur l’échelle peut refléter l’importance de la validité psychométrique du test. L’estimation empirique de la validité édumétrique du test de racine carrée peut être réalisée en administrant le test à un groupe d’individus à la fois avant et après un enseignement relatif à ce sujet. Le degré de sensibilité du test aux progrès des élèves peut refléter la validité édumétrique du test. Partie VI - Chapitre 3 266 Carver Les deux dimensions des tests 5. Fidélité 5.1. Psychométrie La fidélité est conceptuellement un synonyme de régularité1. La fidélité psychométrique signifie qu’un test peut être vu comme capable de discriminer, de manière stable, entre individus d’une passation à une autre. La variance des scores de test a une grande importance dans ce type de fidélité ; c’est-à-dire que plus faible sera la variance, plus grand est le risque que la capacité de discrimination se modifie d’une passation à l’autre. La fidélité psychométrique est correctement estimée en termes de variance d’erreur, de coefficient de fidélité et d’erreur standard de mesure. Toutes ces statistiques sont dépendantes de la variance ; s’il n’y a pas de variance, alors, par définition, il ne peut pas y avoir de fidélité psychométrique. 5.2. Edumétrie La fidélité édumétrique est aussi un problème de cohérence, mais pas de cohérence dans la discrimination des individus entre eux. La fidélité édumétrique est à mettre en rapport avec la cohérence des gains ou des progrès individuels qui sont reflétés par le test. Une bonne façon d’estimer la fidélité d’un test édumétrique pourrait consister à administrer des formes parallèles d’un test à la fois avant et après une situation d’apprentissage. La fidélité des gains ou des progrès entre les formes pourrait fournir une bonne estimation de cette fidélité. Une autre solution pour estimer cette fidélité pourrait consister à administrer des formes parallèles dans les mêmes conditions de traitement et ensuite de déterminer la mesure dans laquelle les scores individuels sont identiques pour les deux formes. Il est important de reconnaître que la fidélité édumétrique n’est pas dépendante de la variance des scores de test, comme la fidélité psychométrique. Peut-être est-ce cet aspect qui permet le mieux de distinguer la dimension édumétrique de la dimension psychométrique. Comme mentionné plus haut, un test peut être parfaitement fidèle d’un point de vue édumétrique et, en même temps, parfaitement non fidèle d’un point de vue psychométrique (cf. Stanley, 1971). Un test est considéré comme psychométriquement fidèle s’il produit les mêmes discriminations entre les individus dans deux occasions différentes, alors qu’un test édumétrique sera considéré comme fidèle s’il produit les mêmes discriminations relativement aux individus eux-mêmes alors qu’ils sont mesurés à deux occasions différentes. 5.3. Exemple Le test d’aptitude mathématique peut être considéré comme extrêmement non fidèle si tous les individus dans une classe obtiennent le même score, parce que ce test aura été essentiellement évalué sous un angle psychométrique. Cependant, le test de la racine carrée peut être extrêmement fidèle si tous les élèves d’une classe obtiennent le même score parce que le test est essentiellement évalué d’un point de vue édumétrique. Dans la seconde situation, le test de la racine carré serait par contre considéré comme extrêmement peu fidèle d’un point de vue psychométrique. 6. Interprétation du score 6.1. Psychométrie Les scores bruts au test ne sont habituellement pas interprétés psychométriquement parce que les scores ne signifient rien par eux-mêmes à moins d’être comparés à un score moyen en termes de déviation à la moyenne ou de percentile d’un groupe de référence. Ainsi, les scores 1 MD : En anglais : consistency. Partie VI - Chapitre 3 267 Carver Les deux dimensions des tests psychométriques peuvent-ils être des scores z, des scores T, des stanines, des percentiles ou toute autre type dérivé de ces différentes approches. Les scores psychométriques sont mis au point de manière à fournir des comparaisons entre individus. 6.2. Edumétrie Les scores bruts à un test peuvent être interprétés dans une perspective édumétrique. Un score édumétrique a un sens, en relation avec le critère, l’objectif visé ou l’échelle qui est indépendante des différences entre individus. Un score édumétrique peut aussi être converti en score psychométrique de manière à apporter d’autres informations. Par exemple, un score édumétrique peut être converti en percentile en référence à une norme de manière à fournir une estimation du nombre de sujets du groupe de référence qui obtiendraient un score inférieur à un score édumétrique donné dans des circonstances identiques. 6.3. Exemple Le score brut à un test d’aptitude en mathématique ne peut généralement pas être interprété à moins de le comparer à un score moyen d’un groupe de référence. Cependant, le score du test de la racine carrée pourra habituellement être directement interprété parce qu’il signifie quelque chose par rapport à la tâche à accomplir elle-même. Cette interprétation ne sera pas dépendante du score moyen d’un groupe de référence. […] 7. Discussion La mesure de gains ou de progrès a toujours constitué un épineux problème pour les psychologues en général et les psychométriciens en particulier (Harris, 1963). Beraiter (1963) déclare que c’est uniquement lorsqu’il s’agit de mesurer des changements qu’il a entendu des collègues admettre avoir abandonné la poursuite d’un objectif de recherche parce que les problèmes statistiques semblaient insurmontables. Plus récemment, Cronbach et Furby (1970) suggèrent que les chercheurs qui posent des questions relatives aux scores de gains seraient plus avisés de poser leurs questions autrement (p. 80). Parce que les gains ou les changements constituent un aspect des sciences qui fascine le plus les chercheurs, il est surprenant de lire l’argument de Cronbach et Furby qui consiste à affirmer que les scores de gain sont rarement utiles, quelle que soit la manière dont ils ont pu être construits ou améliorés (p. 68). Ces problèmes, liés à la mesure de gains ou de changements, ont toujours impliqué, jusqu’ici, des modèles corrélationnels, c’est-à-dire psychométriques. Par exemple, Cronbach et Furby définissent la fidélité des gains ou des scores de différence comme la corrélation du score avec une différence observée indépendamment (p. 70). Le score de gain dans un test édumétrique parfaitement fidèle, c’est-à-dire que chacun rate avant l’apprentissage et que chacun réussit à la suite de celui-ci, aura une corrélation absolument nulle avec toute autre variable1, et en ce sens sera totalement non fidèle selon le modèle psychométrique de Cronbach et Furby. Il semble raisonnable de s’accorder avec Cronbach et Furby sur le fait que les scores de gain, au départ de tests développés dans une perspective psychométrique, seront rarement intéressants, quels que soient les raffinements ultérieurs. Néanmoins, il est absurde de suggérer que les scores de gains, développés dans les tests édumétriques, sont rarement utiles. A la réflexion, il est très surprenant que les psychométriciens aient connus autant de problèmes avec les scores de gain à des tests. Si un test est construit selon les meilleurs 1 MD : Puisque tous les scores des sujets sont identiques à un moment donné, il n’est pas possible de calculer la corrélation de ce score avec une autre variable. Partie VI - Chapitre 3 268 Carver Les deux dimensions des tests principes psychométriques, il serait vraiment très chanceux que le score de test puisse refléter correctement un gain. Si les scores qui mesurent des gains sont bien construits, c’est que le test a été préparé, développé et évalué dans une perspective édumétrique. En outre, le psychométricien qui désire mesurer et étudier un gain doit reconnaître que les statistiques psychométriques, comme les variances et les corrélations, apparaissent comme inappropriées. Le recours aux principes édumétriques devrait conduire à bien plus de succès. La distinction entre la dimension psychométrique et la dimension édumétrique a été, depuis toujours, bien comprise, de manière intuitive, par les expérimentateurs. Par exemple, dans les recherches sur la lecture, le chercheur peut développer un test comportant 12 questions à choix multiple de manière à savoir ce qui a pu être appris de la lecture d’un bref passage. La fidélité, c’est-à-dire la fidélité psychométrique, d’un si court test est nécessairement très basse. Néanmoins, ce type de fidélité n’est jamais prise en compte par l’expérimentateur parce que ce qui l’intéresse dans ce test, c’est sa sensibilité aux gains et aux changements qui peuvent résulter du traitement expérimental. L’expérimentateur est uniquement intéressé par la validité édumétrique du test. La raison principale du problème que rencontre le psychométricien dans le domaine de la mesure d’un gain ou d’un changement, c’est qu’il existe alors un traitement qui modifie la situation et qui amène le psychométricien sur le terrain de l’expérimentateur. Le psychométricien tente alors d’appliquer les principes de la psychométrie dans le domaine de l’expérimentation bien que ceux-ci y soient, par définition, inappropriés. Beaucoup de psychologues ont favorisé l’utilisation de tests psychométriques en éducation. Mais puisque le domaine de l’éducation implique généralement l’effet de traitements, il est aisé de constater que l’approche édumétrique intuitive de l’expérimentateur est beaucoup plus appropriée en éducation que l’approche basée sur les différences entre individus du psychométricien. Le danger qui résulte du recours à l’approche psychométrique en éducation consiste à mesurer les effets de l’éducation par des tests psychométriques et d’en déduire que l’enseignement est inefficace parce que les tests n’ont pas été construits ou développés de manière à être sensibles aux progrès et aux changements. Un exemple de ce danger peut être trouvé dans The Equality of Educational Opportunity Report (Coleman et al., 1966) qui fut commandité par le Congrès [des Etats-Unis]. Cette recherche utilise des tests psychométriques et des analyses de même nature et démontre que les différences entre les individus contribuent davantage à la variance des scores de tests que les différences entre écoles. Ce résultat a été interprété dans le domaine de la politique fédérale de financement des écoles (Mostller & Moyihan, 1972) parce que les écoles apparaissaient comme ayant peu d’impact sur les résultats des élèves. Il a déjà été souligné que les tests développés dans une perspective psychométrique ont été construits justement de manière à produire ce type de résultats, aussi ces résultats ne doivent-ils pas surprendre, ni être utilisés pour modifier la politique fédérale de financement1. Les tests standardisés de réussite scolaire2 ont été utilisés de manière à évaluer les programmes nouveaux et les innovations en éducation et beaucoup de systèmes scolaires utilisent de tels tests pour évaluer enseignants et écoles. Ces tests ont généralement une approche psychométrique, mais ils peuvent ne pas être très sensibles aux différences de traitements éducatifs ; c’est-à-dire qu’ils constituent en fait de bons tests d’aptitude, mais de bien piètres tests de réussite scolaire. Ainsi, il est bien possible que les différences entre une bonne éducation et une mauvaise semblent erronément faibles parce que les tests ont été 1 2 R.P. Carver. « The Coleman Report : Using Inappropriately Designed Achievement Tests. » Unpublished manuscript, 1974. Ndt : cet article est paru en 1975 dans la revue American Educational Research Journal, 12(1), 77-86. MD : En anglais : Standardized achievement tests. Partie VI - Chapitre 3 269 Carver Les deux dimensions des tests construits de manière telle qu’ils sont plus sensibles aux différences d’aptitudes1 qu’aux différences de traitement. Le développement croissant des tests à référence critériée indique que l’intérêt se porte de plus en plus vers la dimension édumétrique. Cependant, il n’est généralement pas reconnu que les tests à référence critériée peuvent avoir ou non une perspective psychométrique ou édumétique et que les tests à référence normative peuvent également adopter l’une ou l’autre de ces perspectives. La psychométrie a une longue histoire, parfaitement documentée, un association professionnelle active, un journal, une influence écrasante dans le domaine des tests, et dispose de multiples procédures et de techniques statistiques. L’édumétrie est encore juste un peu plus qu’une idée. Cependant, il existe peu de chance de faire des progrès importants dans le domaine de la mesure des gains, des changements et des progrès ou de la réussite scolaire à moins de prendre en compte la dimension édumétrique. 8. Conclusion Lorsqu’il s’agit de mesurer des différences entre individus, le test doit être développé de manière à maximiser la sensibilité aux différences entre les individus. De la même manière, quand on souhaite mesurer un gain ou un progrès individuel, le test doit être développé de manière à maximiser la sensibilité aux gains réalisés par les individus. La plupart des tests sont sensibles à la fois aux différences entre les individus et aux gains ou aux progrès que ceux-ci peuvent réaliser, mais à cause de certaines techniques utilisées lors du développement des tests, l’une de ces deux perspectives est privilégiée. Ces deux dimensions des tests sont appelées dimensions psychométrique et édumétrique. Un test peut être évalué en fonction de ses deux dimensions psychométrique et édumétrique. Du fait de la centration traditionnelle sur la dimension psychométrique, beaucoup de tests standardisés sont utilisés pour mesurer des gains ou des progrès sans avoir été développés ou évalués dans une perspective édumétrique. Le danger de cette approche est que les tests psychométriques ne soient en fait pas sensibles aux gains qui, pourtant, peuvent exister. Miller (1969) encouragea les psychologues à exporter leur savoir dans d’autres disciplines. Il semble bien que les psychologues aient ainsi exporté les tests psychométriques dans le domaine de l’éducation alors que celle-ci a besoin de tests édumétriques. La dimension édumétrique des tests a été douloureusement négligée par les psychologues impliqués dans le domaine des tests. Les expérimentateurs, dans le domaine de la psychologie, savent intuitivement que les principes de la psychométrie sont non pertinents et que ceux de l’édumétrie le sont nécessaires lorsqu’ils veulent mesurer un apprentissage. Il faut espérer que les futurs tests seront développés et évalués en tenant compte des deux dimensions, de telle manière que les chercheurs et les praticiens obtiennent de meilleurs tests qui comblent les problèmes posés par la mesure. Bibliographie American Psychology Association (1966). Standards for education and psychological tests and manuals. Washington, D.C. : APA. Anderson, R.C. (1972). How to construct achievement tests to assess comprehension. Review of Educational Research, 42,145-170. 1 MD : Ils sont sans doute aussi beaucoup plus sensibles à des variables externes et stables, comme les caractéristiques socio-économiques des élèves. Partie VI - Chapitre 3 270 Carver Les deux dimensions des tests Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. Madison : University of Wisconsin Press. Carver, R.P. (1972). Reading tests in 1970 versus 1980 : psychometric versus edumetric. Reading Teacher, 26, 229-302. Carver, R.P. (1972-1973). Analysis of the Chunked Reading Tests and Reading comprehension. Journal of Reading Behavior, 5, 282-296. Coleman, J .S., Campbell, E.Q., Hobson, C.J., McPartland, J., Mood, A.M., Weinfeld, F .D., York, R.L. (1966). Equality of educational opportunity. 2 vols. Washington, D.C. : Office of Education, U.S. Department of Health, Education, and Welfare, U.S. Government Printing Office (OE-38001 ; Superintendent of Documents Catalog No. FS 5.238 ; 38001.). Cronbach, L .J., (1971). Test validation. In R.L. THORNDIKE (Ed.), Educational measurement. Washington, D.C. : American Council on Education. Cronbach, L.J., Furby, L. (1970). How we should measure « change » - Or should we ? Psychological Bulletin, 1, 68-80. Glaser, R., Nitko, A.J. (1971). Measurement in learning and instruction. In R.L. Thorndike (Ed.), Educational measurement. Washington, D.C. : American Council on Education. Harris, C.W. (Ed.) (1963). Problems in measuring change. Madison : University of Wisconsin Press. McClelland, D.C. (1973). Testing for competence rather than for intelligence. American Psychologist, 28, 1-14. Miller, G.A. (1969). Psychology as a means of promoting human welfare. American Psychologist, 24, 1063-1075. Mosteller, F., Moynihan, D.P. (1972). A path breaking report. In F. Mosteller & D.P. Moynihan (Eds.), On equality of educational opportunity. New York : Vintage Books. Popham, W.J. (1971). Criterion-referenced measurement : An introduction. Englewood Cliffs, N.J. : Educational Technology Publications. Stanley, J.C. (1971). Reliability. In R.L. Thorndike (Ed.), Educational measurement. Washington, D.C. : American Council on Education. Partie VI - Chapitre 3 271