Les deux dimensions des tests psychométrie et édumétrie

Transcription

Les deux dimensions des tests psychométrie et édumétrie
LES DEUX DIMENSIONS DES TESTS
PSYCHOMETRIE ET EDUMETRIE1
Ronald P. Carver
Traduit par Marc Demeuse
1. Introduction
Les développements récents dans le domaine des tests impliquent la préparation et la
construction de tests à référence critériée2. La notion de tests critériés peut être définie
comme « l’établissement d’une mesure qui est directement interprétable en termes de
standards de performance » (Glaser & Nitko, 1971, p. 653). Les tests traditionnels, c’est-àdire ceux qui sont élaborés pour mesurer un individu par rapport à un groupe de référence, ont
été appelés tests à référence normative3 (cf. Popham, 1971). La distinction entre les
nouveaux tests à référence critériée et les tests traditionnels à référence normative est
importante. Cependant, la distinction est aussi trompeuse. Elle suggère que les nouveaux tests
développés doivent être soit référencés à un critère, soit référencés à une norme, de manière
mutuellement exclusive. Il s’agit en fait d’une erreur parce qu’un test critérié peut être
référencé à un groupe de référence, et un test normatif, l’être à un critère.
Il ne s’agit pas seulement d’un problème sémantique sous-jacent au mouvement nouveau de
création de tests, mais d’un problème essentiel. Le problème réside dans la distinction entre la
mesure des différences individuelles et celle de la mesure (des résultats) de l’apprentissage.
Cronbach (1971) souligne que l’engouement pour les tests en psychologie débute avec
l’amplification darwinienne des différences entre individus, et tout le travail théorique soustendant le calcul des scores des tests tend à conceptualiser des différences d’aptitudes ou de
traits (p. 446). McClelland (1973) soutient, assez justement, que les écoles doivent tester les
compétences4, plutôt que les aptitudes5. En d’autres mots, les écoles doivent utiliser
davantage les tests critériés que les tests nomatifs. McClelland semble cependant généraliser
au-delà du domaine scolaire lorsqu’il affirme que les tests devraient être construits de
1
2
3
4
5
MD : Ces notes s’adressant aussi bien à l’étudiant en psychologie qu’en sciences de l’éducation, nous avons
cru utile de reproduire ici en traduction une partie du texte de Ronald P. Carver intitulé « Two Dimensions of
Tests. Psychometric and Edumetric », publié en 1974 dans l’American Psychologist, 29(7), 512-518.
Ce texte propose une utile distinction entre deux manières de concevoir des tests et d’en analyser les
résultats. Les exemples qui sont présentés par l’auteur sont volontairement simplifiés et ne permettent pas
toujours de contrôler l’ensemble des biais relatifs à la mesure. Ils doivent être pris uniquement dans le sens
d’une illustration. Nous n’avons pas traduit l’analyse d’un exemple particulier proposée par l’auteur
(pp. 515-516) parce qu’il fait référence à des instruments américains anciens qui ne sont pas susceptibles
d’évoquer quelque chose au lecteur francophone actuel.
Nous avons conservé le ton polémique du texte original. Lorsque l’auteur fait référence à des
développements récents, il faudra garder à l’esprit qu’il s’agit d’un texte écrit il y a plus d’un quart de siècle.
Il n’en reste pas moins vrai que celui-ci conserve tout son intérêt (et que la théorie classique des tests à
laquelle il s’oppose pour partie et dont nous avons présenté les développements dans les chapitres précédents,
est encore bien plus ancienne !).
MD : En anglais : criterion-referenced tests. Pour alléger le texte, nous utiliserons aussi bien « test à
référence critériée » que « test critérié ».
MD : En anglais : norm-referenced tests. Pour alléger le texte, nous utiliserons aussi bien « test à référence
normative » que « test normatif ».
MD : En anglais : competence.
MD : En anglais : ability.
Partie VI - Chapitre 3
263
Carver
Les deux dimensions des tests
manière à refléter ce que les individus ont appris (p. 8). Tous les tests ne doivent néanmoins
pas maximiser la sensibilité à l’accroissement de l’expérience ou des connaissances des
sujets. Certains tests doivent aussi pouvoir mesurer les aptitudes.
La thèse développée [par Carver] dans cet article est qu’il existe de la place pour les tests qui
s’intéressent aux différences stables entre individus et ceux qui mesurent les gains réalisés par
les individus eux-mêmes. Chacune de ces deux préoccupations peut être considérée comme
une dimension particulière de tout test. Tous les tests, jusqu’à un certain point, peuvent
refléter à la fois les différences entre les individus et les progrès individuels. A cause de leur
design et de leur développement, cependant, la plupart des tests sont mieux à même de
mesurer l’une ou l’autre chose.
Le test qui a été développé pour mesurer les différences inter-individuelles a été baptisé du
terme de « test psychométrique ». Cette dimension du test est donc logiquement appelée
« dimension psychométrique ». Un test peut ainsi être évalué en fonction de ses qualités
psychométriques, c’est-à-dire, la mesure dans laquelle il reflète correctement des différences
inter-individuelles stables, ce qui constitue traditionnellement l’intérêt premier du
psychologue. L’autre dimension d’un test peut être appelée « dimension édumétrique » (cf.
Carver, 1972, 1973). Un test peut être évalué en fonction de ses qualités édumétriques, c’està-dire la mesure dans laquelle il reflète les différences intra-individuelles liées aux
développements des individus eux-mêmes, ce qui constitue plus généralement l’intérêt
premier des tests dans le domaine de l’éducation. Les tests préparés par les enseignants, par
exemple, sont ordinairement plus centrés sur la dimension édumétrique que sur la dimension
psychométrique.
La difficulté qui consiste à conserver séparées, d’un point de vue conceptuel, les dimensions
psychométriques et édumétriques a conduit à un certain nombre de confusions lors de
l’évaluation de tests. Par exemple, les Standards for Educational and Psychological Test and
Manual de l’Américan Psychological Association (1966)1 établit que le résultat des études
relatives à la fidélité est habituellement communiqué en termes de variances d’erreur (ou de
sa racine carré) ou d’erreur standard de mesure, ou de coefficients de fidélité2 (p. 29). Cette
centration sur la variance ou les coefficients de corrélation est totalement pertinente dans la
perspective d’évaluer les propriétés psychométriques d’un test, mais complètement hors de
propos lorsqu’il s’agit de ses qualités édumétriques. Un test peut ainsi être parfaitement fidèle
d’un point de vue édumétrique, alors qu’en même temps il est parfaitement non fidèle d’un
point de vue psychométrique. Les Standards évoqués ci-dessus ne font malheureusement pas
cette distinction, mais reflètent bien la tendance générale conduisant à évaluer tous les tests
d’un point de vue psychométrique. Ils marquent en effet peut d’intérêt pour le fait qu’il est
parfaitement possible qu’un test soit extrêment bon d’un point de vue édumétrique et
extrêmement mauvais d’un point de vue psychométrique.
1
2
MD : association professionnelle regroupant les psychologues américains. La dernière édition des "Standards
for Educational and Psychological Testing" a été publiée en 2002, conjointement par l'American Educational
Research Association, l'American Psychological Association et le National Council on Measurement in
Education. Il n'existe pas de document équivalent en langue française. Le texte américain précise (p. 137),
dans le chapitre consacré à l'Educational Testing and Assessment que les informations récoltées par les tests
sont aussi destinées à évaluer et contrôler la qualité des programmes éducatifs et déduire le succès de
politiques éducatives ou d'interventions. Plus loin (p. 139), le texte souligne la difficulté de concilier les
impératifs différents (évaluer les élèves, mais aussi les programmes d'enseignement). Il convient donc
toujours d'apprécier la validité des instruments en regard des objectifs et des résultats qui sont ainsi obtenus.
MD : En fait, Carver évoque les « product-moment reliability coefficients ». Il fait référence aux indices de
fidélités abordés dans le chapitre qui a été consacré à ce sujet.
Partie VI - Chapitre 3
264
Carver
Les deux dimensions des tests
La suite de ce chapitre se concentrera sur la manière d’évaluer un test, aussi bien selon la
dimension psychométrique que selon la dimension édumétrique.
2. Les objectifs
2.1. Psychométrie
Si l’objectif premier d’un test est de mesurer les différences individuelles, par exemple, une
aptitude générale ou un trait, le test doit d’abord être évalué selon des principes
psychométriques. Cependant, il peut également être évaluer d’un point de vue édumétrique.
2.2. Edumétrie
Quand l’objectif premier d’un test est de mesurer des gains ou le développement de certains
individus, par exemple la mesure de connaissances, d’habiletés ou de réussites, le test doit
d’abord être évalué selon des principes édumétriques, même si le test peut, par la suite, être
évalué d’un point de vue psychométrique.
2.3. Exemple
L’objectif premier d’un test d’aptitude mathématique consiste à refléter les différences stables
qui peuvent exister entre individus de manière à prédire la réussite à une variété de tâches de
nature mathématique. L’objectif de ce type de tests peut être de prédire, par exemple, le temps
plus ou moins long qui sera nécessaire à des élèves de 8e année d’étude pour apprendre à
calculer la racine carrée d’un nombre quelconque. Cependant, si le test avait été développé de
manière à déterminer si un individu a appris ou non à calculer une racine carrée, l’objectif
serait d’abord édumétrique.
3. La sélection des items
3.1. Psychométrie
Les items les plus efficaces, d’un point de vue psychométrique, sont ceux qui obtiennent un
taux de réussite de 0,50 (c’est-à-dire p=0,50). Les items qui sont réussis par tous les étudiants
ou ceux qu’aucun étudiant ne réussit sont alors supprimés ou révisés. La qualité
psychométrique d’un test est maximisée quand p=0,50 parce que c’est pour cette valeur que la
variance des scores de test est la plus grande. Des variances plus faibles diminuent
automatiquement la fidélité et la validité, d’un point de vue psychométrique. Une autre
manière de sélectionner les « bons » items d’un point de vue psychométrique est de se
rapporter aux corrélations item-test1. En corrélant les scores de chaque item d’un test avec le
score total du test, les items qui obtiennent les corrélations les plus élevées sont sélectionnés
parce qu’ils sont les items qui discriminent le mieux parmi les individus soumis à ce test. Les
items qui tendent à être réussis par tous ou auxquels tous les individus échouent auront
automatiquement des corrélations basses avec le score total et seront donc rejetés.
3.2. Edumétrie
Les items les plus efficaces d’un point de vue édumétrique sont ceux qui maximisent la
sensibilité aux progrès ou aux gains. Le meilleur item, de ce point de vue, est celui qui subit la
plus forte augmentation de réussite dans les conditions d’un prétest-posttest. Une façon de
sélectionner les meilleurs items d’un point de vue édumétrique, c’est d’administrer ceux-ci de
manière à ce qu’ils puissent refléter au mieux un changement ou un progrès et de sélectionner
1
MD : par exemple à l’aide du r.bis (coefficient de corrélation bisériale).
Partie VI - Chapitre 3
265
Carver
Les deux dimensions des tests
ceux qui connaissent les plus forts gains. Les meilleurs items sont alors ceux qui ont une
valeur p proche de 0,00 avant traitement et une valeur p proche de 1,00 après le traitement.
3.3. Exemple
[Dans une perspective psychométrique,] le test d’aptitude mathématique, mentionné
précédemment, peut être développé en administrant un ensemble d’items à un groupe d’élèves
de 8e année et en supprimant les items qui sont réussis ou ratés par presque tous les élèves.
[Par contre, dans une perspective édumétrique,] le test de la racine carrée, qui a également été
évoqué ci-dessus, peut être développé en administrant un ensemble d’items à un groupe
d’étudiants qui n’a jamais été confronté à un apprentissage dans ce domaine et à un autre
groupe d’étudiants qui a reçu un apprentissage à ce sujet. Les items qui montrent peu de
différences entre les deux groupes seront écartés.
4. Validité
4.1. Psychométrie
Pour évaluer empiriquement la validité psychométrique d’un test, les différences individuelles
au test peuvent être comparées aux différences individuelles sur une autre variable qui est
réputée liée largement au critère. Si les discriminations opérées par le test au sein des
individus s’effectuent d’une manière approximativement identique à celles qui peuvent être
opérées à travers l’autre variable, prise comme critère, on a mis en évidence une preuve
empirique de la validité du test. La preuve empirique, pertinente dans le domaine de la
psychométrie, peut être habituellement obtenue en administrant le test à un seul groupe de
sujets, lors d’une seule passation.
4.2. Edumétrie
Pour évaluer empiriquement la validité d’un test, il est nécessaire de mettre en évidence sa
sensibilité aux gains ou aux progrès des sujets. Si un test reflète peu les gains ou les progrès
dans une situation dans laquelle des gains ou des progrès importants sont attendus, la validité
d’un point de vue édumétrique est mise en faux. Cette validité édumétrique n’est
habituellement pas déterminée par l’administration à un seul groupe de sujet d’un test à une
seule occasion. De manière classique, le test doit être administré à deux moments ou dans
deux conditions entre lesquelles des gains ou des progrès sont attendus. L’importance des
gains observés peut alors être comparée à l’importance des gains attendus de manière à
estimer la validité édumétrique du test.
4.3. Exemple
L’estimation empirique de la validité psychométrique d’un test d’aptitude en mathématique
peut être réalisée en administrant le test à un groupe d’individus dont les aptitudes ont été
évaluées par un enseignant sur une échelle en 7 points allant de « aptitude faible » à « aptitude
élevée ». La corrélation entre le score du test et la valeur obtenue sur l’échelle peut refléter
l’importance de la validité psychométrique du test. L’estimation empirique de la validité
édumétrique du test de racine carrée peut être réalisée en administrant le test à un groupe
d’individus à la fois avant et après un enseignement relatif à ce sujet. Le degré de sensibilité
du test aux progrès des élèves peut refléter la validité édumétrique du test.
Partie VI - Chapitre 3
266
Carver
Les deux dimensions des tests
5. Fidélité
5.1. Psychométrie
La fidélité est conceptuellement un synonyme de régularité1. La fidélité psychométrique
signifie qu’un test peut être vu comme capable de discriminer, de manière stable, entre
individus d’une passation à une autre. La variance des scores de test a une grande importance
dans ce type de fidélité ; c’est-à-dire que plus faible sera la variance, plus grand est le risque
que la capacité de discrimination se modifie d’une passation à l’autre. La fidélité
psychométrique est correctement estimée en termes de variance d’erreur, de coefficient de
fidélité et d’erreur standard de mesure. Toutes ces statistiques sont dépendantes de la
variance ; s’il n’y a pas de variance, alors, par définition, il ne peut pas y avoir de fidélité
psychométrique.
5.2. Edumétrie
La fidélité édumétrique est aussi un problème de cohérence, mais pas de cohérence dans la
discrimination des individus entre eux. La fidélité édumétrique est à mettre en rapport avec la
cohérence des gains ou des progrès individuels qui sont reflétés par le test. Une bonne façon
d’estimer la fidélité d’un test édumétrique pourrait consister à administrer des formes
parallèles d’un test à la fois avant et après une situation d’apprentissage. La fidélité des gains
ou des progrès entre les formes pourrait fournir une bonne estimation de cette fidélité. Une
autre solution pour estimer cette fidélité pourrait consister à administrer des formes parallèles
dans les mêmes conditions de traitement et ensuite de déterminer la mesure dans laquelle les
scores individuels sont identiques pour les deux formes. Il est important de reconnaître que la
fidélité édumétrique n’est pas dépendante de la variance des scores de test, comme la fidélité
psychométrique. Peut-être est-ce cet aspect qui permet le mieux de distinguer la dimension
édumétrique de la dimension psychométrique. Comme mentionné plus haut, un test peut être
parfaitement fidèle d’un point de vue édumétrique et, en même temps, parfaitement non fidèle
d’un point de vue psychométrique (cf. Stanley, 1971). Un test est considéré comme
psychométriquement fidèle s’il produit les mêmes discriminations entre les individus dans
deux occasions différentes, alors qu’un test édumétrique sera considéré comme fidèle s’il
produit les mêmes discriminations relativement aux individus eux-mêmes alors qu’ils sont
mesurés à deux occasions différentes.
5.3. Exemple
Le test d’aptitude mathématique peut être considéré comme extrêmement non fidèle si tous
les individus dans une classe obtiennent le même score, parce que ce test aura été
essentiellement évalué sous un angle psychométrique. Cependant, le test de la racine carrée
peut être extrêmement fidèle si tous les élèves d’une classe obtiennent le même score parce
que le test est essentiellement évalué d’un point de vue édumétrique. Dans la seconde
situation, le test de la racine carré serait par contre considéré comme extrêmement peu fidèle
d’un point de vue psychométrique.
6. Interprétation du score
6.1. Psychométrie
Les scores bruts au test ne sont habituellement pas interprétés psychométriquement parce que
les scores ne signifient rien par eux-mêmes à moins d’être comparés à un score moyen en
termes de déviation à la moyenne ou de percentile d’un groupe de référence. Ainsi, les scores
1
MD : En anglais : consistency.
Partie VI - Chapitre 3
267
Carver
Les deux dimensions des tests
psychométriques peuvent-ils être des scores z, des scores T, des stanines, des percentiles ou
toute autre type dérivé de ces différentes approches. Les scores psychométriques sont mis au
point de manière à fournir des comparaisons entre individus.
6.2. Edumétrie
Les scores bruts à un test peuvent être interprétés dans une perspective édumétrique. Un score
édumétrique a un sens, en relation avec le critère, l’objectif visé ou l’échelle qui est
indépendante des différences entre individus. Un score édumétrique peut aussi être converti
en score psychométrique de manière à apporter d’autres informations. Par exemple, un score
édumétrique peut être converti en percentile en référence à une norme de manière à fournir
une estimation du nombre de sujets du groupe de référence qui obtiendraient un score
inférieur à un score édumétrique donné dans des circonstances identiques.
6.3. Exemple
Le score brut à un test d’aptitude en mathématique ne peut généralement pas être interprété à
moins de le comparer à un score moyen d’un groupe de référence. Cependant, le score du test
de la racine carrée pourra habituellement être directement interprété parce qu’il signifie
quelque chose par rapport à la tâche à accomplir elle-même. Cette interprétation ne sera pas
dépendante du score moyen d’un groupe de référence.
[…]
7. Discussion
La mesure de gains ou de progrès a toujours constitué un épineux problème pour les
psychologues en général et les psychométriciens en particulier (Harris, 1963). Beraiter (1963)
déclare que c’est uniquement lorsqu’il s’agit de mesurer des changements qu’il a entendu des
collègues admettre avoir abandonné la poursuite d’un objectif de recherche parce que les
problèmes statistiques semblaient insurmontables. Plus récemment, Cronbach et Furby (1970)
suggèrent que les chercheurs qui posent des questions relatives aux scores de gains seraient
plus avisés de poser leurs questions autrement (p. 80). Parce que les gains ou les changements
constituent un aspect des sciences qui fascine le plus les chercheurs, il est surprenant de lire
l’argument de Cronbach et Furby qui consiste à affirmer que les scores de gain sont rarement
utiles, quelle que soit la manière dont ils ont pu être construits ou améliorés (p. 68). Ces
problèmes, liés à la mesure de gains ou de changements, ont toujours impliqué, jusqu’ici, des
modèles corrélationnels, c’est-à-dire psychométriques. Par exemple, Cronbach et Furby
définissent la fidélité des gains ou des scores de différence comme la corrélation du score
avec une différence observée indépendamment (p. 70). Le score de gain dans un test
édumétrique parfaitement fidèle, c’est-à-dire que chacun rate avant l’apprentissage et que
chacun réussit à la suite de celui-ci, aura une corrélation absolument nulle avec toute autre
variable1, et en ce sens sera totalement non fidèle selon le modèle psychométrique de
Cronbach et Furby. Il semble raisonnable de s’accorder avec Cronbach et Furby sur le fait que
les scores de gain, au départ de tests développés dans une perspective psychométrique, seront
rarement intéressants, quels que soient les raffinements ultérieurs. Néanmoins, il est absurde
de suggérer que les scores de gains, développés dans les tests édumétriques, sont rarement
utiles.
A la réflexion, il est très surprenant que les psychométriciens aient connus autant de
problèmes avec les scores de gain à des tests. Si un test est construit selon les meilleurs
1
MD : Puisque tous les scores des sujets sont identiques à un moment donné, il n’est pas possible de calculer
la corrélation de ce score avec une autre variable.
Partie VI - Chapitre 3
268
Carver
Les deux dimensions des tests
principes psychométriques, il serait vraiment très chanceux que le score de test puisse refléter
correctement un gain. Si les scores qui mesurent des gains sont bien construits, c’est que le
test a été préparé, développé et évalué dans une perspective édumétrique. En outre, le
psychométricien qui désire mesurer et étudier un gain doit reconnaître que les statistiques
psychométriques, comme les variances et les corrélations, apparaissent comme inappropriées.
Le recours aux principes édumétriques devrait conduire à bien plus de succès.
La distinction entre la dimension psychométrique et la dimension édumétrique a été, depuis
toujours, bien comprise, de manière intuitive, par les expérimentateurs. Par exemple, dans les
recherches sur la lecture, le chercheur peut développer un test comportant 12 questions à
choix multiple de manière à savoir ce qui a pu être appris de la lecture d’un bref passage. La
fidélité, c’est-à-dire la fidélité psychométrique, d’un si court test est nécessairement très
basse. Néanmoins, ce type de fidélité n’est jamais prise en compte par l’expérimentateur parce
que ce qui l’intéresse dans ce test, c’est sa sensibilité aux gains et aux changements qui
peuvent résulter du traitement expérimental. L’expérimentateur est uniquement intéressé par
la validité édumétrique du test. La raison principale du problème que rencontre le
psychométricien dans le domaine de la mesure d’un gain ou d’un changement, c’est qu’il
existe alors un traitement qui modifie la situation et qui amène le psychométricien sur le
terrain de l’expérimentateur. Le psychométricien tente alors d’appliquer les principes de la
psychométrie dans le domaine de l’expérimentation bien que ceux-ci y soient, par définition,
inappropriés.
Beaucoup de psychologues ont favorisé l’utilisation de tests psychométriques en éducation.
Mais puisque le domaine de l’éducation implique généralement l’effet de traitements, il est
aisé de constater que l’approche édumétrique intuitive de l’expérimentateur est beaucoup plus
appropriée en éducation que l’approche basée sur les différences entre individus du
psychométricien. Le danger qui résulte du recours à l’approche psychométrique en éducation
consiste à mesurer les effets de l’éducation par des tests psychométriques et d’en déduire que
l’enseignement est inefficace parce que les tests n’ont pas été construits ou développés de
manière à être sensibles aux progrès et aux changements. Un exemple de ce danger peut être
trouvé dans The Equality of Educational Opportunity Report (Coleman et al., 1966) qui fut
commandité par le Congrès [des Etats-Unis]. Cette recherche utilise des tests
psychométriques et des analyses de même nature et démontre que les différences entre les
individus contribuent davantage à la variance des scores de tests que les différences entre
écoles. Ce résultat a été interprété dans le domaine de la politique fédérale de financement des
écoles (Mostller & Moyihan, 1972) parce que les écoles apparaissaient comme ayant peu
d’impact sur les résultats des élèves. Il a déjà été souligné que les tests développés dans une
perspective psychométrique ont été construits justement de manière à produire ce type de
résultats, aussi ces résultats ne doivent-ils pas surprendre, ni être utilisés pour modifier la
politique fédérale de financement1.
Les tests standardisés de réussite scolaire2 ont été utilisés de manière à évaluer les
programmes nouveaux et les innovations en éducation et beaucoup de systèmes scolaires
utilisent de tels tests pour évaluer enseignants et écoles. Ces tests ont généralement une
approche psychométrique, mais ils peuvent ne pas être très sensibles aux différences de
traitements éducatifs ; c’est-à-dire qu’ils constituent en fait de bons tests d’aptitude, mais de
bien piètres tests de réussite scolaire. Ainsi, il est bien possible que les différences entre une
bonne éducation et une mauvaise semblent erronément faibles parce que les tests ont été
1
2
R.P. Carver. « The Coleman Report : Using Inappropriately Designed Achievement Tests. » Unpublished
manuscript, 1974.
Ndt : cet article est paru en 1975 dans la revue American Educational Research Journal, 12(1), 77-86.
MD : En anglais : Standardized achievement tests.
Partie VI - Chapitre 3
269
Carver
Les deux dimensions des tests
construits de manière telle qu’ils sont plus sensibles aux différences d’aptitudes1 qu’aux
différences de traitement.
Le développement croissant des tests à référence critériée indique que l’intérêt se porte de
plus en plus vers la dimension édumétrique. Cependant, il n’est généralement pas reconnu que
les tests à référence critériée peuvent avoir ou non une perspective psychométrique ou
édumétique et que les tests à référence normative peuvent également adopter l’une ou l’autre
de ces perspectives.
La psychométrie a une longue histoire, parfaitement documentée, un association
professionnelle active, un journal, une influence écrasante dans le domaine des tests, et
dispose de multiples procédures et de techniques statistiques. L’édumétrie est encore juste un
peu plus qu’une idée. Cependant, il existe peu de chance de faire des progrès importants dans
le domaine de la mesure des gains, des changements et des progrès ou de la réussite scolaire à
moins de prendre en compte la dimension édumétrique.
8. Conclusion
Lorsqu’il s’agit de mesurer des différences entre individus, le test doit être développé de
manière à maximiser la sensibilité aux différences entre les individus. De la même manière,
quand on souhaite mesurer un gain ou un progrès individuel, le test doit être développé de
manière à maximiser la sensibilité aux gains réalisés par les individus. La plupart des tests
sont sensibles à la fois aux différences entre les individus et aux gains ou aux progrès que
ceux-ci peuvent réaliser, mais à cause de certaines techniques utilisées lors du développement
des tests, l’une de ces deux perspectives est privilégiée. Ces deux dimensions des tests sont
appelées dimensions psychométrique et édumétrique.
Un test peut être évalué en fonction de ses deux dimensions psychométrique et édumétrique.
Du fait de la centration traditionnelle sur la dimension psychométrique, beaucoup de tests
standardisés sont utilisés pour mesurer des gains ou des progrès sans avoir été développés ou
évalués dans une perspective édumétrique. Le danger de cette approche est que les tests
psychométriques ne soient en fait pas sensibles aux gains qui, pourtant, peuvent exister.
Miller (1969) encouragea les psychologues à exporter leur savoir dans d’autres disciplines. Il
semble bien que les psychologues aient ainsi exporté les tests psychométriques dans le
domaine de l’éducation alors que celle-ci a besoin de tests édumétriques. La dimension
édumétrique des tests a été douloureusement négligée par les psychologues impliqués dans le
domaine des tests. Les expérimentateurs, dans le domaine de la psychologie, savent
intuitivement que les principes de la psychométrie sont non pertinents et que ceux de
l’édumétrie le sont nécessaires lorsqu’ils veulent mesurer un apprentissage. Il faut espérer que
les futurs tests seront développés et évalués en tenant compte des deux dimensions, de telle
manière que les chercheurs et les praticiens obtiennent de meilleurs tests qui comblent les
problèmes posés par la mesure.
Bibliographie
American Psychology Association (1966). Standards for education and psychological tests
and manuals. Washington, D.C. : APA.
Anderson, R.C. (1972). How to construct achievement tests to assess comprehension. Review
of Educational Research, 42,145-170.
1
MD : Ils sont sans doute aussi beaucoup plus sensibles à des variables externes et stables, comme les
caractéristiques socio-économiques des élèves.
Partie VI - Chapitre 3
270
Carver
Les deux dimensions des tests
Bereiter, C. (1963). Some persisting dilemmas in the measurement of change. Madison :
University of Wisconsin Press.
Carver, R.P. (1972). Reading tests in 1970 versus 1980 : psychometric versus edumetric.
Reading Teacher, 26, 229-302.
Carver, R.P. (1972-1973). Analysis of the Chunked Reading Tests and Reading
comprehension. Journal of Reading Behavior, 5, 282-296.
Coleman, J .S., Campbell, E.Q., Hobson, C.J., McPartland, J., Mood, A.M., Weinfeld, F .D.,
York, R.L. (1966). Equality of educational opportunity. 2 vols. Washington, D.C. :
Office of Education, U.S. Department of Health, Education, and Welfare, U.S.
Government Printing Office (OE-38001 ; Superintendent of Documents Catalog No.
FS 5.238 ; 38001.).
Cronbach, L .J., (1971). Test validation. In R.L. THORNDIKE (Ed.), Educational
measurement. Washington, D.C. : American Council on Education.
Cronbach, L.J., Furby, L. (1970). How we should measure « change » - Or should we ?
Psychological Bulletin, 1, 68-80.
Glaser, R., Nitko, A.J. (1971). Measurement in learning and instruction. In R.L. Thorndike
(Ed.), Educational measurement. Washington, D.C. : American Council on Education.
Harris, C.W. (Ed.) (1963). Problems in measuring change. Madison : University of
Wisconsin Press.
McClelland, D.C. (1973). Testing for competence rather than for intelligence. American
Psychologist, 28, 1-14.
Miller, G.A. (1969). Psychology as a means of promoting human welfare. American
Psychologist, 24, 1063-1075.
Mosteller, F., Moynihan, D.P. (1972). A path breaking report. In F. Mosteller & D.P.
Moynihan (Eds.), On equality of educational opportunity. New York : Vintage Books.
Popham, W.J. (1971). Criterion-referenced measurement : An introduction. Englewood
Cliffs, N.J. : Educational Technology Publications.
Stanley, J.C. (1971). Reliability. In R.L. Thorndike (Ed.), Educational measurement.
Washington, D.C. : American Council on Education.
Partie VI - Chapitre 3
271