Utilisation de la psychométrie dans les tests d`évaluation dans le

Transcription

Utilisation de la psychométrie dans les tests d`évaluation dans le
Utilisation de la psychométrie dans les tests
d’évaluation dans le domaine de l’éducation
Christophe Lalanne∗
Oct. 2008
Résumé
Cette fiche de synthèse vise à présenter quelques cas d’application de
la psychométrie dans le domaine des sciences de l’éducation. L’objectif est moins d’approfondir les techniques d’estimation utilisées que de
fournir un aperçu de la richesse et de la diversité des approches de
validation psychométrique. La présentation des tests SAT et du programme NAEP repose en grande partie sur les chapitres 33 et 32 du
Handbook of Statistics, vol. 26 (Psychometrics), rédigés par M. von Davier, S. Sinharay, A. Oranje et A. Beaton, et J. Liu, D.J. Harris et A.
Schmidt, respectivement.
1
Les tests LSAT
1.1
Introduction
Historiquement, les évaluations à grande échelle dans les « collèges » américains ont débuté dès 1926, avec le Scholastic Aptitude Test (SAT). Ce test
était composé à l’origine de 9 sous-tests (définitions, problèmes arithmétiques, classification, langage, antonymes, séries de nombres, analogies, inférence logique et lecture de courts textes) et a été remplacé désormais par le
SAT Reasoning TestTM , censé évaluer essentiellement les aptitudes verbales
et de raisonnement mathématique et administré par le College Board. Vers
R
la fin des années 50, un nouveau test, le ACT
(ACT Inc., www.act.org)
a rejoint le panel de tests proposés aux usa. L’idée était d’évaluer à la fois
l’aptitude d’un élève à intégrer le collège américain, et les bénéfices qu’il
pourrait tirer des enseignements dispensés en ces lieux. On retiendra que la
différence fondamentale entre le SAT et le ACT est que le premier s’intéresse essentiellement aux capacités élaborées de raisonnement tandis que le
second se focalise beaucoup plus sur la performance. Toutefois la corrélation
∗
Ce document est disponible sur www.aliquote.org, au format html (htlatex) et pdf
(pdflatex). Pour tout commentaire sur le contenu de ce document, s’adresser à [email protected].
1
entre les deux tests, du point de vue des scores délivrés aux candidats, est
relativement bonne (0.92, n = 103 525, [6]).
L’enjeu primordial est de préserver l’équité des évaluations car les tests
sont administrés plusieurs fois par an. Pour cela, il est nécessaire d’assurer
la qualité des tests (validité et la fidélité), ainsi que la standardisation des
scores au travers des différentes sessions de test. Une bonne couverture de
l’échelle de mesure, et une précision extrême aux points de césure font partie
en effet des exigences associées aux tests à fort impact (high-stakes).
Concernant la conception des items, l’organisation générale est assez classique et se retrouve chez de nombreux concepteurs de tests (Figure 1). Nous
nous intéresserons plus particulièrement à l’analyse des items et aux études
de fidélité de mesure.
Figure 1 – Étapes pour la conception des items du CAT.
1.2
Analyse des items
L’analyse d’items consiste à décrire le fonctionnement des items dans un
test ou pour un certain groupe d’individus donné. Les principales caractéristiques d’un item concernent : sa difficulté relative, sa capacité à discriminer
les individus selon leur niveau d’habileté, le comportement des distracteurs
(dans le cas d’un item à choix multiple de réponse), le comportement de
l’item entre différents groupes de répondants, le taux de non-réponses.
Difficulté relative de l’item. La mesure la plus simple de la difficulté
d’un item pour un échantillon d’individus donné est l’indice de difficulté
relative, encore appelé p-value. Il s’agit simplement de la proportion de candidats qui ont tenté de répondre à un item et y ont répondu correctement.
Dans le cas du programme SAT, les p-values sont converties sur une échelle
standardisée appelée delta index, de la manière suivante : δ = 13 + 4 × z, où
(1 − p) est préalablement converti en un score z. Avec cette transformation,
2
les δ et les p sont inversement reliés : plus p est petit, plus δ est grand, et
plus l’item est considéré comme difficile.
Il est nécessaire de corriger ces valeurs pour tenir compte de la dépendance de ces estimations à l’échantillon de candidats. Pour cela, certains
items présents dans des versions antérieures de test sont également intégrés
au test, ce qui permet de standardiser les indices de difficulté grâce à une
simple procédure de régression linéaire des nouvelles estimations sur les anciens paramètres de difficulté.
Enfin, notons que les items trop faciles ou trop difficiles apportent peu
d’infomation sur les candidats.
Pouvoir discriminant d’un item. Tout item doit permettre de distinguer entre les candidats de haut niveau et ceux de plus faible niveau, par
rapport au concept hypothétique objectivé dans le test. Un item sera considéré comme discriminant si un nombre proportionnellement plus grand de
candidats de niveau élevé répond correctement à l’item en comparaison des
candidats de plus faible niveau. On remarquera que la difficulté d’un item
contraint d’une certaine manière son pouvoir discriminant, puisqu’un item
très facile ne laisse que peu de variation résiduelle possible entre les différents
individus.
L’indicateur statistique utilisé pour évaluer le pouvoir discriminant d’un
item est le coefficient de corrélation bisériale (rbis ), qui mesure la force de
la liaison entre la performance à un item et celle observée en considérant
l’ensemble des items. Un rbis faible ou négatif indique que l’item ne mesure
sans doute pas la même chose que les autres items, tandis qu’une corrélation
item-test très forte (i.e. proche de +1) suggère que l’item est probablement
redondant par rapport à l’information apportée par les autres items qui composent le test.
L’inspection des corrélations item-test permet souvent de détecter des
dysfonctionnements notables, comme par exemple une erreur de clé (label
associé à la réponse correcte), une ambiguïté dans la formulation de la question, l’existence de plus d’une réponse correcte, etc.
De plus, à partir du score total, ACT sépare l’effectif en 3 groupes de
candidats : faible, intermédiaire et élevé, à partir des 27eet 73epercentiles.
Ces valeurs ont été choisies de sorte à maximiser la différence entre les scores
moyens des groupes supérieur et inférieur, sous l’hypothèse que les erreurs
de mesure sont identiques entre les deux groupes et que les scores de la
population se distribuent selon une gaussienne [10].
Analyse des distracteurs. La qualité d’un item ne s’évalue pas simplement au travers du fonctionnement de la clé, mais également à partir de la
distribution des réponses aux distracteurs. Deux méthodes sont alors employées : ACT examine les proportions de réponse dans chacun des deux
3
groupes extrêmes, tandis que SAT inspecte la courbe de réponse empirique
à l’item (Figure 2).
(a)
(b)
Figure 2 – Courbe de réponse empirique pour un item (QCM) à 4 alternatives de réponse. La réponse correcte est indiquée par une (*). En (a),
le fonctionnement de l’item apparaît satisfaisant, alors qu’en (b) plusieurs
dysfonctionnements peuvent être remarqués (cf. texte).
L’idée de l’analyse graphique des taux de choix des différentes modalités
de réponse d’un item est de vérifier si :
– le choix de la clé augmente lorsque le niveau global des individus augmente également,
– l’évolution du taux de réponse aux distracteurs est inversement et uniformément reliée à celle du taux de réponse à la clé,
– le taux de réponse à la clé n’est ni trop élevé, ni trop faible.
Dans la figure 2, on vérifiera que le cas (a) vérifie bien ces propriétés alors
que l’item illustré en (b) ne se conforme aux deux premières propriétés.
On l’aura compris : on recherche en général à ce que les candidats de
niveau élevé choisissent le plus souvent la clé de l’item, tandis que les candidats de niveau faible se répartissent le plus uniformément possible sur les
distracteurs ; les distracteurs non-choisis ne fonctionnent pas correctement
et ceux pour lesquels on observe des taux de choix anormalement élevés sont
le signe d’une erreur ou d’une ambiguïté de clé.
Fonctionnement différentiel d’un item. Le fonctionnement différentiel d’un item (DIF dans la littérature anglo-saxonne) est caractéristique du
fonctionnement de l’item par rapport à différents sous-groupes d’individus
parmi l’échantillon testé. Le DIF indique
« une différence au niveau des performances à l’item entre deux
groupes d’individus comparables entre eux, c’est-à-dire lorsque
4
les groupes sont appariés par rapport au concept hypothétique
mesuré par le test. »
Dorans et Holland, 1993, [11], Trad. de l’auteur
Théoriquement, si les candidats de deux groupes différents (e.g. caractéristiques socio-démographiques, curricula, etc.) possèdent le même niveau
d’habielté, leur probabilité de répondre correctement à l’item devrait être la
même. Les deux groupes considérés sont appelés groupe focal et groupe de
référence, le groupe focal étant le groupe sur lequel se concentre l’analyse. Il
existe plusieurs manières de caractériser et quantifier le DIF, parmi lesquelles
l’approche Mantel-Haenszel [12] et l’approche Standardization [13] utilisées
par ACT et SAT.
La procédure Mantel-Haenszel (MH) est dérivée de la technique de MantelHaenszel pour les tableaux 2×2×m, où m désigne les niveaux d’appariement
entre les groupes. Dans le cas présent, il s’agit du score total au test, et on
se retrouve avec un tableau de la forme
Groupe
Focal
Référence
Total
Score à l’item
Correct Incorrect
Rf m
Wf m
Rrm
Wrm
Rtm
Wtm
Total
Nf m
Nrm
Ntm
L’hypothèse nulle correspondant au test MH est que « l’odds de répondre
correctement à l’item à un niveau donné de la variable de conditionnement
est le même dans le groupe focal et dans le groupe de référence ». Selon cette
approche, l’odds-ratio commun, noté αM H , se définit comme
"
αM H =
X Rrm Wf m
m
Ntm
# "
#
X Rf m Wrm
/
m
Ntm
,
(1)
où m décrit les différents groupes de niveau. Cette valeur est convertie en
une différence exprimée sur l’échelle standardisée des δ, i.e.
MH D-DIF = −2.35 ln(αM H ).
(2)
Des valeurs positives de MH D-DIF sont en faveur du groupe focal, tandis
que our des valeurs négatives c’est le contraire.
La procédure Standardization repose sur un principe simiaire, à ceci près
qu’elle permet d’éviter la contamination causée par un mauvais ajustement
du modèle de mesure. Plus précisément, ACT et SAT utilisent une différence
de p-values standardisées, STD P-DIF [14]. Celle-ci est définie comme suit :
X Wm (Pf m − Prm ) X Wm Dm P
P
=
STD P-DIF =
m
m Wm
5
m
m Wm
(3)
R
Rrm
et Prm = N
désignent les proportions de choix correct
où Pf m = Nff m
rm
m
dans le groupe focal et le groupe de référence, respectivement, à chaque
niveau m du score total. Dm désigne la différence entre ces deux quantités.
P
L’originalité est d’utiliser un facteur de pondération commun (Wm / m Wm )
à la fois pour Pf m et Prm . En pratique, Wm = Nf m de sorte que le poids
le plus important est attribué aux différences entre Pf m et Prm pour les
niveaux du score total les plus fréquemment observés dans le groupe focal.
À ETS, ce type d’analyse se base sur le groupe des candidats de race
blanche (groupe de référence) vs. les candidats afro-américains, hispanophones, asiatiques et les américains naturalisés (groupes focaux) ; de même,
les femmes (groupe focal) sont comparées aux hommes (groupe de référence).
À partir de la statistique MH D-DIF, ETS a proposé une classification du
DIF en 3 niveaux : négligeable (A), intermédiaire (B) et important (C). Les
items présentant un biais de fonctionnement de la catégorie C sont systématiquement écartés après la phase de prétest (pour être révisé avant d’être
re-prétesté).
Longueur du test et taux d’omission L’analye des items inclut également la proportion d’individus ne terminant pas le test. Un taux d’omission
important pour certains items peut être une indication que le test est trop
long et que « l’échec » à l’item peut être expliqué par un manque de temps
plutôt que par un manque de connaissance. Comme premier indicateur, on
peut considérer la proportion de réponses aux 5 derniers items du test.
La longueur du test est également considérée sous l’angle de l’équité.
Les tests SAT reposent sur une mesure différentielle de rapidité pour vérifier
qu’un test ne favorise pas une certaine catégorie de la population. Ici, la
notion de DIF renvoit à
existence of differential response rates between focal group members and matched reference group members to items appearing
at the end of a section. (Dorans and Holland, 1993, p. 56)
Cette différence standardisée d’omission s’exprime comme
STD P-DIF (NR) =
X
Wm (Pf m (N R) − Prm (N R)) /
X
Wm .
(4)
m
m
Les mêmes critères STD P-DIF sont utilisés pour construire une classification
en 3 classes. Sur la période 2002–2003 par exemple, les items du SAT-V
(verbal) ne présentent pas de biais homme/femme, alors que pour le SAT-M
(maths) deux items ont été classés comme présentant un biais intermédiaire.
1.3
Standardisation et normalisation des scores
Les tests ACT et SAT sont des tests « à fort impact » (high-stakes) et
sont administrés à plusieurs reprises, sous des formes différentes, durant la
6
période scolaire. Afin que les scores soient comparables entre chaque administration du test, ce sont des scores standardisés (scaling) qui sont donnés aux
candidats, et non les scores bruts. L’opération de normalisation (equating)
vise à exprimer l’ensemble de ces scores sur une échelle de meure commune 1 .
Scaling. Les scores standardisés sont définis de manière à conserver une
interprétation cohérente au travers des différentes versions de test. Un score
de 25 points au test ACT doit signifier la même chose, en termes de capacités, quelle que soit la version de test administrée au candidat. En revanche,
les scores bruts peuvent varier d’une version à l’autre, tout en traduisant un
même niveau de compétence : un score de 40 points sur une version peut
être comparable à un score de 30 points sur une autre version de test si
celle-ci est plus « difficile ». Les standards établis dans le domaine de l’éducation (Standards for Educational and Psychological Testing, [16]) précisent
que les modalités de calcul des scores et la définition de l’échelle de mesure
doivent être clairement explicitées afin de faciliter l’interprétation des scores
(par les candidats et toute personne susceptible de prendre des décisions en
conséquence).
Jusqu’à 1995, les scores SAT étaient basés sur une échelle allant de 200
à 800 points (moyenne, 500 ± 100), construite à partir d’un échantillon de
10000 individus en 1941 2 . Le réétalonnage de l’échelle effectué par [17] suit
les 7 propriétés suivantes :
1. le score moyen du groupe de référence doit être proche du milieu de
l’échelle ;
2. la distribution des scores du groupe de référence doit être unimodale ;
3. la distribution des scores du groupe de référence doit être symétrique ;
4. la forme de la distribution des scores du groupe de référence doit suivre
une distribution connue, e.g. une distribution gaussienne ;
5. la gamme des scores observables doit pouvoir dépasser les bornes des
scores reportés afin de permettre de compenser les éventuels glissements du trait latent au niveau de la population ;
6. le nombre de scores calibrés ne doit pas excéder le nombre de scores
bruts ;
7. l’échelle de mesure utilisée pour communiquer les résultats aux candidats doit être vue comme une infrastructure ayant besoin d’être continuellement mise à jour.
1. La distinction entre equating et scaling est discutée dans [15], chap. 1
2. Il existe différentes techniques permettant d’étalonner une échelle de mesure et les les
échelles SAT et ACT n’ont pas été élaborées de la même manière. Notons que l’échelle SAT
a été révisée (recentrage) en 1995 à cause du changement de la population de candidats, et
un intérêt manifeste pour « étoffer » les niveaux élevés de l’échelle. L’échelle ACT, quant
à elle, a été révisée en 1989 lorsque l’analyse des scores avant et après cette période a eu
indiqué des différences notables.
7
L’application de ces critères par [17] a permis de construire une nouvelle
échelle de moyenne 500 et d’écart-type 110, soit une gamme de scores observables de 170 à 830 points environ. De la sorte, les distributions marginales
des scores aux épreuves verbales et mathématiques étaient identiques.
En ce qui concerne les scores ACT, leur étendue est de 1–36 points,
avec une moyenne fixée à 18 points, sur la base de données recueillies sur
un échantillon national en 1988. Les échelles de mesure ont été établies de
sorte que l’erreur de mesure vaut environ 2 points pour chaque score composite, alors que les erreurs de mesure conditionnelles sont approximativement
égales. L’étalonnage des scores ACT est effectué en 3 étapes. Dans un premier temps, les distributions des scores bruts pondérés ont été estimées sur
un échantillon national et un groupe d’élèves de référence. Ensuite, ces distribution ont été lissées à partir d’un modèle de mélange de lois binomiale
et beta [18, 19]. Les scores brutes ajustés ont finalement été utilisés pour
créer des scores calibrés, après arrondis à l’entier le plus proche, tout en prenant en compte les contraintes de moyenne ± écart-type, d’absence de sauts
dans la progression des scores sur l’échelle et de minimisation des scores à
transformer. Les scores composites ACT ne constituent donc pas une échelle
de mesure, à proprement parler, mais sont calculés comme la moyenne de 4
sous-scores.
L’arrivée d’une nouvelle tâche de production écrite dans les tests ACT a
conduit au développement de deux nouvelles échelles. Le sous-score « Direct
Writing » repose sur une grille de codage et s’étend de 2 à 12 points. L’échelle
combinée « English/Writing » a été créée en standardisant les scores « English » et « Writing » avec des pondérations respectives de 2/3 et 1/3 et
une transformation linéaire pour exprimer ces scores sur une échelle de 1–36
points. Encore une fois, les scores sont arrondis sous forme entière.
Equating. Une fois que les échelles ont été étalonnées, il reste à standardiser les scores de manière à ce qu’ils demeurent comparables, en termes
d’interprétation, d’une version de test à l’autre (propriété d’interchangabilité). Deux types de standardisation sont utilisés pour les scores SAT : la
méthode des groupes non-équivalents avec ancrage (NEAT, Nonequivalent
groups anchor test design, Figure ??) et la méthodes des groupes équivalents
ou aléatoires (EG, random/equivalent groups design). Lors de l’administration d’une nouvelle version de test, celle-ci est standardisée par rapport à
plusieurs versions plus anciennes à l’aide de la méthode NEAT. Lorsque
deux nouvelles versions de test sont administrées en parallèle, les scores de
la première version sont standardisés à l’aide de la méthode NEAT tandis
que ceux de la seconde version sont standardisés par la méthode EG. Les
techniques de transformation de scores sont diverses et variées et peuvent
être de type linéaire ou non-linéaire ; elles peuvent reposer sur les scores
bruts directement, ou sur des modèles de scores vrais, et la standardisation
8
peut être effectuée en utilisant une post-stratification.
Figure 3 – Dessin d’ancrage par la méthode des groupes non-équivalents
(NEAT design).
La procédure de standardisation ACT repose sur un échantillon de candidats sélectionnés lors d’une session nationale qui sont soumis à un ensemble
de version de tests. L’une des versions administrées est une version ancre incluant des items déjà calibrés et permet de la relier à l’échelle de mesure. Les
autres versions de test sont de nouvelles versions. L’utilisation de groupes
randomisés est une caractéristique importante de la procédure de standardisation dans la mesure où elle contribue à fournir une certaine « continuité »
au niveau des échelles. La méthode utilisée pour la standardisation des scores
sur ceux de la version ancrée est la méthode des rangs équipercentiles. Un
score sur la version X et un score sur la version Y sont considérés équivalents
s’ils sont au même renag percentile pour un groupe d’individus donné. Les
résultats de la standardisation sont ensuite lissés à l’aide d’une méthode analytique décrite dans [20] et on conserve des valeurs entières dans les tables
de conversion utilisées pour convertir les scores bruts en scores calibrés.
Des études de stabilité et un suivi régulier ont montré que les dessins
de calibration des tests SAT et ACT fonctionnent de manière satisfaisante
[21, 22]. Une façon d’évaluer une procédure de standardisation consiste à
vérifier que la fonction de calibrage est invariante à travers différentes souspopulations, définies par exemple par le sexe ou le groupe ethnique des candidats, comme dans la population générale. En d’autres termes, est-ce que
cette fonction de calibrage est la même dans la population générale et dans
les différents sous-groupes [23] ? De telles études ont été réalisées pour le
SAT-V et le SAT-M, en travaillant sur des sous-groupes définis par le sexe.
1.4
Fidélité de la mesure
La possibilité de commettre des erreurs existe dans toutes les procédures
de mesure des aptitudes cognitives, et il est par conséquent important de
fournir à l’utilisateur un moyen d’évaluer la confiance que l’on peut avoir
dans un score. Le terme d’« erreur » est souvent interprété comme synonyme d’inconsistence : dans quelle mesure un candidat obtiendrait un score
identique s’il était soumis à un test de manière répétée ? Des scores soumis
9
à des fluctuations aléatoires rendraient en effet les décisions reposant sur
ceux-ci complètement irrationnelles.
Plusieurs facteurs peuvent influencer la consistance des scores ; ceci inclut : les facteurs liés au test lui-même (e.g. spécifications du test, nombre
d’items, échelle de mesure), les facteurs liés au candidat (e.g. tendance à
deviner les réponses, niveau de connaissance) et les facteurs situationnels
(e.g. le niveau de fatigue d’un candidat, le type d’items administrés). Les
indices de fidélité sont utilisés pour indiquer le degré de consistance espéré
des scores d’un test en particulier. Comme il n’est généralement pas possible
d’administrer de manière répétée les tests aux mêmes candidats, plusieurs
indices ont été élaborés pour tenter d’estimer la fidélité de la mesure.
L’un des coefficients de fidélité les plus utilisés est un indicateur de la
consistance interne du test. Ce que l’on appelle la fidélité test–retest est une
estimation de la consistance des scores observés sur un individu à qui l’on
administre le même test plus d’une fois. Comme il est difficile d’obtenir ce
type de données en raison de possibles problèmes d’apprentissage ou de biais
liés à l’administration répétée des mêmes items, on estime cette consistance
interne à l’aide d’un indicateur spécifique calculé sur les données observées
lors d’une seule session de test. Les tests ACT et SAT reposent sur l’indice
KR-20 ; toutefois, comme le SAT utilise un système de notation particulier,
l’indice original a été modifié en conséquence [24] :
"
n
fidélité =
1−
n−1
Pn
i=1 pi qi +
Pn
2 0 0
i=1 k pi qi + 2
σt2
Pn
0
i=1 kpi pi
#
,
(5)
où pi est la proportion d’individus répondant correctement à l’item i, p0i la
proportion d’individus répondant de manière incorrecte, qi = 1 − pi , qi0 =
1 − p0i , k un facteur de correction pour le calcul des scores (0.250 pour les
items à 5 modalités de réponse, 0.333 pour ceux à 4 modalités et 0 pour les
réponses construites), n le nombre total d’items dans la sous-échelle du test,
et σt2 la variance des scores totaux pour le type d’item considéré ou la partie
de test. Cet indice est similaire au coefficient alpha (Cronbach).
Les estimations de la consistance interne sont faites sur les scores bruts.
En revanche, les scores à partir desquelles les décisions sont effectuées sont
les scores calibrés, donc il est important d’évaluer également la fidélité des
scores calibrés. La fidélité de versions alternées est généralement estimée à
partir de données répétées ou sur une session de test spéciale. Dans les deux
cas, cela présente des désavantages : les candidats passant plusieurs sessions
consécutives le font par choix personnel et ce sont généralement des candidats
qui n’ont pas obtenus des scores aussi élevés que ce qu’ils auraient escompté
lors de la première session.
10
2
2.1
Le programme NAEP
Introduction
Le programme National Assessment of Educational Progress (NAEP),
piloté et administré par le National Assessment Governing Board et le National Center for Education Statistics (NCES), est un programme américain
d’évaluation nationale du niveau de connaissances des élèves de grade 4, 8 et
12. Les tests sont organisés tous les deux ans auprès d’échantillons représentatifs de la population des élèves américains. L’évaluation couvre différents
domaines comme la lecture, l’expression écrite ou les mathématiques. Des
études longitudinales sont également réalisées auprès d’un public d’élèves
âgés de 9, 13 et 17 ans. Une description complète de ce programme d’évaluation est disponible en ligne sur le site de NCES.
En raison de contraintes évidentes de temps, les élèves ne sont évalués
que sur une partie des items assurant la couverture du domaine. De la sorte,
on se retrouve dans une situation où seuls certains blocs d’items sont administrés à des groupes d’élèves, grâce à un plan incomplet équilibré (BIB
dans la littérature anglo-saxonne). On a toujours deux blocs d’items appariés dans chaque manuel de test, et chaque bloc apparaît un même nombre
de fois à chaque position (2 ou 3) dans ce dernier. La conséquence directe
de cette organisation des items est que les scores des candidats ne sont pas
comparables entre eux et il faut recourir à un modèle de réponse à l’item
(MRI) permettant d’analyser les patterns de réponse, plutôt que les scores
bruts, et de prendre en considération l’incertitude associée à l’évaluation (erreur de mesure). Chaque item peut être « relié » aux autres items à l’aide de
contraintes d’égalité, grâce aux propriétés des BIB.
Plutôt que de considérer le score individuel, NCES s’intéresse à des
groupes d’individus, de sorte que l’on dispose de suffisamment d’information
pour avoir des estimations fiables du niveau de réussite. Le niveau d’habileté
étant considéré comme un trait latent, la méthode mise en œuvre est un
modèle de régression sur variables latentes incluant une variable prédictrice
pour le groupe de candidats.
2.2
Le modèle NAEP
Pour chaque individu i, on considère un vecteur d’habileté à p dimensions, noté θi = (θi1 , θi2 , . . . , θip )0 . Les différentes composantes de ce vecteur
représentent les différents sous-tests d’un même domaine ; en mathématique,
par exemple, cela peut être l’algèbre, la géométrie, etc. Le vecteur de réponse
yi = (yi1 , yi2 , . . . , yip ) de l’individu i apporte de l’information sur θik , et la
fonction de vraisemblance (pour un individu quelconque) est de la forme :
f (yi | θi ) =
p
Y
f1 (yiq | θiq ) ≡ L(θi ; yi )
q=1
11
(6)
Les termes f1 (yiq | θiq ) suivent un MRI univarié, généralement à 3 paramètres
ou de type modèle de crédit partiel généralisé (GPCM). Chaque item d’une
batterie de tests NAEP est conçu de manière à n’évaluer qu’un seul concept,
de sorte que la multidimensionnalité évoquée ci-dessus demeure entre les
items. La dépendance de f (yi | θi ) envers les paramètres des items peut être
supprimée, pour faciliter les notations.
Si l’on ajoute à ce modèle décrivant l’habileté des individus un vecteur
xi = (xi1 , xi2 , . . . , xim ) décrivant m caractéristiques socio-démographiques et
éducatives pour le candidat i, il est possible d’associer les deux types d’information afin de mieux modéliser les performances des candidats. Conditionnellement à xi , l’habileté d’un candidat θi suit une distribution multivariée
normale, i.e. θi | xi ∼iid N (Γ0 xi , Σ). En général, NAEP collecte une centaine
de variables zi sur chaque candidat, et réalise une analyse en composantes
principales sur celles-ci ; seules les composantes xi qui expliquent 90 % de la
variance totale au niveau des zi sont retenues pour les analyses subséquentes.
Sous ce modèle, L(Γ, Σ | Y, X), la fonction de vraisemblance (marginale)
de (Γ, Σ) basée sur les observations (X, Y ), est donnée par
n Z
Y
f1 (yi1 | θi1 ) . . . f1 (yip | θip )φ(θi | Γ0 xi , Σ)dθi ,
(7)
i=1
où n désigne le nombre d’individus et φ(· | ·, ·) désigne la fonction de densité
d’une loi normale multivariée.
Le modèle NAEP complet, combinant un modèle de réponse à l’item et
un modèle de régression latente à deux niveaux, revient à un MRI multiniveaux ou hiérarchique, dont on trouvera un exemple d’illustration avec
R et Stata à la section 4. Outre la complexité de ce modèle, l’aspect le
plus intéressant réside dans la possibilité d’estimer une erreur de mesure
propre à l’instrument. En effet, la précision des paramètres de régression
contribuent à l’erreur qui se reflète au niveau de la distribution latente,
puisque l’information sur les groupes est fixée. À partir de là, il est possible de
construire un modèle d’imputation pour avoir une estimation de l’habileté de
tous les candidats en dérivant des valeurs probables (plausibles values, PV).
La variance de ces PV peut alors être considérée comme une estimation de
l’erreur de mesure.
2.3
Estimation des paramètres du modèle NAEP
L’estimation du modèle NAEP est réalisée à l’aide de programmes développés par ETS (mgroup) et sur lesquels nous ne nous étendrons pas.
Globalement, elle se déroule en trois étapes :
1. scaling : on utilise un MRI (3PL ou GPCM) sur l’ensemble des réponses
individuelles et on estime les paramètres de ce modèle.
12
2. conditionning : dans un premier temps, on suppose les paramètres
d’items fixés à leurs valeurs estimées à l’étape (1), et on ajuste un
modèle de régression latente aux données, i.e. les estimés de Γ et Σ.
Dans un second temps, les PV (imputations multiples) sont obtenues
pour tous les individus ; elles seront utilisées pour estimer les moyennes
de groupe.
3. variance estimation : on estime les variances associées aux moyennes
des sous-groupes de l’étape (2), à l’aide d’une procédure d’imputations
multiples et d’une technique jacknife.
Il a été montré que Γ et Σ, pour des θi inconnus, peuvent être estimés
grâce à l’algorithme EM [4, 5]. L’étape E, qui consiste à estimer à l’étape
t + 1 les moyennes E(θi | X, Y, Γt , Σt ) et les variances Var(θi | X, Y, Γt , Σt )
a posteriori, peut être réalisée par intégration numérique, à l’aide de techniques bayésiennes ou par une approximation de Laplace. Les résultats par
sous-groupe sont fournis sous la forme de PV, qui reviennent en fait à effectuer des imputations multiples en tirant les observations dans la distribution
conditionnelle a posteriori des habiletés. L’algorithme est assez relativement
simple :
b V (Γ)),
b
b est la variance estimée de l’esti1. On tire Γ(m) ∼ N (Γ,
où V (Γ)
mateur du maximum de vraisemblance Γ̂ obtenu par l’algorithme EM.
2. Conditionnellement à la valeur générée, Γ(m) , et en considérant fixée
b (estimée durant la procédure EM), on calcule la
la variance Σ = Σ
moyenne θ̄i et la variance Σi pour l’estimé a posteriori de chaque individu i dans l’échantillon.
3. On tire un unique θi ∼ N (θ̄i , Σi ), indépendemment pour chaque individu i = 1, 2, . . . , N .
Ces étapes sont répétées M fois, donnant lieu à M ensembles d’imputations
(PV) pour chaque individu dans l’échantillon. Les PV sont utilisées comme
indicateur de la valeur attendue a posteriori, avec d’autres statistiques tels
les rangs percentiles ou les proportions de réussite par rapport à un seuil de
référence.
Ensuite, puisque l’objectif de NAEP est de fournir des estimations du
niveau d’habileté pour des sous-groupes spécifiques de candidats, il est nécessaire de calculer la valeur moyenne d’une certaine fonction de l’habileté dans le groupe considéré. Notons cette fonction g(θ). On pourra ainsi
s’intéresser à estimer (1) g(θ) = θj (moyenne sur une sous-échelle), (2)
P
g(θ) = j ωj θj (moyenne d’un composite, avec pondération des items), ou
(3) g(θ) = IP ωj θj >K (proportion d’individus avec un niveau moyen sur un
j
composite qui est situé au-dessus d’un certain seuil).
Des alternatives ont été proposées à l’égard de cette technique d’estimation ; voir par exemple [2]. Celles-ci visent en particulier à pallier la nature
13
complexe de la « structure » d’analyse et les approximations qui sont faites
à chaque processus d’estimation.
3
Les études PISA
4
Application : étude d’un modèle de réponse à
l’item hiérarchique
Il existe plusieurs façons de modéliser un MRI hiérarchique, et plusieurs
logiciels disposent des procédures appropriées. Nous nous concentrerons sur
R et Stata.
4.1
Les enjeux en termes computationnels
4.2
Modélisation avec R
[3]
En fait, il existe même un package R, mlirt, qui permet de construire
ce genre de modèle [1]. L’exemple fourni par l’auteur porte justement sur les
données recueillies lors des études PISA 2003.
Les premières étapes visent à construire la matrice de réponse que l’on
va utiliser dans le modèle hiérarchique. Pour ne pas biaiser les résultats, on
ne retient que les individus ayant fourni une réponse à au moins 10 items.
persons <- which(apply(D,1,sum) >= 10)
Ys <- matrix(Ypisan[persons,],ncol=K,nrow=Ns)
nlls <- rep(0,N)
nlls[persons] <- 1
nll <- tapply(nlls,school,sum)
attributes(nll)$names <- NULL
nll[which(nll == 0)]
nll <- nll[which(nll != 0)]
attributes(nll)$names <- c(1:150)
XF <- matrix(c(XF1,XF2,XF3,XF5),ncol=4,nrow=N)
XFs <- XF[persons,]
group <- unlist(lapply(1:length(nll),function(i,nll) rep(i,nll[i]),nll=nll))
W1 <- tapply(XFs[,4],group,mean)
J <- 150
La dernière instruction vise à construire la matrice des variables liées aux
écoles (n = 150).
Le premier modèle testé est un modèle nul. On l’évaluera de la manière
suivante :
S <- c(1,0,0,0)
out1 <- estMLIRT(Ys, S, nll, XG=10000)
mlirtout(1000,out1)
14
La fonction mlirtout fournit les valeurs estimées pour les candidats.
Le modèle complet peut être évalué à l’aide des instructions suivantes :
S <- c(1,0,4,1)
S2[1,1] <- 1
out2 <- estmlirt(Ys, S, nll, XG=10000,XF=XFs,W=W1,S2=S2)
mlirtout(1000,out2)
4.3
Modélisation avec Stata
Contrairement à R, Stata dispose d’une interface graphique. Il existe
néanmoins un macro-language qui permet de faire tourner des scripts conçus
à l’aide d’un simple éditeur de texte, et, comme R, on a accès à un ensemble d’extensions disponibles sur le web. Parmi celles-ci, mentionnons
gllamm conçu par S. Rabe-Hesketh et coll. [7, 9, 8] et disponible à l’adresse
www.gllamm.org/.
Références
[1] Fox, J.-P. (2007). Multilevel IRT Modeling in Practice with
the Package mlirt. Journal of Statistical Software, 20(5), 1–16.
www.jstatsoft.org/v20/i05
[2] M. von Davier and S. Sinharay (2007). An Importance Sampling EM Algorithm for Latent Regression Models. Journal of Educational and Behavioral Statistics, 32(3), 233–251.
[3] Lockwood, J.R., Doran, H. and McCaffrey, D.F. (2003). Using R for Estimating Longitudinal Student Achievement Models. R News, 3(3), 17–23.
cran.r-project.org/doc/Rnews/Rnews_2003-3.pdf
[4] Mislevy, R. (1984). Estimating latent distributions. Psychometrika,
49(3), 359–381.
[5] Mislevy, R. (1985). Estimation of latent group effects. Journal of the
American Statistical Association, 80(392), 993–997.
R
[6] Dorans, N.J. (1999). Correspondences between ACTTM and SAT I
scores. College Board Report No. 99-1, ETS Report No. 99-2, College
Entrance Examination Board, New York, NY.
[7] Rabe-Hesketh, S., Skrondal, A. and Pickles, A. (2004). Generalized multilevel structural equation modelling. Psychometrika, 69(2), 167–190.
[8] Rabe-Hesketh, S. and Skrondal, A. (2008). Multilevel and Longitudinal
Modeling using Stata (2nd Edition). College Station, TX : Stata Press.
[9] Zheng, X. and Rabe-Hesketh, S. (2007). Estimating parameters of dichotomous and ordinal item response models using gllamm. The Stata
Journal, 7(3), 313–333.
15
[10] Millman, J. and Greene, J. (1989). The specification and development
of tests of achievement and ability. In : Linn, R.L. (Ed.), Educational
Measurement, 3rd ed. American Council on Education and Macmillan,
New York, pp. 335–366.
[11] Dorans, N.J. and Holland, P.W. (1993). DIF detection and description : Mantel-Haenszel and Standardization. In : Holland, P.W., Wainer,
H. (Eds.), Differential Item Functioning. Lawrence Erlbaum Associates,
Hillsdale, NJ, pp. 35–66.
[12] Holland, P.W. and Thayer, D.T. (1988). Differential item performance
and the Mantel-Haenszel procedure. In : Wainer, H., Braun, H.I. (Eds.),
Test Validity. Lawrence Erlbaum Associates, Hillsdale, NJ, pp. 129–145.
[13] Dorans, N.J. and Kulick, E. (1986). Demonstrating the utility of the
standardization approach to assessing unexpected differential item performance on the Scolarship Aptitude Test. Journal of Educational Measurement, 23, 355–368.
[14] Dorans, N.J. and Kulick, E. (1983). Assessing unexpected differential
item performance of female candidates on SAT and TSWE forms administered in December 1977 : An application of the standardization approach. ETS Report 83-9, Educational Testing Service, Princeton, NJ.
[15] Kolen, M.J. and Brennan, R.L. (2004). Test Equating, Scaling, and Linking. Methods and Practices. Springer-Verlag.
[16] American Educational Research Association, American Psychological
Association, National Council on Measurement in Education (1999).
Standards for Educational and Psychological Testing. AERA, Washington, DC.
[17] Dorans, N.J. (2002). The recentering of SAT scales and its effect on
score distributions and score interpretations. College Board Report No.
2002-11, College Entrance Examination Board, New York, NY.
[18] Lord, F.M. (1965). A strong true score theory, with applications. Psychometrika, 30, 239–270.
[19] Kolen, M.J. (1991). Smoothing methods for estimating test score distributions. Journal of Educational Measurement, 28, 257–282.
[20] Kolen, M.J. (1984). Effectiveness of analytic smoothing in equipercentile
equating. Journal of Educational Statistics, 9, 25–44.
[21] McHale, F.J. and Nimmeman, A.M. (1994). The stability of the score
scale for the scholastic aptitude test from 1973 to 1984. ETS Statistical
Report SR-94-24, Educational Testing Service, Princeton NJ.
[22] Hanson, B.A., Harris, D.J. and Kolen, M.J. (1997). A comparison
of single- and multiple linking in equipercentile equating with random
groups. Paper presented at the Annual Meeting of the American Educational Research Association, Chicago, IL.
16
[23] Dorans, N.J. and Holland, P.W. (2000). Population invariance and the
equatability of tests : Basic theory and the linear case. Journal of Educational Measurement, 37(4), 281–306.
[24] Dressel, P.L. (1940). Some remarks on the Kuder-Richardson reliability
coefficient. Psychometrika, 5, 305–310.
17