Comparaison entre le rendement des élèves ontariens au TPCL/à l

Transcription

Comparaison entre le rendement des élèves ontariens au TPCL/à l
Comparaison entre le rendement
des élèves ontariens au TPCL/
à l’OSSLT et au test de lecture
du PISA 2009
par Nizam Radwan et Yunmei Xu
pour l’Office de la qualité et de la responsabilité en éducation (OQRE)
JUILLET 2012
À propos de l’Office de la qualité et de la responsabilité en éducation
L’Office de la qualité et de la responsabilité en éducation (OQRE) est un organisme provincial indépendant
financé par le gouvernement de l’Ontario. Le mandat de l’OQRE est d’effectuer des tests à l’échelle de la
province à des étapes clés de l’éducation de chaque élève aux cycles primaire et moyen et au secondaire
et d’en rapporter les résultats au personnel scolaire, aux parents et au public.
L’OQRE sert de catalyseur pour augmenter la réussite des élèves de l’Ontario en mesurant leur rendement
en lecture, en écriture et en mathématiques par rapport aux attentes et contenus d’apprentissage du
curriculum de l’Ontario. Les données obtenues fournissent une mesure de la qualité et de la responsabilité
du système éducatif de l’Ontario.
Les résultats objectifs et fidèles des tests sont des données qui complètent les connaissances actuelles
sur l’apprentissage des élèves et constituent un outil d’amélioration important à l’échelle des élèves,
des écoles, des conseils scolaires et de la province.
À propos du programme de recherche de l’OQRE
Les recherches de l’OQRE visent deux objectifs principaux :
• maintenir des pratiques de qualité irréprochable et assurer que l’organisme demeure à l’avant-garde
des évaluations à grande échelle;
• favoriser l’utilisation de ses données pour améliorer le rendement des élèves au moyen d’enquête sur
les façons d’éclairer les orientations et les décisions prises par le personnel scolaire, les parents et le
gouvernement.
Les projets de recherche de l’OQRE explorent les facteurs qui influent sur le rendement des élèves et
la qualité de l’éducation, et examinent les processus psychométriques et statistiques qui se traduisent par
des données de haute qualité portant sur les tests.
Office de la qualité et de la responsabilité en éducation
2, rue Carlton, bureau 1200, Toronto (Ontario) M5B 2M9, 1 888 327-7377, www.oqre.on.ca
© Imprimeur de la Reine pour l’Ontario, 2012
Comparaison entre le rendement des élèves ontariens au TPCL/à l’OSSLT et au test de lecture
du PISA 2009
Nizam Radwan et Yunmei Xu
Office de la qualité et de la responsabilité en éducation
Juillet 2012
Introduction
Alors que les élèves de l’Ontario continuent à participer à une variété d’évaluations
provinciales, nationales et internationales, on souhaite comparer leur rendement dans les
évaluations de l’OQRE à celui qu’ils obtiennent à l’échelle nationale et internationale. Parents,
éducateurs et responsables des politiques veulent savoir si les élèves qui ont atteint la norme aux
tests provinciaux obtiennent un bon rendement aux évaluations nationales ou internationales.
Toutefois, bien que ces tests évaluent le même contenu (p. ex., la lecture), on ne peut pas
comparer directement leurs résultats, car les scores des élèves à ces tests ne sont pas sur la même
échelle.
L’objectif de cette étude est d’examiner la possibilité d’apparier le Test provincial de
compétences linguistiques/l’Ontario Secondary School Literacy Test (TPCL/OSSLT) et le test de
la compréhension de l’écrit (lecture) effectué en 2009 par le Programme international pour le
suivi des acquis des élèves (PISA). En 2009, le PISA et le TPCL/l’OSSLT ont effectué leur
évaluation entre les mois d’avril et mai. En ce qui concerne le TPCL/l’OSSLT, tous les élèves
admissibles de la province ont été évalués, et parmi eux, un échantillon aléatoire d’élèves de
15 ans ont participé au test de lecture du PISA. Le fait qu’un grand nombre d’élèves participent
aux deux tests dans un laps de temps très court a constitué un bon point de départ pour apparier
les scores des deux tests. Cet appariement pourrait fournir des renseignements précieux aux
responsables des politiques et aux intervenants sur les normes provinciales de l’Ontario par
rapport aux normes internationales. Cette étude utilise deux méthodes différentes pour apparier
les distributions des scores des deux tests : l’appariement d’items à paramètre fixe (IPF) utilisant
un modèle de la théorie de la réponse à l’item (TRI) et la mise en équivalence équipercentile
avec pré-lissage (Kolen et Brennan, 2004). En réussissant à apparier les distributions des scores
des deux tests, nous obtiendrons non seulement des renseignements utiles sur les politiques en
matière d’éducation, mais nous enrichirons également les connaissances dans le domaine de la
psychométrie en ce qui concerne l’échelonnage de deux tests qui sont construits à partir de deux
tableaux de spécifications différents, mais de même contenu.
2 Contexte
TPCL/OSSLT
Le TPCL/l’OSSLT est un test provincial qui évalue les compétences de base en littératie,
laquelle est définie en fonction des attentes en lecture et en écriture jusqu’au terme de la 9e
année, telles qu’énoncées dans Le curriculum de l’Ontario. Le test est offert en deux langues; un
pour les élèves anglophones et un pour les élèves francophones. Chaque année, on administre les
deux tests aux élèves de dixième année fréquentant les écoles publiques et privées en Ontario. La
réussite du TPCL/de l’OSSLT est une des exigences provinciales pour l’obtention du diplôme
d’études secondaires de l’Ontario (DESO). Les élèves qui participent au TPCL/à l’OSSLT et
l’échouent peuvent le reprendre l’année suivante ou s’inscrire au Cours de compétences
linguistiques des écoles secondaires de l’Ontario (CCLESO) et le réussir pour obtenir leur
diplôme.
Les réponses des élèves au TPCL/à l’OSSLT sont analysées à l’aide d’un modèle TRI
modifié à un paramètre avec paramètre a- et c- fixe pour les items à choix multiple et du modèle
de crédit partiel généralisé pour les items à réponse construite. Une mise en équivalence est
effectuée sur les scores d’une année à l’autre à l’aide de la méthode d’items communs à
paramètre fixe.
PISA
L’Organisation de coopération et de développement économiques (OCDE) a mis en
œuvre les évaluations du PISA pour faire suite à un intérêt marqué qui se manifestait à l’échelle
internationale pour une évaluation comparative. On voulait mesurer le rendement des élèves de
15 ans pour savoir à quel point ils sont prêts au plan scolaire à relever les défis que l’avenir leur
réserve. Ce groupe d’âge a été choisi étant donné que les élèves s’approchent alors de la fin de la
scolarité obligatoire. Cette évaluation est effectuée tous les trois ans et porte sur trois matières :
la lecture, les mathématiques et les sciences. Chaque année, le test se concentre sur une matière :
le deux tiers du temps du test y est consacré et le tiers qui reste aux deux autres matières. En
2000, on a mis l’accent sur la lecture; en 2003, sur les mathématiques et, en 2006, sur les
sciences. En 2009, le PISA portait encore sur la lecture, mais l’évaluation s’est élargie pour
englober la lecture et la compréhension de textes électroniques afin de rendre compte de
3 l’importance de la technologie de l’informatique dans l’éducation. L’Ontario n’a pas intégré
cette composante à son test. Entre 4 500 et 10 000 élèves dans chacun des pays membres et
partenaires de l’OCDE – plus de 60 – ont participé.
Le PISA est fondé sur un cadre de travail commun qui a fait l’objet d’un consensus à
l’échelon international (OCDE, 2009). Le PISA utilise également une méthode d’échantillonnage
matriciel pour couvrir un contenu plus large sans que les élèves aient à passer de très longs tests.
Tous les items de l’examen sont divisés en blocs. Ces blocs forment des cahiers de test qui sont
soigneusement constitués; chacun comprend un nombre égal d’items (et nécessite un même
temps de testing) alors que le contenu couvert et la taille des items sont équilibrés. On remet un
cahier de test à chaque élève au hasard. En conséquence, chaque élève répond à un nombre
d’items gérable et le curriculum est largement couvert au niveau agrégé (Childs et Jaciw, 2003).
Comme le TPCL/l’OSSLT, le PISA utilise un modèle TRI à un paramètre, lequel génère
des résultats comparables pour tous les pays participants. Cependant, le PISA a recours à la
distribution de valeurs plausibles (Mislevy, 1991; Mislevy, Johnson et Muraki, 1992) pour
calculer les estimations des compétences des élèves. Les valeurs plausibles sont des variables
choisies au hasard dans la distribution a posteriori de la variable latente « compétence » et sont
estimées à l’aide de l’information sur les items et le contexte. Cette méthode permet d’améliorer
les estimations à l’échelle du groupe (Mislevy, 1991; Mislevy, Johnson et Muraki, 1992). Parmi
les résultats à l’échelle du groupe dont on rend compte figurent la moyenne, l’écart type et divers
percentiles au niveau agrégé. Le PISA ne diffuse pas les résultats individuels des élèves.
Le TPCL/l’OSSLT et le PISA respectent tous deux des critères élevés en ce qui a trait à
la conception et au contenu du test, de même qu’à la qualité psychométrique. Ils évaluent
également des élèves d’un même niveau scolaire et (ou) âge, ainsi qu’un contenu semblable. Les
deux tests diffèrent cependant sur trois points : premièrement, les deux tests ont été construits à
l’aide de différents cadres. Deuxièmement, les utilisations prévues ne sont pas les mêmes. Les
enjeux pour l’élève dans le cas du PISA ne sont pas élevés car les résultats ne leur sont pas
communiqués. Par contre, le TPCL/l’OSSLT présente un enjeu majeur, car les résultats sont
transmis aux élèves et qu’ils ont une incidence sur l’obtention de leur diplôme. Troisièmement,
les deux tests diffèrent de par leur conception et la transmission des résultats. Le PISA utilise un
modèle d’échantillonnage matriciel alors que le TPCL/l’OSSLT a un seul modèle de test, et les
scores des élèves aux deux tests sont transposés sur des échelles différentes. En raison de ces
4 différences entre le PISA et le TPCL/l’OSSLT, le processus d’appariement peut représenter un
défi de taille.
Processus d’appariement
L’appariement de tests est un processus qui utilise les résultats d’un test pour prédire les
résultats d’un autre test (Linn, McLaughlin et Thissen, 2009). Linn (1993) et Mislevy (1992) ont
relevé quatre types d’appariement qui sont (du plus fort au plus faible) : la mise en équivalence,
l’échelonnage, la prédiction et la modération. La mise en équivalence est la forme d’appariement
la plus forte. La mise en équivalence est possible lorsque les tests à apparier sont équivalents en
ce qui concerne le contenu, le format, l’objectif, l’administration, la difficulté des items et les
populations (Linn, 1993 et Mislevy, 1992). Dans l’échelonnage, des tests, qui sont construits
pour différents objectifs et à partir de différents tableaux de spécifications, mais qui couvrent le
même contenu de fond (p. ex., la lecture), sont appariées en plaçant les scores des deux tests sur
la même échelle. Dans la prédiction, les scores d’un test sont utilisés pour prédire les scores d’un
autre test qui peut couvrir un contenu différent. La modération est la forme d’appariement la plus
faible. Elle est utilisée sur des tests conçus à partir de différents plans directeurs et administrées à
des populations non équivalentes. Il est évident que le type d’appariement utilisé dépend du
niveau de comparabilité du contenu des tests et de leurs propriétés psychométriques.
Des recherches antérieures ont fait la démonstration empirique des processus utilisés pour
apparier des tests. Aux États-Unis, de nombreuses études ont apparié les scores de tests
administrés au niveau de l’État et ceux provenant d’évaluations nationales et internationales. Des
analyses de régression linéaire ou des méthodes de mise en équivalence équipercentile étaient
couramment utilisées dans ces études. Pashley et Phillips (1993) ont étudié l’appariement entre
l’International Assessment of Educational Progress (IAEP) et le National Assessment of
Educational Progress (NAEP), qui étaient construits avec différents tableaux de spécifications.
Ils ont travaillé avec des données provenant d’un échantillon de 1 609 élèves qui avaient
participé aux deux tests. Ils ont établi une relation linéaire entre les estimations des niveaux de
compétence de l’IAEP et du NAEP et l’ont utilisée pour estimer les pourcentages d’élèves de
l’IAEP qui pourraient atteindre ou dépasser les trois niveaux de rendement établis pour le NAEP.
Pashley et Phillips ont conclu qu’il est possible d’établir un lien statistique précis entre l’IAEP et
le NAEP tout en émettant une mise en garde. Ils ont conseillé d’y aller de prudence dans
5 l’interprétation des résultats de l’appariement, car il est difficile de mesurer les effets de sources
inexplorées d’erreur non statistique sur les scores, comme les différents niveaux de motivation
des élèves, qui pourraient avoir une incidence sur les scores. Linn et Kiplinger (1994) ont utilisé
des méthodes de mise en équivalence équipercentile pour apparier les données provenant des
tests administrés au niveau de l’État et le NAEP. Ils ont constaté que la fonction d’appariement
pouvait estimer le rendement moyen d’un test au niveau de l’État sur le NAEP, mais n’était pas
précise en ce qui concerne les scores en haut ou en bas de l’échelle. En outre, la fonction
d’appariement était différente pour les sous-groupes masculins et féminins, ce qui indiquait
qu’elle n’est pas un invariant parmi les différents sous-groupes.
Waltman (1997) a utilisé des méthodes de mise en équivalence équipercentile pour
apparier l’Iowa Tests of Basic Skills (ITBS) et le NAEP. Les deux tests ont aussi été appariés à
l’aide d’une approche de modération sociale dans laquelle les descriptions des niveaux de
rendement utilisées pour le NAEP ont servi aux juges pour établir les normes de rendement
(élémentaire, compétent et avancé) pour l’ITBS. Les résultats de l’étude indiquaient que dans le
cas des élèves qui avaient participé aux deux tests, les zones de rendement correspondantes sur
les échelles du NAEP et de l’ITBS ont produit des pourcentages de concordance de faible à
modérée dans la classification des élèves. La concordance était particulièrement faible chez les
élèves de niveau avancé; les deux tiers ou plus ont été classés différemment.
Au Canada, Cartwright (2003) a examiné quatre différents processus d’appariement
(mise en équivalence équipercentile avec distribution bêta à 4 paramètres, Noyau gaussien de
lissage et Modèles de mélanges gaussiens limités et variables) pour apparier la composante
lecture de l’Évaluation des habiletés de base/Foundation Skills Assessment (ÉHB/FSA)
administrée aux élèves de 10e année en Colombie-Britannique et le test de compétence en lecture
du PISA, administrés les deux en 20001. Cartwright a étudié les biais et la variabilité des scores
appariés ainsi que l’exactitude des estimations des erreurs types d’appariement. Il a conclu que la
méthode équipercentile était la plus appropriée pour apparier les deux tests. Les résultats de cette
1
L’ÉHB est actuellement un programme d’évaluation provincial annuel administré en 4e et en 7e année, lequel
comprenait des tests en 10e année au moment de l’étude. Il évaluait les compétences des élèves en lecture, écriture et
mathématiques. 6 étude ont démontré qu’il est possible de fournir des résultats d’appariement valides entre un test
régional (ÉHB/FSA) et un test international (PISA)2.
Objectif
L’objectif de cette étude était d’évaluer si l’appariement du TPCL/de l’OSSLT et du test de
lecture du PISA 2009 était possible. Deux méthodes d’appariement ont été examinées : la
méthode des items à paramètre fixe (IPF), laquelle est semblable au processus de mise en
équivalence utilisé actuellement par l’OQRE pour comparer ses tests opérationnels d’une année à
l’autre, et la méthode de mise en équivalence équipercentile. L’étude s’est intéressée aux cinq
questions de recherche suivantes :
1. Comment les élèves qui réussissent/échouent le TPCL/l’OSSLT tendent à se classer au PISA?
2. Quelle est la force du lien entre le rendement des élèves au PISA et à l’ensemble du TPCL/de
l’OSSLT; au sous-test sur les compétences en lecture du TPCL/de l’OSSLT; au sous-test sur
les compétences en écriture du TPCL/de l’OSSLT?
3. Comment se comparent les résultats obtenus en utilisant la méthode équipercentile et en se
servant du processus IPF?
4. Quel est le degré de précision de l’appariement des deux tests? La fonction d’appariement estelle semblable pour les élèves de sexe masculin et de sexe féminin?
5. Dans quelle mesure le rendement des élèves au TPCL/à l’OSSLT prédit-il leur rendement au
PISA?
Méthode
Les données
Un numéro d’identification de l’étudiant commun pour les deux tests a été utilisé afin de
créer un ensemble de données pour cette étude, lequel contenait les réponses des élèves aux
items en lecture du PISA 2009 et aux items du TPCL/de l’OSSLT 2009. L’ensemble de données
compte 3 726 élèves de l’Ontario, dont 2 450 provenant d’écoles anglophones et 1 276 d’écoles
2
Une deuxième étude plus récente (2008) a été menée en Colombie-Britannique dans le cadre de laquelle le
rendement des élèves de 4e année au test en lecture de l’ÉHB de 2008 a été apparié au rendement des élèves au
Programme international de recherche en lecture scolaire de 2006 (PIRLS), mais on dispose de très peu
d’information sur cette étude. Des processus d’appariement semblables à ceux dont Cartwright (2003) s’est servi ont
été utilisés et on a considéré que l’appariement était une réussite. 7 francophones. L’ensemble de données comprenait aussi des variables sur les scores totaux;
diverses variables de profil, comme le sexe, la langue, élève apprenant l’anglais langue seconde
ou élève ayant des besoins particuliers; et une variable indiquant quel cahier de test du PISA
l’élève utilisait.
Les items du test
Pour le PISA, chaque élève a répondu à environ 28 items, qui constituent, étant donné
que le PISA utilise un échantillonnage matriciel, une portion des 101 items du test —47 items à
choix multiple et 54 à réponse construite. Pour le TPCL/l’OSSLT, les élèves ont répondu à tous
les 47 items du test —39 items à choix multiple et 8 items à réponse construite (Tableau 1).
Tableau 1 Nombre d’items du PISA et du TPCL/de l’OSSLT
Examen
Lecture PISA 2009
(dans tous les cahiers de test)
Items à choix multiple
Items à réponse construite
47
54
TPCL/OSSLT (lecture et
31 (lecture)
écriture)
8 (écriture)
4 (lecture)
2 (écriture-court)*
2 (écriture-long)*
*Chaque amorce du test d’écriture était évaluée en fonction du développement du sujet et du respect des
conventions, ce qui a donné 8 scores.
Variables des résultats
En ce qui concerne le TPCL/l’OSSLT, la variable des scores totaux pour chaque élève est
un score présenté sur une échelle de 200 à 400. Un score de 300 points est le minimum requis
pour réussir le test. Pour le PISA, la variable des résultats pour chaque élève est indiquée par
cinq valeurs plausibles données sur une échelle de 200 à 800, avec une moyenne de 500 et un
écart type de 100. Le PISA calcule cinq valeurs plausibles pour chaque élève, car, comme il a été
indiqué plus haut, il utilise un modèle d’échantillonnage matriciel. Comme la compétence est
évaluée avec un sous-ensemble des items, chaque estimation du niveau de compétence d’un
individu présente une marge d’erreur de mesure substantielle. En utilisant de multiples valeurs,
8 on tient compte de l’incertitude liée au score estimé d’un élève, car les valeurs multiples
représentent la distribution probable de la compétence d’un élève (OCDE, 2005).
Analyse
Alignement du contenu
Pour renforcer l’interprétabilité des résultats de l’étude sur l’appariement, des experts de
contenu de l’OQRE ont examiné le TPCL/l’OSSLT 2009 et le test de lecture du PISA 2009 pour
voir à quel point les contenus des deux tests étaient semblables. S’ils étaient très semblables, les
scores obtenus dans le processus d’appariement pourraient alors être traités comme des scores
d’échelle équivalents. Si les deux tests étaient modérément semblables seulement, les scores
obtenus dans le processus d’appariement pourraient être traités comme des scores d’échelle
comparables (American Education Research Association, American Psychological Association
et National Council on Education, 1999).
Statistiques descriptives
Les statistiques descriptives suivantes ont été produites :
1. la moyenne et l’écart type des scores d’échelle de l’examen de lecture du PISA et du
TPCL/de l’OSSLT;
2. les coefficients de corrélation du produit-moment de Pearson entre les scores totaux du
TPCL/de l’OSSLT, du test de lecture du TPCL/de l’OSSLT et du test d’écriture du
TPCL/de l’OSSLT et du test de lecture du PISA; et
3. la distribution des élèves qui ont réussi et qui ont échoué le TPCL/l’OSSLT parmi les
niveaux de compétence du PISA. Pour le TPCL/l’OSSLT, les élèves ayant obtenu des
scores d’échelle de 300 et plus étaient classés dans la catégorie réussite et ceux dont les
scores étaient inférieurs à 300, dans la catégorie non-réussite. Pour le PISA, les élèves
étaient classés dans cinq niveaux de compétence en fonction des points de césure publiés
pour le test de lecture du PISA 2009 (OCDE, 2010) : sous le niveau 2, niveau 2, niveau 3,
niveau 4 et niveau 5 et plus.
9 L’analyse de la fonction discriminante
Une analyse de la fonction discriminante a été effectuée sur chacune des cinq valeurs
plausibles du PISA pour évaluer si les élèves qui réussissent et ceux qui échouent le
TPCL/l’OSSLT ont tendance à être bien classés par les scores du PISA. Un tableau de
contingence de la classification par le TPCL/l’OSSLT et de la classification de l’analyse
discriminante a été établi. Le pourcentage des élèves mal classés et le pourcentage total d’erreur
ont été calculés.
Processus d’appariement
La méthode de mise en équivalence équipercentile et la méthode IPF ont été utilisées
pour apparier les tests du TPCL/de l’OSSLT et du PISA. L’OCDE (2005) suggère d’effectuer
une analyse en utilisant les cinq valeurs plausibles afin d’améliorer la précision des résultats;
ainsi, les analyses de l’appariement qui suivent ont utilisé chacune des cinq valeurs plausibles
pour les deux groupes, anglophone et francophone.
Méthode de mise en équivalence équipercentile
Lorsqu’on utilise la méthode équipercentile, les distributions à apparier sont souvent
irrégulières, elles présentent des « pics » et des « vallées » prononcés. Il y a des irrégularités, car
bien que le concept sous-jacent que l’on mesure soit continu, les scores reflétant la possession du
concept (construit) sont discrets. En outre, comme certains scores sont absents, il y a des trous
dans les distributions. Ainsi, pour améliorer la précision de l’appariement équipercentile et pour
réduire les erreurs d’appariement, on utilise souvent une méthode de pré-lissage. Parmi les
diverses méthodes de pré-lissage, Cope et Kolen (1990) et Hanson (1990) ont suggéré le modèle
bêta-binomial à 4 paramètres et le modèle log-linéaire pour procéder au pré-lissage des
distributions de scores à apparier. Comme il a été souligné plus haut, Cartwright (2003) a
constaté que le modèle bêta-binomial à 4 paramètres était celui qui convenait le mieux parmi les
quatre différentes méthodes de pré-lissage qu’il a analysées. Les étapes suivantes ont été suivies
pour apparier le TPCL/l’OSSLT et le PISA pour chacune des cinq valeurs plausibles et pour
chacun des deux groupes linguistiques :
1. Le modèle bêta-binomial à 4 paramètres a été utilisé pour le pré-lissage des distributions
du PISA et du TPCL/de l’OSSLT.
10 2. La mise en équivalence équipercentile a servi à apparier le TPCL/l’OSSLT et le PISA.
3. Les points de césure du TPCL/de l’OSSLT ont été convertis aux scores d’échelle du
PISA et les normes de rendement pour le PISA et le TPCL/l’OSSLT ont été comparées
en relevant le score d’échelle du PISA qui correspondait au point de césure pour une
réussite sur le TPCL/l’OSSLT.
Méthode avec items à paramètre fixe (IPF)
La méthode d’appariement IPF consiste à déterminer les estimations des paramètres pour
les items d’un test pour ensuite échelonner le second test avec le premier. Le second test est ainsi
mis à l’échelle du premier test. La méthode d’appariement IPF a été utilisée pour placer le
TPCL/l’OSSLT et le PISA sur la même échelle. Les étapes suivantes ont été suivies :
1. Un échelonnage TRI a été effectué sur l’ensemble des données en utilisant les paramètres
des items du PISA qui avaient été établis3. Cette étape a permis de produire un ensemble
d’estimations des paramètres pour les items du TPCL/de l’OSSLT (pour la lecture et
l’écriture) sur l’échelle du PISA. Le modèle TRI utilisé pour cette étape était le modèle
modifié à un paramètre (le paramètre a était de 0,588 et le paramètre c de 0,20) dont s’est
servi l’OQRE pour échelonner le TPCL/l’OSSLT. Le modèle généralisé à crédit partiel a
été utilisé pour les items polytomiques.
2. Les estimations des paramètres des items rééchelonnés du TPCL/de l’OSSLT de l’étape 1
ont été utilisées pour transposer les données du TPCL/de l’OSSLT. Au terme de cette
étape, on a obtenu une valeur θ rééchelonnée pour le TPCL/l’OSSLT sur l’échelle du
PISA pour chaque élève.
3. Les distributions θ et les fonctions d’information du test (FIT) du TRI du TPCL/de
l’OSSLT rééchelonné et des tests du PISA ont été comparées. La similarité/dissimilarité
des distributions θ et des FIT a fourni de l’information sur le degré de précision de la
fonction d’appariement.
4. Les scores d’échelle du PISA qui étaient équivalents aux points de césure du TPCL/de
l’OSSLT ont été relevés en identifiant les scores sur les valeurs θ du TPCL/de l’OSSLT
3
PISA publie les paramètres des items dans des rapports techniques. Comme le rapport technique du PISA 2009 n’a
pas encore été diffusé, l’OCDE a communiqué les paramètres des items du PISA 2009 à l’OQRE par courriel avant
qu’ils soient rendus publics. 11 rééchelonné qui avaient les mêmes rangs centiles que les points de césure sur l’échelle du
TPCL/de l’OSSLT. Ensuite, chaque élève a été classé dans les catégories du TPCL/de
l’OSSLT en appliquant le nouveau point de césure au score d’échelle du PISA. Les
concordances entre les pourcentages d’élèves classés dans les catégories de compétence
ont été déterminées.
Régression
Pour chacune des valeurs plausibles, on a effectué une régression simple afin de prédire
les scores de l’échelle du PISA à partir des scores d’échelle du TPCL/de l’OSSLT. La variance
expliquée de la variable dépendante par la variable indépendante a été calculée. Les
scoresd’échelle prédits du PISA ont été transformés en niveaux PISA à l’aide des points de
césure du PISA. Un tableau de contingence comprenant les niveaux prédits du PISA les scores
bruts du PISA a été crée. Le pourcentage de concordance a été calculé.
Résultats
Alignement du contenu
Des experts de contenu de l’OQRE ont examiné les cadres du contenu et les items relatifs
à la lecture du PISA et du TPCL/de l’OSSLT. Comme ce ne sont pas tous les items du PISA qui
ont été diffusés, l’étude sur l’alignement s’est appuyée sur l’échantillon d’items du PISA rendus
publics. Les résultats de l’analyse sur l’alignement sont résumés dans le Tableau 2. Bien que le
test de lecture du PISA et du TPCL/de l’OSSLT soient tous les deux des tests en littératie, ils ne
sont pas identiques. Les deux tests sont toutefois très similaires en ce qui concerne leur objectif,
les types d’items, les genres de texte utilisés, les types de tâches et les compétences cognitives
évalués.
12 Tableau 2 Comparaison du contenu de l’examen de lecture du PISA et du TPCL/de l’OSSLT
Caractéristiques
Test de lecture du PISA
TPCL/OSSLT
Matières

Lecture

Lecture et écriture
Méthode

Tests papier-crayon de 120 min.
[Le Canada a choisi de ne pas
ajouter le test de 40 min sur la
compréhension de textes
électroniques]
47 items à CM (46,5 %)
54 items à RC (53,5 %)
70 % pour les textes continus
30 % pour les textes non continus

Tests papier-crayon de 150 min
[environ 75 min pour La
composante lecture; 75 min pour la
composante écriture]
31 items à CM (71,6 %);
4 items à RC (28,3 %)

Répartition
approximative des
tâches par texte
Processus de lecture :
(aspect/compétence)
évalué(e)
et distribution
approximative des
tâches par
aspect/compétence


distribution des tâches par « aspect »
évalué :
 25 % sur de l’information et des
idées indiquées de manière
explicite (trouver et extraire)
 50 % sur de l’information et des
idées indiquées de manière
implicite (intégrer et interpréter)
 25 % sur les liens à faire entre
l’information et les idées dans les
choix de lecture et les
connaissances et l’expérience
personnelles (réfléchir et évaluer)



92 % pour les textes continus
8 % pour les textes graphiques
distribution des tâches par
« compétence » évaluée :
 20 % sur la compréhension de
l’information et des idées indiquées
de manière explicite (trouver et
extraire)
 60 % sur la compréhension de
l’information et des idées indiquées
de manière implicite (interpréter)
 20 % sur les liens à faire entre
l’information et les idées dans les
choix de lecture et l’expérience et
les connaissances personnelles
(interpréter et intégrer)
Statistiques descriptives
La moyenne et l’écart type des scores de l’examen de lecture du PISA et du TPCL/de
l’OSSLT pour les élèves ontariens qui ont pris part aux deux tests sont résumés dans le
Tableau 3 selon la langue. Comme il a été mentionné plus haut, le PISA et le TPCL/l’OSSLT
sont présentés sur des échelles différentes : le PISA a été placé sur une échelle de 200 à 800 avec
une moyenne de 500 et un écart type de 100 alors que le TPCL/l’OSSLT est transposé sur une
échelle de 200 à 400. Les moyennes des scores du TPCL/de l’OSSLT sont semblables pour les
deux groupes linguistiques, mais la moyenne des scores du PISA pour les élèves anglophones est
de 58 points plus élevée que chez les élèves francophones.
13 Tableau 3 Moyenne et écart type des cinq valeurs plausibles du PISA et des scores du TPCL/de
l’OSSLT pour les élèves qui ont participé aux deux tests
Anglophones
Francophones
Scores
N
Moyenne
É.T.
TPCL/OSSLT
330
VP1*
VP2
Moyenne
É.T.
25
327
27
535
85
477
86
536
85
476
86
2450
N
1276
VP3
535
84
476
87
VP4
535
85
477
86
VP5
536
86
477
85
*VP=valeur plausible
Les coefficients de corrélation produit-moment de Pearson entre les scores en lecture du
PISA et les scores du TPCL/de l’OSSLT varient de 0,68 à 0,70 pour la totalité du test. Les
coefficients pour les scores en lecture du TPCL/de l’OSSLT (0,63 à 0,66) étaient légèrement
supérieurs à ceux des scores en écriture du TPCL/de l’OSSLT (0,60 – 0,63) (Tableau 4).
14 Table 4 Coefficients de corrélation entre le TPCL/l’OSSLT et l’examen de lecture du PISA
TPCL/OSSLT
Langue
Valeur
plausible du
PISA
Test total
Lecture
Écriture
1
0,70
0,66
0,61
2
0,69
0,65
0,60
3
0,69
0,64
0,61
4
0,70
0,65
0,61
5
0,70
0,66
0,60
1
0,69
0,65
0,61
2
0,69
0,64
0,63
3
0,70
0,65
0,63
4
0,70
0,65
0,63
5
0,68
0,63
0,61
Anglophone
Francophone
La Figure 1 montre le pourcentage d’élèves ontariens dans chacune des catégories de
rendement du PISA pour les élèves qui ont effectué les deux tests. Un pourcentage plus élevé
d’élèves anglophones que d’élèves francophones a atteint au moins le niveau 2.
6%
18%
31%
30%
14%
Sous le niveau 2
Langue
Anglophone (n=2,450)
Niveau 2
Francophone (n=1,276)
21%
30%
31%
15%
3%
Niveau 3
Niveau 4
Niveau 5 et plus
0%
20%
40%
60%
80%
Pourcentage d'élèves à chaque niveau (PISA 2009) Sous le niveau 2 au niveau 6
15 100%
Figure 1. Pourcentage d’élèves francophones et anglophones de l’Ontario dans les niveaux de
compétence du PISA en 2009
La majorité des élèves qui ont réussi le TPCL/l’OSSLT, sans égard à la langue, ont été
classés au moins au niveau 2 dans les niveaux de compétence du PISA (Figure 2).
40
36
35
33
34
31
30
pourcentage
25
20
Anglophone (réussite)
n=2,214
18
15
15
Francophone (réussite)
n=1,099
15
13
10
5
3
3
0
Sous le niveau 2
Niveau 2
Niveau 3
Niveau 4
Niveau 5 et plus
Niveaux du PISA
Figure 2. Distribution des élèves dans les niveaux de compétence du PISA chez les élèves qui
ont réussi le TPCL/l’OSSLT
La majorité des élèves qui ont réussi le TPCL/l’OSSLT ont été classés au moins au niveau 2
dans le PISA (97 % pour les élèves anglophones et 87 % pour les élèves francophones)
(Tableau 5). Parmi les élèves qui l’ont échoué, 65 % des élèves anglophones et 30 % des élèves
francophones ont été classés au moins au niveau 2 dans le PISA.
16 Tableau 5 Distribution des élèves dans les niveaux du PISA selon les catégories des résultats au
TPCL/à l’OSSLT
Pourcentage des élèves selon les résultats au TPCL/à l’OSSLT
Anglophone
Francophone
Niveaux du PISA
Réussite
Non-réussite
Réussite
Non-réussite
Sous le niveau 2
3
35
13
70
Niveau 2
15
48
31
26
Niveau 3 et plus
82
17
56
4
Total
100
100
100
100
Analyse de la fonction discriminante
Une analyse de la fonction discriminante a été effectuée afin de savoir dans quelle mesure les
scores du PISA parviennent à classer les élèves qui réussissent et ceux qui échouent le
TPCL/l’OSSLT. Le Tableau 6 montre le pourcentage d’élèves qui ont été mal classés. Le
pourcentage d’erreur moyen est calculé comme la somme des erreurs de classement pondérées
multipliée par la probabilité a priori. Dans ce cas-ci, comme il y a seulement deux résultats —
réussite et non-réussite — la probabilité a priori a été établie à 50 %. Comme le pourcentage
d’erreur moyen est d’environ 20 %, cela signifie qu’approximativement 80 % des élèves du
TPCL/de l’OSSLT ont été classés correctement par les scores du PISA.
Tableau 6 Pourcentage d’élèves mal classés au TPCL/à l’OSSLT et erreur moyenne dans les
classements
Pourcentage d’élèves mal classés
Langue
Anglophone
Valeur
plausible
Mal classés
comme réussite
Mal classés
comme nonréussite
Erreur
moyenne
1
17,4
21,6
19,5
2
16,5
21,8
19,2
3
15,7
21,9
18,8
4
14,4
21,5
18,0
5
17,0
22,2
19,6
17 Francophone
1
22,0
22,7
22,4
2
19,2
22,6
20,9
3
17,5
22,4
20,0
4
18,1
21,7
19,9
5
19,2
23,0
21,1
Une analyse discriminante a aussi été effectuée pour classer les élèves dans les niveaux de
compétence du PISA selon leurs scores au TPCL/à l’OSSLT. Environ 45 % des élèves ont été
correctement classés dans leur niveau PISA observé selon leur score au TPCL/à l’OSSLT, et les
pourcentages étaient beaucoup plus élevés pour les niveaux 1 et 6. Plus des trois quarts des
élèves ont été correctement classés comme étant au niveau 2 ou à un niveau supérieur.
Résultats de l’appariement
Mise en équivalence équipercentile
Après avoir apparié le TPCL/l’OSSLT et le PISA en utilisant la mise en équivalence
équipercentile, on a converti les points de césure du TPCL/de l’OSSLT à score d’échelle du
PISA. Les points de césure équivalents sont présentés dans le Tableau 7 pour chacune des cinq
valeurs plausibles pour les deux langues et selon le sexe. Dans chaque groupe linguistique et
pour chacun des sexes, des points de césure cohérents ont été relevés pour les cinq valeurs
plausibles. Pour la forme anglophone du test, le point de césure de l’OSSLT de 300 correspond à
433 sur le PISA; alors que pour la forme francophone du test, le point de césure de 300 du TPCL
correspond à 388 sur le PISA, ce qui est 45 points de moins que celui de la forme anglophone du
test.
Pour la forme anglophone du test, le point de césure de 300 de l’OSSLT correspond à
422 et 446 sur l’échelle du PISA pour les garçons et les filles, respectivement. En ce qui
concerne la forme francophone du test, le point de césure de 300 du TPCL correspond à 387 et
389 sur l’échelle du PISA pour les garçons et les filles, respectivement. Le point de césure
moyen pour les garçons francophones est inférieur de 35 points à celui des garçons anglophones
et le point de césure moyen pour les filles francophones est de 57 points inférieur à celui des
filles anglophones.
18 Tableau 7 Score en lecture sur l’échelle du PISA équivalant au point de césure du TPCL/de
l’OSSLT
Langue
Anglophone
Francophone
Élèves
Valeur
plausible 1
Valeur
plausible 2
Valeur
plausible 3
Valeur
plausible 4
Valeur
plausible 5
Tous
433
433
434
433
433
Garçons
421
423
423
422
422
Filles
446
446
447
446
445
Tous
388
388
388
388
390
Garçons
388
388
386
386
390
Filles
387
388
391
390
389
Si l’on compare les normes du TPCL/de l’OSSLT et du PISA en utilisant l’échelle de
compétence en lecture du PISA, le point de césure de l’OSSLT est légèrement supérieur au point
de césure du PISA pour le niveau 2, et le point de césure du TPCL est légèrement inférieur au
point de césure du PISA pour le niveau 2 (Figure 3). Les résultats pour les élèves anglophones et
les élèves francophones suggèrent que les élèves qui ont été classés comme atteignant la norme
provinciale au TPCL/à l’OSSLT correspondent en quelque sorte au niveau 2 du PISA ou à un
niveau supérieur. Cela signifie que les élèves qui ont atteint la norme provinciale de l’Ontario en
matière de littératie auraient sans doute démontré qu’ils possédaient, selon l’OCDE (2010), « les
compétences en lecture qui leur permettront de participer à la vie efficacement et de manière
productive. »
19 Figure 3. Comparaison entre les normes du TPCL/de l’OSSLT et du PISA pour les deux
langues : mise en équivalence équipercentile
Échelle du
test de
lecture du
PISA
Test de lecture du
PISA
Niveaux de
compétence
700
Niveau 5 et plus
(au-dessus de 625)
600
Niveau 4
(553 - 625)
500
Niveau 3
(480 - 552)
400
OSSLT (433)
Niveau 2
(407 - 479)
TTPCL (388)
300
Sous le niveau 2
(moins de 407)
200
Les descripteurs de la norme de réussite du TPCL/de l’OSSLT et de la norme du
PISA pour le niveau 2 sont très semblables. Selon le TPCL/l’OSSLT, pour réussir « tous
les élèves doivent au moins atteindre un niveau de connaissances et de compétence de
base en littératie. Dans le cadre du TPCL, la littératie désigne les habiletés en lecture et
en écriture nécessaires pour comprendre les textes de lecture et pour communiquer par
écrit au moyen d’une variété de genres de textes, tel que prévu dans Le curriculum de
l’Ontario dans toutes les matières jusqu’à la 9e année » (Office de la qualité et de la
responsabilité en éducation,
http://www.eqao.com/pdf_f/11/Ccurrcon_Xf_0611_WEB.pdf). Selon la norme établie
dans le PISA « le niveau 2 peut être considéré comme un niveau seuil de compétence,
auquel les élèves commencent à manifester les compétences en lecture qui leur
permettront de participer à la vie efficacement et de manière productive » (OCDE, 2010).
Cette similitude est cohérente avec les résultats présentés dans la Figure 3.
20 Processus IPF
Le processus IPF a été effectué pour apparier le test de compétence en lecture du PISA et
le TPCL/l’OSSLT en utilisant le modèle TRI modifié à un paramètre pour les items à choix
multiple et le modèle de crédit partiel généralisé pour les items à réponse construite. Selon les
résultats obtenus, pour les élèves anglophones, le point de césure de l’OSSLT correspond à 427
sur l’échelle du PISA, ce qui est supérieur à la limite inférieure du niveau 2 pour les compétences
en lecture du PISA. Pour les élèves francophones, le point de césure du TPCL correspond à 396
sur l’échelle du PISA, ce qui est légèrement sous la limite inférieure du niveau 2 pour les
compétences en lecture du PISA. Le point de césure du TPCL est de 31 points inférieur au point
de césure de la forme anglophone du test.
Le point de césure a également été défini pour les garçons et les filles. Pour la forme
anglophone du test, le point de césure de l’OSSLT qui est 300 correspond aux scores 423 et 431
du Pisa pour les garçons et les filles, respectivement. En ce qui concerne la forme francophone
du test, le point de césure du TPCL qui est 300 correspond aux scores 394 et 403 du PISA pour
les garçons et les filles, respectivement. Le point de césure du TPCL pour les garçons est de
29 points inférieur au point de césure de la forme anglophone du test. Le point de césure du
TPCL pour les filles est de 28 points inférieur à celui de la forme anglophone du test. Ces
différences entre les points de césure des garçons et des filles sont attribuables aux différentes
formules utilisées pour chaque sexe pour transformer les valeurs θ en score d’échelle du PISA.
Une comparaison entre les processus équipercentile et IPF révèle des différences dans
leurs résultats (Tableau 8). Le score d’échelle du PISA équivalant au point de césure du TPCL/de
l’OSSLT pour tous les élèves francophones est de 45 points inférieur à celui pour tous les élèves
anglophones avec la méthode équipercentile. Mais cette différence est de seulement 31 points
pour le processus IPF. Le score d’échelle du PISA équivalant au point de césure du TPCL/de
l’OSSLT pour les élèves francophones de sexe masculin et féminin est de 35 et 57 points
inférieur à celui des élèves anglophones, respectivement avec la méthode équipercentile, mais
ces différences sont de seulement 29 et 28 points, respectivement dans le processus IPF. Comme
les différences entre les points de césure pour les garçons et les filles sont moins importantes
avec le processus IPF qu’avec la méthode équipercentile, le processus IPF semble plus efficace
pour ces deux tests.
21 Tableau 8 Score pour la compétence en lecture sur l’échelle du PISA équivalant au point de
césure du TPCL/de l’OSSLT selon la langue et le sexe pour les processus d’appariement
équipercentile et IPF
Anglophone
Élèves
Francophone
Percentiles
égaux
IPF
Percentiles
égaux
IPF
Tous
433
427
388
396
Garçons
422
423
387
394
Filles
446
431
389
403
Régression
Une analyse de régression simple a été effectuée pour prédire les scores d’échelle du
PISA à partir du score d’échelle du TPCL/de l’OSSLT pour chacune des cinq valeurs plausibles
dans l’échantillon. Les valeurs considérées comme des cas aberrants ou extrêmes ont été retirées
de l’analyse de régression. Un tableau de contingence a été créé pour rendre compte de la
concordance entre la classification brute et la classification prédite dans l’échantillon pour
chacune des valeurs plausibles. Les tableaux 9 et 10 présentent les tableaux de contingence pour
les niveaux de compétence observés et prédits sur l’échelle du PISA pour la valeur plausible 1
pour les échantillons anglophone et francophone, respectivement. La concordance entre les
niveaux observés et prédits n’était pas grande; les niveaux du PISA observés et prédits étaient les
mêmes pour environ la moitié seulement des élèves. En outre, le degré de concordance avait
tendance à être plus élevé dans les niveaux intermédiaires, soulignant ainsi la tendance de
l’analyse de régression à sous-estimer le nombre d’élèves aux extrémités de l’échelle. Les
coefficients de corrélation entre les valeurs plausibles observées et prédites du PISA pour les
échantillons anglophone et francophone variaient de 0,71 à 0,72 et de 0,69 à 0,72,
respectivement.
22 Tableau 9 Concordance entre les niveaux observés et prédits du PISA pour l’échantillon
d’élèves anglophones en utilisant la valeur plausible 1 du PISA
Niveaux prédits
Valeur plausible 1 du PISA
Sous le
niveau 2
Sous le
niveau
2
Niveau
2
Niveau
3
Niveau
4
Niveau
5 et
plus
Total
N
28
91
50
2
0
171
%
16,4
53,2
29,2
1,2
0,0
100,0
N
8
188
209
31
0
436
%
1,8
43,1
47,9
7,1
0,0
100,0
N
3
115
465
171
8
762
%
0,4
15,1
61,0
22,4
1,0
100,0
N
0
18
289
346
47
700
%
0,0
2,6
41,3
49,4
6,7
100,0
N
0
0
55
211
94
360
%
0,0
0,0
15,3
58,6
26,1
100,0
N
39
412
1068
761
149
2429
%
1,6
17,0
44,0
31,3
6,1
100,0
Niveau 2
Niveau 3
Niveaux
observés
Niveau 4
Niveau 5 et
plus
Total
23 Tableau 10 Concordance entre les niveaux observés et prédits du PISA pour l’échantillon
d’élèves francophones en utilisant la valeur plausible 1 du PISA
Niveaux prédits
Valeur plausible 1 du PISA
Sous le
niveau 2
Sous le
niveau 2
Niveau 2 Niveau 3 Niveau 4
Niveau 5
et plus
Total
N
119
121
20
1
0
261
%
45,6
46,4
7,7
0,4
0,0
100,0
N
49
213
109
10
0
381
%
12,9
55,9
28,6
2,6
0,0
100,0
N
9
117
221
32
2
381
%
2,4
30,7
58,0
8,4
0,5
100,0
N
0
27
125
48
6
206
%
0,0
13,1
60,7
23,3
2,9
100,0
N
0
0
17
20
4
41
%
0,0
0,0
41,5
48,8
9,8
100,0
N
177
478
492
111
12
1270
%
13,9
37,6
38,7
8,7
0,9
100,0
Niveau 2
Niveau 3
Niveaux
observés
Niveau 4
Niveau 5
et plus
Total
Discussion
Selon les résultats obtenus, la plupart des élèves ontariens qui ont atteint la norme
provinciale au TPCL/à l’OSSLT (élèves ayant réussi) ont été classés au niveau 2 ou à un niveau
supérieur au PISA lorsque les deux tests ont été appariés à l’aide des processus équipercentile et
IPF. Ce constat concorde avec la similitude observée dans les définitions de la littératie pour les
deux tests à ces points de césure. Comme il a été mentionné plus haut, le niveau 2 du PISA est
considéré comme un niveau de compétence de base qui est semblable à la norme de littératie
attendue pour réussir le TPCL/l’OSSLT. Les coefficients de corrélation entre les scores du PISA
et les scores totaux du TPCL/de l’OSSLT étaient légèrement plus élevés que ceux entre le PISA
et la composante lecture du TPCL/de l’OSSLT; et les coefficients de corrélation pour la
composante lecture étaient légèrement plus élevés que ceux de la composante écriture. Ce
24 constat vient à l’appui de la décision d’effectuer des analyses d’appariement entre le PISA et
l’ensemble du TPCL/de l’OSSLT.
Bien que les processus équipercentile et IPF aient un objectif commun (déterminer la
relation entre les scores de deux tests qui mesurent le même concept et relever les scores sur un
test qui sont équivalents aux scores sur l’autre test), chaque méthode atteint cet objectif d’une
manière différente. La méthode équipercentile relève les scores sur un test qui ont les mêmes
rangs centiles que les scores sur un autre test. La distribution des scores, après la mise en
équivalence, est fondée sur les rangs centiles égaux provenant des deux tests. Le processus IPF
place les estimations des paramètres pour les items sur les deux tests et sur la même échelle. Les
résultats de ces deux processus étaient semblables, mais non identiques. Si l’objectif est de
prédire les scores des élèves au PISA à partir de leurs scores au TPCL/à l’OSSLT, le processus
IPF fournit alors des interprétations plus précises que la méthode équipercentile parce que dans
le processus IPF, les scores du TPCL/de l’OSSLT et du PISA sont sur la même échelle. Si
l’objectif, toutefois, est d’estimer la proportion d’élèves d’une école dans chaque niveau du PISA
à partir de leurs scores au TPCL/à l’OSSLT, la méthode équipercentile serait plus appropriée.
Les points de césure équivalents pour le TPCL/l’OSSLT sur l’échelle du PISA produits
par la méthode d’appariement IPF étaient aussi plus bas que ceux qui ont été obtenus par la
méthode équipercentile. Les différents points de césure dans l’échantillon et pour chaque sexe
prouvent que les concepts mesurés par les deux tests ne sont pas identiques. La littératie est
complexe et nécessite, en plus de la lecture, un ensemble de compétences, la connaissance des
conventions linguistiques et des processus langagiers.
On ne peut considérer que les processus d’appariement utilisés dans cette étude
permettent une véritable mise en équivalence pour plusieurs raisons. L’invariance du groupe est
un postulat de la mise en équivalence selon lequel la relation de mise en équivalence demeure la
même pour tous les groupes de candidats utilisés pour effectuer le processus (Kolen et Brennan,
2004). Dans cette étude, on n’a pas pu se conformer au postulat d’invariance, car les points de
césure pour les garçons et les filles étaient différents, en grande partie parce que la formule
utilisée pour transformer les valeurs thêta en scores d’échelle du PISA n’était pas la même pour
les deux sexes. En outre, bien que les concepts mesurés par les deux tests soient très similaires,
les tableaux de spécifications des tests indiquent que les tests ont évalué certains aspects
différents de la littératie. Par ailleurs, les modèles d’échelonnage pour les deux tests ne sont pas
25 identiques. Par exemple, un modèle Rasch stricte est utilisé dans le PISA alors qu’un modèle
modifié à un paramètre est utilisé pour le TPCL/l’OSSLT. On ne s’attendait donc pas à obtenir
une mise en équivalence parfaite.
L’analyse de la fonction discriminante a montré que les élèves qui réussissent et ceux qui
échouent le TPCL/l’OSSLT peuvent être classés correctement dans 80 % des cas en utilisant les
scores en lecture du PISA. Seulement 45 % des élèves ont été correctement classés dans leur
niveau observé sur le PISA en se fondant sur leur score au TPCL/à l’OSSLT, mais plus des trois
quarts des élèves ont été classés correctement comme étant de niveau 2 au PISA ou à un niveau
supérieur. Ce degré de précision est trop faible pour permettre une prédiction fiable des scores au
PISA à partir des scores au TPCL/à l’OSSLT.
En conclusion, la présente étude démontre que la norme provinciale du TPCL/de
l’OSSLT est comparable aux normes internationales en matière de compétence de base en
littératie. Cependant, il a été quelque peu difficile d’apparier les scores des deux tests, en partie
parce que les tests mesurent certains aspects différents de la littératie et parce que des méthodes
différentes ont été utilisées pour obtenir des scores d’échelle. Les deux méthodes dans cette
étude n’ont pas produit des résultats identiques, ce qui met en évidence les défis d’apparier des
tests provinciaux et internationaux. Comme les processus d’appariement utilisés dans l’étude ne
constituent pas une véritable mise en équivalence, la prudence est indiquée dans l’interprétation
des résultats.
Cette étude sur l’appariement offre de l’information utile qui ajoute une autre dimension
à l’interprétation des résultats des deux tests, ce qui confère encore plus de sens aux résultats des
deux tests.
26 Références
American Educational Research Association, American Psychological Association, et National
Council on Measurement in Education. (1999). Standards for Educational and
« Institut de recherches psychologiques. (2003). Normes de pratique du testing en
psychologie et en éducation. Adaptation française de Standards for educational and
psychological testing par l’AERA, l’APA et le NCME. Auteur : Montréal. ».
Cartwright, F. (2003). Equipercentile methods of linking inter-regional and regional
assessments, Thèse de maîtrise non publiée, Université de l’Alberta, Alberta.
Cope, R. T., et Kolen, M. J. (1990). A study of methods for estimating distributions of test scores.
American College Testing Research Report 90-5. Iowa City, IA, American College
Testing.
Hanson, B. A. (1990). An investigation of methods for improving estimation of test score
distributions. American College Testing Research Report 90-4, Iowa City, IA, American
College Testing.
Kolen, M. J., et Brennan, R.L. (2004). Test equating, scaling, and linking: Methods and
practices (2e éd.), New York, NY, Springer-Verlag.
Linn, R. L. (1993). Linking results of distinct assessments. Applied Measurement in Education,
6(1), 83-102.
Linn, R. L., et Kiplinger, V. L. (1994). Linking statewide tests to the National Assessment of
Educational Progress: Stability of results, Applied Measurement in Education, 8, 135156.
Linn, R. L., McLaughlin, D., et Thissen, D. (2009). Utility and validity of NAEP linking efforts,
Washington, DC, American Institutes for Research, NAEP Validity Studies Panel.
Mislevy, R. J. (1991). Randomization-based inference about latent variables from complex
samples, Psychometrika, 56, 177–196.
Mislevy, R. J., Johnson, E. G., et Muraki, E. (1992) Scaling procedures in NAEP, Journal of
Educational Statistics, 17, 131–154.
Mislevy, R. J. (1992). Linking Educational Assessments: Concepts, Issues, Methods, and
Prospects, Princeton, NJ, Educational Testing Service.
OCDE. (2005). PISA 2003 Technical Report, Paris, auteur.
27 OCDE. (2009). Le cadre d’évaluation de PISA 2009 : Les compétences clés en compréhension
de l’écrit, en mathématiques et en sciences, Paris, auteur.
OCDE. (2010). Résultats de PISA 2009 : Savoirs et savoir-faire des élèves : Performance des
élèves en compréhension de l’écrit, en mathématiques et en sciences, 1.
Paris, auteur.
Office de la qualité et de la responsabilité en éducation. (2007). Document-cadre, Test provincial
de compétences linguistiques, Toronto, ON, auteur.
Pashley, P. J., et Phillips, G. W. (1993). Toward World-Class Standards: A Research Study
Linking International and National Assessments, Center for Educational Progress,
Princeton, NJ, Educational Testing Service.
Waltman, K. K. (1997). Using performance standards to link statewide achievement results to
NAEP, Journal of Educational Measurement, 34(2), 101-121.
28 Office de la qualité et de la responsabilité en éducation
2, rue Carlton, bureau 1200, Toronto (Ontario) M5B 2M9, 1 888 327-7377, www.oqre.on.ca
© Imprimeur de la Reine pour l’Ontario, 2012

Documents pareils