WISC–IV CDN-F - Clinical Assessment Canada

Transcription

WISC–IV CDN-F - Clinical Assessment Canada
Questions fréquentes en ce qui concerne l’étude de validation
québécoise du WISC–IVCDN-F
Historiquement, la majorité des psychologues au Canada utilisent le WISC–IVCDN-F pour leurs
évaluations psychoéducationnelles. Avant la publication de l’étude de validation québécoise, les
normes canadiennes-anglaises étaient utilisées avec la version française du test. Suivant la
publication, plusieurs psychologues ont continué d’utiliser les normes canadiennes-anglaises
malgré les normes québécoises à leur disposition. Il semble y avoir eu un malentendu quant à
cette étude de validation. Les psychologues remettaient en question la validité des normes en
raison de la taille de l’échantillon et d’autres critiques reliées à la stratification. Ces inquiétudes
ont été adressées dans le manuel, dans la présentation ci-incluse et dans les réponses aux
questions fréquentes ci-dessous.
Pour la première fois, depuis la création de la version originale du WISC en 1949, l’échelle est
dotée de normes distinctes pour le Québec. Ces normes ont été distribuées gratuitement à toute
institution ou tout individu ayant acheté un WISC–IVCDN-F. Plusieurs psychologues ont toutefois
des interrogations par rapport aux travaux dont ces normes sont issues et préfèrent continuer
d’utiliser les normes canadiennes-anglaises.
Objectif du présent rapport
L’objectif du présent rapport est de répondre aux questions techniques sur la méthode de
recherche et l’étude de validation des normes au Québec et expliquer pourquoi l’utilisation des
normes canadiennes-anglaises n’est pas recommandée lorsqu’on évalue un enfant québécois. Les
questions ci-dessous proviennent d’un comité de psychologues québécois de différents milieux
lors de deux rencontres de travail autour du thème.
Questions
Q : Comment un si petit échantillon peut-il se justifier statistiquement? Quelles sont
l’argumentation et les preuves statistiques permettant d’affirmer que cette taille est
adéquate et fiable?
R : Il est important de souligner que l’élaboration de la normalisation québécoise a bénéficié des
trois projets précédents de normalisation du WISC–IV. Ces trois projets comprenaient les
normalisations américaine, canadienne-anglaise et franco-ontarienne. La première élaboration de
normes pour un nouveau test porte toujours le fardeau et l’obligation d’établir la fidélité et la
validité de l’instrument. Une première élaboration de normes doit, par conséquent, inclure un plus
grand nombre de participants pour chaque groupe d’âge afin de 1) vérifier les concepts sousjacents de chaque sous-test, 2) déterminer la pertinence de chaque item par rapport au concept
évalué par l’ensemble du sous-test, 3) confirmer la cohérence interne des composantes, et 4)
établir avec confiance l’ordre de difficulté des items de façon appropriée pour chaque groupe
d’âge, etc. Une première élaboration de normes doit aussi déterminer et sélectionner les items les
plus discriminants avec les corrélations items-total les plus fortes avec le reste du sous-test. Cette
étape assure une fidélité solide de l’instrument au complet, et cela pour chaque groupe d’âge de
façon indépendante. Elle doit donc éliminer tout item qui a été sujet ou soupçonné d’un biais
quelconque pour un groupe de participants, par exemple les filles par rapport aux garçons. Ces
déterminations théoriques ainsi que statistiques en relation avec la structure de test, de concepts
évalués par les sous-tests et de caractéristiques psychométriques ont été établies par la
1
normalisation américaine. Ensuite, la normalisation canadienne-anglaise a pris la même version
américaine du test avec des modifications minimes, a élaboré des normes propres au Canada
anglais et a réétabli avec succès plusieurs de ces propriétés psychométriques telles que la fidélité
du test et la cohérence de la structure interne des composantes.
L’élaboration des normes franco-ontariennes constituait la première version en langue française
du WISC–IVCDN-F. Puisque le test avait subi des modifications significatives quant aux sous-tests
verbaux dû au processus de traduction, l’étude devait une fois de plus réétablir avec confiance
plusieurs des paramètres psychométriques de fidélité. Une discussion détaillée des propriétés
psychométriques (fidélité et validité) de la version française du WISC–IVCDN-F se trouve aux
chapitres 4 et 5 du Manuel technique et d’interprétation du WISC–IVCDN-F (Wechsler, 2005). Tout
un travail a donc été effectué pour confirmer les fondations conceptuelles et théoriques du WISC–
IVCDN ainsi que pour valider ses propriétés psychométriques, à la fois lors de l’élaboration des
normes canadiennes-anglaises et lors de l’élaboration de la première version en langue française.
Dans ce cadre, le projet de recherche de la validation québécoise détenait quatre objectifs
majeurs :
1. Vérifier que le contenu du test était approprié pour les québécois, ce qui a été établi au
moment de l’élaboration de la version française du test. En effet, un comité consultatif
composé d’experts en traduction et de professionnels œuvrant au sein de plusieurs
communautés francophones à travers les provinces du Canada incluant le Québec, a
vérifié que le contenu et le vocabulaire utilisés dans le test étaient appropriés pour le
Canada français, incluant le Québec.
2. Déterminer si les normes des études canadiennes-anglaises ou franco-ontariennes
pouvaient être utilisées de façon appropriée pour évaluer l’aptitude intellectuelle des
enfants québécois. À cet effet, une étude préliminaire a été réalisée et a révélé une
divergence significative entre ces trois échantillons (Voir le tableau à l’Annexe 1 du
présent document pour les divergences entre les québécois et les Canadiens anglais).
Cette différence des moyennes n’était pas due au contenu du test ni à son administration
ou sa notation car ceux-ci sont demeurés identiques. Cette différence entre les
échantillons québécois, franco-ontariens et canadiens-anglais portait donc sur la
performance, reflétant les différences de la composition démographique de ces
populations. Ceci indiquait qu’un ajustement au niveau des moyennes des sous-tests et de
la conversion de ces moyennes en scores d’équivalence s’avérait nécessaire, afin de
rendre les normes plus pertinentes pour la population québécoise. Les preuves
psychométriques ont permis d’utiliser un plus petit échantillon pour le Québec. Plusieurs
autres pays qui ont réalisé des projets d'adaptation ont fait de même, suite à une
normalisation à grande échelle (Wilkins, Rolfhus, Weiss & Zhu, 2005a; 2005b).
D’ailleurs, au cours des dernières décennies, plusieurs études d’élaboration de normes
internationales pour des tests existants se sont basées avec confiance sur des échantillons
relativement plus petits que les études de normalisation traditionnelles telles que les
études menées en Angleterre, en Australie, etc. (Wechsler, 1998, Wiig, Secord & Semel,
2006). Effectivement, pour la normalisation en Angleterre, le Wechsler Adult Intelligence
Scale – Third Edition (WAIS–III) n’a utilisé que 332 participants (Wechsler, 1998). La
normalisation du Clinical Evaluation of Language Fundamentals: Preschool – Second
Edition (CELF:P–2) en Australie n’a nécessité que 342 participants (Wiig, Secord &
Semel, 2006) et celle de la normalisation chinoise du WISC–IV à Macaw n’a recueilli
que 26 cas par groupe d’âge (Wechsler, 2008). Ces études démontrent systématiquement
que lorsque aucun changement n’est apporté au contenu, à l’administration et à la
2
notation d’un test déjà solide quant aux propriétés psychométriques, la haute fidélité du
test est maintenue, même avec un petit échantillon.
3. De plus, l’étude de normalisation québécoise avait comme objectif de vérifier que les
courbes de performance des québécois à travers tous les âges et pour chaque sous-test
suivaient la même tendance que celle des courbes de performance des Franco-Ontariens,
des Canadiens anglais et des Américains avant eux. C’est ce qui a été démontré; les
résultats démontrent que les courbes québécoises de performances suivent de manière
parallèle celles des études antérieures, ce qui révèle avec confiance que le test évalue les
mêmes concepts chez les québécois et chez les Canadiens anglais. L’étape suivante dans
le processus d’étude de normalisation était alors de déterminer l’ajustement au niveau des
moyennes de performance et de la conversion en scores d’équivalence pour élaborer des
normes plus pertinentes et appropriées pour le Québec. Une série d’analyses
psychométriques a été conduite pour établir ces paramètres.
Le premier pas vers des données normatives québécoises a nécessité le calcul de
différents moments (moyennes, écarts-types et asymétrie) pour chacun des sous-tests et
pour chaque groupe d’âge de l’échantillon. Les données ont ensuite été soumises à des
analyses de régression polynomiales afin de déterminer le degré d’ajustement des
données pour tous les moments de chaque groupe d’âge. Les régressions polynomiales
allaient de fonctions linéaires (1er degré) à des fonctions du 5ème degré. Les fonctions de
chaque moment de sous-test étaient sélectionnées sur la base de leur cohérence avec les
attentes théoriques sous-jacentes et les courbes de performance observées dans
l’échantillon franco-ontarien, canadien-anglais et américain. Pour chaque sous-test, les
fonctions ont été utilisées pour obtenir les estimations des moments de la population. Les
estimations des moments ont été utilisées pour générer des distributions théoriques, et les
centiles qui en ont résulté ont été convertis en scores d’équivalence avec une moyenne de
10, un écart-type de 3 et une étendue de 1 à 19. La progression des scores d’équivalence à
l’intérieur de chaque groupe d’âge et à travers tous les groupes d’âge a ensuite été
examinée et les irrégularités mineures ont été éliminées par lissage. Effectivement, les
résultats des analyses de régression ont démontré que les courbes de performance de
l’échantillon québécois suivaient de façon parallèle celles des échantillons précédents.
Aussi, les dispersions des données de la normalisation québécoise étaient parallèles aux
résultats des normalisations précédentes, canadiennes-anglaises et franco-ontariennes.
Puisque le test suscite les mêmes résultats chez les différents échantillons, nous pouvons
conclure avec certitude que le WISC–IVCDN-F évalue chez les québécois les mêmes
concepts que chez les échantillons précédents (Voir les courbes des moyennes de
performance des échantillons québécois et canadien-anglais à l’annexe 2 du présent
document). Cette méthodologie de normalisation inférentielle est brevetée et a été utilisée
avec succès auprès de plusieurs projets de normalisation.
4. Enfin, l’étude de normalisation québécoise devait démontrer que la fidélité ainsi que la
validité du test avec cet échantillon était comparable à celles des études précédentes. Une
série d’analyses psychométriques de fidélité et de validité a été effectuée pour confirmer
ces paramètres quant à l’étude présente. Les détails de ces analyses et de leurs résultats se
trouvent au chapitre 4 du Manuel de normes québécoises du WISC–IVCDN-F. En résumé, la
cohérence interne des échelles telle qu’évaluée par les corrélations de bipartition intrasous-tests, l’accord inter-juge ainsi que les erreurs-type de mesure suscitant les intervalles
de confiance ont tous démontré des données comparables aux études précédentes
canadienne-anglaise et franco-ontarienne. Ces résultats établissent avec certitude que le
3
test est aussi fidèle pour évaluer l’aptitude intellectuelle chez les québécois, qu’il ne
l’était pour les Canadiens anglais et les Franco-Ontariens.
Q : Y a-t-il des méthodes statistiques de vérification qui permettent d'établir des normes à
partir d'un si petit échantillon?
R : Nous n’avons pas élaboré de nouvelles normes pour le Québec et cet objectif n’a jamais fait
partie de notre étude de validation. Nous avons simplement tenté de valider les normes existantes
et d’ajuster les normes pour la population québécoise. En nous basant sur la moyenne des scores
d’équivalence ajustés par âges, nous avons déterminé que 174 participants étaient largement
suffisants. À ces fins, tout d’abord, on s’assure d’avoir un échantillon représentatif de la
population du Québec selon les critères de stratification (c.-à-d., sexe, éducation des parents pour
estimer le statut socio-économique, âge, région géographique) selon Statistique Canada.
Deuxièmement, on s’assure d’avoir un nombre de participants suffisant pour avoir un échantillon
stable; c'est-à-dire que la dispersion des scores de l’échantillon rejoint celle des échantillons
précédents. Troisièmement, si les courbes de performance aux sous-tests à chaque groupe d’âge
sont parallèles aux courbes précédentes, cela fournit des preuves que le test évalue les mêmes
concepts au Québec que les normalisations précédentes.
Q : L’échantillonnage ne devrait-il pas s’arrêter lorsqu’il devient stable et que l’ajout d’un
participant ne change plus rien à la distribution? Entre d’autres mots, vos analyses de
puissance statistique confirment-elles que vous avez suffisamment de participants?
R : L’étude préliminaire de 54 participants nous a montré les mêmes résultats que l’échantillon
des 174 participants au niveau des moyennes et des écarts-types. Cet échantillonnage ne constitue
pas une nouvelle élaboration des normes mais une validation des normes existantes. Un
échantillon d’au moins 45 participants est nécessaire pour faire preuve d’un pouvoir statistique
suffisant pour démontrer les vraies différences de moyennes, s’il y a lieu. Nous avons sélectionné
un échantillon de 54 participants et nous avons trouvé des différences significatives. Nous avons
continué à collecter des données jusqu’à 174 participants, les différences de moyennes étaient
presque identiques.
Q : Quelles sont les preuves statistiques que les normes québécoises contiennent une
représentation suffisante de participants par âges des répondants, provenance
géographique (urbain, région), niveau de scolarité des parents, revenu familial des parents,
langue maternelle et origine ethnique?
R : Chaque groupe d’âge comprend 16 participants. L’échantillon est composé de 50 % de filles
(87) et 50 % de garçons (87). L’information est dans le Manuel au chapitre 3. En ce qui concerne
la provenance géographique des répondants (zone urbaine vs. région), environ 44 % des
répondants proviennent de Montréal et environs, 50 % de Québec et environs, et 6 % des régions
en dehors de Québec et de Montréal. L’échantillon est trop petit pour que nous puissions stratifier
parfaitement par région géographique. Par contre, les différences régionales sont minimisées par
le fait que nous avons précisément stratifié par niveau de scolarité des parents. Nos recherches
récentes sur le CELF–4CDN-F et le WIAT–IICDN-F nous ont démontré que lorsque le niveau de
scolarité est contrôlé dans un échantillon, les différences régionales au Québec disparaissent. Ce
n’est pas le fait d’être résident d’une région urbaine ou rurale qui détermine la performance
4
intellectuelle mais plutôt le niveau de scolarité de ces deux groupes qui suscite des différences au
niveau de l’aptitude cognitive.
Pour estimer le statut socio-économique (SSE), nous avons stratifié par niveau de scolarité des
parents des enfants évalués. Statistiquement, les personnes plus éduquées ont des revenus plus
élevés que les personnes avec moins d’éducation (en consultation avec Statistique Canada). En ce
qui concerne la langue maternelle, il s’agit d’une définition très ambigüe de nos jours. On utilise
la langue usuelle de l’enfant (c.-à-d., langue utilisée soit à la maison, soit à l’école au moins 50 %
du temps). Dans ce cas-ci, nous avons échantillonné des enfants qui fréquentent les écoles
francophones et qui résident au Québec depuis au moins deux ans. En ce qui concerne l’origine
ethnique des parents, nous n’avons pas stratifié par groupe ethnique car le Québec comprend
moins de 10 % de sa population des minorités visibles (selon Statistique Canada, recensement
2006). Veuillez vous référer aussi au Tableau 3.2 à la page 15 du Manuel.
Q : Quelle est le nombre de participants par niveau intellectuel?
R : Le niveau intellectuel est représenté par la courbe normale. Nous nous sommes assuré que
l’échantillon comprenait 2,2 % d’individus avec une déficience intellectuelle et 2,2 % d’individus
doués aux deux extrémités de la courbe normale. Le but était de se concentrer sur la moyenne des
groupes, et les courbes de performances et non sur les moyennes individuelles.
______________________________________________________________________________
Q : Avez-vous une représentation adéquate de la population clinique?
R : Voir la question ci-dessus. Nous avons deux groupes cliniques, ceux ayant une déficience
intellectuelle et ceux étant doués. De plus, ces individus constituaient un échantillon indépendant.
Ils étaient utilisés pour valider les extrémités des normes.
______________________________________________________________________________
Q : Quelles vérifications statistiques ont été faites pour démontrer que la distribution des
résultats de la version québécoise est semblable à la distribution de la version canadienneanglaise?
R : La distribution de l’échantillon québécois a été développée par méthode de normalisation
inférentielle. Cette méthodologie, qui est en instance de brevet, a été utilisée avec succès auprès
de plusieurs projets de normalisation à travers le monde. Veuillez vous référer à ces références
bibliographiques pour une discussion plus détaillée :
Wechsler, D. (1998). Wechsler Adult Intelligence Scale – Third edition – United Kingdom.
London, England: Harcourt Assessment.
Wechsler, D. (2008). Wechsler Intelligence Scale for Children – Fourth Edition : Macaw sample.
Macaw, China: Harcourt Assessment.
Wiig, E. H., Secord, W. A., & Semel, E. (2006). Clinical Evaluation of Language Fundamentals:
Preschool – Second Edition: Australia. Sydney, Australia: Harcourt Assessment.
Wilkins, C., Rolfhus, E., Weiss, L., & Zhu, J. (2005, April). A simulation study comparing
inferential and traditional norming with small sample sizes. Paper presented at the 2005 Annual
Meeting of the American Educational Research Association, Montreal, Canada.
5
Wilkins, C., Rolfhus, E., Weiss, L., & Zhu, J. (2005, April). A New Method for Calibrating
Translated Tests with Small Sample Sizes. Paper presented at American Educational Research
Association Annual Conference, Montreal, Canada.
______________________________________________________________________________
Q : Comment expliquer que les moyennes soient différentes entre les résultats des
américains, des canadiens-anglais et des québécois francophones?
R : Ceci est dû à la composition démographique des populations. La culture et la langue jouent
sûrement un rôle. Voir par exemple, le fait que parmi les francophones, l’Erreur Type de Mesure
(ETM) est plus faible que parmi les anglophones. Ceci suggère fortement que la population
québécoise est plus homogène que les populations canadienne-anglaise ou américaine. De plus,
nous savons que l’intelligence d’une population est souvent liée au système éducatif d’un pays ou
d’une province. D’autant plus, cet échantillonnage au Québec provient d’un milieu éducatif plus
homogène puisqu’il s’agit d’une même province. En comparaison, le Canada anglais et même les
États-Unis avait des résultats plus hétérogènes en ce qui concernaient les moyennes et les ETMs.
______________________________________________________________________________
Q : Est-ce lié au fait que l’outil ne mesure pas adéquatement les populations autres
qu’américaines?
R : En fait les échelles Wechsler ont été traduites en 28 langues différentes et sont utilisées parmi
78 pays ou régions à travers le monde. La recherche nous montre systématiquement que les tests
évaluent les mêmes concepts (analyses factorielles) et de façon fiable (coefficient de corrélation
de consistance interne et de fiabilité test re-test) à travers ces divers pays.
______________________________________________________________________________
Q : Des participants ont été retirés de l’échantillon québécois. Comment croire que la
courbe est vraiment représentative de la population ou que ce n’est pas vous qui avez créé
cette ressemblance en élimant les participants qui ne concordaient pas avec cette courbe?
R : Nous retirons des participants pour deux raisons seulement : 1) pour mieux stratifier selon les
proportions statistiques des variables données par Statistique Canada et 2) selon le pourcentage
représenté par les extrémités de la courbe normale. C'est-à-dire que nous voulons éviter une
situation où nous aurions trop de participants à habilités extrêmement élevées ou d’habilités
extrêmement faibles. Nous ne retirons JAMAIS un participant afin de mieux représenter la
moyenne ou pour montrer une courbe plus lisse selon nos attentes.
Q : Un problème important qui n’est pas abordé par le manuel est l’interprétation des
scores basés sur la version traduite. On reconnaît tout de même que le score moyen pour la
version canadienne-anglaise est différent du score moyen pour la version américaineanglaise. Par conséquent, il semble probable que le score moyen pour les versions en
français soit différent de celui pour les versions en anglais et que la moyenne pour la version
franco-ontarienne sera différente de la moyenne obtenue au Québec. Si les scores moyens
sont différents, ceci entraîne la possibilité que les scores aux sous-groupes d’âges soient
différents. Ces scores aux sous-groupes d’âges sont cruciaux parce qu’ils forment la
charpente de notre interprétation de scores pour les enfants individuels. Ceci veut donc dire
que nous avons besoin de scores aux sous-groupes d’âges basés sur une taille d’échantillon
raisonnable pour le milieu québécois. Une taille d’échantillon raisonnable existe lorsque
nous pouvons nous attendre à ce qu’il n’y ait pas un grand changement dans la moyenne
pour le sous-groupe si un nouvel ensemble d’enfants pour ce groupe d’âge était
6
échantillonné. Si 174 enfants étaient échantillonnés au Québec et divisés selon 11 groupes
d’âge, ceci veut dire qu’il y avait approximativement 16 enfants par groupe d’âge. Ceci ne
semble pas plausible si l’on veut fournir une estimation stable de la moyenne de la
population pour chaque sous-groupe d’âge.
R : Vous avez raison; 16 cas par âge est un échantillon trop petit pour pouvoir considérer les
moyennes de chaque individu indépendamment ou en isolation. Nous n’avons pas procédé ainsi.
Nous avons plutôt mis l’accent sur la moyenne générale pour la performance de tous les âges et
sur les tendances de développement cognitif pour 11 groupes d’âges (nous avons considéré
simultanément 11 moyennes, compte tenu des données canadiennes-anglaises, franco-ontariennes
et américaines). De plus, 16 cas ne sont pas suffisants pour estimer la variance réelle; c’est
pourquoi nous avons utilisé la variance canadienne-anglaise comme étant la meilleure estimation
de la variance. Également, nous avons utilisé la méthode de normalisation inférentielle et les
moments statistiques ci-dessus pour générer la distribution théorique du WISC–IV québécois.
Voilà la base de la méthodologie de normalisation inférentielle. Veuillez voir la présentation du
Dr Zhu pour plus de détails.
Q : On comprend que Pearson se retrouve dans une situation difficile. Bien que la
compagnie essaie d’élaborer des normes locales, elle n’a pas établi clairement ce que sont les
standards pour élaborer des normes locales. Dans un monde idéal, il y aurait un autre
échantillon de 2 200 enfants, comme ce fut le cas pour la version américaine-anglaise. Mais
ceci entraînerait des coûts exorbitants. Donc pour la version canadienne-anglaise, la taille
de l’échantillon de normalisation a été réduite à la moitié, totalisant un échantillon de 1 100.
Je ne suis pas au courant de la raison d’être pour cette taille d’échantillon, mais un
échantillon de 100 semble plausible comme estimation stable de la moyenne de la population
pour chaque sous-groupe. Les normes du Québec sont alarmantes parce qu’elles ne sont pas
une estimation plausible de la moyenne de la population. Si Pearson envisage l’élaboration
de normes locales, la compagnie devrait aborder la question de comment établir une taille
d’échantillon raisonnable pour les sous-groupes d’âges afin de produire des estimations
stables pour les moyennes de groupes.
R : Nous reconnaissons qu’une taille d’échantillon de 174 n’est pas le meilleur des scénarios.
Nous aimerions tant pouvoir recueillir 1 100 cas au Québec, mais ceci ne serait pas logique d’un
point de vue affaires. Nous reconnaissons également que compte tenu des résultats obtenus plus
tôt lors de l’étude préliminaire, nous ressentions le besoin d’ajuster les normes pour nos clients
québécois de façon éthique et professionnelle. Le cas échéant, il y aurait une réduction
considérable du pouvoir diagnostique et une augmentation des chances qu’une erreur
diagnostique se produise. De plus, un artéfact serait alors introduit et pourrait invalider l’analyse
de profil dû à des différences irrégulières au niveau des moyennes pour les quatre composantes.
La méthode de normalisation inférentielle utilise simultanément des tendances de performance
cognitive pour tous les âges selon les données venant des échantillons pour les versions
canadienne-anglaise et franco-ontarienne. De plus, cette méthodologie utilise un échantillon de
validation clinique indépendant et des restrictions spéciales pour l’ajustement des normes (c.-à-d.,
les normes aux sous-tests pour le Québec sont soit équivalentes, soit dans les limites d’un point
de divergence des normes canadiennes-anglaises). Compte tenu de ces étapes, nous sommes
confiants que nous avons ajusté les normes pour le Québec du mieux que nous le pouvions.
Il est important de noter que nous n’avons pas entrepris cet exercice à des fins commerciales.
Aucun revenu n’est lié à la distribution de ce manuel. Pearson ressentait l’obligation éthique et
professionnelle d’ajuster les normes lorsque nos données ont révélé des différences significatives
7
qui ne pouvaient ni être omises ni ignorées et qui auraient compromis l’utilisation diagnostique de
cette échelle chez les enfants.
8
ANNEXE 1 :
Données du Québec (n=177)
Protocoles québécois
corrigés avec les
normes
canadiennesanglaises
Données
canadiennesanglaises (n=1100)
Échantillon
canadien-anglais
Différences
QC-CA Protocoles
corrigés avec les
normes
canadiennesanglaises
Index
Moyenne
É.t
Moyenne
É.t
Diff
d
ICV
104,02
15,32
100,18
15,20
3,84
0,25
IRP
105,12
13,95
99,86
14,71
5,26
0,37
IMT
96,47
13,02
99,84
14,69
-3,37
-0,24
IVT
100,61
13,26
99,97
15,03
0,64
0,05
EGQI
102,45
13,64
99,79
14,96
2,66
0,19
Les éléments clés de ce tableau :
ƒ Ce tableau indique qu’il est important d’ajuster les normes parce que les moyennes sur
certaines composantes montrent plus de 5 points de divergence, or un tiers d’écart-type.
ƒ La dispersion des scores est moins élevée (si on utilise les normes canadiennes-anglaises
pour noter un protocole québécois, on risque de perdre le pouvoir/sensibilité diagnostique
du test).
ƒ D’autant plus, certaines composantes sont plus élevées, d’autres sont moins élevées, s’il
n’y a aucun ajustement, les différences entre les scores des composantes seront
faussement masquées.
9
ANNEXE 2
Moyennes des scores bruts aux différents sous-tests du WISC–IV, pour les
échantillons québécois et canadien-anglais, à chaque groupe d’âge.
Block Design Mean
60
50
40
Qc
30
En
20
10
0
agegrp1
agegrp2
agegrp3
agegrp4
agegrp5
agegrp6
agegrp7
agegrp8
agegrp9
agegrp10
agegrp11
Similarities Mean
35
30
25
20
Qc
En
15
10
5
0
1
2
3
4
5
6
7
8
9
10
11
10
Digit Span Mean
20
18
16
14
12
Qc
10
En
8
6
4
2
0
1
2
3
4
5
6
7
8
9
10
11
Picture concept Mean
25
20
15
Qc
En
10
5
0
1
2
3
4
5
6
7
8
9
10
11
11
Coding Mean
80
70
60
50
Qc
40
En
30
20
10
0
1
2
3
4
5
6
7
8
9
10
11
Voc Mean
60
50
40
Qc
30
En
20
10
0
1
2
3
4
5
6
7
8
9
10
11
12
Letter number sequencing Mean
25
20
15
Qc
En
10
5
0
1
2
3
4
5
6
7
8
9
10
11
Matrix reasoning Mean
30
25
20
Qc
15
En
10
5
0
1
2
3
4
5
6
7
8
9
10
11
13
Comprehension Mean
35
30
25
20
Qc
En
15
10
5
0
1
2
3
4
5
6
7
8
9
10
11
Symbol Search Mean
40
35
30
25
Qc
20
En
15
10
5
0
1
2
3
4
5
6
7
8
9
10
11
14
Picture completion Mean
35
30
25
20
Qc
En
15
10
5
0
1
2
3
4
5
6
7
8
9
10
11
Cancellation Mean
120
100
80
Qc
60
En
40
20
0
1
2
3
4
5
6
7
8
9
10
11
15
Information Mean
30
25
20
Qc
15
En
10
5
0
1
2
3
4
5
6
7
8
9
10
11
Arithmetic Mean
30
25
20
Qc
15
En
10
5
0
1
2
3
4
5
6
7
8
9
10
11
16
Word Reasonning Mean
25
20
15
Qc
En
10
5
0
1
2
3
4
5
6
7
8
9
10
11
17
Indicateurs de performance
internationaux : Science
Source: Council of Ministers of Education, Canada, Measuring up: The performance of Canada’s youth in reading,
mathematics and science, 2001
18
Indicateurs de performance internationaux :
Mathématiques
Source: Council of Ministers of Education, Canada, Measuring up: The performance of Canada’s youth in reading,
mathematics and science, 2001
19
Indicateurs de performance
internationaux :
Lecture
Source: Council of Ministers of Education, Canada, Measuring up: The performance of Canada’s youth in reading,
mathematics and science, 2001
20