WISC–IV CDN-F - Clinical Assessment Canada
Transcription
WISC–IV CDN-F - Clinical Assessment Canada
Questions fréquentes en ce qui concerne l’étude de validation québécoise du WISC–IVCDN-F Historiquement, la majorité des psychologues au Canada utilisent le WISC–IVCDN-F pour leurs évaluations psychoéducationnelles. Avant la publication de l’étude de validation québécoise, les normes canadiennes-anglaises étaient utilisées avec la version française du test. Suivant la publication, plusieurs psychologues ont continué d’utiliser les normes canadiennes-anglaises malgré les normes québécoises à leur disposition. Il semble y avoir eu un malentendu quant à cette étude de validation. Les psychologues remettaient en question la validité des normes en raison de la taille de l’échantillon et d’autres critiques reliées à la stratification. Ces inquiétudes ont été adressées dans le manuel, dans la présentation ci-incluse et dans les réponses aux questions fréquentes ci-dessous. Pour la première fois, depuis la création de la version originale du WISC en 1949, l’échelle est dotée de normes distinctes pour le Québec. Ces normes ont été distribuées gratuitement à toute institution ou tout individu ayant acheté un WISC–IVCDN-F. Plusieurs psychologues ont toutefois des interrogations par rapport aux travaux dont ces normes sont issues et préfèrent continuer d’utiliser les normes canadiennes-anglaises. Objectif du présent rapport L’objectif du présent rapport est de répondre aux questions techniques sur la méthode de recherche et l’étude de validation des normes au Québec et expliquer pourquoi l’utilisation des normes canadiennes-anglaises n’est pas recommandée lorsqu’on évalue un enfant québécois. Les questions ci-dessous proviennent d’un comité de psychologues québécois de différents milieux lors de deux rencontres de travail autour du thème. Questions Q : Comment un si petit échantillon peut-il se justifier statistiquement? Quelles sont l’argumentation et les preuves statistiques permettant d’affirmer que cette taille est adéquate et fiable? R : Il est important de souligner que l’élaboration de la normalisation québécoise a bénéficié des trois projets précédents de normalisation du WISC–IV. Ces trois projets comprenaient les normalisations américaine, canadienne-anglaise et franco-ontarienne. La première élaboration de normes pour un nouveau test porte toujours le fardeau et l’obligation d’établir la fidélité et la validité de l’instrument. Une première élaboration de normes doit, par conséquent, inclure un plus grand nombre de participants pour chaque groupe d’âge afin de 1) vérifier les concepts sousjacents de chaque sous-test, 2) déterminer la pertinence de chaque item par rapport au concept évalué par l’ensemble du sous-test, 3) confirmer la cohérence interne des composantes, et 4) établir avec confiance l’ordre de difficulté des items de façon appropriée pour chaque groupe d’âge, etc. Une première élaboration de normes doit aussi déterminer et sélectionner les items les plus discriminants avec les corrélations items-total les plus fortes avec le reste du sous-test. Cette étape assure une fidélité solide de l’instrument au complet, et cela pour chaque groupe d’âge de façon indépendante. Elle doit donc éliminer tout item qui a été sujet ou soupçonné d’un biais quelconque pour un groupe de participants, par exemple les filles par rapport aux garçons. Ces déterminations théoriques ainsi que statistiques en relation avec la structure de test, de concepts évalués par les sous-tests et de caractéristiques psychométriques ont été établies par la 1 normalisation américaine. Ensuite, la normalisation canadienne-anglaise a pris la même version américaine du test avec des modifications minimes, a élaboré des normes propres au Canada anglais et a réétabli avec succès plusieurs de ces propriétés psychométriques telles que la fidélité du test et la cohérence de la structure interne des composantes. L’élaboration des normes franco-ontariennes constituait la première version en langue française du WISC–IVCDN-F. Puisque le test avait subi des modifications significatives quant aux sous-tests verbaux dû au processus de traduction, l’étude devait une fois de plus réétablir avec confiance plusieurs des paramètres psychométriques de fidélité. Une discussion détaillée des propriétés psychométriques (fidélité et validité) de la version française du WISC–IVCDN-F se trouve aux chapitres 4 et 5 du Manuel technique et d’interprétation du WISC–IVCDN-F (Wechsler, 2005). Tout un travail a donc été effectué pour confirmer les fondations conceptuelles et théoriques du WISC– IVCDN ainsi que pour valider ses propriétés psychométriques, à la fois lors de l’élaboration des normes canadiennes-anglaises et lors de l’élaboration de la première version en langue française. Dans ce cadre, le projet de recherche de la validation québécoise détenait quatre objectifs majeurs : 1. Vérifier que le contenu du test était approprié pour les québécois, ce qui a été établi au moment de l’élaboration de la version française du test. En effet, un comité consultatif composé d’experts en traduction et de professionnels œuvrant au sein de plusieurs communautés francophones à travers les provinces du Canada incluant le Québec, a vérifié que le contenu et le vocabulaire utilisés dans le test étaient appropriés pour le Canada français, incluant le Québec. 2. Déterminer si les normes des études canadiennes-anglaises ou franco-ontariennes pouvaient être utilisées de façon appropriée pour évaluer l’aptitude intellectuelle des enfants québécois. À cet effet, une étude préliminaire a été réalisée et a révélé une divergence significative entre ces trois échantillons (Voir le tableau à l’Annexe 1 du présent document pour les divergences entre les québécois et les Canadiens anglais). Cette différence des moyennes n’était pas due au contenu du test ni à son administration ou sa notation car ceux-ci sont demeurés identiques. Cette différence entre les échantillons québécois, franco-ontariens et canadiens-anglais portait donc sur la performance, reflétant les différences de la composition démographique de ces populations. Ceci indiquait qu’un ajustement au niveau des moyennes des sous-tests et de la conversion de ces moyennes en scores d’équivalence s’avérait nécessaire, afin de rendre les normes plus pertinentes pour la population québécoise. Les preuves psychométriques ont permis d’utiliser un plus petit échantillon pour le Québec. Plusieurs autres pays qui ont réalisé des projets d'adaptation ont fait de même, suite à une normalisation à grande échelle (Wilkins, Rolfhus, Weiss & Zhu, 2005a; 2005b). D’ailleurs, au cours des dernières décennies, plusieurs études d’élaboration de normes internationales pour des tests existants se sont basées avec confiance sur des échantillons relativement plus petits que les études de normalisation traditionnelles telles que les études menées en Angleterre, en Australie, etc. (Wechsler, 1998, Wiig, Secord & Semel, 2006). Effectivement, pour la normalisation en Angleterre, le Wechsler Adult Intelligence Scale – Third Edition (WAIS–III) n’a utilisé que 332 participants (Wechsler, 1998). La normalisation du Clinical Evaluation of Language Fundamentals: Preschool – Second Edition (CELF:P–2) en Australie n’a nécessité que 342 participants (Wiig, Secord & Semel, 2006) et celle de la normalisation chinoise du WISC–IV à Macaw n’a recueilli que 26 cas par groupe d’âge (Wechsler, 2008). Ces études démontrent systématiquement que lorsque aucun changement n’est apporté au contenu, à l’administration et à la 2 notation d’un test déjà solide quant aux propriétés psychométriques, la haute fidélité du test est maintenue, même avec un petit échantillon. 3. De plus, l’étude de normalisation québécoise avait comme objectif de vérifier que les courbes de performance des québécois à travers tous les âges et pour chaque sous-test suivaient la même tendance que celle des courbes de performance des Franco-Ontariens, des Canadiens anglais et des Américains avant eux. C’est ce qui a été démontré; les résultats démontrent que les courbes québécoises de performances suivent de manière parallèle celles des études antérieures, ce qui révèle avec confiance que le test évalue les mêmes concepts chez les québécois et chez les Canadiens anglais. L’étape suivante dans le processus d’étude de normalisation était alors de déterminer l’ajustement au niveau des moyennes de performance et de la conversion en scores d’équivalence pour élaborer des normes plus pertinentes et appropriées pour le Québec. Une série d’analyses psychométriques a été conduite pour établir ces paramètres. Le premier pas vers des données normatives québécoises a nécessité le calcul de différents moments (moyennes, écarts-types et asymétrie) pour chacun des sous-tests et pour chaque groupe d’âge de l’échantillon. Les données ont ensuite été soumises à des analyses de régression polynomiales afin de déterminer le degré d’ajustement des données pour tous les moments de chaque groupe d’âge. Les régressions polynomiales allaient de fonctions linéaires (1er degré) à des fonctions du 5ème degré. Les fonctions de chaque moment de sous-test étaient sélectionnées sur la base de leur cohérence avec les attentes théoriques sous-jacentes et les courbes de performance observées dans l’échantillon franco-ontarien, canadien-anglais et américain. Pour chaque sous-test, les fonctions ont été utilisées pour obtenir les estimations des moments de la population. Les estimations des moments ont été utilisées pour générer des distributions théoriques, et les centiles qui en ont résulté ont été convertis en scores d’équivalence avec une moyenne de 10, un écart-type de 3 et une étendue de 1 à 19. La progression des scores d’équivalence à l’intérieur de chaque groupe d’âge et à travers tous les groupes d’âge a ensuite été examinée et les irrégularités mineures ont été éliminées par lissage. Effectivement, les résultats des analyses de régression ont démontré que les courbes de performance de l’échantillon québécois suivaient de façon parallèle celles des échantillons précédents. Aussi, les dispersions des données de la normalisation québécoise étaient parallèles aux résultats des normalisations précédentes, canadiennes-anglaises et franco-ontariennes. Puisque le test suscite les mêmes résultats chez les différents échantillons, nous pouvons conclure avec certitude que le WISC–IVCDN-F évalue chez les québécois les mêmes concepts que chez les échantillons précédents (Voir les courbes des moyennes de performance des échantillons québécois et canadien-anglais à l’annexe 2 du présent document). Cette méthodologie de normalisation inférentielle est brevetée et a été utilisée avec succès auprès de plusieurs projets de normalisation. 4. Enfin, l’étude de normalisation québécoise devait démontrer que la fidélité ainsi que la validité du test avec cet échantillon était comparable à celles des études précédentes. Une série d’analyses psychométriques de fidélité et de validité a été effectuée pour confirmer ces paramètres quant à l’étude présente. Les détails de ces analyses et de leurs résultats se trouvent au chapitre 4 du Manuel de normes québécoises du WISC–IVCDN-F. En résumé, la cohérence interne des échelles telle qu’évaluée par les corrélations de bipartition intrasous-tests, l’accord inter-juge ainsi que les erreurs-type de mesure suscitant les intervalles de confiance ont tous démontré des données comparables aux études précédentes canadienne-anglaise et franco-ontarienne. Ces résultats établissent avec certitude que le 3 test est aussi fidèle pour évaluer l’aptitude intellectuelle chez les québécois, qu’il ne l’était pour les Canadiens anglais et les Franco-Ontariens. Q : Y a-t-il des méthodes statistiques de vérification qui permettent d'établir des normes à partir d'un si petit échantillon? R : Nous n’avons pas élaboré de nouvelles normes pour le Québec et cet objectif n’a jamais fait partie de notre étude de validation. Nous avons simplement tenté de valider les normes existantes et d’ajuster les normes pour la population québécoise. En nous basant sur la moyenne des scores d’équivalence ajustés par âges, nous avons déterminé que 174 participants étaient largement suffisants. À ces fins, tout d’abord, on s’assure d’avoir un échantillon représentatif de la population du Québec selon les critères de stratification (c.-à-d., sexe, éducation des parents pour estimer le statut socio-économique, âge, région géographique) selon Statistique Canada. Deuxièmement, on s’assure d’avoir un nombre de participants suffisant pour avoir un échantillon stable; c'est-à-dire que la dispersion des scores de l’échantillon rejoint celle des échantillons précédents. Troisièmement, si les courbes de performance aux sous-tests à chaque groupe d’âge sont parallèles aux courbes précédentes, cela fournit des preuves que le test évalue les mêmes concepts au Québec que les normalisations précédentes. Q : L’échantillonnage ne devrait-il pas s’arrêter lorsqu’il devient stable et que l’ajout d’un participant ne change plus rien à la distribution? Entre d’autres mots, vos analyses de puissance statistique confirment-elles que vous avez suffisamment de participants? R : L’étude préliminaire de 54 participants nous a montré les mêmes résultats que l’échantillon des 174 participants au niveau des moyennes et des écarts-types. Cet échantillonnage ne constitue pas une nouvelle élaboration des normes mais une validation des normes existantes. Un échantillon d’au moins 45 participants est nécessaire pour faire preuve d’un pouvoir statistique suffisant pour démontrer les vraies différences de moyennes, s’il y a lieu. Nous avons sélectionné un échantillon de 54 participants et nous avons trouvé des différences significatives. Nous avons continué à collecter des données jusqu’à 174 participants, les différences de moyennes étaient presque identiques. Q : Quelles sont les preuves statistiques que les normes québécoises contiennent une représentation suffisante de participants par âges des répondants, provenance géographique (urbain, région), niveau de scolarité des parents, revenu familial des parents, langue maternelle et origine ethnique? R : Chaque groupe d’âge comprend 16 participants. L’échantillon est composé de 50 % de filles (87) et 50 % de garçons (87). L’information est dans le Manuel au chapitre 3. En ce qui concerne la provenance géographique des répondants (zone urbaine vs. région), environ 44 % des répondants proviennent de Montréal et environs, 50 % de Québec et environs, et 6 % des régions en dehors de Québec et de Montréal. L’échantillon est trop petit pour que nous puissions stratifier parfaitement par région géographique. Par contre, les différences régionales sont minimisées par le fait que nous avons précisément stratifié par niveau de scolarité des parents. Nos recherches récentes sur le CELF–4CDN-F et le WIAT–IICDN-F nous ont démontré que lorsque le niveau de scolarité est contrôlé dans un échantillon, les différences régionales au Québec disparaissent. Ce n’est pas le fait d’être résident d’une région urbaine ou rurale qui détermine la performance 4 intellectuelle mais plutôt le niveau de scolarité de ces deux groupes qui suscite des différences au niveau de l’aptitude cognitive. Pour estimer le statut socio-économique (SSE), nous avons stratifié par niveau de scolarité des parents des enfants évalués. Statistiquement, les personnes plus éduquées ont des revenus plus élevés que les personnes avec moins d’éducation (en consultation avec Statistique Canada). En ce qui concerne la langue maternelle, il s’agit d’une définition très ambigüe de nos jours. On utilise la langue usuelle de l’enfant (c.-à-d., langue utilisée soit à la maison, soit à l’école au moins 50 % du temps). Dans ce cas-ci, nous avons échantillonné des enfants qui fréquentent les écoles francophones et qui résident au Québec depuis au moins deux ans. En ce qui concerne l’origine ethnique des parents, nous n’avons pas stratifié par groupe ethnique car le Québec comprend moins de 10 % de sa population des minorités visibles (selon Statistique Canada, recensement 2006). Veuillez vous référer aussi au Tableau 3.2 à la page 15 du Manuel. Q : Quelle est le nombre de participants par niveau intellectuel? R : Le niveau intellectuel est représenté par la courbe normale. Nous nous sommes assuré que l’échantillon comprenait 2,2 % d’individus avec une déficience intellectuelle et 2,2 % d’individus doués aux deux extrémités de la courbe normale. Le but était de se concentrer sur la moyenne des groupes, et les courbes de performances et non sur les moyennes individuelles. ______________________________________________________________________________ Q : Avez-vous une représentation adéquate de la population clinique? R : Voir la question ci-dessus. Nous avons deux groupes cliniques, ceux ayant une déficience intellectuelle et ceux étant doués. De plus, ces individus constituaient un échantillon indépendant. Ils étaient utilisés pour valider les extrémités des normes. ______________________________________________________________________________ Q : Quelles vérifications statistiques ont été faites pour démontrer que la distribution des résultats de la version québécoise est semblable à la distribution de la version canadienneanglaise? R : La distribution de l’échantillon québécois a été développée par méthode de normalisation inférentielle. Cette méthodologie, qui est en instance de brevet, a été utilisée avec succès auprès de plusieurs projets de normalisation à travers le monde. Veuillez vous référer à ces références bibliographiques pour une discussion plus détaillée : Wechsler, D. (1998). Wechsler Adult Intelligence Scale – Third edition – United Kingdom. London, England: Harcourt Assessment. Wechsler, D. (2008). Wechsler Intelligence Scale for Children – Fourth Edition : Macaw sample. Macaw, China: Harcourt Assessment. Wiig, E. H., Secord, W. A., & Semel, E. (2006). Clinical Evaluation of Language Fundamentals: Preschool – Second Edition: Australia. Sydney, Australia: Harcourt Assessment. Wilkins, C., Rolfhus, E., Weiss, L., & Zhu, J. (2005, April). A simulation study comparing inferential and traditional norming with small sample sizes. Paper presented at the 2005 Annual Meeting of the American Educational Research Association, Montreal, Canada. 5 Wilkins, C., Rolfhus, E., Weiss, L., & Zhu, J. (2005, April). A New Method for Calibrating Translated Tests with Small Sample Sizes. Paper presented at American Educational Research Association Annual Conference, Montreal, Canada. ______________________________________________________________________________ Q : Comment expliquer que les moyennes soient différentes entre les résultats des américains, des canadiens-anglais et des québécois francophones? R : Ceci est dû à la composition démographique des populations. La culture et la langue jouent sûrement un rôle. Voir par exemple, le fait que parmi les francophones, l’Erreur Type de Mesure (ETM) est plus faible que parmi les anglophones. Ceci suggère fortement que la population québécoise est plus homogène que les populations canadienne-anglaise ou américaine. De plus, nous savons que l’intelligence d’une population est souvent liée au système éducatif d’un pays ou d’une province. D’autant plus, cet échantillonnage au Québec provient d’un milieu éducatif plus homogène puisqu’il s’agit d’une même province. En comparaison, le Canada anglais et même les États-Unis avait des résultats plus hétérogènes en ce qui concernaient les moyennes et les ETMs. ______________________________________________________________________________ Q : Est-ce lié au fait que l’outil ne mesure pas adéquatement les populations autres qu’américaines? R : En fait les échelles Wechsler ont été traduites en 28 langues différentes et sont utilisées parmi 78 pays ou régions à travers le monde. La recherche nous montre systématiquement que les tests évaluent les mêmes concepts (analyses factorielles) et de façon fiable (coefficient de corrélation de consistance interne et de fiabilité test re-test) à travers ces divers pays. ______________________________________________________________________________ Q : Des participants ont été retirés de l’échantillon québécois. Comment croire que la courbe est vraiment représentative de la population ou que ce n’est pas vous qui avez créé cette ressemblance en élimant les participants qui ne concordaient pas avec cette courbe? R : Nous retirons des participants pour deux raisons seulement : 1) pour mieux stratifier selon les proportions statistiques des variables données par Statistique Canada et 2) selon le pourcentage représenté par les extrémités de la courbe normale. C'est-à-dire que nous voulons éviter une situation où nous aurions trop de participants à habilités extrêmement élevées ou d’habilités extrêmement faibles. Nous ne retirons JAMAIS un participant afin de mieux représenter la moyenne ou pour montrer une courbe plus lisse selon nos attentes. Q : Un problème important qui n’est pas abordé par le manuel est l’interprétation des scores basés sur la version traduite. On reconnaît tout de même que le score moyen pour la version canadienne-anglaise est différent du score moyen pour la version américaineanglaise. Par conséquent, il semble probable que le score moyen pour les versions en français soit différent de celui pour les versions en anglais et que la moyenne pour la version franco-ontarienne sera différente de la moyenne obtenue au Québec. Si les scores moyens sont différents, ceci entraîne la possibilité que les scores aux sous-groupes d’âges soient différents. Ces scores aux sous-groupes d’âges sont cruciaux parce qu’ils forment la charpente de notre interprétation de scores pour les enfants individuels. Ceci veut donc dire que nous avons besoin de scores aux sous-groupes d’âges basés sur une taille d’échantillon raisonnable pour le milieu québécois. Une taille d’échantillon raisonnable existe lorsque nous pouvons nous attendre à ce qu’il n’y ait pas un grand changement dans la moyenne pour le sous-groupe si un nouvel ensemble d’enfants pour ce groupe d’âge était 6 échantillonné. Si 174 enfants étaient échantillonnés au Québec et divisés selon 11 groupes d’âge, ceci veut dire qu’il y avait approximativement 16 enfants par groupe d’âge. Ceci ne semble pas plausible si l’on veut fournir une estimation stable de la moyenne de la population pour chaque sous-groupe d’âge. R : Vous avez raison; 16 cas par âge est un échantillon trop petit pour pouvoir considérer les moyennes de chaque individu indépendamment ou en isolation. Nous n’avons pas procédé ainsi. Nous avons plutôt mis l’accent sur la moyenne générale pour la performance de tous les âges et sur les tendances de développement cognitif pour 11 groupes d’âges (nous avons considéré simultanément 11 moyennes, compte tenu des données canadiennes-anglaises, franco-ontariennes et américaines). De plus, 16 cas ne sont pas suffisants pour estimer la variance réelle; c’est pourquoi nous avons utilisé la variance canadienne-anglaise comme étant la meilleure estimation de la variance. Également, nous avons utilisé la méthode de normalisation inférentielle et les moments statistiques ci-dessus pour générer la distribution théorique du WISC–IV québécois. Voilà la base de la méthodologie de normalisation inférentielle. Veuillez voir la présentation du Dr Zhu pour plus de détails. Q : On comprend que Pearson se retrouve dans une situation difficile. Bien que la compagnie essaie d’élaborer des normes locales, elle n’a pas établi clairement ce que sont les standards pour élaborer des normes locales. Dans un monde idéal, il y aurait un autre échantillon de 2 200 enfants, comme ce fut le cas pour la version américaine-anglaise. Mais ceci entraînerait des coûts exorbitants. Donc pour la version canadienne-anglaise, la taille de l’échantillon de normalisation a été réduite à la moitié, totalisant un échantillon de 1 100. Je ne suis pas au courant de la raison d’être pour cette taille d’échantillon, mais un échantillon de 100 semble plausible comme estimation stable de la moyenne de la population pour chaque sous-groupe. Les normes du Québec sont alarmantes parce qu’elles ne sont pas une estimation plausible de la moyenne de la population. Si Pearson envisage l’élaboration de normes locales, la compagnie devrait aborder la question de comment établir une taille d’échantillon raisonnable pour les sous-groupes d’âges afin de produire des estimations stables pour les moyennes de groupes. R : Nous reconnaissons qu’une taille d’échantillon de 174 n’est pas le meilleur des scénarios. Nous aimerions tant pouvoir recueillir 1 100 cas au Québec, mais ceci ne serait pas logique d’un point de vue affaires. Nous reconnaissons également que compte tenu des résultats obtenus plus tôt lors de l’étude préliminaire, nous ressentions le besoin d’ajuster les normes pour nos clients québécois de façon éthique et professionnelle. Le cas échéant, il y aurait une réduction considérable du pouvoir diagnostique et une augmentation des chances qu’une erreur diagnostique se produise. De plus, un artéfact serait alors introduit et pourrait invalider l’analyse de profil dû à des différences irrégulières au niveau des moyennes pour les quatre composantes. La méthode de normalisation inférentielle utilise simultanément des tendances de performance cognitive pour tous les âges selon les données venant des échantillons pour les versions canadienne-anglaise et franco-ontarienne. De plus, cette méthodologie utilise un échantillon de validation clinique indépendant et des restrictions spéciales pour l’ajustement des normes (c.-à-d., les normes aux sous-tests pour le Québec sont soit équivalentes, soit dans les limites d’un point de divergence des normes canadiennes-anglaises). Compte tenu de ces étapes, nous sommes confiants que nous avons ajusté les normes pour le Québec du mieux que nous le pouvions. Il est important de noter que nous n’avons pas entrepris cet exercice à des fins commerciales. Aucun revenu n’est lié à la distribution de ce manuel. Pearson ressentait l’obligation éthique et professionnelle d’ajuster les normes lorsque nos données ont révélé des différences significatives 7 qui ne pouvaient ni être omises ni ignorées et qui auraient compromis l’utilisation diagnostique de cette échelle chez les enfants. 8 ANNEXE 1 : Données du Québec (n=177) Protocoles québécois corrigés avec les normes canadiennesanglaises Données canadiennesanglaises (n=1100) Échantillon canadien-anglais Différences QC-CA Protocoles corrigés avec les normes canadiennesanglaises Index Moyenne É.t Moyenne É.t Diff d ICV 104,02 15,32 100,18 15,20 3,84 0,25 IRP 105,12 13,95 99,86 14,71 5,26 0,37 IMT 96,47 13,02 99,84 14,69 -3,37 -0,24 IVT 100,61 13,26 99,97 15,03 0,64 0,05 EGQI 102,45 13,64 99,79 14,96 2,66 0,19 Les éléments clés de ce tableau : Ce tableau indique qu’il est important d’ajuster les normes parce que les moyennes sur certaines composantes montrent plus de 5 points de divergence, or un tiers d’écart-type. La dispersion des scores est moins élevée (si on utilise les normes canadiennes-anglaises pour noter un protocole québécois, on risque de perdre le pouvoir/sensibilité diagnostique du test). D’autant plus, certaines composantes sont plus élevées, d’autres sont moins élevées, s’il n’y a aucun ajustement, les différences entre les scores des composantes seront faussement masquées. 9 ANNEXE 2 Moyennes des scores bruts aux différents sous-tests du WISC–IV, pour les échantillons québécois et canadien-anglais, à chaque groupe d’âge. Block Design Mean 60 50 40 Qc 30 En 20 10 0 agegrp1 agegrp2 agegrp3 agegrp4 agegrp5 agegrp6 agegrp7 agegrp8 agegrp9 agegrp10 agegrp11 Similarities Mean 35 30 25 20 Qc En 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 10 Digit Span Mean 20 18 16 14 12 Qc 10 En 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 11 Picture concept Mean 25 20 15 Qc En 10 5 0 1 2 3 4 5 6 7 8 9 10 11 11 Coding Mean 80 70 60 50 Qc 40 En 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 Voc Mean 60 50 40 Qc 30 En 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 Letter number sequencing Mean 25 20 15 Qc En 10 5 0 1 2 3 4 5 6 7 8 9 10 11 Matrix reasoning Mean 30 25 20 Qc 15 En 10 5 0 1 2 3 4 5 6 7 8 9 10 11 13 Comprehension Mean 35 30 25 20 Qc En 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 Symbol Search Mean 40 35 30 25 Qc 20 En 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 14 Picture completion Mean 35 30 25 20 Qc En 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 Cancellation Mean 120 100 80 Qc 60 En 40 20 0 1 2 3 4 5 6 7 8 9 10 11 15 Information Mean 30 25 20 Qc 15 En 10 5 0 1 2 3 4 5 6 7 8 9 10 11 Arithmetic Mean 30 25 20 Qc 15 En 10 5 0 1 2 3 4 5 6 7 8 9 10 11 16 Word Reasonning Mean 25 20 15 Qc En 10 5 0 1 2 3 4 5 6 7 8 9 10 11 17 Indicateurs de performance internationaux : Science Source: Council of Ministers of Education, Canada, Measuring up: The performance of Canada’s youth in reading, mathematics and science, 2001 18 Indicateurs de performance internationaux : Mathématiques Source: Council of Ministers of Education, Canada, Measuring up: The performance of Canada’s youth in reading, mathematics and science, 2001 19 Indicateurs de performance internationaux : Lecture Source: Council of Ministers of Education, Canada, Measuring up: The performance of Canada’s youth in reading, mathematics and science, 2001 20