Test du khi-2 (Test d`indépendance)
Transcription
Test du khi-2 (Test d`indépendance)
Test du khi-2 (Test d’indépendance) Tester l’indépendance de deux variables nominales Un échantillon, deux variables nominales (dichotomiques ou non) Situation Deux variables sont étudiées sur une même population, on se demande si les valeurs de l’une dépendent de celles de l’autre, autrement dit si pour un individu donné le fait que lui soit associé telle valeur pour l’une des variables modifie les probabilités des valeurs pour l’autre variable. Exemple Des élèves de CP et CE1 (6 ans et 7 ans) ont résolu un problème d’addition, c’est-àdire dont la procédure experte de résolution conduit à une addition ou à une soustraction. Certains enfants n’utilisent pas la procédure de « calcul » mais une procédure de « comptage » ou de « surcomptage » 1. Les élèves de CP étaient 63 et ceux de CE1 67. La méthode de résolution a été relevée : 13 « comptage » dont 10 en CP et 3 en CE1, 59 « surcomptage » dont 32 en CP et 27 en CE1, et 58 « calcul » dont 21 en CP et 37 en CE1. La méthode de résolution est-elle indépendante du niveau scolaire ? Méthode statistique Les différences concernant la méthode « comptage » et la méthode « calcul » légitiment la question posée sur l’indépendance entre la méthode de résolution du problème additif et le niveau scolaire des élèves. La méthode statistique pour répondre à cette question ressemble beaucoup à celle de comparaison de deux distributions observées. 1. On organise les données dans un tableau de contingence des effectifs des valeurs de la première variable en fonction des valeurs de la seconde. Le tableau de contingence observé est : Classes CP CE1 Ensemble Comptage 10 3 13 Méthodes Surcomptage 32 27 59 Calcul 21 37 58 Total 63 67 130 2. On calcule les effectifs qu’on obtiendrait si les deux variables étaient indépendantes. Pour cela, on répartit les effectifs proportionnellement aux marges du tableau observé. Classes CP CE1 Ensemble 1 Comptage 6,3 6,7 13 Méthodes Surcomptage 28,6 30,4 59 Calcul 28,1 29,9 58 Total 63 67 130 Comptage : pour ajouter 3 et 8, les élèves dessinent 3 bâtons puis 8 bâtons et ils comptent les bâtons dessinés. Surcomptage : pour ajouter 3 et 8, les élèves disent 8, lève un premier doigt en disant 9, un deuxième doigt en disant 10 et enfin un troisième doigt en disant 11 ; ils concluent alors que 3 + 8 = 11. 3. On détermine l’écart entre le tableau théorique et le tableau observé. La méthode de calcul de cet écart est la méthode du khi-2. Classes CP CE1 Comptage 2,17 2,04 Méthodes Surcomptage 0,41 0,38 Calcul 1,80 1,69 Cela fait un total de : 8,49. Cette valeur est le khi-2 observé (ou calculé). 4. On formule l’hypothèse (notée H0 et dite hypothèse nulle) d’indépendance des deux variables. Cela signifie que les échantillons correspondant aux différentes valeurs de la première variable sont des échantillons aléatoires issus d’une même population où les tirages successifs des individus sont indépendants. Selon cette hypothèse, les différents échantillons n’ont aucune caractéristique particulière liée à la situation étudiée. 5. On détermine la probabilité p d’obtenir, sous l’hypothèse nulle, un écart égal ou supérieur à celui obtenu avec le tableau observé. Cette étape repose de manière sous-jacente sur des résultats mathématiques de probabilité, des conditions sur les effectifs théoriques doivent être remplies pour que la méthode soit valide : ils doivent être au moins égaux à 5. Le nombre de degré de liberté du tableau de contingence est 2. Selon la loi de khi-2 à 2 degrés de liberté, il y a une probabilité de 1,43% d’obtenir une valeur égale ou supérieure à 8,49. 6. Si cette probabilité est faible (inférieure au seuil de 1% ou de 5%), on rejette l’hypothèse nulle : cela accrédite le fait que certaines valeurs de la première variable influencent celles de l’autre. On dit alors qu’on constate un effet significatif de la première variable sur la seconde au seuil de 1% ou de 5%, on peut préciser le degré de signification p. Sinon, on ne rejette pas l’hypothèse nulle, les données observées ne permettent pas de rejeter l’indépendance des deux variables, la différence entre le tableau théorique et le tableau observé est attribuée aux fluctuations d’échantillonnage. On dit que la première variable n’a pas d’effet significatif sur la seconde. On déduit du test un effet significatif au seuil de 5% du niveau scolaire sur la méthode de résolution du problème additif. On précise le degré de signification : p = 1,43%. Avec le classeur d’outils statistiques, on obtient automatiquement :