Test du khi-2 (Test d`indépendance)

Transcription

Test du khi-2 (Test d`indépendance)
Test du khi-2 (Test d’indépendance)
Tester l’indépendance de deux variables nominales
Un échantillon, deux variables nominales (dichotomiques ou non)
Situation
Deux variables sont étudiées sur une même population, on se demande si les valeurs de l’une
dépendent de celles de l’autre, autrement dit si pour un individu donné le fait que lui soit
associé telle valeur pour l’une des variables modifie les probabilités des valeurs pour l’autre
variable.
Exemple
Des élèves de CP et CE1 (6 ans et 7 ans) ont résolu un problème d’addition, c’est-àdire dont la procédure experte de résolution conduit à une addition ou à une
soustraction. Certains enfants n’utilisent pas la procédure de « calcul » mais une
procédure de « comptage » ou de « surcomptage » 1.
Les élèves de CP étaient 63 et ceux de CE1 67. La méthode de résolution a été
relevée : 13 « comptage » dont 10 en CP et 3 en CE1, 59 « surcomptage » dont 32 en
CP et 27 en CE1, et 58 « calcul » dont 21 en CP et 37 en CE1.
La méthode de résolution est-elle indépendante du niveau scolaire ?
Méthode statistique
Les différences concernant la méthode « comptage » et la méthode « calcul » légitiment la
question posée sur l’indépendance entre la méthode de résolution du problème additif et le
niveau scolaire des élèves. La méthode statistique pour répondre à cette question ressemble
beaucoup à celle de comparaison de deux distributions observées.
1. On organise les données dans un tableau de contingence des effectifs des valeurs de la
première variable en fonction des valeurs de la seconde.
Le tableau de contingence observé est :
Classes
CP
CE1
Ensemble
Comptage
10
3
13
Méthodes
Surcomptage
32
27
59
Calcul
21
37
58
Total
63
67
130
2. On calcule les effectifs qu’on obtiendrait si les deux variables étaient indépendantes. Pour
cela, on répartit les effectifs proportionnellement aux marges du tableau observé.
Classes
CP
CE1
Ensemble
1
Comptage
6,3
6,7
13
Méthodes
Surcomptage
28,6
30,4
59
Calcul
28,1
29,9
58
Total
63
67
130
Comptage : pour ajouter 3 et 8, les élèves dessinent 3 bâtons puis 8 bâtons et ils comptent les bâtons dessinés.
Surcomptage : pour ajouter 3 et 8, les élèves disent 8, lève un premier doigt en disant 9, un deuxième doigt en
disant 10 et enfin un troisième doigt en disant 11 ; ils concluent alors que 3 + 8 = 11.
3. On détermine l’écart entre le tableau théorique et le tableau observé. La méthode de calcul
de cet écart est la méthode du khi-2.
Classes
CP
CE1
Comptage
2,17
2,04
Méthodes
Surcomptage
0,41
0,38
Calcul
1,80
1,69
Cela fait un total de : 8,49. Cette valeur est le khi-2 observé (ou calculé).
4. On formule l’hypothèse (notée H0 et dite hypothèse nulle) d’indépendance des deux
variables. Cela signifie que les échantillons correspondant aux différentes valeurs de la
première variable sont des échantillons aléatoires issus d’une même population où les
tirages successifs des individus sont indépendants. Selon cette hypothèse, les différents
échantillons n’ont aucune caractéristique particulière liée à la situation étudiée.
5. On détermine la probabilité p d’obtenir, sous l’hypothèse nulle, un écart égal ou supérieur
à celui obtenu avec le tableau observé. Cette étape repose de manière sous-jacente sur des
résultats mathématiques de probabilité, des conditions sur les effectifs théoriques doivent
être remplies pour que la méthode soit valide : ils doivent être au moins égaux à 5.
Le nombre de degré de liberté du tableau de contingence est 2. Selon la loi de khi-2 à
2 degrés de liberté, il y a une probabilité de 1,43% d’obtenir une valeur égale ou
supérieure à 8,49.
6. Si cette probabilité est faible (inférieure au seuil de 1% ou de 5%), on rejette l’hypothèse
nulle : cela accrédite le fait que certaines valeurs de la première variable influencent celles
de l’autre. On dit alors qu’on constate un effet significatif de la première variable sur la
seconde au seuil de 1% ou de 5%, on peut préciser le degré de signification p. Sinon, on
ne rejette pas l’hypothèse nulle, les données observées ne permettent pas de rejeter
l’indépendance des deux variables, la différence entre le tableau théorique et le tableau
observé est attribuée aux fluctuations d’échantillonnage. On dit que la première variable
n’a pas d’effet significatif sur la seconde.
On déduit du test un effet significatif au seuil de 5% du niveau scolaire sur la méthode
de résolution du problème additif. On précise le degré de signification : p = 1,43%.
Avec le classeur d’outils statistiques, on obtient automatiquement :