Tests du χ

Transcription

Tests du χ
Université de Lille 2 - Droit et Santé
Tests du χ2
Michaël Genin - [email protected]
Centre d’Etudes et de Recherche en Informatique Médicale - (EA 2694)
Table des matières
1
2
3
4
Introduction . . . . . . . . . . . . .
1.1
Principe du χ2 . . . . . . .
1.2
Interprétation du test du χ2
Test du Khi-deux d’ajustement . .
2.1
Principe du test . . . . . .
2.2
Conditions d’applications .
2.3
Hypothèses et statistique de
2.4
Décision . . . . . . . . . . .
2.5
Exemple . . . . . . . . . . .
Test du Khi-deux d’homogénéité .
3.1
Principe du test . . . . . .
3.2
Conditions d’applications .
3.3
Hypothèses et statistique de
3.4
Décision . . . . . . . . . . .
3.5
Exemple . . . . . . . . . . .
Test du Khi-deux d’indépendance
4.1
Principe du test . . . . . .
4.2
Conditions d’applications .
4.3
Hypothèses et statistique de
4.4
Décision . . . . . . . . . . .
4.5
Exemple . . . . . . . . . . .
. . .
. . .
. . .
. . .
. . .
. . .
test
. . .
. . .
. . .
. . .
. . .
test
. . .
. . .
. . .
. . .
. . .
test
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A Table de la loi du χ2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
5
5
5
6
6
7
7
8
8
9
9
9
9
11
11
12
12
12
12
15
1
1. INTRODUCTION
1
Tests du χ2
Introduction
Les tests du χ2 (chi-deux, chi-carré, ...) sont basés sur la statistique du χ2 proposée par Karl Pearson,
mathématicien britannique du début du XXeme siècle. L’objectif de ces tests est principalement de comparer
des distributions entre elles. Ces tests peuvent être appliqués à des variables de de nature qualitative (binaire,
nominale, ordinale, quantitative regroupée en classes).
Trois types de test du χ2 peuvent être distingués :
1. Le test du χ2 d’ajustement dont l’objectif est de comparer une distribution observée sur un échantillon
à une distribution théorique (binomiale, Poisson, normale, ...) ou à une distribution connue dans la
population sous-jacente.
Exemple : Soit un échantillon de 100 français. La distribution observée (sur l’échantillon) de l’âge regroupé
en classes est-elle identique à celle de la population française ?
2. Le test du χ2 d’homogénéité dont l’objectif est deux comparer deux ou plusieurs distributions observées sur des échantillons.
Exemple : Soient trois échantillons de 100 français, 100 belges et 100 anglais. La distribution observée de
l’âge regroupé en classes est-elle différente entre les échantillons.
3. Le test du χ2 d’indépendance qui est utilisé pour étudier sur un même échantillon la liaison entre
deux variables qualitatives.
Exemple : Soit un échantillon de 100 français. Existe-t-il un lien entre le sexe (Homme / Femme) et la
couleur des yeux (Marrons, Bleus, Vert, ...) ?
1.1
Principe du χ2
Quelque soit le type de test, le principe consiste à comparer les effectifs des classes des distributions et le
calcul de la statistique de test reste identique. Cette section va s’attacher à décrire les différentes hypothèses
énoncées en fonction du type de test, le calcul de la statistique de test et l’interprétation du test du χ2 dans le
cadre général. Les sections suivantes décrivent de manière plus spécifique les différents types de test.
1.1.1
Hypothèses
Le choix des hypothèse nulle H0 et hypothèse alternative H1 est fonction du type de test du χ2 :
1. Test du χ2 d’ajustement. Sous H0 , l’échantillon observé provient de la population dont la distribution
théorique est connue. Aussi, la distribution observée sur l’échantillon devrait être sensiblement identique.
A contrario, si la distribution observée est différente de la distribution théorique, on rejette H0 et on
accepte H1 , l’échantillon ne provient pas de la même population.
— H0 : La distribution observée est identique à la distribution théorique
— H1 : La distribution observée est différente de la distribution théorique.
2. Test du χ2 d’homogénéité. Sous H0 , les échantillons observés sont issus de la même population
sous-jacente. Aussi, les différentes distributions devraient être identiques entre elles. Si les distributions
observées sont différentes entre elles alors on rejette H0 au profit de H1 , les échantillons ne sont donc pas
issus de la même population.
— H0 : Les distributions observées sont identiques entre elles
— H1 : Les distributions observées sont différentes entre elles
3. Test du χ2 d’indépendance. Soient X1 et X2 deux variables qualitatives. Sous H0 , la distribution de
X1 devrait être indépendante de celle de X2 . A contrario, si la distribution de X1 est liée à celle de X2 ,
on rejette H0 au profit de H1 , les deux variables X1 et X2 sont liées.
— H0 : Les variables X1 et X2 sont indépendantes
— H1 : Il existe une liaison entre X1 et X2
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
2 / 16
Tests du χ2
1. INTRODUCTION
1.1.2
Tableau de contingence
Le test du χ2 se base sur la notion d’effectifs synthétisés au sein d’un tableau de contingence. La forme de
ce dernier dépend du type de test qui est utilisé.
Dans le cadre du test du χ2 d’ajustement, le tableau ne comporte qu’une seule colonne, car la distribution
d’une variable est observée sur un seul échantillon (Tableau 1). A chaque modalité i de la variable est associé
son effectif observé oi .
Table 1 – Tableau de contingence / Test du χ2 d’ajustement
Variable
Modalité 1
Modalité 2
.
.
.
Modalité p
Total
Effectifs observés
o1
o2
.
.
.
op
N
Dans le cas du test du χ2 d’homogénéité, le tableau contient autant de colonnes qu’il y a d’échantillons
observés (Table 2). L’effectif associé à la modalité i de l’échantillon j est noté oij . La somme des effectifs de
tous les échantillons pour une modalité i est notée ti . La taille d’un échantillon observé j est notée nj .
Table 2 – Tableau de contingence / Test du χ2 homogénéité
Effectifs observés
Variable
Echantillon 1
Echantillon 2
...
Echantillon k
Total
Modalité 1
Modalité 2
.
Modalité p
o11
o21
.
op1
o12
o22
.
op2
.
.
.
.
o1k
o2k
.
opk
t1
t2
tk
Total
n1
n2
.
nk
N
Dans le cadre du test du χ2 d’indépendance, le tableau de contingence comporte autant de lignes que
de modalités de la variable X1 et autant de colonnes que de modalités de la variable X2 (Table 3). A chaque
croisement de la modalité i de X1 avec la modalité j de X2 est associé l’effectif observé noté oij . L’effectif
observé de la modalité i de X1 est noté ti et l’effectif observé de la modalité j de X2 est noté nj .
Table 3 – Tableau de contingence / Test du χ2 d’indépendance
Variable X2
Variable X1
Modalité 1
Modalité 2
...
Modalité k
Total
Modalité 1
Modalité 2
.
Modalité p
o11
o21
.
op1
o12
o22
.
op2
.
.
.
.
o1k
o2k
.
opk
t1
t2
tk
Total
n1
n2
.
nk
N
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
3 / 16
Tests du χ2
1. INTRODUCTION
1.1.3
Calcul de la statistique de test : cas général
Considérons dans le cas général, le tableau de contingence des effectifs observés suivant :
Table 4 – Tableau de contingence / Cas général
Effectifs observés
Variable
Echantillon 1
Echantillon 2
...
Echantillon k
Total
Modalité 1
Modalité 2
.
Modalité p
o11
o21
.
op1
o12
o22
.
op2
.
.
.
.
o1k
o2k
.
opk
t1
t2
tk
Total
n1
n2
.
nk
N
Le principe du test du χ2 consiste à calculer, pour chaque case du tableau, l’effectif théorique qui devrait
être observé sous l’hypothèse nulle d’égalité (ou d’indépendance) des distributions. Sous cette hypothèse, les
effectifs sont répartis en proportion égale.
On définit l’effectif théorique eij associé à la case {i, j} du tableau par la quantité suivante :
eij =
nj t i
N
Ainsi, nous obtenons un second tableau de contingence, nommé tableau de contingence théorique, dont
les marges (ti et nj ) sont identiques au tableau de contingence observé.
Table 5 – Tableau de contingence théorique
Effectifs théoriques
Variable
Echantillon 1
Echantillon 2
...
Echantillon k
Total
Modalité 1
Modalité 2
.
Modalité p
e11
e21
.
ep1
e12
e22
.
ep2
.
.
.
.
e1k
e2k
.
epk
t1
t2
tk
Total
n1
n2
.
nk
N
Sous l’hypothèse nulle, les effectifs observés et les effectifs théoriques doivent être sensiblement proches donc
la somme de leurs différences devrait être proche de zéro. Aussi, le principe du test du χ2 se base sur l’évaluation
de la somme de ces différences par rapport à une valeur seuil. Intuitivement, si cette somme de différences
excède une certaine valeur, cela signifie que les effectifs observés et les effectifs théoriques sont différents et par
conséquent l’hypothèse d’égalité (ou d’indépendance) des distributions peut être remise en cause.
Sous H0 , le test du χ2 a pour statistique de test :
χ2 =
p ∑
k
∑
(oij − eij )2
∼ χ2(p−1)(k−1)
e
ij
i=1 j=1
ddl
Cette statistique de test permet de quantifier l’écart (distance) entre les effectifs théoriques et les effectifs
observés. Pour un risque de première espèce α, la région critique conduisant au rejet de l’hypothèse nulle est
définie par :
W = [χ2(1−α);(p−1)(k−1)
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
ddl ; +∞[
4 / 16
2. TEST DU KHI-DEUX D’AJUSTEMENT
Où χ2(1−α);(p−1)(k−1)
ddl
Tests du χ2
correspond au quantile d’ordre (1−α) de la loi du χ2 à (p−1)(k−1) degrés de liberté.
Cette loi est tabulée et disponible en Annexe A
En d’autres termes, ce quantile correspond à la valeur seuil que nous cherchons à comparer avec la somme
des différences entres les effectifs théoriques et les effectifs observés. Si la réalisation de la statistique de test
dépasse cette valeur seuil (i.e. appartient à la région critique W ) alors l’hypothèse nulle est rejetée.
Condition d’application du test Le test du χ2 est sensible aux petits effectifs. Aussi, le test est considéré
comme applicable lorsque les effectifs théoriques eij sont supérieurs ou égaux à 5. En pratique, si cette condition
n’est pas réalisée, la technique consiste à regrouper certaines modalités (ex : regrouper les yeux noirs er les yeux
marrons) afin de, par construction, augmenter la valeurs des effectifs théoriques.
1.2
Interprétation du test du χ2
Dans le cadre du test du χ2 d’ajustement et du test du χ2 d’homogénéité, l’interprétation est la
suivante :
— Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on
conserve l’hypothèse nulle. On ne peut pas affirmer que les échantillons sont issus de population différentes
(i.e. les distributions semblent identiques).
— Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on
rejette l’hypothèse nulle. Les échantillons sont issus de populations différentes (i.e. les distributions sont
significativement différentes entre les échantillons).
Dans le cadre du test du χ2 d’indépendance, l’interprétation est la suivante :
— Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors
on conserve l’hypothèse nulle. Les variables X1 et X2 sont indépendantes. (i.e. leur distribution sont
indépendantes).
— Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on
rejette l’hypothèse nulle. Il existe une liaison significative entre X1 et X2 (i.e. leurs distributions sont
dépendantes).
2
2.1
Test du Khi-deux d’ajustement
Principe du test
Le test du χ2 d’ajustement est utilisé lorsque l’on désire comparer une distribution observée d’une variable
qualitative à p modalités sur un échantillon de taille N à :
— une distribution théorique (binomiale, Poisson, normale...).
— une distribution connue dans la population. Les puristes parlent alors de test du χ2 de conformité.
Comme explicité en Section 1.1.2, les observations sont synthétisées dans un tableau de contingence ne comportant qu’une seule colonne (Tableau 6).
Par ailleurs, est également observée la distribution connue dans la population ou distribution théorique.
Aussi, nous pouvons construire une deuxième tableau qui va permettre de calculer les effectifs théoriques (Tableau 7). Dans ce dernier, peuvent être distingués les effectifs observés oi , les fréquences de chaque modalité de
la variable en population ou issue de la distribution théorique, notées fi .
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
5 / 16
Tests du χ2
2. TEST DU KHI-DEUX D’AJUSTEMENT
Table 6 – Tableau de contingence observé / Test du χ2 d’ajustement
Variable
Modalité 1
Modalité 2
.
.
.
Modalité p
Total
Effectifs observés
o1
o2
.
.
.
op
N
Table 7 – Tableau de contingence complet / Test du χ2 d’ajustement
Variable
Modalité 1
Modalité 2
.
.
.
Modalité p
Total
Distribution théorique (%)
f1
f2
.
.
.
fp
100%
Effectifs observés
o1
o2
.
.
.
op
N
Effectifs théoriques
e1
e2
.
.
.
ep
N
Les effectifs théoriques ei sont simplement obtenus par :
ei = f i N
2.2
Conditions d’applications
Tout comme dans le cadre général, l’unique condition d’application stipule que les effectifs théoriques ei
doivent être supérieurs ou égaux à 5. Si ce n’est pas le cas, on procède à un regroupement de modalités.
2.3
Hypothèses et statistique de test
Les hypothèses du test du χ2 d’ajustement (ou de conformité) sont les suivantes :
— H0 : La distribution observée est identique à la distribution théorique
— H1 : La distribution observée est différente de la distribution théorique.
Sous H0 , la statistique de test associée au test du χ2 d’ajustement est :
χ2 =
p
∑
(oi − ei )2
i=1
ei
∼ χ2(p−1)
ddl
Pour un risque de première espèce α, la région critique conduisant au rejet de l’hypothèse nulle est définie
par :
W = [χ2(1−α);(p−1)
Où χ2(1−α);(p−1)
ddl
ddl ; +∞[
correspond au quantile d’ordre (1 − α) de la loi du χ2 à (p − 1) degrés de liberté.
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
6 / 16
Tests du χ2
2. TEST DU KHI-DEUX D’AJUSTEMENT
Par exemple, pour un risque α = 0.05 (i.e. (1 − α) = 0.95), la valeur du quantile de la loi du χ2 pour
(p − 1) = 3 degrés de liberté est égale à 7.815 (c.f. table en Annexe A).
La Figure 1 montre un exemple de région critique W (Rejet de H0 ) ainsi qu’une densité de la loi du χ2 à 3
degrés de libertés.
0.5
χ23
0.4
ddl
0.3
χ295%;3ddl
0.2
0.1
95%
5%
0
0
1
2
3
4
5
6
7
Région de conservation de H0
8
9
Rejet de H0
Figure 1 – Densité d’une loi du χ2 à 4 ddl et région critique pour un risque α = 0.05
2.4
Décision
— Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1) ddl alors on conserve
l’hypothèse nulle. On ne peut pas affirmer que distribution observée et la distribution théorique sont
différentes (i.e. l’échantillon observé semble provenir de la même population).
— Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1) ddl alors on rejette
l’hypothèse nulle. Les échantillons sont issus de populations différentes (i.e. les distributions observée et
théorique sont significativement différentes).
2.5
Exemple
Cet exemple est tiré du livre Statistique et Epidemiologie, T.Ancelle, ed. Maloine.
Sur un échantillon de 284 sujets, on a observé la structure d’âge ci-dessous (oi ). On veut vérifier si cet
échantillon présente une structure d’âge identique à celle de la population française (distribution théorique)
(Tableau 8).
Table 8 – Structure d’âge sur un échantillon de 284 sujets
Age
0-19
20-39
40-59
60 - 74
> 74
Total
Distribution théorique (%)
24.6
28.1
26
13.6
7.7
100%
Effectifs observés (oi )
73
82
75
36
18
284
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
Effectifs théoriques (ei )
284 × 24.6% = 69.9
284 × 28.1% = 79.8
284 × 26% = 73.8
284 × 13.6% = 38.6
284 × 7.7% = 21.9
284.0
7 / 16
Tests du χ2
3. TEST DU KHI-DEUX D’HOMOGÉNÉITÉ
Les hypothèses du test sont les suivantes :
— H0 : La distribution de l’âge dans l’échantillon est la même que dans la population française
— H1 : La distribution de l’âge dans l’échantillon est différente de celle dans la population française
Sous H0 , la statistique de test est :
χ2 =
p
∑
(oi − ei )2
i=1
ei
∼ χ2(5−1)
ddl
Pour un risque de première espèce α = 0.05 et pour une loi du χ2 à (5 − 1) ddl la région critique W est :
W = [9.488; +∞[
Application numérique :
χ2 =
(82 − 79.8)2
(75 − 73.8)2
(35 − 38.6)2
(16 − 21.9)2
(73 − 69.9)2
+
+
+
+
= 1.09
69.9
79.8
73.8
38.6
21.9
La valeur observée de la statistique de test (1.09) n’appartient pas à W donc on conserve l’hypothèse nulle
H0 . Il n’existe aucun argument permettant d’affirmer que l’échantillon présente une structure d’âge différente de
celle connue dans la population française. L’échantillon peut être considéré comme représentatif de la population
française, du point de vue de la structure d’âge.
3
Test du Khi-deux d’homogénéité
3.1
Principe du test
Le test du χ2 d’homogénéité est utilisé pour comparer la distribution d’une variable qualitative à p modalités
entre k échantillons de tailles n1 , n2 , ..., nk .
Les observations sont regroupées dans un tableau de contingence présentant autant de colonnes que d’échantillons
observés (k colonnes) (Tableau 9).
Table 9 – Tableau de contingence observés / Test du χ2 d’homogénéité
Effectifs observés
Variable
Echantillon 1
Echantillon 2
...
Echantillon k
Total
Modalité 1
Modalité 2
.
Modalité p
o11
o21
.
op1
o12
o22
.
op2
.
.
.
.
o1k
o2k
.
opk
t1
t2
tk
Total
n1
n2
.
nk
N
Tout comme dans le cadre général, le test du χ2 d’homogénéité nécessite le calcul des effectifs théoriques
selon la formule :
eij =
nj t i
N
Ce qui nous permet d’obtenir le tableau de contingence théorique suivant :
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
8 / 16
Tests du χ2
3. TEST DU KHI-DEUX D’HOMOGÉNÉITÉ
Table 10 – Tableau de contingence théorique / Test du χ2 d’homogénéité
Effectifs théoriques
3.2
Variable
Echantillon 1
Echantillon 2
...
Echantillon k
Total
Modalité 1
Modalité 2
.
Modalité p
e11
e21
.
ep1
e12
e22
.
ep2
.
.
.
.
e1k
e2k
.
epk
t1
t2
tk
Total
n1
n2
.
nk
N
Conditions d’applications
Tout comme dans le cadre général, l’unique condition d’application stipule que les effectifs théoriques eij
doivent être supérieurs ou égaux à 5. Si ce n’est pas le cas, on procède à un regroupement de modalités et/ou
d’échantillons.
3.3
Hypothèses et statistique de test
Les hypothèses du test du χ2 d’homogénéité sont les suivantes :
— H0 : Les distributions observées sont identiques entre les échantillons observés
— H1 : Les distributions observées sont différentes entre les échantillons observés
Sous H0 , la statistique de test associée au test du χ2 d’homogénéité est définie par :
χ2 =
p ∑
k
∑
(oij − eij )2
∼ χ2(p−1)(k−1)
e
ij
i=1 j=1
ddl
Pour un risque de première espèce α, la région critique conduisant au rejet de l’hypothèse nulle est définie
par :
W = [χ2(1−α);(p−1)(k−1)
Où χ2(1−α);(p−1)(k−1)
3.4
ddl
ddl ; +∞[
correspond au quantile d’ordre (1−α) de la loi du χ2 à (p−1)(k−1) degrés de liberté.
Décision
— Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on
conserve l’hypothèse nulle. On ne peut pas affirmer que les échantillons observés sont issus de populations différentes (i.e. les distributions semblent identiques).
— Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on
rejette l’hypothèse nulle. Les échantillons observés sont issus de populations différentes (i.e. les distributions sont significativement différentes entre les échantillons).
3.5
Exemple
On souhaite évaluer les éventuelles disparités d’opinion entre pays concernant un référendum européen. Pour
ce faire, 4 échantillons de français, belges, anglais et italiens ont été réalisés et sur chaque la variable binaire
X1 = ”Favorable à la question” (Oui/Non) a été mesurée (Tableau 11).
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
9 / 16
Tests du χ2
3. TEST DU KHI-DEUX D’HOMOGÉNÉITÉ
Table 11 – Sondage d’opinion concernant le référendum européen
Effectifs observés
X1
Français
Belges
Anglais
Italiens
Total
Oui
Non
477
135
1746
582
248
218
135
67
2606
1002
Total
612
2328
466
2020
3608
Le calcul des effectifs théoriques est réalisé au moyen de la formule suivante :
eij =
nj t i
N
Ce qui donne par exemple : e11 = 612 × 2606/3608 = 442, e12 = 2328 × 2606/3608 = 1681.5, e21 =
612 × 1002/3608 = 170, e23 = 466 × 1002/3608 = 129.4... Ces effectifs théoriques sont regroupés dans le tableau
de contingence théorique suivant :
Table 12 – Tableau de contingence théorique
Effectifs théoriques
X1
Français
Belges
Anglais
Italiens
Total
Oui
Non
442
170
1681.5
646.5
336.6
129.4
145.9
56.1
2606
1002
Total
612
2328
466
2020
3608
Les hypothèses du test du χ2 d’homogénéité sont les suivantes :
— H0 : L’opinion quant au référendum européen est la même en fonction des pays
— H1 : L’opinion quant au référendum européen est différente selon les pays
Sous H0 , la statistique de test associée au test du χ2 d’homogénéité est définie par :
χ2 =
p ∑
k
∑
(oij − eij )2
∼ χ2(2−1)(4−1)
e
ij
i=1 j=1
ddl
Pour un risque de première espèce α = 0.05 et pour une loi du χ2 à (2 − 1)(4 − 1) = 3 ddl la région critique
W est :
W = [7.815; +∞[
Application numérique :
χ2 =
(477 − 442)2 (1746 − 1681.5)2 (248 − 336.6)2 (135 − 145.9)2 (135 − 170)2 (582 − 646, 5)2 (218 − 129.4)2
+
+
+
+
+
+
442
1681.5
336.6
145.9
170
646.5
129.4
+
(67 − 56.1)2
= 105.8
56.1
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
10 / 16
Tests du χ2
4. TEST DU KHI-DEUX D’INDÉPENDANCE
La valeur de la statistique de test observée (χ2 = 105.8) appartient à la région critique W dont on rejette
l’hypothèse nulle. A la vue des données, les opinions quant au référendum sont significativement différentes d’un
pays à l’autre.
Pour aller plus loin dans l’interprétation, il est intéressant de décrire la nature de cette différence (e.g. quel pays
est le plus réticent ?). Cependant, on ne peut pas se baser sur les effectifs observés (les tailles d’échantillons
étant très disparates) mais plutôt sur les fréquences colonnes, c’est-à-dire le nombre de ”oui” par pays rapporté
à la taille de l’échantillon (ex : en France, nous avons 477/612 = 77.9% d’opinion positive).
Table 13 – Sondage d’opinion concernant le référendum européen
Fréquences ”colonnes” (%)
X1
Français
Belges
Anglais
Italiens
Oui
Non
77.9
22.1
75
25
53.2
46.8
66.8
33.2
Total
100
100
100
100
Le Tableau 13 nous permet de montrer que les Anglais semblent les plus réfractaires au référendum européen
que les autres nationalités.
4
Test du Khi-deux d’indépendance
4.1
Principe du test
Le test du χ2 d’indépendance ou test du χ2 de Pearson est considéré comme un test de liaison à la différence
des test du χ2 d’ajustement et d’homogénéité qui sont basés sur le principe de comparaison.
Le test du χ2 d’indépendance a pour objectif d’évaluer si deux variables qualitatives X1 et X2 à respectivement p et k modalités sont liées, les deux variables étant observées sur un échantillon de taille N .
Les observations oij sont résumées au sein d’un tableau de contingence à p lignes et k colonnes (Tableau 14).
Table 14 – Tableau de contingence / Test du χ2 d’indépendance
Variable X2
Variable X1
Modalité 1
Modalité 2
...
Modalité k
Total
Modalité 1
Modalité 2
.
Modalité p
o11
o21
.
op1
o12
o22
.
op2
.
.
.
.
o1k
o2k
.
opk
t1
t2
tk
Total
n1
n2
.
nk
N
Tout comme dans le cadre général, le test du χ2 d’indépendance nécessite le calcul des effectifs théoriques
selon la formule :
eij =
nj t i
N
Ce qui nous permet d’obtenir le tableau de contingence théorique suivant :
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
11 / 16
Tests du χ2
4. TEST DU KHI-DEUX D’INDÉPENDANCE
Table 15 – Tableau de contingence théorique
Variable X2
4.2
Variable X1
Modalité 1
Modalité 2
...
Modalité k
Total
Modalité 1
Modalité 2
.
Modalité p
e11
e21
.
ep1
e12
e22
.
ep2
.
.
.
.
e1k
e2k
.
epk
t1
t2
tk
Total
n1
n2
.
nk
N
Conditions d’applications
Tout comme dans le cadre général, l’unique condition d’application stipule que les effectifs théoriques eij
doivent être supérieurs ou égaux à 5. Si ce n’est pas le cas, on procède à un regroupement de modalités soit de
la variable X1 , soit de la variable X2 , soit des deux.
4.3
Hypothèses et statistique de test
Les hypothèses du test du χ2 d’indépendance sont les suivantes :
— H0 : Les variables X1 et X2 sont indépendantes
— H1 : Il existe une liaison entre X1 et X2
Sous H0 , la statistique de test associée au test du χ2 d’indépendance est définie par :
χ2 =
p ∑
k
∑
(oij − eij )2
∼ χ2(p−1)(k−1)
e
ij
i=1 j=1
ddl
Pour un risque de première espèce α, la région critique conduisant au rejet de H0 est définie par :
W = [χ2(1−α);(p−1)(k−1)
Où χ2(1−α);(p−1)(k−1)
4.4
ddl
ddl ; +∞[
correspond au quantile d’ordre (1−α) de la loi du χ2 à (p−1)(k−1) degrés de liberté.
Décision
— Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors
on conserve l’hypothèse nulle. Les variables X1 et X2 sont indépendantes. (i.e. leur distribution sont
indépendantes).
— Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on
rejette l’hypothèse nulle. Il existe une liaison significative entre X1 et X2 (i.e. leurs distributions sont
dépendantes).
4.5
Exemple
L’exemple suivant est inspiré de celui présent dans le livre Probabilités et statistique, A. Valleron, Ed. Masson, p. 123.
On suspecte qu’un produit chimique présent dans l’environnement domestique est susceptible d’entraı̂ner des
effets adverses sur le système immunitaire. Afin d’étudier cette possible liaison, une enquête est effectuée au
sein de 600 personnes classées en ”exposés” (t1 = 255) et ”non exposés” (t2 = 345). De surcroı̂t, ces individus
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
12 / 16
Tests du χ2
4. TEST DU KHI-DEUX D’INDÉPENDANCE
sont classés I + (n1 = 285) ou I + (n2 =315) selon que leur système immunitaire est atteint ou normal. L’objectif
de l’étude est de démontrer qu’il existe un lien entre l’exposition au produit chimique et l’état du système
immunitaire.
Les observations sont résumées dans le tableau de contingence suivant (Tableau 16) :
Table 16 – Croisement entre l’exposition au produit chimique et l’état du système immunitaire
Etat du système immunitaire
Exposition
I−
I+
Total
Exposé
Non exposé
135
150
120
195
255
345
Total
285
315
600
Le calcul des effectifs théoriques est réalisé au moyen de la formule suivante :
eij =
nj t i
N
Ce qui donne par exemple : e11 = 285×255/600 = 121.1, e12 = 315×255/600 = 133.9, e21 = 285×345/600 =
163.9, e22 = 315 × 345/600 = 181.1. Ces effectifs théoriques sont regroupés dans le tableau de contingence
théorique suivant :
Table 17 – Tableau de contingence théorique
Etat du système immunitaire
Exposition
I−
I+
Total
Exposé
Non exposé
121.1
163.9
133.9
181.1
255
345
Total
285
315
600
Les hypothèses du test du χ2 d’indépendance sont les suivantes :
— H0 : Il y a indépendance entre l’exposition et l’état du système immunitaire
— H1 : Il existe un lien entre l’exposition et l’état du système immunitaire
Sous H0 , la statistique de test associée au test du χ2 d’indépendance est définie par :
p ∑
k
∑
(oij − eij )2
χ =
∼ χ2(2−1)(2−1)
e
ij
i=1 j=1
2
ddl
Pour un risque de première espèce α = 0.05, la région critique conduisant au rejet de H0 pour une loi du χ2
à (2 − 1)(2 − 1) = 1 degré de liberté est définie par :
W = [3.841; +∞[
Application numérique :
χ2 =
(120 − 133.9)2
(150 − 63.9)2
(195 − 181.1)2
(135 − 121.1)2
+
+
+
= 5.36
121.1
133.9
163.9
181.1
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
13 / 16
Tests du χ2
4. TEST DU KHI-DEUX D’INDÉPENDANCE
Comme la statistique de test observée (5.36) appartient à la région critique, on rejette l’hypothèse nulle
H0 . Il existe une liaison statistiquement significative entre l’exposition au produit chimique et l’état du système
immunitaire. Comme dans le cas du test du χ2 d’homogénéité, il est intéressant de décrire ce lien. Pour ce
faire, on utilise le principe de fréquence lignes, c’est-à-dire que nous voulons comparer la fréquence de système
immunitaire abaissé entre les exposés et les non-exposés.
Table 18 – Fréquence ”lignes”
Etat du système immunitaire
Exposition
I−
I+
Total
Exposé
Non exposé
135/255=53%
150/345=43%
47%
57%
100% (255)
100% (345)
Le Tableau 18 montre clairement que les sujets ayant été exposés sont plus nombreux à présenter un système
immunitaire abaissé que les sujets non-exposés (53% v.s. 43%).
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
14 / 16
Annexe A
Table de la loi du χ2
Niveau de confiance (1 − α)
ν (ddl) 0.1%
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
55
60
0.000
0.002
0.024
0.091
0.210
0.381
0.598
0.857
1.152
1.479
1.834
2.214
2.617
3.041
3.483
3.942
4.416
4.905
5.407
5.921
6.447
6.983
7.529
8.085
8.649
9.222
9.803
10.391
10.986
11.588
14.688
17.916
21.251
24.674
28.173
31.738
0.5%
1.0%
2.5%
0.000
0.010
0.072
0.207
0.412
0.676
0.989
1.344
1.735
2.156
2.603
3.074
3.565
4.075
4.601
5.142
5.697
6.265
6.844
7.434
8.034
8.643
9.260
9.886
10.520
11.160
11.808
12.461
13.121
13.787
17.192
20.707
24.311
27.991
31.735
35.534
0.000
0.020
0.115
0.297
0.554
0.872
1.239
1.646
2.088
2.558
3.053
3.571
4.107
4.660
5.229
5.812
6.408
7.015
7.633
8.260
8.897
9.542
10.196
10.856
11.524
12.198
12.879
13.565
14.256
14.953
18.509
22.164
25.901
29.707
33.570
37.485
0.001
0.051
0.216
0.484
0.831
1.237
1.690
2.180
2.700
3.247
3.816
4.404
5.009
5.629
6.262
6.908
7.564
8.231
8.907
9.591
10.283
10.982
11.689
12.401
13.120
13.844
14.573
15.308
16.047
16.791
20.569
24.433
28.366
32.357
36.398
40.482
5.0% 10.0% 12.5% 20.0% 25.0% 33.3% 50.0%
0.004
0.103
0.352
0.711
1.145
1.635
2.167
2.733
3.325
3.940
4.575
5.226
5.892
6.571
7.261
7.962
8.672
9.390
10.117
10.851
11.591
12.338
13.091
13.848
14.611
15.379
16.151
16.928
17.708
18.493
22.465
26.509
30.612
34.764
38.958
43.188
0.016
0.211
0.584
1.064
1.610
2.204
2.833
3.490
4.168
4.865
5.578
6.304
7.042
7.790
8.547
9.312
10.085
10.865
11.651
12.443
13.240
14.041
14.848
15.659
16.473
17.292
18.114
18.939
19.768
20.599
24.797
29.051
33.350
37.689
42.060
46.459
15
0.025
0.267
0.692
1.219
1.808
2.441
3.106
3.797
4.507
5.234
5.975
6.729
7.493
8.266
9.048
9.837
10.633
11.435
12.242
13.055
13.873
14.695
15.521
16.351
17.184
18.021
18.861
19.704
20.550
21.399
25.678
30.008
34.379
38.785
43.220
47.680
0.064
0.446
1.005
1.649
2.343
3.070
3.822
4.594
5.380
6.179
6.989
7.807
8.634
9.467
10.307
11.152
12.002
12.857
13.716
14.578
15.445
16.314
17.187
18.062
18.940
19.820
20.703
21.588
22.475
23.364
27.836
32.345
36.884
41.449
46.036
50.641
0.102
0.575
1.213
1.923
2.675
3.455
4.255
5.071
5.899
6.737
7.584
8.438
9.299
10.165
11.037
11.912
12.792
13.675
14.562
15.452
16.344
17.240
18.137
19.037
19.939
20.843
21.749
22.657
23.567
24.478
29.054
33.660
38.291
42.942
47.610
52.294
0.186
0.811
1.568
2.378
3.216
4.074
4.945
5.826
6.716
7.612
8.514
9.420
10.331
11.245
12.163
13.083
14.006
14.931
15.859
16.788
17.720
18.653
19.587
20.523
21.461
22.399
23.339
24.280
25.222
26.165
30.894
35.643
40.407
45.184
49.972
54.770
0.455
1.386
2.366
3.357
4.351
5.348
6.346
7.344
8.343
9.342
10.341
11.340
12.340
13.339
14.339
15.338
16.338
17.338
18.338
19.337
20.337
21.337
22.337
23.337
24.337
25.336
26.336
27.336
28.336
29.336
34.336
39.335
44.335
49.335
54.335
59.335
Tests du χ2
Niveau de confiance (1 − α)
ν (ddl) 60.0% 66.7% 75.0% 80.0% 87.5% 90.0% 95.0% 97.5% 99.0% 99.5% 99.9%
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
55
60
0.708
1.833
2.946
4.045
5.132
6.211
7.283
8.351
9.414
10.473
11.530
12.584
13.636
14.685
15.733
16.780
17.824
18.868
19.910
20.951
21.991
23.031
24.069
25.106
26.143
27.179
28.214
29.249
30.283
31.316
36.475
41.622
46.761
51.892
57.016
62.135
0.936
2.197
3.405
4.579
5.730
6.867
7.992
9.107
10.215
11.317
12.414
13.506
14.595
15.680
16.761
17.840
18.917
19.991
21.063
22.133
23.201
24.268
25.333
26.397
27.459
28.520
29.580
30.639
31.697
32.754
38.024
43.275
48.510
53.733
58.945
64.147
1.323
2.773
4.108
5.385
6.626
7.841
9.037
10.219
11.389
12.549
13.701
14.845
15.984
17.117
18.245
19.369
20.489
21.605
22.718
23.828
24.935
26.039
27.141
28.241
29.339
30.435
31.528
32.620
33.711
34.800
40.223
45.616
50.985
56.334
61.665
66.981
1.642
3.219
4.642
5.989
7.289
8.558
9.803
11.030
12.242
13.442
14.631
15.812
16.985
18.151
19.311
20.465
21.615
22.760
23.900
25.038
26.171
27.301
28.429
29.553
30.675
31.795
32.912
34.027
35.139
36.250
41.778
47.269
52.729
58.164
63.577
68.972
2.354
4.159
5.739
7.214
8.625
9.992
11.326
12.636
13.926
15.198
16.457
17.703
18.939
20.166
21.384
22.595
23.799
24.997
26.189
27.376
28.559
29.737
30.911
32.081
33.247
34.410
35.570
36.727
37.881
39.033
44.753
50.424
56.052
61.647
67.211
72.751
2.706
4.605
6.251
7.779
9.236
10.645
12.017
13.362
14.684
15.987
17.275
18.549
19.812
21.064
22.307
23.542
24.769
25.989
27.204
28.412
29.615
30.813
32.007
33.196
34.382
35.563
36.741
37.916
39.087
40.256
46.059
51.805
57.505
63.167
68.796
74.397
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
3.841
5.991
7.815
9.488
11.070
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773
49.802
55.758
61.656
67.505
73.311
79.082
5.024
7.378
9.348
11.143
12.833
14.449
16.013
17.535
19.023
20.483
21.920
23.337
24.736
26.119
27.488
28.845
30.191
31.526
32.852
34.170
35.479
36.781
38.076
39.364
40.646
41.923
43.195
44.461
45.722
46.979
53.203
59.342
65.410
71.420
77.380
83.298
6.635
9.210
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.980
44.314
45.642
46.963
48.278
49.588
50.892
57.342
63.691
69.957
76.154
82.292
88.379
7.879
10.597
12.838
14.860
16.750
18.548
20.278
21.955
23.589
25.188
26.757
28.300
29.819
31.319
32.801
34.267
35.718
37.156
38.582
39.997
41.401
42.796
44.181
45.559
46.928
48.290
49.645
50.993
52.336
53.672
60.275
66.766
73.166
79.490
85.749
91.952
10.828
13.816
16.266
18.467
20.515
22.458
24.322
26.125
27.877
29.588
31.264
32.910
34.528
36.123
37.697
39.252
40.790
42.312
43.820
45.315
46.797
48.268
49.728
51.179
52.620
54.052
55.476
56.892
58.301
59.703
66.619
73.402
80.077
86.661
93.168
99.607
16 / 16