Tests du χ

Transcription

Tests du χ

Université de Lille 2 - Droit et Santé
Tests du χ2
Michaël Genin - [email protected]
Centre d’Etudes et de Recherche en Informatique Médicale - (EA 2694)
Table des matières
1
2
3
4
Introduction . . . . . . . . . . . . .
1.1
Principe du χ2 . . . . . . .
1.2
Interprétation du test du χ2
Test du Khi-deux d’ajustement . .
2.1
Principe du test . . . . . .
2.2
Conditions d’applications .
2.3
Hypothèses et statistique de
2.4
Décision . . . . . . . . . . .
2.5
Exemple . . . . . . . . . . .
Test du Khi-deux d’homogénéité .
3.1
3.2
3.3
3.4
Décision . . . . . . . . . . .
3.5
Exemple . . . . . . . . . . .
Test du Khi-deux d’indépendance
4.1
4.2
4.3
4.4
Décision . . . . . . . . . . .
4.5
Exemple . . . . . . . . . . .
. . .
. . .
. . .
. . .
. . .
. . .
test
. . .
. . .
. . .
. . .
. . .
test
. . .
. . .
. . .
. . .
. . .
test
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
A Table de la loi du χ2
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
5
5
5
6
6
7
7
8
8
9
9
9
9
11
11
12
12
12
12
15
1
1. INTRODUCTION
1
Tests du χ2
Introduction
Les tests du χ2 (chi-deux, chi-carré, ...) sont basés sur la statistique du χ2 proposée par Karl Pearson,
mathématicien britannique du début du XXeme siècle. L’objectif de ces tests est principalement de comparer
des distributions entre elles. Ces tests peuvent être appliqués à des variables de de nature qualitative (binaire,
nominale, ordinale, quantitative regroupée en classes).
Trois types de test du χ2 peuvent être distingués :
1. Le test du χ2 d’ajustement dont l’objectif est de comparer une distribution observée sur un échantillon
à une distribution théorique (binomiale, Poisson, normale, ...) ou à une distribution connue dans la
population sous-jacente.
Exemple : Soit un échantillon de 100 français. La distribution observée (sur l’échantillon) de l’âge regroupé
en classes est-elle identique à celle de la population française ?
2. Le test du χ2 d’homogénéité dont l’objectif est deux comparer deux ou plusieurs distributions observées sur des échantillons.
Exemple : Soient trois échantillons de 100 français, 100 belges et 100 anglais. La distribution observée de
l’âge regroupé en classes est-elle différente entre les échantillons.
3. Le test du χ2 d’indépendance qui est utilisé pour étudier sur un même échantillon la liaison entre
deux variables qualitatives.
Exemple : Soit un échantillon de 100 français. Existe-t-il un lien entre le sexe (Homme / Femme) et la
couleur des yeux (Marrons, Bleus, Vert, ...) ?
1.1
Principe du χ2
Quelque soit le type de test, le principe consiste à comparer les effectifs des classes des distributions et le
calcul de la statistique de test reste identique. Cette section va s’attacher à décrire les différentes hypothèses
énoncées en fonction du type de test, le calcul de la statistique de test et l’interprétation du test du χ2 dans le
cadre général. Les sections suivantes décrivent de manière plus spécifique les différents types de test.
1.1.1
Hypothèses
Le choix des hypothèse nulle H0 et hypothèse alternative H1 est fonction du type de test du χ2 :
1. Test du χ2 d’ajustement. Sous H0 , l’échantillon observé provient de la population dont la distribution
théorique est connue. Aussi, la distribution observée sur l’échantillon devrait être sensiblement identique.
A contrario, si la distribution observée est différente de la distribution théorique, on rejette H0 et on
accepte H1 , l’échantillon ne provient pas de la même population.
— H0 : La distribution observée est identique à la distribution théorique
— H1 : La distribution observée est différente de la distribution théorique.
2. Test du χ2 d’homogénéité. Sous H0 , les échantillons observés sont issus de la même population
sous-jacente. Aussi, les différentes distributions devraient être identiques entre elles. Si les distributions
observées sont différentes entre elles alors on rejette H0 au profit de H1 , les échantillons ne sont donc pas
issus de la même population.
— H0 : Les distributions observées sont identiques entre elles
— H1 : Les distributions observées sont différentes entre elles
3. Test du χ2 d’indépendance. Soient X1 et X2 deux variables qualitatives. Sous H0 , la distribution de
X1 devrait être indépendante de celle de X2 . A contrario, si la distribution de X1 est liée à celle de X2 ,
on rejette H0 au profit de H1 , les deux variables X1 et X2 sont liées.
— H0 : Les variables X1 et X2 sont indépendantes
— H1 : Il existe une liaison entre X1 et X2
-= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =-
2 / 16
Tests du χ2
1. INTRODUCTION
1.1.2
Tableau de contingence
Le test du χ2 se base sur la notion d’effectifs synthétisés au sein d’un tableau de contingence. La forme de
ce dernier dépend du type de test qui est utilisé.
Dans le cadre du test du χ2 d’ajustement, le tableau ne comporte qu’une seule colonne, car la distribution
d’une variable est observée sur un seul échantillon (Tableau 1). A chaque modalité i de la variable est associé
son effectif observé oi .
Table 1 – Tableau de contingence / Test du χ2 d’ajustement
Variable
Modalité 1
Modalité 2
.
.
.
Modalité p
Total
Effectifs observés
o1
o2
.
.
.
op
N
Dans le cas du test du χ2 d’homogénéité, le tableau contient autant de colonnes qu’il y a d’échantillons
observés (Table 2). L’effectif associé à la modalité i de l’échantillon j est noté oij . La somme des effectifs de
tous les échantillons pour une modalité i est notée ti . La taille d’un échantillon observé j est notée nj .
Table 2 – Tableau de contingence / Test du χ2 homogénéité
Variable
Echantillon 1
Echantillon 2
...
Echantillon k
Total
Modalité 1
Modalité 2
.
Modalité p
o11
o21
.
op1
o12
o22
.
op2
.
.
.
.
o1k
o2k
.
opk
t1
t2
tk
Total
n1
n2
.
nk
N
Dans le cadre du test du χ2 d’indépendance, le tableau de contingence comporte autant de lignes que
de modalités de la variable X1 et autant de colonnes que de modalités de la variable X2 (Table 3). A chaque
croisement de la modalité i de X1 avec la modalité j de X2 est associé l’effectif observé noté oij . L’effectif
observé de la modalité i de X1 est noté ti et l’effectif observé de la modalité j de X2 est noté nj .
Table 3 – Tableau de contingence / Test du χ2 d’indépendance
Variable X2
Variable X1
Modalité 1
Modalité 2
...
Modalité k
Total
Modalité 1
Modalité 2
.
Modalité p
o11
o21
.
op1
o12
o22
.
op2
.
.
.
.
o1k
o2k
.
opk
t1
t2
tk
Total
n1
n2
.
nk
N
3 / 16
Tests du χ2
1. INTRODUCTION
1.1.3
Calcul de la statistique de test : cas général
Considérons dans le cas général, le tableau de contingence des effectifs observés suivant :
Table 4 – Tableau de contingence / Cas général
Variable
Echantillon 1
Echantillon 2
...
Echantillon k
Total
Modalité 1
Modalité 2
.
Modalité p
o11
o21
.
op1
o12
o22
.
op2
.
.
.
.
o1k
o2k
.
opk
t1
t2
tk
Total
n1
n2
.
nk
N
Le principe du test du χ2 consiste à calculer, pour chaque case du tableau, l’effectif théorique qui devrait
être observé sous l’hypothèse nulle d’égalité (ou d’indépendance) des distributions. Sous cette hypothèse, les
effectifs sont répartis en proportion égale.
On définit l’effectif théorique eij associé à la case {i, j} du tableau par la quantité suivante :
eij =
nj t i
N
Ainsi, nous obtenons un second tableau de contingence, nommé tableau de contingence théorique, dont
les marges (ti et nj ) sont identiques au tableau de contingence observé.
Table 5 – Tableau de contingence théorique
Effectifs théoriques
Variable
Echantillon 1
Echantillon 2
...
Echantillon k
Total
Modalité 1
Modalité 2
.
Modalité p
e11
e21
.
ep1
e12
e22
.
ep2
.
.
.
.
e1k
e2k
.
epk
t1
t2
tk
Total
n1
n2
.
nk
N
Sous l’hypothèse nulle, les effectifs observés et les effectifs théoriques doivent être sensiblement proches donc
la somme de leurs différences devrait être proche de zéro. Aussi, le principe du test du χ2 se base sur l’évaluation
de la somme de ces différences par rapport à une valeur seuil. Intuitivement, si cette somme de différences
excède une certaine valeur, cela signifie que les effectifs observés et les effectifs théoriques sont différents et par
conséquent l’hypothèse d’égalité (ou d’indépendance) des distributions peut être remise en cause.
Sous H0 , le test du χ2 a pour statistique de test :
χ2 =
p ∑
k
∑
(oij − eij )2
∼ χ2(p−1)(k−1)
e
ij
i=1 j=1
ddl
Cette statistique de test permet de quantifier l’écart (distance) entre les effectifs théoriques et les effectifs
observés. Pour un risque de première espèce α, la région critique conduisant au rejet de l’hypothèse nulle est
définie par :
W = [χ2(1−α);(p−1)(k−1)
ddl ; +∞[
4 / 16
2. TEST DU KHI-DEUX D’AJUSTEMENT
Où χ2(1−α);(p−1)(k−1)
ddl
Tests du χ2
correspond au quantile d’ordre (1−α) de la loi du χ2 à (p−1)(k−1) degrés de liberté.
Cette loi est tabulée et disponible en Annexe A
En d’autres termes, ce quantile correspond à la valeur seuil que nous cherchons à comparer avec la somme
des différences entres les effectifs théoriques et les effectifs observés. Si la réalisation de la statistique de test
dépasse cette valeur seuil (i.e. appartient à la région critique W ) alors l’hypothèse nulle est rejetée.
Condition d’application du test Le test du χ2 est sensible aux petits effectifs. Aussi, le test est considéré
comme applicable lorsque les effectifs théoriques eij sont supérieurs ou égaux à 5. En pratique, si cette condition
n’est pas réalisée, la technique consiste à regrouper certaines modalités (ex : regrouper les yeux noirs er les yeux
marrons) afin de, par construction, augmenter la valeurs des effectifs théoriques.
1.2
Interprétation du test du χ2
Dans le cadre du test du χ2 d’ajustement et du test du χ2 d’homogénéité, l’interprétation est la
suivante :
— Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on
conserve l’hypothèse nulle. On ne peut pas affirmer que les échantillons sont issus de population différentes
(i.e. les distributions semblent identiques).
— Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on
rejette l’hypothèse nulle. Les échantillons sont issus de populations différentes (i.e. les distributions sont
significativement différentes entre les échantillons).
Dans le cadre du test du χ2 d’indépendance, l’interprétation est la suivante :
— Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors
on conserve l’hypothèse nulle. Les variables X1 et X2 sont indépendantes. (i.e. leur distribution sont
indépendantes).
rejette l’hypothèse nulle. Il existe une liaison significative entre X1 et X2 (i.e. leurs distributions sont
dépendantes).
2
2.1
Test du Khi-deux d’ajustement
Principe du test
Le test du χ2 d’ajustement est utilisé lorsque l’on désire comparer une distribution observée d’une variable
qualitative à p modalités sur un échantillon de taille N à :
— une distribution théorique (binomiale, Poisson, normale...).
— une distribution connue dans la population. Les puristes parlent alors de test du χ2 de conformité.
Comme explicité en Section 1.1.2, les observations sont synthétisées dans un tableau de contingence ne comportant qu’une seule colonne (Tableau 6).
Par ailleurs, est également observée la distribution connue dans la population ou distribution théorique.
Aussi, nous pouvons construire une deuxième tableau qui va permettre de calculer les effectifs théoriques (Tableau 7). Dans ce dernier, peuvent être distingués les effectifs observés oi , les fréquences de chaque modalité de
la variable en population ou issue de la distribution théorique, notées fi .
5 / 16
Tests du χ2
Table 6 – Tableau de contingence observé / Test du χ2 d’ajustement
Variable
Modalité 1
Modalité 2
.
.
.
Modalité p
Total
o1
o2
.
.
.
op
N
Table 7 – Tableau de contingence complet / Test du χ2 d’ajustement
Variable
Modalité 1
Modalité 2
.
.
.
Modalité p
Total
Distribution théorique (%)
f1
f2
.
.
.
fp
100%
o1
o2
.
.
.
op
N
e1
e2
.
.
.
ep
N
Les effectifs théoriques ei sont simplement obtenus par :
ei = f i N
2.2
Conditions d’applications
Tout comme dans le cadre général, l’unique condition d’application stipule que les effectifs théoriques ei
doivent être supérieurs ou égaux à 5. Si ce n’est pas le cas, on procède à un regroupement de modalités.
2.3
Hypothèses et statistique de test
Les hypothèses du test du χ2 d’ajustement (ou de conformité) sont les suivantes :
— H0 : La distribution observée est identique à la distribution théorique
— H1 : La distribution observée est différente de la distribution théorique.
Sous H0 , la statistique de test associée au test du χ2 d’ajustement est :
χ2 =
p
∑
(oi − ei )2
i=1
ei
∼ χ2(p−1)
ddl
Pour un risque de première espèce α, la région critique conduisant au rejet de l’hypothèse nulle est définie
par :
W = [χ2(1−α);(p−1)
Où χ2(1−α);(p−1)
ddl
ddl ; +∞[
correspond au quantile d’ordre (1 − α) de la loi du χ2 à (p − 1) degrés de liberté.
6 / 16
Tests du χ2
Par exemple, pour un risque α = 0.05 (i.e. (1 − α) = 0.95), la valeur du quantile de la loi du χ2 pour
(p − 1) = 3 degrés de liberté est égale à 7.815 (c.f. table en Annexe A).
La Figure 1 montre un exemple de région critique W (Rejet de H0 ) ainsi qu’une densité de la loi du χ2 à 3
degrés de libertés.
0.5
χ23
0.4
ddl
0.3
χ295%;3ddl
0.2
0.1
95%
5%
0
0
1
2
3
4
5
6
7
Région de conservation de H0
8
9
Rejet de H0
Figure 1 – Densité d’une loi du χ2 à 4 ddl et région critique pour un risque α = 0.05
2.4
Décision
— Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1) ddl alors on conserve
l’hypothèse nulle. On ne peut pas affirmer que distribution observée et la distribution théorique sont
différentes (i.e. l’échantillon observé semble provenir de la même population).
— Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1) ddl alors on rejette
l’hypothèse nulle. Les échantillons sont issus de populations différentes (i.e. les distributions observée et
théorique sont significativement différentes).
2.5
Exemple
Cet exemple est tiré du livre Statistique et Epidemiologie, T.Ancelle, ed. Maloine.
Sur un échantillon de 284 sujets, on a observé la structure d’âge ci-dessous (oi ). On veut vérifier si cet
échantillon présente une structure d’âge identique à celle de la population française (distribution théorique)
(Tableau 8).
Table 8 – Structure d’âge sur un échantillon de 284 sujets
Age
0-19
20-39
40-59
60 - 74
> 74
Total
Distribution théorique (%)
24.6
28.1
26
13.6
7.7
100%
Effectifs observés (oi )
73
82
75
36
18
284
Effectifs théoriques (ei )
284 × 24.6% = 69.9
284 × 28.1% = 79.8
284 × 26% = 73.8
284 × 13.6% = 38.6
284 × 7.7% = 21.9
284.0
7 / 16
Tests du χ2
3. TEST DU KHI-DEUX D’HOMOGÉNÉITÉ
Les hypothèses du test sont les suivantes :
— H0 : La distribution de l’âge dans l’échantillon est la même que dans la population française
— H1 : La distribution de l’âge dans l’échantillon est différente de celle dans la population française
Sous H0 , la statistique de test est :
χ2 =
p
∑
(oi − ei )2
i=1
ei
∼ χ2(5−1)
ddl
Pour un risque de première espèce α = 0.05 et pour une loi du χ2 à (5 − 1) ddl la région critique W est :
W = [9.488; +∞[
Application numérique :
χ2 =
(82 − 79.8)2
(75 − 73.8)2
(35 − 38.6)2
(16 − 21.9)2
(73 − 69.9)2
+
+
+
+
= 1.09
69.9
79.8
73.8
38.6
21.9
La valeur observée de la statistique de test (1.09) n’appartient pas à W donc on conserve l’hypothèse nulle
H0 . Il n’existe aucun argument permettant d’affirmer que l’échantillon présente une structure d’âge différente de
celle connue dans la population française. L’échantillon peut être considéré comme représentatif de la population
française, du point de vue de la structure d’âge.
3
Test du Khi-deux d’homogénéité
3.1
Principe du test
Le test du χ2 d’homogénéité est utilisé pour comparer la distribution d’une variable qualitative à p modalités
entre k échantillons de tailles n1 , n2 , ..., nk .
Les observations sont regroupées dans un tableau de contingence présentant autant de colonnes que d’échantillons
observés (k colonnes) (Tableau 9).
Table 9 – Tableau de contingence observés / Test du χ2 d’homogénéité
Variable
Echantillon 1
Echantillon 2
...
Echantillon k
Total
Modalité 1
Modalité 2
.
Modalité p
o11
o21
.
op1
o12
o22
.
op2
.
.
.
.
o1k
o2k
.
opk
t1
t2
tk
Total
n1
n2
.
nk
N
Tout comme dans le cadre général, le test du χ2 d’homogénéité nécessite le calcul des effectifs théoriques
selon la formule :
eij =
nj t i
N
Ce qui nous permet d’obtenir le tableau de contingence théorique suivant :
8 / 16
Tests du χ2
Table 10 – Tableau de contingence théorique / Test du χ2 d’homogénéité
3.2
Variable
Echantillon 1
Echantillon 2
...
Echantillon k
Total
Modalité 1
Modalité 2
.
Modalité p
e11
e21
.
ep1
e12
e22
.
ep2
.
.
.
.
e1k
e2k
.
epk
t1
t2
tk
Total
n1
n2
.
nk
N
Tout comme dans le cadre général, l’unique condition d’application stipule que les effectifs théoriques eij
doivent être supérieurs ou égaux à 5. Si ce n’est pas le cas, on procède à un regroupement de modalités et/ou
d’échantillons.
3.3
Les hypothèses du test du χ2 d’homogénéité sont les suivantes :
— H0 : Les distributions observées sont identiques entre les échantillons observés
— H1 : Les distributions observées sont différentes entre les échantillons observés
Sous H0 , la statistique de test associée au test du χ2 d’homogénéité est définie par :
χ2 =
p ∑
k
∑
(oij − eij )2
∼ χ2(p−1)(k−1)
e
ij
i=1 j=1
ddl
Pour un risque de première espèce α, la région critique conduisant au rejet de l’hypothèse nulle est définie
par :
W = [χ2(1−α);(p−1)(k−1)
Où χ2(1−α);(p−1)(k−1)
3.4
ddl
ddl ; +∞[
Décision
— Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on
conserve l’hypothèse nulle. On ne peut pas affirmer que les échantillons observés sont issus de populations différentes (i.e. les distributions semblent identiques).
rejette l’hypothèse nulle. Les échantillons observés sont issus de populations différentes (i.e. les distributions sont significativement différentes entre les échantillons).
3.5
Exemple
On souhaite évaluer les éventuelles disparités d’opinion entre pays concernant un référendum européen. Pour
ce faire, 4 échantillons de français, belges, anglais et italiens ont été réalisés et sur chaque la variable binaire
X1 = ”Favorable à la question” (Oui/Non) a été mesurée (Tableau 11).
9 / 16
Tests du χ2
Table 11 – Sondage d’opinion concernant le référendum européen
X1
Français
Belges
Anglais
Italiens
Total
Oui
Non
477
135
1746
582
248
218
135
67
2606
1002
Total
612
2328
466
2020
3608
Le calcul des effectifs théoriques est réalisé au moyen de la formule suivante :
eij =
nj t i
N
Ce qui donne par exemple : e11 = 612 × 2606/3608 = 442, e12 = 2328 × 2606/3608 = 1681.5, e21 =
612 × 1002/3608 = 170, e23 = 466 × 1002/3608 = 129.4... Ces effectifs théoriques sont regroupés dans le tableau
de contingence théorique suivant :
X1
Français
Belges
Anglais
Italiens
Total
Oui
Non
442
170
1681.5
646.5
336.6
129.4
145.9
56.1
2606
1002
Total
612
2328
466
2020
3608
Les hypothèses du test du χ2 d’homogénéité sont les suivantes :
— H0 : L’opinion quant au référendum européen est la même en fonction des pays
— H1 : L’opinion quant au référendum européen est différente selon les pays
Sous H0 , la statistique de test associée au test du χ2 d’homogénéité est définie par :
χ2 =
p ∑
k
∑
(oij − eij )2
∼ χ2(2−1)(4−1)
e
ij
i=1 j=1
ddl
Pour un risque de première espèce α = 0.05 et pour une loi du χ2 à (2 − 1)(4 − 1) = 3 ddl la région critique
W est :
W = [7.815; +∞[
χ2 =
(477 − 442)2 (1746 − 1681.5)2 (248 − 336.6)2 (135 − 145.9)2 (135 − 170)2 (582 − 646, 5)2 (218 − 129.4)2
+
+
+
+
+
+
442
1681.5
336.6
145.9
170
646.5
129.4
+
(67 − 56.1)2
= 105.8
56.1
10 / 16
Tests du χ2
4. TEST DU KHI-DEUX D’INDÉPENDANCE
La valeur de la statistique de test observée (χ2 = 105.8) appartient à la région critique W dont on rejette
l’hypothèse nulle. A la vue des données, les opinions quant au référendum sont significativement différentes d’un
pays à l’autre.
Pour aller plus loin dans l’interprétation, il est intéressant de décrire la nature de cette différence (e.g. quel pays
est le plus réticent ?). Cependant, on ne peut pas se baser sur les effectifs observés (les tailles d’échantillons
étant très disparates) mais plutôt sur les fréquences colonnes, c’est-à-dire le nombre de ”oui” par pays rapporté
à la taille de l’échantillon (ex : en France, nous avons 477/612 = 77.9% d’opinion positive).
Table 13 – Sondage d’opinion concernant le référendum européen
Fréquences ”colonnes” (%)
X1
Français
Belges
Anglais
Italiens
Oui
Non
77.9
22.1
75
25
53.2
46.8
66.8
33.2
Total
100
100
100
100
Le Tableau 13 nous permet de montrer que les Anglais semblent les plus réfractaires au référendum européen
que les autres nationalités.
4
Test du Khi-deux d’indépendance
4.1
Principe du test
Le test du χ2 d’indépendance ou test du χ2 de Pearson est considéré comme un test de liaison à la différence
des test du χ2 d’ajustement et d’homogénéité qui sont basés sur le principe de comparaison.
Le test du χ2 d’indépendance a pour objectif d’évaluer si deux variables qualitatives X1 et X2 à respectivement p et k modalités sont liées, les deux variables étant observées sur un échantillon de taille N .
Les observations oij sont résumées au sein d’un tableau de contingence à p lignes et k colonnes (Tableau 14).
Table 14 – Tableau de contingence / Test du χ2 d’indépendance
Variable X2
Variable X1
Modalité 1
Modalité 2
...
Modalité k
Total
Modalité 1
Modalité 2
.
Modalité p
o11
o21
.
op1
o12
o22
.
op2
.
.
.
.
o1k
o2k
.
opk
t1
t2
tk
Total
n1
n2
.
nk
N
Tout comme dans le cadre général, le test du χ2 d’indépendance nécessite le calcul des effectifs théoriques
selon la formule :
eij =
nj t i
N
Ce qui nous permet d’obtenir le tableau de contingence théorique suivant :
11 / 16
Tests du χ2
Variable X2
4.2
Variable X1
Modalité 1
Modalité 2
...
Modalité k
Total
Modalité 1
Modalité 2
.
Modalité p
e11
e21
.
ep1
e12
e22
.
ep2
.
.
.
.
e1k
e2k
.
epk
t1
t2
tk
Total
n1
n2
.
nk
N
Tout comme dans le cadre général, l’unique condition d’application stipule que les effectifs théoriques eij
doivent être supérieurs ou égaux à 5. Si ce n’est pas le cas, on procède à un regroupement de modalités soit de
la variable X1 , soit de la variable X2 , soit des deux.
4.3
Les hypothèses du test du χ2 d’indépendance sont les suivantes :
— H0 : Les variables X1 et X2 sont indépendantes
— H1 : Il existe une liaison entre X1 et X2
Sous H0 , la statistique de test associée au test du χ2 d’indépendance est définie par :
χ2 =
p ∑
k
∑
(oij − eij )2
∼ χ2(p−1)(k−1)
e
ij
i=1 j=1
ddl
Pour un risque de première espèce α, la région critique conduisant au rejet de H0 est définie par :
W = [χ2(1−α);(p−1)(k−1)
Où χ2(1−α);(p−1)(k−1)
4.4
ddl
ddl ; +∞[
Décision
— Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors
on conserve l’hypothèse nulle. Les variables X1 et X2 sont indépendantes. (i.e. leur distribution sont
indépendantes).
rejette l’hypothèse nulle. Il existe une liaison significative entre X1 et X2 (i.e. leurs distributions sont
dépendantes).
4.5
Exemple
L’exemple suivant est inspiré de celui présent dans le livre Probabilités et statistique, A. Valleron, Ed. Masson, p. 123.
On suspecte qu’un produit chimique présent dans l’environnement domestique est susceptible d’entraı̂ner des
effets adverses sur le système immunitaire. Afin d’étudier cette possible liaison, une enquête est effectuée au
sein de 600 personnes classées en ”exposés” (t1 = 255) et ”non exposés” (t2 = 345). De surcroı̂t, ces individus
12 / 16
Tests du χ2
sont classés I + (n1 = 285) ou I + (n2 =315) selon que leur système immunitaire est atteint ou normal. L’objectif
de l’étude est de démontrer qu’il existe un lien entre l’exposition au produit chimique et l’état du système
immunitaire.
Les observations sont résumées dans le tableau de contingence suivant (Tableau 16) :
Table 16 – Croisement entre l’exposition au produit chimique et l’état du système immunitaire
Etat du système immunitaire
Exposition
I−
I+
Total
Exposé
Non exposé
135
150
120
195
255
345
Total
285
315
600
Le calcul des effectifs théoriques est réalisé au moyen de la formule suivante :
eij =
nj t i
N
Ce qui donne par exemple : e11 = 285×255/600 = 121.1, e12 = 315×255/600 = 133.9, e21 = 285×345/600 =
163.9, e22 = 315 × 345/600 = 181.1. Ces effectifs théoriques sont regroupés dans le tableau de contingence
théorique suivant :
Exposition
I−
I+
Total
Exposé
Non exposé
121.1
163.9
133.9
181.1
255
345
Total
285
315
600
Les hypothèses du test du χ2 d’indépendance sont les suivantes :
— H0 : Il y a indépendance entre l’exposition et l’état du système immunitaire
— H1 : Il existe un lien entre l’exposition et l’état du système immunitaire
Sous H0 , la statistique de test associée au test du χ2 d’indépendance est définie par :
p ∑
k
∑
(oij − eij )2
χ =
∼ χ2(2−1)(2−1)
e
ij
i=1 j=1
2
ddl
Pour un risque de première espèce α = 0.05, la région critique conduisant au rejet de H0 pour une loi du χ2
à (2 − 1)(2 − 1) = 1 degré de liberté est définie par :
W = [3.841; +∞[
χ2 =
(120 − 133.9)2
(150 − 63.9)2
(195 − 181.1)2
(135 − 121.1)2
+
+
+
= 5.36
121.1
133.9
163.9
181.1
13 / 16
Tests du χ2
Comme la statistique de test observée (5.36) appartient à la région critique, on rejette l’hypothèse nulle
H0 . Il existe une liaison statistiquement significative entre l’exposition au produit chimique et l’état du système
immunitaire. Comme dans le cas du test du χ2 d’homogénéité, il est intéressant de décrire ce lien. Pour ce
faire, on utilise le principe de fréquence lignes, c’est-à-dire que nous voulons comparer la fréquence de système
immunitaire abaissé entre les exposés et les non-exposés.
Table 18 – Fréquence ”lignes”
Exposition
I−
I+
Total
Exposé
Non exposé
135/255=53%
150/345=43%
47%
57%
100% (255)
100% (345)
Le Tableau 18 montre clairement que les sujets ayant été exposés sont plus nombreux à présenter un système
immunitaire abaissé que les sujets non-exposés (53% v.s. 43%).
14 / 16
Annexe A
Table de la loi du χ2
Niveau de confiance (1 − α)
ν (ddl) 0.1%
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
55
60
0.000
0.002
0.024
0.091
0.210
0.381
0.598
0.857
1.152
1.479
1.834
2.214
2.617
3.041
3.483
3.942
4.416
4.905
5.407
5.921
6.447
6.983
7.529
8.085
8.649
9.222
9.803
10.391
10.986
11.588
14.688
17.916
21.251
24.674
28.173
31.738
0.5%
1.0%
2.5%
0.000
0.010
0.072
0.207
0.412
0.676
0.989
1.344
1.735
2.156
2.603
3.074
3.565
4.075
4.601
5.142
5.697
6.265
6.844
7.434
8.034
8.643
9.260
9.886
10.520
11.160
11.808
12.461
13.121
13.787
17.192
20.707
24.311
27.991
31.735
35.534
0.000
0.020
0.115
0.297
0.554
0.872
1.239
1.646
2.088
2.558
3.053
3.571
4.107
4.660
5.229
5.812
6.408
7.015
7.633
8.260
8.897
9.542
10.196
10.856
11.524
12.198
12.879
13.565
14.256
14.953
18.509
22.164
25.901
29.707
33.570
37.485
0.001
0.051
0.216
0.484
0.831
1.237
1.690
2.180
2.700
3.247
3.816
4.404
5.009
5.629
6.262
6.908
7.564
8.231
8.907
9.591
10.283
10.982
11.689
12.401
13.120
13.844
14.573
15.308
16.047
16.791
20.569
24.433
28.366
32.357
36.398
40.482
5.0% 10.0% 12.5% 20.0% 25.0% 33.3% 50.0%
0.004
0.103
0.352
0.711
1.145
1.635
2.167
2.733
3.325
3.940
4.575
5.226
5.892
6.571
7.261
7.962
8.672
9.390
10.117
10.851
11.591
12.338
13.091
13.848
14.611
15.379
16.151
16.928
17.708
18.493
22.465
26.509
30.612
34.764
38.958
43.188
0.016
0.211
0.584
1.064
1.610
2.204
2.833
3.490
4.168
4.865
5.578
6.304
7.042
7.790
8.547
9.312
10.085
10.865
11.651
12.443
13.240
14.041
14.848
15.659
16.473
17.292
18.114
18.939
19.768
20.599
24.797
29.051
33.350
37.689
42.060
46.459
15
0.025
0.267
0.692
1.219
1.808
2.441
3.106
3.797
4.507
5.234
5.975
6.729
7.493
8.266
9.048
9.837
10.633
11.435
12.242
13.055
13.873
14.695
15.521
16.351
17.184
18.021
18.861
19.704
20.550
21.399
25.678
30.008
34.379
38.785
43.220
47.680
0.064
0.446
1.005
1.649
2.343
3.070
3.822
4.594
5.380
6.179
6.989
7.807
8.634
9.467
10.307
11.152
12.002
12.857
13.716
14.578
15.445
16.314
17.187
18.062
18.940
19.820
20.703
21.588
22.475
23.364
27.836
32.345
36.884
41.449
46.036
50.641
0.102
0.575
1.213
1.923
2.675
3.455
4.255
5.071
5.899
6.737
7.584
8.438
9.299
10.165
11.037
11.912
12.792
13.675
14.562
15.452
16.344
17.240
18.137
19.037
19.939
20.843
21.749
22.657
23.567
24.478
29.054
33.660
38.291
42.942
47.610
52.294
0.186
0.811
1.568
2.378
3.216
4.074
4.945
5.826
6.716
7.612
8.514
9.420
10.331
11.245
12.163
13.083
14.006
14.931
15.859
16.788
17.720
18.653
19.587
20.523
21.461
22.399
23.339
24.280
25.222
26.165
30.894
35.643
40.407
45.184
49.972
54.770
0.455
1.386
2.366
3.357
4.351
5.348
6.346
7.344
8.343
9.342
10.341
11.340
12.340
13.339
14.339
15.338
16.338
17.338
18.338
19.337
20.337
21.337
22.337
23.337
24.337
25.336
26.336
27.336
28.336
29.336
34.336
39.335
44.335
49.335
54.335
59.335
Tests du χ2
Niveau de confiance (1 − α)
ν (ddl) 60.0% 66.7% 75.0% 80.0% 87.5% 90.0% 95.0% 97.5% 99.0% 99.5% 99.9%
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50
55
60
0.708
1.833
2.946
4.045
5.132
6.211
7.283
8.351
9.414
10.473
11.530
12.584
13.636
14.685
15.733
16.780
17.824
18.868
19.910
20.951
21.991
23.031
24.069
25.106
26.143
27.179
28.214
29.249
30.283
31.316
36.475
41.622
46.761
51.892
57.016
62.135
0.936
2.197
3.405
4.579
5.730
6.867
7.992
9.107
10.215
11.317
12.414
13.506
14.595
15.680
16.761
17.840
18.917
19.991
21.063
22.133
23.201
24.268
25.333
26.397
27.459
28.520
29.580
30.639
31.697
32.754
38.024
43.275
48.510
53.733
58.945
64.147
1.323
2.773
4.108
5.385
6.626
7.841
9.037
10.219
11.389
12.549
13.701
14.845
15.984
17.117
18.245
19.369
20.489
21.605
22.718
23.828
24.935
26.039
27.141
28.241
29.339
30.435
31.528
32.620
33.711
34.800
40.223
45.616
50.985
56.334
61.665
66.981
1.642
3.219
4.642
5.989
7.289
8.558
9.803
11.030
12.242
13.442
14.631
15.812
16.985
18.151
19.311
20.465
21.615
22.760
23.900
25.038
26.171
27.301
28.429
29.553
30.675
31.795
32.912
34.027
35.139
36.250
41.778
47.269
52.729
58.164
63.577
68.972
2.354
4.159
5.739
7.214
8.625
9.992
11.326
12.636
13.926
15.198
16.457
17.703
18.939
20.166
21.384
22.595
23.799
24.997
26.189
27.376
28.559
29.737
30.911
32.081
33.247
34.410
35.570
36.727
37.881
39.033
44.753
50.424
56.052
61.647
67.211
72.751
2.706
4.605
6.251
7.779
9.236
10.645
12.017
13.362
14.684
15.987
17.275
18.549
19.812
21.064
22.307
23.542
24.769
25.989
27.204
28.412
29.615
30.813
32.007
33.196
34.382
35.563
36.741
37.916
39.087
40.256
46.059
51.805
57.505
63.167
68.796
74.397
3.841
5.991
7.815
9.488
11.070
12.592
14.067
15.507
16.919
18.307
19.675
21.026
22.362
23.685
24.996
26.296
27.587
28.869
30.144
31.410
32.671
33.924
35.172
36.415
37.652
38.885
40.113
41.337
42.557
43.773
49.802
55.758
61.656
67.505
73.311
79.082
5.024
7.378
9.348
11.143
12.833
14.449
16.013
17.535
19.023
20.483
21.920
23.337
24.736
26.119
27.488
28.845
30.191
31.526
32.852
34.170
35.479
36.781
38.076
39.364
40.646
41.923
43.195
44.461
45.722
46.979
53.203
59.342
65.410
71.420
77.380
83.298
6.635
9.210
11.345
13.277
15.086
16.812
18.475
20.090
21.666
23.209
24.725
26.217
27.688
29.141
30.578
32.000
33.409
34.805
36.191
37.566
38.932
40.289
41.638
42.980
44.314
45.642
46.963
48.278
49.588
50.892
57.342
63.691
69.957
76.154
82.292
88.379
7.879
10.597
12.838
14.860
16.750
18.548
20.278
21.955
23.589
25.188
26.757
28.300
29.819
31.319
32.801
34.267
35.718
37.156
38.582
39.997
41.401
42.796
44.181
45.559
46.928
48.290
49.645
50.993
52.336
53.672
60.275
66.766
73.166
79.490
85.749
91.952
10.828
13.816
16.266
18.467
20.515
22.458
24.322
26.125
27.877
29.588
31.264
32.910
34.528
36.123
37.697
39.252
40.790
42.312
43.820
45.315
46.797
48.268
49.728
51.179
52.620
54.052
55.476
56.892
58.301
59.703
66.619
73.402
80.077
86.661
93.168
99.607
16 / 16

Tests du χ

Transcription

Documents pareils

Microsoft SWAY - CAP Formation

Gestes professionnels et développement du pouvoir d`agir du

INITIATION À LA BUREAUTIQUE

CAP Patissier

Chapitre 9 Corrigés des exercices de Statistique Inférentielle

Exercice 1 Exercice 2 Exercice 3

Salaires : « Préparez vos mouchoirs », dit Jacques Hardoin

Preuves formelles (1/2)

Méthodologie expérimentale : quelques tests statistiques

PRESENTATION!DU!METIER!! PRE.REQUIS! DEROULEMENT!DE