Test du khi-deux d`ajustement

Transcription

Test du khi-deux d`ajustement
Introduction
Fonctionnement du test
Exemple
Statistiques inférentielles
Chapitre 4 : Test du khi-deux d’ajustement
Julian Tugaut
Télécom Saint-Étienne

Julian Tugaut
Statistiques inférentielles
Sommaire
1
Introduction
2
Fonctionnement du test
3
Exemple
Plan
1
Introduction
2
Fonctionnement du test
3
Exemple
Introduction - 1
Soit X une variable aléatoire définie sur un univers Ω.
Introduction - 1
Soit X une variable aléatoire définie sur un univers Ω.
Lorsqu’on recueille des données statistiques sur une variable dans
une population, on les présente souvent sous la forme d’un tableau
des effectifs répartis en classes. On suppose que les observations
sont faites de façon indépendante et dans les mêmes conditions.
Introduction - 1
Soit X une variable aléatoire définie sur un univers Ω.
Lorsqu’on recueille des données statistiques sur une variable dans
une population, on les présente souvent sous la forme d’un tableau
des effectifs répartis en classes. On suppose que les observations
sont faites de façon indépendante et dans les mêmes conditions.
Remarque
Une classe est ici entendue au sens large et peut aussi bien
représenter un intervalle de valeurs (pour une variable quantitative
continue) qu’une modalité unique (pour une variable qualitative ou
quantitative discrète). Le nombre de classes r est cependant fini.
Introduction - 1
Soit X une variable aléatoire définie sur un univers Ω.
Lorsqu’on recueille des données statistiques sur une variable dans
une population, on les présente souvent sous la forme d’un tableau
des effectifs répartis en classes. On suppose que les observations
sont faites de façon indépendante et dans les mêmes conditions.
Remarque
Une classe est ici entendue au sens large et peut aussi bien
représenter un intervalle de valeurs (pour une variable quantitative
continue) qu’une modalité unique (pour une variable qualitative ou
quantitative discrète). Le nombre de classes r est cependant fini.
On souhaite tester si la distribution expérimentale observée
correspond à une distribution théorique donnée.
Introduction
Fonctionnement du test
Exemple
Introduction - 2
Les r classes numérotées 1, 2, · · · , r sont représentées dans la
population selon certains effectifs notés respectivement
n1 , n2 , · · · , nr avec la condition n1 + · · · + nr = n. Ainsi, à chaque
classe, on associe un évènement Ei et (E1 , · · · , Er ) forme un
système complet d’évènements. Dans le modèle théorique, on note
p1 , p2 , · · · , pr les probabilités de ces évènements.
Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Introduction - 2
Les r classes numérotées 1, 2, · · · , r sont représentées dans la
population selon certains effectifs notés respectivement
n1 , n2 , · · · , nr avec la condition n1 + · · · + nr = n. Ainsi, à chaque
classe, on associe un évènement Ei et (E1 , · · · , Er ) forme un
système complet d’évènements. Dans le modèle théorique, on note
p1 , p2 , · · · , pr les probabilités de ces évènements.
On va comparer les effectifs théoriques np1 , np2 , · · · , npr obtenus
pour un échantillon de taille n.
Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Introduction - 2
Les r classes numérotées 1, 2, · · · , r sont représentées dans la
population selon certains effectifs notés respectivement
n1 , n2 , · · · , nr avec la condition n1 + · · · + nr = n. Ainsi, à chaque
classe, on associe un évènement Ei et (E1 , · · · , Er ) forme un
système complet d’évènements. Dans le modèle théorique, on note
p1 , p2 , · · · , pr les probabilités de ces évènements.
On va comparer les effectifs théoriques np1 , np2 , · · · , npr obtenus
pour un échantillon de taille n.
Définition
[Hypothèse nulle] L’hypothèse H0 est ici : “la distribution observée
est conforme à la distribution théorique choisie”.
Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Introduction - 2
Les r classes numérotées 1, 2, · · · , r sont représentées dans la
population selon certains effectifs notés respectivement
n1 , n2 , · · · , nr avec la condition n1 + · · · + nr = n. Ainsi, à chaque
classe, on associe un évènement Ei et (E1 , · · · , Er ) forme un
système complet d’évènements. Dans le modèle théorique, on note
p1 , p2 , · · · , pr les probabilités de ces évènements.
On va comparer les effectifs théoriques np1 , np2 , · · · , npr obtenus
pour un échantillon de taille n.
Définition
[Hypothèse nulle] L’hypothèse H0 est ici : “la distribution observée
est conforme à la distribution théorique choisie”.
L’hypothèse alternative est alors : “la distribution observée n’est
pas conforme à la distribution théorique choisie”.
Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Introduction - 2
Les r classes numérotées 1, 2, · · · , r sont représentées dans la
population selon certains effectifs notés respectivement
n1 , n2 , · · · , nr avec la condition n1 + · · · + nr = n. Ainsi, à chaque
classe, on associe un évènement Ei et (E1 , · · · , Er ) forme un
système complet d’évènements. Dans le modèle théorique, on note
p1 , p2 , · · · , pr les probabilités de ces évènements.
On va comparer les effectifs théoriques np1 , np2 , · · · , npr obtenus
pour un échantillon de taille n.
Définition
[Hypothèse nulle] L’hypothèse H0 est ici : “la distribution observée
est conforme à la distribution théorique choisie”.
L’hypothèse alternative est alors : “la distribution observée n’est
pas conforme à la distribution théorique choisie”.
En général, un test qui répond à ce genre de question est appelé
un test d’ajustement. Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Introduction - 3
On considère la statistique
χ2c :=
r
X
(Ni − npi )
i=1
npi
,
où Ni est le nombre de réalisations de l’évènement Ei (nombre de
réalisations dans la classe numéro i) sur un échantillon donné.
Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Introduction - 3
On considère la statistique
χ2c :=
r
X
(Ni − npi )
i=1
npi
,
où Ni est le nombre de réalisations de l’évènement Ei (nombre de
réalisations dans la classe numéro i) sur un échantillon donné.
La valeur observée pour cette variable aléatoire est faible si les
écarts entre les valeurs théoriques et les valeurs observées sont
petits. Elle est grande dans le cas contraire.
Julian Tugaut
Statistiques inférentielles
Plan
1
Introduction
2
Fonctionnement du test
3
Exemple
Fonctionnement du test - 1
Théorème : Théorème de Pearson
Si pour tout i ∈ [[1; r ]], npi ≥ 5 alors sous l’hypothèse H0 , la
variable aléatoire χ2c suit approximativement une loi du khi-deux à
r − 1 degrés de liberté, χ2 (r − 1).
Fonctionnement du test - 1
Théorème : Théorème de Pearson
Si pour tout i ∈ [[1; r ]], npi ≥ 5 alors sous l’hypothèse H0 , la
variable aléatoire χ2c suit approximativement une loi du khi-deux à
r − 1 degrés de liberté, χ2 (r − 1).
Remarque
On préfère que npi soit plus grand que 10 pour tout i ∈ [[1; r ]].
Remarque
Lorsque l’effectif attendu d’une classe est plus petit que 5, il est
recommandé de regrouper cette classe avec une autre qui lui est
adjacente avant de procéder au test du χ2 . Le test d’ajustement
porte alors sur la distribution dans les classes obtenues après le
regroupement.
Introduction
Fonctionnement du test
Exemple
Fonctionnement du test - 2
La constante c dans le test du khi-deux, appelée valeur critique,
est alors donnée par l’équation
P χ2c > c = α ,
où α est le niveau du test. Une table partielle de la loi du khi-deux
permet de déterminer c dans la plupart des cas pratiques.
Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Fonctionnement du test - 3
Propriété
[Règle de décision] Soit α ∈]0; 1[. On teste l’hypothèse (H0 ) contre
l’hypothèse (H1 ) au risque d’erreur α.
Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Fonctionnement du test - 3
Propriété
[Règle de décision] Soit α ∈]0; 1[. On teste l’hypothèse (H0 ) contre
l’hypothèse (H1 ) au risque d’erreur α.
Soit χ21−α (r − 1) le quantile d’ordre 1 − α de la loi du Khi-deux à
r − 1 degrés de liberté. L’intervalle d’acceptation de (H0 ) est :
Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Fonctionnement du test - 3
Propriété
[Règle de décision] Soit α ∈]0; 1[. On teste l’hypothèse (H0 ) contre
l’hypothèse (H1 ) au risque d’erreur α.
Soit χ21−α (r − 1) le quantile d’ordre 1 − α de la loi du Khi-deux à
r − 1 degrés de liberté. L’intervalle d’acceptation de (H0 ) est :
h
i
0; χ21−α (r − 1) .
Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Fonctionnement du test - 3
Propriété
[Règle de décision] Soit α ∈]0; 1[. On teste l’hypothèse (H0 ) contre
l’hypothèse (H1 ) au risque d’erreur α.
Soit χ21−α (r − 1) le quantile d’ordre 1 − α de la loi du Khi-deux à
r − 1 degrés de liberté. L’intervalle d’acceptation de (H0 ) est :
h
i
0; χ21−α (r − 1) .
En d’autres termes, on accepte (H0 ) si χ2obs , valeur observée pour
χ2c sur l’échantillon, vérifie
χ2obs ≤ χ21−α (r − 1) ,
Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Fonctionnement du test - 3
Propriété
[Règle de décision] Soit α ∈]0; 1[. On teste l’hypothèse (H0 ) contre
l’hypothèse (H1 ) au risque d’erreur α.
Soit χ21−α (r − 1) le quantile d’ordre 1 − α de la loi du Khi-deux à
r − 1 degrés de liberté. L’intervalle d’acceptation de (H0 ) est :
h
i
0; χ21−α (r − 1) .
En d’autres termes, on accepte (H0 ) si χ2obs , valeur observée pour
χ2c sur l’échantillon, vérifie
χ2obs ≤ χ21−α (r − 1) ,
et sinon on refuse (H0 ).
Julian Tugaut
Statistiques inférentielles
Plan
1
Introduction
2
Fonctionnement du test
3
Exemple
Introduction
Fonctionnement du test
Exemple
Exemple - 1
Exemple
Le Bureau de la statistique du gouvernement du Québec a
dénombré 84 579 nouveau-nés dans la province du Québec en
1986. De ce nombre, 43 220 étaient des garçons et 41 359 des
filles. En supposant que le genre d’un nouveau-né est déterminé au
hasard (hypothèse (H0 )), on se serait attendu à avoir
84 579 ×
1
= 42 289.5
2
garçons et le même nombre de filles. On trouve
χ2 =
(43 220 − 42 289.5)2 (41 359 − 42 289.5)2
+
= 40.95 .
42 289.5
42 289.5
Julian Tugaut
Statistiques inférentielles
Introduction
Fonctionnement du test
Exemple
Exemple - 2
On a ici une loi du Khi-deux à 2 − 1 = 1 degré de liberté. Or,
P χ21 > 7.88 = 0.005 ,
pù χ21 est une variable aléatoire qui suit la loi du Khi-deux à 1
degré de liberté. Puis, comme 40.95 > 7.88, on rejette l’hypothèse
(H0 ) même avec un niveau aussi bas que 0.5%.
Julian Tugaut
Statistiques inférentielles

Documents pareils