Fiche 8

Transcription

Fiche 8
Test du khi-2 (Test de normalité)
Comparer une distribution observée à une loi normale
Un échantillon, une variable numérique
Situation
La distribution d’une variable numérique est observée dans une population. On souhaite
comparer cette distribution à celle qu’on obtiendrait si la variable suivait une loi normale.
Exemple
Un correcteur rend ses 100 copies au secrétariat d’un concours. Par souci d’équité, la
consigne est de noter les copies de manière telle que la distribution des notes soit
normale avec une moyenne de 10 et un écart-type de 4 (m = 10 et σ = 4).
Le secrétariat a établi la distribution suivante :
Intervalles
Effectifs
Moins de 4
8
De 4 à 8
25
De 8 à 12
45
De 12 à 16
10
De 16 à 20
12
La moyenne est 9,7 et l’écart-type est 4,3.
Au vu de ces résultats le responsable du concours convoque le correcteur pour qu’il
modifie ses notes qui seraient trop nombreuses entre 4 et 8. Le correcteur fait valoir
que la moyenne et l’écart-type sont approximativement ceux demandés, il estime que
les variations liées à la répartition des copies en paquets de 100 expliquent sans doute
la légère différence entre son paquet et la distribution demandée.
Le correcteur a-t-il raison de refuser de revoir ses notes ?
Méthode statistique
Une méthode statistique pour répondre à cette question est le test du khi-2 où l’on compare la
distribution empirique à la distribution théorique issue de la loi normale m = 10 et σ = 4.
1. On organise les données pour faire apparaître les classes de valeurs et la distribution des
effectifs observés sur l’échantillon étudié.
Ici les données sont organisées, c’est le tableau fourni par le secrétariat. On peut se
poser la question du nombre de classes et de leur longueur. Elles devraient être assez
nombreuses pour ne pas perdre trop d'information, mais pas trop pour satisfaire les
conditions du test du khi-2 : effectif théorique de 5 éléments minimum dans chaque
classe.
2. On calcule les effectifs de la distribution obtenue en appliquant la loi normale de moyenne
donnée m = 10 et d’écart-type donné σ = 4.
Le calcul est automatisé, il utilise la loi normale dont les paramètres sont 10 pour la
moyenne et 4 pour l’écart type. Ce calcul conduit à :
Intervalles
Effectifs
Moins de 4
6,68
De 4 à 8
24,17
De 8 à 12
38,26
De 12 à 16
24,17
De 16 à 20
6,68
Le tableau est satisfaisant car aucun effectif théorique n’est inférieur à 5. On peut
remarquer que les notes entre 4 et 8 ne sont pas trop nombreuses, il s’agit plutôt des
notes entre 8 et 12 et entre 16 et 20 qui le sont, au détriment des notes entre 12 et 16.
3. On détermine l’écart entre cette distribution théorique et la distribution effectivement
observée. La méthode de calcul de cet écart est la méthode du khi-2.
Le calcul conduit à une valeur de 14 pour le khi-2 calculé.
E. observés
E. théoriques
X² calculé
8
6,68
0,2605245
25
24,17
0,028291
45
38,26
1,1749207
10
24,17
8,3098721
12
6,68
4,2352766
4. On formule l’hypothèse (notée H0 et dite hypothèse nulle) que l’échantillon observé est
issu d’un échantillonnage aléatoire au sein d’une population où la loi de la variable
aléatoire est la loi normale (m ; σ) et où les tirages successifs des individus sont
indépendants. On détermine alors la probabilité p d’obtenir, sous cette hypothèse nulle, un
écart égal ou supérieur à celui obtenu avec l’échantillon observé. Cette étape repose de
manière sous-jacente sur des résultats mathématiques de probabilité, des conditions sur les
effectifs théoriques doivent être remplies pour que la méthode soit valide : ils doivent être
au moins égaux à 5.
Avec une distribution sur cinq classes, la loi de probabilité de la distance du khi-2 suit
une loi de khi-2 à 4 degrés de liberté. Remarquons que nous cherchons à tester
l’adéquation de la distribution à LA distribution normale de moyenne 10 et d’écarttype 4. Si nous avions seulement cherché à tester l’adéquation de la distribution à
UNE distribution normale, nous aurions choisi la moyenne 9,7 et l’écart type 4,3 de la
distribution observée, la loi de probabilité serait alors une loi de khi-2 à 2 degrés de
libertés de moins que précédemment (perte de 1 ddl pour avoir fixé la moyenne et 1
ddl pour avoir fixé l’écart type) c’est-à-dire une loi de khi-2 à 2 degrés de liberté.
5. Si cette probabilité est faible (c’est-à-dire inférieure à un seuil décidé à l’avance qui est
généralement de 1% ou de 5%), on rejette l’hypothèse nulle : cela accrédite le fait que
l’échantillon observé possède des particularités qui font que la distribution des effectifs du
caractère étudié n’est pas normale (m ; σ). On dit alors que la différence entre la
distribution empirique et la distribution normale (m ; σ) est significative au seuil de 1% ou
de 5%, on peut préciser le degré de signification p. Sinon, on ne rejette pas l’hypothèse
nulle : les données recueillies ne permettent pas de réfuter l’adéquation de la distribution
empirique avec la loi normale (m ; σ). L’écart entre la distribution observée et la
distribution théorique est attribué aux fluctuations d’échantillonnage.
Remarque : en cas de rejet de l’hypothèse nulle, ce n’est pas la normalité de la
distribution qui est réfutée, peut-être est-ce la moyenne ou l’écart-type qui n’est pas
correct. Pour tester la normalité d’une distribution, on prend comme valeurs de la
moyenne et de l’écart type celles qui ont été observées. On perd alors deux degrés de
liberté à la loi de khi-2 ; la méthode est donc utilisable à partir de quatre classes.
La distance entre la distribution des effectifs observés et théoriques, est 14. La
probabilité associée à cette distance est p = 0,73%. On rejette par conséquent, au
risque seuil de 1%, l’hypothèse d’adéquation avec la loi normale de moyenne 10 et
d’écart type 4.
Le correcteur devrait donc revoir ses notes.
Remarque : au seuil de 1%, la distribution des notes n’est pas non plus en adéquation
avec la loi normale de moyenne 9,7 et d’écart type 4,3. On peut donc dire aussi, au
risque seuil de 1%, que la distribution des notes n’est pas conforme à la loi normale.