Fiche 8
Transcription
Fiche 8
Test du khi-2 (Test de normalité) Comparer une distribution observée à une loi normale Un échantillon, une variable numérique Situation La distribution d’une variable numérique est observée dans une population. On souhaite comparer cette distribution à celle qu’on obtiendrait si la variable suivait une loi normale. Exemple Un correcteur rend ses 100 copies au secrétariat d’un concours. Par souci d’équité, la consigne est de noter les copies de manière telle que la distribution des notes soit normale avec une moyenne de 10 et un écart-type de 4 (m = 10 et σ = 4). Le secrétariat a établi la distribution suivante : Intervalles Effectifs Moins de 4 8 De 4 à 8 25 De 8 à 12 45 De 12 à 16 10 De 16 à 20 12 La moyenne est 9,7 et l’écart-type est 4,3. Au vu de ces résultats le responsable du concours convoque le correcteur pour qu’il modifie ses notes qui seraient trop nombreuses entre 4 et 8. Le correcteur fait valoir que la moyenne et l’écart-type sont approximativement ceux demandés, il estime que les variations liées à la répartition des copies en paquets de 100 expliquent sans doute la légère différence entre son paquet et la distribution demandée. Le correcteur a-t-il raison de refuser de revoir ses notes ? Méthode statistique Une méthode statistique pour répondre à cette question est le test du khi-2 où l’on compare la distribution empirique à la distribution théorique issue de la loi normale m = 10 et σ = 4. 1. On organise les données pour faire apparaître les classes de valeurs et la distribution des effectifs observés sur l’échantillon étudié. Ici les données sont organisées, c’est le tableau fourni par le secrétariat. On peut se poser la question du nombre de classes et de leur longueur. Elles devraient être assez nombreuses pour ne pas perdre trop d'information, mais pas trop pour satisfaire les conditions du test du khi-2 : effectif théorique de 5 éléments minimum dans chaque classe. 2. On calcule les effectifs de la distribution obtenue en appliquant la loi normale de moyenne donnée m = 10 et d’écart-type donné σ = 4. Le calcul est automatisé, il utilise la loi normale dont les paramètres sont 10 pour la moyenne et 4 pour l’écart type. Ce calcul conduit à : Intervalles Effectifs Moins de 4 6,68 De 4 à 8 24,17 De 8 à 12 38,26 De 12 à 16 24,17 De 16 à 20 6,68 Le tableau est satisfaisant car aucun effectif théorique n’est inférieur à 5. On peut remarquer que les notes entre 4 et 8 ne sont pas trop nombreuses, il s’agit plutôt des notes entre 8 et 12 et entre 16 et 20 qui le sont, au détriment des notes entre 12 et 16. 3. On détermine l’écart entre cette distribution théorique et la distribution effectivement observée. La méthode de calcul de cet écart est la méthode du khi-2. Le calcul conduit à une valeur de 14 pour le khi-2 calculé. E. observés E. théoriques X² calculé 8 6,68 0,2605245 25 24,17 0,028291 45 38,26 1,1749207 10 24,17 8,3098721 12 6,68 4,2352766 4. On formule l’hypothèse (notée H0 et dite hypothèse nulle) que l’échantillon observé est issu d’un échantillonnage aléatoire au sein d’une population où la loi de la variable aléatoire est la loi normale (m ; σ) et où les tirages successifs des individus sont indépendants. On détermine alors la probabilité p d’obtenir, sous cette hypothèse nulle, un écart égal ou supérieur à celui obtenu avec l’échantillon observé. Cette étape repose de manière sous-jacente sur des résultats mathématiques de probabilité, des conditions sur les effectifs théoriques doivent être remplies pour que la méthode soit valide : ils doivent être au moins égaux à 5. Avec une distribution sur cinq classes, la loi de probabilité de la distance du khi-2 suit une loi de khi-2 à 4 degrés de liberté. Remarquons que nous cherchons à tester l’adéquation de la distribution à LA distribution normale de moyenne 10 et d’écarttype 4. Si nous avions seulement cherché à tester l’adéquation de la distribution à UNE distribution normale, nous aurions choisi la moyenne 9,7 et l’écart type 4,3 de la distribution observée, la loi de probabilité serait alors une loi de khi-2 à 2 degrés de libertés de moins que précédemment (perte de 1 ddl pour avoir fixé la moyenne et 1 ddl pour avoir fixé l’écart type) c’est-à-dire une loi de khi-2 à 2 degrés de liberté. 5. Si cette probabilité est faible (c’est-à-dire inférieure à un seuil décidé à l’avance qui est généralement de 1% ou de 5%), on rejette l’hypothèse nulle : cela accrédite le fait que l’échantillon observé possède des particularités qui font que la distribution des effectifs du caractère étudié n’est pas normale (m ; σ). On dit alors que la différence entre la distribution empirique et la distribution normale (m ; σ) est significative au seuil de 1% ou de 5%, on peut préciser le degré de signification p. Sinon, on ne rejette pas l’hypothèse nulle : les données recueillies ne permettent pas de réfuter l’adéquation de la distribution empirique avec la loi normale (m ; σ). L’écart entre la distribution observée et la distribution théorique est attribué aux fluctuations d’échantillonnage. Remarque : en cas de rejet de l’hypothèse nulle, ce n’est pas la normalité de la distribution qui est réfutée, peut-être est-ce la moyenne ou l’écart-type qui n’est pas correct. Pour tester la normalité d’une distribution, on prend comme valeurs de la moyenne et de l’écart type celles qui ont été observées. On perd alors deux degrés de liberté à la loi de khi-2 ; la méthode est donc utilisable à partir de quatre classes. La distance entre la distribution des effectifs observés et théoriques, est 14. La probabilité associée à cette distance est p = 0,73%. On rejette par conséquent, au risque seuil de 1%, l’hypothèse d’adéquation avec la loi normale de moyenne 10 et d’écart type 4. Le correcteur devrait donc revoir ses notes. Remarque : au seuil de 1%, la distribution des notes n’est pas non plus en adéquation avec la loi normale de moyenne 9,7 et d’écart type 4,3. On peut donc dire aussi, au risque seuil de 1%, que la distribution des notes n’est pas conforme à la loi normale.