Test du khi-deux d`ajustement
Transcription
Test du khi-deux d`ajustement
Introduction Fonctionnement du test Exemple Statistiques inférentielles Chapitre 4 : Test du khi-deux d’ajustement Julian Tugaut Télécom Saint-Étienne Julian Tugaut Statistiques inférentielles Sommaire 1 Introduction 2 Fonctionnement du test 3 Exemple Plan 1 Introduction 2 Fonctionnement du test 3 Exemple Introduction - 1 Soit X une variable aléatoire définie sur un univers Ω. Introduction - 1 Soit X une variable aléatoire définie sur un univers Ω. Lorsqu’on recueille des données statistiques sur une variable dans une population, on les présente souvent sous la forme d’un tableau des effectifs répartis en classes. On suppose que les observations sont faites de façon indépendante et dans les mêmes conditions. Introduction - 1 Soit X une variable aléatoire définie sur un univers Ω. Lorsqu’on recueille des données statistiques sur une variable dans une population, on les présente souvent sous la forme d’un tableau des effectifs répartis en classes. On suppose que les observations sont faites de façon indépendante et dans les mêmes conditions. Remarque Une classe est ici entendue au sens large et peut aussi bien représenter un intervalle de valeurs (pour une variable quantitative continue) qu’une modalité unique (pour une variable qualitative ou quantitative discrète). Le nombre de classes r est cependant fini. Introduction - 1 Soit X une variable aléatoire définie sur un univers Ω. Lorsqu’on recueille des données statistiques sur une variable dans une population, on les présente souvent sous la forme d’un tableau des effectifs répartis en classes. On suppose que les observations sont faites de façon indépendante et dans les mêmes conditions. Remarque Une classe est ici entendue au sens large et peut aussi bien représenter un intervalle de valeurs (pour une variable quantitative continue) qu’une modalité unique (pour une variable qualitative ou quantitative discrète). Le nombre de classes r est cependant fini. On souhaite tester si la distribution expérimentale observée correspond à une distribution théorique donnée. Introduction Fonctionnement du test Exemple Introduction - 2 Les r classes numérotées 1, 2, · · · , r sont représentées dans la population selon certains effectifs notés respectivement n1 , n2 , · · · , nr avec la condition n1 + · · · + nr = n. Ainsi, à chaque classe, on associe un évènement Ei et (E1 , · · · , Er ) forme un système complet d’évènements. Dans le modèle théorique, on note p1 , p2 , · · · , pr les probabilités de ces évènements. Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Introduction - 2 Les r classes numérotées 1, 2, · · · , r sont représentées dans la population selon certains effectifs notés respectivement n1 , n2 , · · · , nr avec la condition n1 + · · · + nr = n. Ainsi, à chaque classe, on associe un évènement Ei et (E1 , · · · , Er ) forme un système complet d’évènements. Dans le modèle théorique, on note p1 , p2 , · · · , pr les probabilités de ces évènements. On va comparer les effectifs théoriques np1 , np2 , · · · , npr obtenus pour un échantillon de taille n. Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Introduction - 2 Les r classes numérotées 1, 2, · · · , r sont représentées dans la population selon certains effectifs notés respectivement n1 , n2 , · · · , nr avec la condition n1 + · · · + nr = n. Ainsi, à chaque classe, on associe un évènement Ei et (E1 , · · · , Er ) forme un système complet d’évènements. Dans le modèle théorique, on note p1 , p2 , · · · , pr les probabilités de ces évènements. On va comparer les effectifs théoriques np1 , np2 , · · · , npr obtenus pour un échantillon de taille n. Définition [Hypothèse nulle] L’hypothèse H0 est ici : “la distribution observée est conforme à la distribution théorique choisie”. Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Introduction - 2 Les r classes numérotées 1, 2, · · · , r sont représentées dans la population selon certains effectifs notés respectivement n1 , n2 , · · · , nr avec la condition n1 + · · · + nr = n. Ainsi, à chaque classe, on associe un évènement Ei et (E1 , · · · , Er ) forme un système complet d’évènements. Dans le modèle théorique, on note p1 , p2 , · · · , pr les probabilités de ces évènements. On va comparer les effectifs théoriques np1 , np2 , · · · , npr obtenus pour un échantillon de taille n. Définition [Hypothèse nulle] L’hypothèse H0 est ici : “la distribution observée est conforme à la distribution théorique choisie”. L’hypothèse alternative est alors : “la distribution observée n’est pas conforme à la distribution théorique choisie”. Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Introduction - 2 Les r classes numérotées 1, 2, · · · , r sont représentées dans la population selon certains effectifs notés respectivement n1 , n2 , · · · , nr avec la condition n1 + · · · + nr = n. Ainsi, à chaque classe, on associe un évènement Ei et (E1 , · · · , Er ) forme un système complet d’évènements. Dans le modèle théorique, on note p1 , p2 , · · · , pr les probabilités de ces évènements. On va comparer les effectifs théoriques np1 , np2 , · · · , npr obtenus pour un échantillon de taille n. Définition [Hypothèse nulle] L’hypothèse H0 est ici : “la distribution observée est conforme à la distribution théorique choisie”. L’hypothèse alternative est alors : “la distribution observée n’est pas conforme à la distribution théorique choisie”. En général, un test qui répond à ce genre de question est appelé un test d’ajustement. Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Introduction - 3 On considère la statistique χ2c := r X (Ni − npi ) i=1 npi , où Ni est le nombre de réalisations de l’évènement Ei (nombre de réalisations dans la classe numéro i) sur un échantillon donné. Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Introduction - 3 On considère la statistique χ2c := r X (Ni − npi ) i=1 npi , où Ni est le nombre de réalisations de l’évènement Ei (nombre de réalisations dans la classe numéro i) sur un échantillon donné. La valeur observée pour cette variable aléatoire est faible si les écarts entre les valeurs théoriques et les valeurs observées sont petits. Elle est grande dans le cas contraire. Julian Tugaut Statistiques inférentielles Plan 1 Introduction 2 Fonctionnement du test 3 Exemple Fonctionnement du test - 1 Théorème : Théorème de Pearson Si pour tout i ∈ [[1; r ]], npi ≥ 5 alors sous l’hypothèse H0 , la variable aléatoire χ2c suit approximativement une loi du khi-deux à r − 1 degrés de liberté, χ2 (r − 1). Fonctionnement du test - 1 Théorème : Théorème de Pearson Si pour tout i ∈ [[1; r ]], npi ≥ 5 alors sous l’hypothèse H0 , la variable aléatoire χ2c suit approximativement une loi du khi-deux à r − 1 degrés de liberté, χ2 (r − 1). Remarque On préfère que npi soit plus grand que 10 pour tout i ∈ [[1; r ]]. Remarque Lorsque l’effectif attendu d’une classe est plus petit que 5, il est recommandé de regrouper cette classe avec une autre qui lui est adjacente avant de procéder au test du χ2 . Le test d’ajustement porte alors sur la distribution dans les classes obtenues après le regroupement. Introduction Fonctionnement du test Exemple Fonctionnement du test - 2 La constante c dans le test du khi-deux, appelée valeur critique, est alors donnée par l’équation P χ2c > c = α , où α est le niveau du test. Une table partielle de la loi du khi-deux permet de déterminer c dans la plupart des cas pratiques. Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Fonctionnement du test - 3 Propriété [Règle de décision] Soit α ∈]0; 1[. On teste l’hypothèse (H0 ) contre l’hypothèse (H1 ) au risque d’erreur α. Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Fonctionnement du test - 3 Propriété [Règle de décision] Soit α ∈]0; 1[. On teste l’hypothèse (H0 ) contre l’hypothèse (H1 ) au risque d’erreur α. Soit χ21−α (r − 1) le quantile d’ordre 1 − α de la loi du Khi-deux à r − 1 degrés de liberté. L’intervalle d’acceptation de (H0 ) est : Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Fonctionnement du test - 3 Propriété [Règle de décision] Soit α ∈]0; 1[. On teste l’hypothèse (H0 ) contre l’hypothèse (H1 ) au risque d’erreur α. Soit χ21−α (r − 1) le quantile d’ordre 1 − α de la loi du Khi-deux à r − 1 degrés de liberté. L’intervalle d’acceptation de (H0 ) est : h i 0; χ21−α (r − 1) . Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Fonctionnement du test - 3 Propriété [Règle de décision] Soit α ∈]0; 1[. On teste l’hypothèse (H0 ) contre l’hypothèse (H1 ) au risque d’erreur α. Soit χ21−α (r − 1) le quantile d’ordre 1 − α de la loi du Khi-deux à r − 1 degrés de liberté. L’intervalle d’acceptation de (H0 ) est : h i 0; χ21−α (r − 1) . En d’autres termes, on accepte (H0 ) si χ2obs , valeur observée pour χ2c sur l’échantillon, vérifie χ2obs ≤ χ21−α (r − 1) , Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Fonctionnement du test - 3 Propriété [Règle de décision] Soit α ∈]0; 1[. On teste l’hypothèse (H0 ) contre l’hypothèse (H1 ) au risque d’erreur α. Soit χ21−α (r − 1) le quantile d’ordre 1 − α de la loi du Khi-deux à r − 1 degrés de liberté. L’intervalle d’acceptation de (H0 ) est : h i 0; χ21−α (r − 1) . En d’autres termes, on accepte (H0 ) si χ2obs , valeur observée pour χ2c sur l’échantillon, vérifie χ2obs ≤ χ21−α (r − 1) , et sinon on refuse (H0 ). Julian Tugaut Statistiques inférentielles Plan 1 Introduction 2 Fonctionnement du test 3 Exemple Introduction Fonctionnement du test Exemple Exemple - 1 Exemple Le Bureau de la statistique du gouvernement du Québec a dénombré 84 579 nouveau-nés dans la province du Québec en 1986. De ce nombre, 43 220 étaient des garçons et 41 359 des filles. En supposant que le genre d’un nouveau-né est déterminé au hasard (hypothèse (H0 )), on se serait attendu à avoir 84 579 × 1 = 42 289.5 2 garçons et le même nombre de filles. On trouve χ2 = (43 220 − 42 289.5)2 (41 359 − 42 289.5)2 + = 40.95 . 42 289.5 42 289.5 Julian Tugaut Statistiques inférentielles Introduction Fonctionnement du test Exemple Exemple - 2 On a ici une loi du Khi-deux à 2 − 1 = 1 degré de liberté. Or, P χ21 > 7.88 = 0.005 , pù χ21 est une variable aléatoire qui suit la loi du Khi-deux à 1 degré de liberté. Puis, comme 40.95 > 7.88, on rejette l’hypothèse (H0 ) même avec un niveau aussi bas que 0.5%. Julian Tugaut Statistiques inférentielles