Tests du χ
Transcription
Tests du χ
Université de Lille 2 - Droit et Santé Tests du χ2 Michaël Genin - [email protected] Centre d’Etudes et de Recherche en Informatique Médicale - (EA 2694) Table des matières 1 2 3 4 Introduction . . . . . . . . . . . . . 1.1 Principe du χ2 . . . . . . . 1.2 Interprétation du test du χ2 Test du Khi-deux d’ajustement . . 2.1 Principe du test . . . . . . 2.2 Conditions d’applications . 2.3 Hypothèses et statistique de 2.4 Décision . . . . . . . . . . . 2.5 Exemple . . . . . . . . . . . Test du Khi-deux d’homogénéité . 3.1 Principe du test . . . . . . 3.2 Conditions d’applications . 3.3 Hypothèses et statistique de 3.4 Décision . . . . . . . . . . . 3.5 Exemple . . . . . . . . . . . Test du Khi-deux d’indépendance 4.1 Principe du test . . . . . . 4.2 Conditions d’applications . 4.3 Hypothèses et statistique de 4.4 Décision . . . . . . . . . . . 4.5 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . test . . . . . . . . . . . . . . . test . . . . . . . . . . . . . . . test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A Table de la loi du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 5 5 5 6 6 7 7 8 8 9 9 9 9 11 11 12 12 12 12 15 1 1. INTRODUCTION 1 Tests du χ2 Introduction Les tests du χ2 (chi-deux, chi-carré, ...) sont basés sur la statistique du χ2 proposée par Karl Pearson, mathématicien britannique du début du XXeme siècle. L’objectif de ces tests est principalement de comparer des distributions entre elles. Ces tests peuvent être appliqués à des variables de de nature qualitative (binaire, nominale, ordinale, quantitative regroupée en classes). Trois types de test du χ2 peuvent être distingués : 1. Le test du χ2 d’ajustement dont l’objectif est de comparer une distribution observée sur un échantillon à une distribution théorique (binomiale, Poisson, normale, ...) ou à une distribution connue dans la population sous-jacente. Exemple : Soit un échantillon de 100 français. La distribution observée (sur l’échantillon) de l’âge regroupé en classes est-elle identique à celle de la population française ? 2. Le test du χ2 d’homogénéité dont l’objectif est deux comparer deux ou plusieurs distributions observées sur des échantillons. Exemple : Soient trois échantillons de 100 français, 100 belges et 100 anglais. La distribution observée de l’âge regroupé en classes est-elle différente entre les échantillons. 3. Le test du χ2 d’indépendance qui est utilisé pour étudier sur un même échantillon la liaison entre deux variables qualitatives. Exemple : Soit un échantillon de 100 français. Existe-t-il un lien entre le sexe (Homme / Femme) et la couleur des yeux (Marrons, Bleus, Vert, ...) ? 1.1 Principe du χ2 Quelque soit le type de test, le principe consiste à comparer les effectifs des classes des distributions et le calcul de la statistique de test reste identique. Cette section va s’attacher à décrire les différentes hypothèses énoncées en fonction du type de test, le calcul de la statistique de test et l’interprétation du test du χ2 dans le cadre général. Les sections suivantes décrivent de manière plus spécifique les différents types de test. 1.1.1 Hypothèses Le choix des hypothèse nulle H0 et hypothèse alternative H1 est fonction du type de test du χ2 : 1. Test du χ2 d’ajustement. Sous H0 , l’échantillon observé provient de la population dont la distribution théorique est connue. Aussi, la distribution observée sur l’échantillon devrait être sensiblement identique. A contrario, si la distribution observée est différente de la distribution théorique, on rejette H0 et on accepte H1 , l’échantillon ne provient pas de la même population. — H0 : La distribution observée est identique à la distribution théorique — H1 : La distribution observée est différente de la distribution théorique. 2. Test du χ2 d’homogénéité. Sous H0 , les échantillons observés sont issus de la même population sous-jacente. Aussi, les différentes distributions devraient être identiques entre elles. Si les distributions observées sont différentes entre elles alors on rejette H0 au profit de H1 , les échantillons ne sont donc pas issus de la même population. — H0 : Les distributions observées sont identiques entre elles — H1 : Les distributions observées sont différentes entre elles 3. Test du χ2 d’indépendance. Soient X1 et X2 deux variables qualitatives. Sous H0 , la distribution de X1 devrait être indépendante de celle de X2 . A contrario, si la distribution de X1 est liée à celle de X2 , on rejette H0 au profit de H1 , les deux variables X1 et X2 sont liées. — H0 : Les variables X1 et X2 sont indépendantes — H1 : Il existe une liaison entre X1 et X2 -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 2 / 16 Tests du χ2 1. INTRODUCTION 1.1.2 Tableau de contingence Le test du χ2 se base sur la notion d’effectifs synthétisés au sein d’un tableau de contingence. La forme de ce dernier dépend du type de test qui est utilisé. Dans le cadre du test du χ2 d’ajustement, le tableau ne comporte qu’une seule colonne, car la distribution d’une variable est observée sur un seul échantillon (Tableau 1). A chaque modalité i de la variable est associé son effectif observé oi . Table 1 – Tableau de contingence / Test du χ2 d’ajustement Variable Modalité 1 Modalité 2 . . . Modalité p Total Effectifs observés o1 o2 . . . op N Dans le cas du test du χ2 d’homogénéité, le tableau contient autant de colonnes qu’il y a d’échantillons observés (Table 2). L’effectif associé à la modalité i de l’échantillon j est noté oij . La somme des effectifs de tous les échantillons pour une modalité i est notée ti . La taille d’un échantillon observé j est notée nj . Table 2 – Tableau de contingence / Test du χ2 homogénéité Effectifs observés Variable Echantillon 1 Echantillon 2 ... Echantillon k Total Modalité 1 Modalité 2 . Modalité p o11 o21 . op1 o12 o22 . op2 . . . . o1k o2k . opk t1 t2 tk Total n1 n2 . nk N Dans le cadre du test du χ2 d’indépendance, le tableau de contingence comporte autant de lignes que de modalités de la variable X1 et autant de colonnes que de modalités de la variable X2 (Table 3). A chaque croisement de la modalité i de X1 avec la modalité j de X2 est associé l’effectif observé noté oij . L’effectif observé de la modalité i de X1 est noté ti et l’effectif observé de la modalité j de X2 est noté nj . Table 3 – Tableau de contingence / Test du χ2 d’indépendance Variable X2 Variable X1 Modalité 1 Modalité 2 ... Modalité k Total Modalité 1 Modalité 2 . Modalité p o11 o21 . op1 o12 o22 . op2 . . . . o1k o2k . opk t1 t2 tk Total n1 n2 . nk N -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 3 / 16 Tests du χ2 1. INTRODUCTION 1.1.3 Calcul de la statistique de test : cas général Considérons dans le cas général, le tableau de contingence des effectifs observés suivant : Table 4 – Tableau de contingence / Cas général Effectifs observés Variable Echantillon 1 Echantillon 2 ... Echantillon k Total Modalité 1 Modalité 2 . Modalité p o11 o21 . op1 o12 o22 . op2 . . . . o1k o2k . opk t1 t2 tk Total n1 n2 . nk N Le principe du test du χ2 consiste à calculer, pour chaque case du tableau, l’effectif théorique qui devrait être observé sous l’hypothèse nulle d’égalité (ou d’indépendance) des distributions. Sous cette hypothèse, les effectifs sont répartis en proportion égale. On définit l’effectif théorique eij associé à la case {i, j} du tableau par la quantité suivante : eij = nj t i N Ainsi, nous obtenons un second tableau de contingence, nommé tableau de contingence théorique, dont les marges (ti et nj ) sont identiques au tableau de contingence observé. Table 5 – Tableau de contingence théorique Effectifs théoriques Variable Echantillon 1 Echantillon 2 ... Echantillon k Total Modalité 1 Modalité 2 . Modalité p e11 e21 . ep1 e12 e22 . ep2 . . . . e1k e2k . epk t1 t2 tk Total n1 n2 . nk N Sous l’hypothèse nulle, les effectifs observés et les effectifs théoriques doivent être sensiblement proches donc la somme de leurs différences devrait être proche de zéro. Aussi, le principe du test du χ2 se base sur l’évaluation de la somme de ces différences par rapport à une valeur seuil. Intuitivement, si cette somme de différences excède une certaine valeur, cela signifie que les effectifs observés et les effectifs théoriques sont différents et par conséquent l’hypothèse d’égalité (ou d’indépendance) des distributions peut être remise en cause. Sous H0 , le test du χ2 a pour statistique de test : χ2 = p ∑ k ∑ (oij − eij )2 ∼ χ2(p−1)(k−1) e ij i=1 j=1 ddl Cette statistique de test permet de quantifier l’écart (distance) entre les effectifs théoriques et les effectifs observés. Pour un risque de première espèce α, la région critique conduisant au rejet de l’hypothèse nulle est définie par : W = [χ2(1−α);(p−1)(k−1) -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- ddl ; +∞[ 4 / 16 2. TEST DU KHI-DEUX D’AJUSTEMENT Où χ2(1−α);(p−1)(k−1) ddl Tests du χ2 correspond au quantile d’ordre (1−α) de la loi du χ2 à (p−1)(k−1) degrés de liberté. Cette loi est tabulée et disponible en Annexe A En d’autres termes, ce quantile correspond à la valeur seuil que nous cherchons à comparer avec la somme des différences entres les effectifs théoriques et les effectifs observés. Si la réalisation de la statistique de test dépasse cette valeur seuil (i.e. appartient à la région critique W ) alors l’hypothèse nulle est rejetée. Condition d’application du test Le test du χ2 est sensible aux petits effectifs. Aussi, le test est considéré comme applicable lorsque les effectifs théoriques eij sont supérieurs ou égaux à 5. En pratique, si cette condition n’est pas réalisée, la technique consiste à regrouper certaines modalités (ex : regrouper les yeux noirs er les yeux marrons) afin de, par construction, augmenter la valeurs des effectifs théoriques. 1.2 Interprétation du test du χ2 Dans le cadre du test du χ2 d’ajustement et du test du χ2 d’homogénéité, l’interprétation est la suivante : — Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on conserve l’hypothèse nulle. On ne peut pas affirmer que les échantillons sont issus de population différentes (i.e. les distributions semblent identiques). — Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on rejette l’hypothèse nulle. Les échantillons sont issus de populations différentes (i.e. les distributions sont significativement différentes entre les échantillons). Dans le cadre du test du χ2 d’indépendance, l’interprétation est la suivante : — Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on conserve l’hypothèse nulle. Les variables X1 et X2 sont indépendantes. (i.e. leur distribution sont indépendantes). — Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on rejette l’hypothèse nulle. Il existe une liaison significative entre X1 et X2 (i.e. leurs distributions sont dépendantes). 2 2.1 Test du Khi-deux d’ajustement Principe du test Le test du χ2 d’ajustement est utilisé lorsque l’on désire comparer une distribution observée d’une variable qualitative à p modalités sur un échantillon de taille N à : — une distribution théorique (binomiale, Poisson, normale...). — une distribution connue dans la population. Les puristes parlent alors de test du χ2 de conformité. Comme explicité en Section 1.1.2, les observations sont synthétisées dans un tableau de contingence ne comportant qu’une seule colonne (Tableau 6). Par ailleurs, est également observée la distribution connue dans la population ou distribution théorique. Aussi, nous pouvons construire une deuxième tableau qui va permettre de calculer les effectifs théoriques (Tableau 7). Dans ce dernier, peuvent être distingués les effectifs observés oi , les fréquences de chaque modalité de la variable en population ou issue de la distribution théorique, notées fi . -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 5 / 16 Tests du χ2 2. TEST DU KHI-DEUX D’AJUSTEMENT Table 6 – Tableau de contingence observé / Test du χ2 d’ajustement Variable Modalité 1 Modalité 2 . . . Modalité p Total Effectifs observés o1 o2 . . . op N Table 7 – Tableau de contingence complet / Test du χ2 d’ajustement Variable Modalité 1 Modalité 2 . . . Modalité p Total Distribution théorique (%) f1 f2 . . . fp 100% Effectifs observés o1 o2 . . . op N Effectifs théoriques e1 e2 . . . ep N Les effectifs théoriques ei sont simplement obtenus par : ei = f i N 2.2 Conditions d’applications Tout comme dans le cadre général, l’unique condition d’application stipule que les effectifs théoriques ei doivent être supérieurs ou égaux à 5. Si ce n’est pas le cas, on procède à un regroupement de modalités. 2.3 Hypothèses et statistique de test Les hypothèses du test du χ2 d’ajustement (ou de conformité) sont les suivantes : — H0 : La distribution observée est identique à la distribution théorique — H1 : La distribution observée est différente de la distribution théorique. Sous H0 , la statistique de test associée au test du χ2 d’ajustement est : χ2 = p ∑ (oi − ei )2 i=1 ei ∼ χ2(p−1) ddl Pour un risque de première espèce α, la région critique conduisant au rejet de l’hypothèse nulle est définie par : W = [χ2(1−α);(p−1) Où χ2(1−α);(p−1) ddl ddl ; +∞[ correspond au quantile d’ordre (1 − α) de la loi du χ2 à (p − 1) degrés de liberté. -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 6 / 16 Tests du χ2 2. TEST DU KHI-DEUX D’AJUSTEMENT Par exemple, pour un risque α = 0.05 (i.e. (1 − α) = 0.95), la valeur du quantile de la loi du χ2 pour (p − 1) = 3 degrés de liberté est égale à 7.815 (c.f. table en Annexe A). La Figure 1 montre un exemple de région critique W (Rejet de H0 ) ainsi qu’une densité de la loi du χ2 à 3 degrés de libertés. 0.5 χ23 0.4 ddl 0.3 χ295%;3ddl 0.2 0.1 95% 5% 0 0 1 2 3 4 5 6 7 Région de conservation de H0 8 9 Rejet de H0 Figure 1 – Densité d’une loi du χ2 à 4 ddl et région critique pour un risque α = 0.05 2.4 Décision — Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1) ddl alors on conserve l’hypothèse nulle. On ne peut pas affirmer que distribution observée et la distribution théorique sont différentes (i.e. l’échantillon observé semble provenir de la même population). — Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1) ddl alors on rejette l’hypothèse nulle. Les échantillons sont issus de populations différentes (i.e. les distributions observée et théorique sont significativement différentes). 2.5 Exemple Cet exemple est tiré du livre Statistique et Epidemiologie, T.Ancelle, ed. Maloine. Sur un échantillon de 284 sujets, on a observé la structure d’âge ci-dessous (oi ). On veut vérifier si cet échantillon présente une structure d’âge identique à celle de la population française (distribution théorique) (Tableau 8). Table 8 – Structure d’âge sur un échantillon de 284 sujets Age 0-19 20-39 40-59 60 - 74 > 74 Total Distribution théorique (%) 24.6 28.1 26 13.6 7.7 100% Effectifs observés (oi ) 73 82 75 36 18 284 -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- Effectifs théoriques (ei ) 284 × 24.6% = 69.9 284 × 28.1% = 79.8 284 × 26% = 73.8 284 × 13.6% = 38.6 284 × 7.7% = 21.9 284.0 7 / 16 Tests du χ2 3. TEST DU KHI-DEUX D’HOMOGÉNÉITÉ Les hypothèses du test sont les suivantes : — H0 : La distribution de l’âge dans l’échantillon est la même que dans la population française — H1 : La distribution de l’âge dans l’échantillon est différente de celle dans la population française Sous H0 , la statistique de test est : χ2 = p ∑ (oi − ei )2 i=1 ei ∼ χ2(5−1) ddl Pour un risque de première espèce α = 0.05 et pour une loi du χ2 à (5 − 1) ddl la région critique W est : W = [9.488; +∞[ Application numérique : χ2 = (82 − 79.8)2 (75 − 73.8)2 (35 − 38.6)2 (16 − 21.9)2 (73 − 69.9)2 + + + + = 1.09 69.9 79.8 73.8 38.6 21.9 La valeur observée de la statistique de test (1.09) n’appartient pas à W donc on conserve l’hypothèse nulle H0 . Il n’existe aucun argument permettant d’affirmer que l’échantillon présente une structure d’âge différente de celle connue dans la population française. L’échantillon peut être considéré comme représentatif de la population française, du point de vue de la structure d’âge. 3 Test du Khi-deux d’homogénéité 3.1 Principe du test Le test du χ2 d’homogénéité est utilisé pour comparer la distribution d’une variable qualitative à p modalités entre k échantillons de tailles n1 , n2 , ..., nk . Les observations sont regroupées dans un tableau de contingence présentant autant de colonnes que d’échantillons observés (k colonnes) (Tableau 9). Table 9 – Tableau de contingence observés / Test du χ2 d’homogénéité Effectifs observés Variable Echantillon 1 Echantillon 2 ... Echantillon k Total Modalité 1 Modalité 2 . Modalité p o11 o21 . op1 o12 o22 . op2 . . . . o1k o2k . opk t1 t2 tk Total n1 n2 . nk N Tout comme dans le cadre général, le test du χ2 d’homogénéité nécessite le calcul des effectifs théoriques selon la formule : eij = nj t i N Ce qui nous permet d’obtenir le tableau de contingence théorique suivant : -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 8 / 16 Tests du χ2 3. TEST DU KHI-DEUX D’HOMOGÉNÉITÉ Table 10 – Tableau de contingence théorique / Test du χ2 d’homogénéité Effectifs théoriques 3.2 Variable Echantillon 1 Echantillon 2 ... Echantillon k Total Modalité 1 Modalité 2 . Modalité p e11 e21 . ep1 e12 e22 . ep2 . . . . e1k e2k . epk t1 t2 tk Total n1 n2 . nk N Conditions d’applications Tout comme dans le cadre général, l’unique condition d’application stipule que les effectifs théoriques eij doivent être supérieurs ou égaux à 5. Si ce n’est pas le cas, on procède à un regroupement de modalités et/ou d’échantillons. 3.3 Hypothèses et statistique de test Les hypothèses du test du χ2 d’homogénéité sont les suivantes : — H0 : Les distributions observées sont identiques entre les échantillons observés — H1 : Les distributions observées sont différentes entre les échantillons observés Sous H0 , la statistique de test associée au test du χ2 d’homogénéité est définie par : χ2 = p ∑ k ∑ (oij − eij )2 ∼ χ2(p−1)(k−1) e ij i=1 j=1 ddl Pour un risque de première espèce α, la région critique conduisant au rejet de l’hypothèse nulle est définie par : W = [χ2(1−α);(p−1)(k−1) Où χ2(1−α);(p−1)(k−1) 3.4 ddl ddl ; +∞[ correspond au quantile d’ordre (1−α) de la loi du χ2 à (p−1)(k−1) degrés de liberté. Décision — Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on conserve l’hypothèse nulle. On ne peut pas affirmer que les échantillons observés sont issus de populations différentes (i.e. les distributions semblent identiques). — Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on rejette l’hypothèse nulle. Les échantillons observés sont issus de populations différentes (i.e. les distributions sont significativement différentes entre les échantillons). 3.5 Exemple On souhaite évaluer les éventuelles disparités d’opinion entre pays concernant un référendum européen. Pour ce faire, 4 échantillons de français, belges, anglais et italiens ont été réalisés et sur chaque la variable binaire X1 = ”Favorable à la question” (Oui/Non) a été mesurée (Tableau 11). -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 9 / 16 Tests du χ2 3. TEST DU KHI-DEUX D’HOMOGÉNÉITÉ Table 11 – Sondage d’opinion concernant le référendum européen Effectifs observés X1 Français Belges Anglais Italiens Total Oui Non 477 135 1746 582 248 218 135 67 2606 1002 Total 612 2328 466 2020 3608 Le calcul des effectifs théoriques est réalisé au moyen de la formule suivante : eij = nj t i N Ce qui donne par exemple : e11 = 612 × 2606/3608 = 442, e12 = 2328 × 2606/3608 = 1681.5, e21 = 612 × 1002/3608 = 170, e23 = 466 × 1002/3608 = 129.4... Ces effectifs théoriques sont regroupés dans le tableau de contingence théorique suivant : Table 12 – Tableau de contingence théorique Effectifs théoriques X1 Français Belges Anglais Italiens Total Oui Non 442 170 1681.5 646.5 336.6 129.4 145.9 56.1 2606 1002 Total 612 2328 466 2020 3608 Les hypothèses du test du χ2 d’homogénéité sont les suivantes : — H0 : L’opinion quant au référendum européen est la même en fonction des pays — H1 : L’opinion quant au référendum européen est différente selon les pays Sous H0 , la statistique de test associée au test du χ2 d’homogénéité est définie par : χ2 = p ∑ k ∑ (oij − eij )2 ∼ χ2(2−1)(4−1) e ij i=1 j=1 ddl Pour un risque de première espèce α = 0.05 et pour une loi du χ2 à (2 − 1)(4 − 1) = 3 ddl la région critique W est : W = [7.815; +∞[ Application numérique : χ2 = (477 − 442)2 (1746 − 1681.5)2 (248 − 336.6)2 (135 − 145.9)2 (135 − 170)2 (582 − 646, 5)2 (218 − 129.4)2 + + + + + + 442 1681.5 336.6 145.9 170 646.5 129.4 + (67 − 56.1)2 = 105.8 56.1 -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 10 / 16 Tests du χ2 4. TEST DU KHI-DEUX D’INDÉPENDANCE La valeur de la statistique de test observée (χ2 = 105.8) appartient à la région critique W dont on rejette l’hypothèse nulle. A la vue des données, les opinions quant au référendum sont significativement différentes d’un pays à l’autre. Pour aller plus loin dans l’interprétation, il est intéressant de décrire la nature de cette différence (e.g. quel pays est le plus réticent ?). Cependant, on ne peut pas se baser sur les effectifs observés (les tailles d’échantillons étant très disparates) mais plutôt sur les fréquences colonnes, c’est-à-dire le nombre de ”oui” par pays rapporté à la taille de l’échantillon (ex : en France, nous avons 477/612 = 77.9% d’opinion positive). Table 13 – Sondage d’opinion concernant le référendum européen Fréquences ”colonnes” (%) X1 Français Belges Anglais Italiens Oui Non 77.9 22.1 75 25 53.2 46.8 66.8 33.2 Total 100 100 100 100 Le Tableau 13 nous permet de montrer que les Anglais semblent les plus réfractaires au référendum européen que les autres nationalités. 4 Test du Khi-deux d’indépendance 4.1 Principe du test Le test du χ2 d’indépendance ou test du χ2 de Pearson est considéré comme un test de liaison à la différence des test du χ2 d’ajustement et d’homogénéité qui sont basés sur le principe de comparaison. Le test du χ2 d’indépendance a pour objectif d’évaluer si deux variables qualitatives X1 et X2 à respectivement p et k modalités sont liées, les deux variables étant observées sur un échantillon de taille N . Les observations oij sont résumées au sein d’un tableau de contingence à p lignes et k colonnes (Tableau 14). Table 14 – Tableau de contingence / Test du χ2 d’indépendance Variable X2 Variable X1 Modalité 1 Modalité 2 ... Modalité k Total Modalité 1 Modalité 2 . Modalité p o11 o21 . op1 o12 o22 . op2 . . . . o1k o2k . opk t1 t2 tk Total n1 n2 . nk N Tout comme dans le cadre général, le test du χ2 d’indépendance nécessite le calcul des effectifs théoriques selon la formule : eij = nj t i N Ce qui nous permet d’obtenir le tableau de contingence théorique suivant : -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 11 / 16 Tests du χ2 4. TEST DU KHI-DEUX D’INDÉPENDANCE Table 15 – Tableau de contingence théorique Variable X2 4.2 Variable X1 Modalité 1 Modalité 2 ... Modalité k Total Modalité 1 Modalité 2 . Modalité p e11 e21 . ep1 e12 e22 . ep2 . . . . e1k e2k . epk t1 t2 tk Total n1 n2 . nk N Conditions d’applications Tout comme dans le cadre général, l’unique condition d’application stipule que les effectifs théoriques eij doivent être supérieurs ou égaux à 5. Si ce n’est pas le cas, on procède à un regroupement de modalités soit de la variable X1 , soit de la variable X2 , soit des deux. 4.3 Hypothèses et statistique de test Les hypothèses du test du χ2 d’indépendance sont les suivantes : — H0 : Les variables X1 et X2 sont indépendantes — H1 : Il existe une liaison entre X1 et X2 Sous H0 , la statistique de test associée au test du χ2 d’indépendance est définie par : χ2 = p ∑ k ∑ (oij − eij )2 ∼ χ2(p−1)(k−1) e ij i=1 j=1 ddl Pour un risque de première espèce α, la région critique conduisant au rejet de H0 est définie par : W = [χ2(1−α);(p−1)(k−1) Où χ2(1−α);(p−1)(k−1) 4.4 ddl ddl ; +∞[ correspond au quantile d’ordre (1−α) de la loi du χ2 à (p−1)(k−1) degrés de liberté. Décision — Si la valeur de la statistique de test χ2 est inférieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on conserve l’hypothèse nulle. Les variables X1 et X2 sont indépendantes. (i.e. leur distribution sont indépendantes). — Si la valeur de la statistique de test χ2 est supérieure à la valeur seuil χ2(1−α);(p−1)(k−1) ddl alors on rejette l’hypothèse nulle. Il existe une liaison significative entre X1 et X2 (i.e. leurs distributions sont dépendantes). 4.5 Exemple L’exemple suivant est inspiré de celui présent dans le livre Probabilités et statistique, A. Valleron, Ed. Masson, p. 123. On suspecte qu’un produit chimique présent dans l’environnement domestique est susceptible d’entraı̂ner des effets adverses sur le système immunitaire. Afin d’étudier cette possible liaison, une enquête est effectuée au sein de 600 personnes classées en ”exposés” (t1 = 255) et ”non exposés” (t2 = 345). De surcroı̂t, ces individus -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 12 / 16 Tests du χ2 4. TEST DU KHI-DEUX D’INDÉPENDANCE sont classés I + (n1 = 285) ou I + (n2 =315) selon que leur système immunitaire est atteint ou normal. L’objectif de l’étude est de démontrer qu’il existe un lien entre l’exposition au produit chimique et l’état du système immunitaire. Les observations sont résumées dans le tableau de contingence suivant (Tableau 16) : Table 16 – Croisement entre l’exposition au produit chimique et l’état du système immunitaire Etat du système immunitaire Exposition I− I+ Total Exposé Non exposé 135 150 120 195 255 345 Total 285 315 600 Le calcul des effectifs théoriques est réalisé au moyen de la formule suivante : eij = nj t i N Ce qui donne par exemple : e11 = 285×255/600 = 121.1, e12 = 315×255/600 = 133.9, e21 = 285×345/600 = 163.9, e22 = 315 × 345/600 = 181.1. Ces effectifs théoriques sont regroupés dans le tableau de contingence théorique suivant : Table 17 – Tableau de contingence théorique Etat du système immunitaire Exposition I− I+ Total Exposé Non exposé 121.1 163.9 133.9 181.1 255 345 Total 285 315 600 Les hypothèses du test du χ2 d’indépendance sont les suivantes : — H0 : Il y a indépendance entre l’exposition et l’état du système immunitaire — H1 : Il existe un lien entre l’exposition et l’état du système immunitaire Sous H0 , la statistique de test associée au test du χ2 d’indépendance est définie par : p ∑ k ∑ (oij − eij )2 χ = ∼ χ2(2−1)(2−1) e ij i=1 j=1 2 ddl Pour un risque de première espèce α = 0.05, la région critique conduisant au rejet de H0 pour une loi du χ2 à (2 − 1)(2 − 1) = 1 degré de liberté est définie par : W = [3.841; +∞[ Application numérique : χ2 = (120 − 133.9)2 (150 − 63.9)2 (195 − 181.1)2 (135 − 121.1)2 + + + = 5.36 121.1 133.9 163.9 181.1 -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 13 / 16 Tests du χ2 4. TEST DU KHI-DEUX D’INDÉPENDANCE Comme la statistique de test observée (5.36) appartient à la région critique, on rejette l’hypothèse nulle H0 . Il existe une liaison statistiquement significative entre l’exposition au produit chimique et l’état du système immunitaire. Comme dans le cas du test du χ2 d’homogénéité, il est intéressant de décrire ce lien. Pour ce faire, on utilise le principe de fréquence lignes, c’est-à-dire que nous voulons comparer la fréquence de système immunitaire abaissé entre les exposés et les non-exposés. Table 18 – Fréquence ”lignes” Etat du système immunitaire Exposition I− I+ Total Exposé Non exposé 135/255=53% 150/345=43% 47% 57% 100% (255) 100% (345) Le Tableau 18 montre clairement que les sujets ayant été exposés sont plus nombreux à présenter un système immunitaire abaissé que les sujets non-exposés (53% v.s. 43%). -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 14 / 16 Annexe A Table de la loi du χ2 Niveau de confiance (1 − α) ν (ddl) 0.1% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 0.000 0.002 0.024 0.091 0.210 0.381 0.598 0.857 1.152 1.479 1.834 2.214 2.617 3.041 3.483 3.942 4.416 4.905 5.407 5.921 6.447 6.983 7.529 8.085 8.649 9.222 9.803 10.391 10.986 11.588 14.688 17.916 21.251 24.674 28.173 31.738 0.5% 1.0% 2.5% 0.000 0.010 0.072 0.207 0.412 0.676 0.989 1.344 1.735 2.156 2.603 3.074 3.565 4.075 4.601 5.142 5.697 6.265 6.844 7.434 8.034 8.643 9.260 9.886 10.520 11.160 11.808 12.461 13.121 13.787 17.192 20.707 24.311 27.991 31.735 35.534 0.000 0.020 0.115 0.297 0.554 0.872 1.239 1.646 2.088 2.558 3.053 3.571 4.107 4.660 5.229 5.812 6.408 7.015 7.633 8.260 8.897 9.542 10.196 10.856 11.524 12.198 12.879 13.565 14.256 14.953 18.509 22.164 25.901 29.707 33.570 37.485 0.001 0.051 0.216 0.484 0.831 1.237 1.690 2.180 2.700 3.247 3.816 4.404 5.009 5.629 6.262 6.908 7.564 8.231 8.907 9.591 10.283 10.982 11.689 12.401 13.120 13.844 14.573 15.308 16.047 16.791 20.569 24.433 28.366 32.357 36.398 40.482 5.0% 10.0% 12.5% 20.0% 25.0% 33.3% 50.0% 0.004 0.103 0.352 0.711 1.145 1.635 2.167 2.733 3.325 3.940 4.575 5.226 5.892 6.571 7.261 7.962 8.672 9.390 10.117 10.851 11.591 12.338 13.091 13.848 14.611 15.379 16.151 16.928 17.708 18.493 22.465 26.509 30.612 34.764 38.958 43.188 0.016 0.211 0.584 1.064 1.610 2.204 2.833 3.490 4.168 4.865 5.578 6.304 7.042 7.790 8.547 9.312 10.085 10.865 11.651 12.443 13.240 14.041 14.848 15.659 16.473 17.292 18.114 18.939 19.768 20.599 24.797 29.051 33.350 37.689 42.060 46.459 15 0.025 0.267 0.692 1.219 1.808 2.441 3.106 3.797 4.507 5.234 5.975 6.729 7.493 8.266 9.048 9.837 10.633 11.435 12.242 13.055 13.873 14.695 15.521 16.351 17.184 18.021 18.861 19.704 20.550 21.399 25.678 30.008 34.379 38.785 43.220 47.680 0.064 0.446 1.005 1.649 2.343 3.070 3.822 4.594 5.380 6.179 6.989 7.807 8.634 9.467 10.307 11.152 12.002 12.857 13.716 14.578 15.445 16.314 17.187 18.062 18.940 19.820 20.703 21.588 22.475 23.364 27.836 32.345 36.884 41.449 46.036 50.641 0.102 0.575 1.213 1.923 2.675 3.455 4.255 5.071 5.899 6.737 7.584 8.438 9.299 10.165 11.037 11.912 12.792 13.675 14.562 15.452 16.344 17.240 18.137 19.037 19.939 20.843 21.749 22.657 23.567 24.478 29.054 33.660 38.291 42.942 47.610 52.294 0.186 0.811 1.568 2.378 3.216 4.074 4.945 5.826 6.716 7.612 8.514 9.420 10.331 11.245 12.163 13.083 14.006 14.931 15.859 16.788 17.720 18.653 19.587 20.523 21.461 22.399 23.339 24.280 25.222 26.165 30.894 35.643 40.407 45.184 49.972 54.770 0.455 1.386 2.366 3.357 4.351 5.348 6.346 7.344 8.343 9.342 10.341 11.340 12.340 13.339 14.339 15.338 16.338 17.338 18.338 19.337 20.337 21.337 22.337 23.337 24.337 25.336 26.336 27.336 28.336 29.336 34.336 39.335 44.335 49.335 54.335 59.335 Tests du χ2 Niveau de confiance (1 − α) ν (ddl) 60.0% 66.7% 75.0% 80.0% 87.5% 90.0% 95.0% 97.5% 99.0% 99.5% 99.9% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 55 60 0.708 1.833 2.946 4.045 5.132 6.211 7.283 8.351 9.414 10.473 11.530 12.584 13.636 14.685 15.733 16.780 17.824 18.868 19.910 20.951 21.991 23.031 24.069 25.106 26.143 27.179 28.214 29.249 30.283 31.316 36.475 41.622 46.761 51.892 57.016 62.135 0.936 2.197 3.405 4.579 5.730 6.867 7.992 9.107 10.215 11.317 12.414 13.506 14.595 15.680 16.761 17.840 18.917 19.991 21.063 22.133 23.201 24.268 25.333 26.397 27.459 28.520 29.580 30.639 31.697 32.754 38.024 43.275 48.510 53.733 58.945 64.147 1.323 2.773 4.108 5.385 6.626 7.841 9.037 10.219 11.389 12.549 13.701 14.845 15.984 17.117 18.245 19.369 20.489 21.605 22.718 23.828 24.935 26.039 27.141 28.241 29.339 30.435 31.528 32.620 33.711 34.800 40.223 45.616 50.985 56.334 61.665 66.981 1.642 3.219 4.642 5.989 7.289 8.558 9.803 11.030 12.242 13.442 14.631 15.812 16.985 18.151 19.311 20.465 21.615 22.760 23.900 25.038 26.171 27.301 28.429 29.553 30.675 31.795 32.912 34.027 35.139 36.250 41.778 47.269 52.729 58.164 63.577 68.972 2.354 4.159 5.739 7.214 8.625 9.992 11.326 12.636 13.926 15.198 16.457 17.703 18.939 20.166 21.384 22.595 23.799 24.997 26.189 27.376 28.559 29.737 30.911 32.081 33.247 34.410 35.570 36.727 37.881 39.033 44.753 50.424 56.052 61.647 67.211 72.751 2.706 4.605 6.251 7.779 9.236 10.645 12.017 13.362 14.684 15.987 17.275 18.549 19.812 21.064 22.307 23.542 24.769 25.989 27.204 28.412 29.615 30.813 32.007 33.196 34.382 35.563 36.741 37.916 39.087 40.256 46.059 51.805 57.505 63.167 68.796 74.397 -= Michaël Genin - Université de Lille 2 - Version du 19 février 2015 =- 3.841 5.991 7.815 9.488 11.070 12.592 14.067 15.507 16.919 18.307 19.675 21.026 22.362 23.685 24.996 26.296 27.587 28.869 30.144 31.410 32.671 33.924 35.172 36.415 37.652 38.885 40.113 41.337 42.557 43.773 49.802 55.758 61.656 67.505 73.311 79.082 5.024 7.378 9.348 11.143 12.833 14.449 16.013 17.535 19.023 20.483 21.920 23.337 24.736 26.119 27.488 28.845 30.191 31.526 32.852 34.170 35.479 36.781 38.076 39.364 40.646 41.923 43.195 44.461 45.722 46.979 53.203 59.342 65.410 71.420 77.380 83.298 6.635 9.210 11.345 13.277 15.086 16.812 18.475 20.090 21.666 23.209 24.725 26.217 27.688 29.141 30.578 32.000 33.409 34.805 36.191 37.566 38.932 40.289 41.638 42.980 44.314 45.642 46.963 48.278 49.588 50.892 57.342 63.691 69.957 76.154 82.292 88.379 7.879 10.597 12.838 14.860 16.750 18.548 20.278 21.955 23.589 25.188 26.757 28.300 29.819 31.319 32.801 34.267 35.718 37.156 38.582 39.997 41.401 42.796 44.181 45.559 46.928 48.290 49.645 50.993 52.336 53.672 60.275 66.766 73.166 79.490 85.749 91.952 10.828 13.816 16.266 18.467 20.515 22.458 24.322 26.125 27.877 29.588 31.264 32.910 34.528 36.123 37.697 39.252 40.790 42.312 43.820 45.315 46.797 48.268 49.728 51.179 52.620 54.052 55.476 56.892 58.301 59.703 66.619 73.402 80.077 86.661 93.168 99.607 16 / 16