Chapitre 3. Les distributions à deux variables
Transcription
Chapitre 3. Les distributions à deux variables
Autour des tableaux de contingence Etude de la liaison entre deux variables Notes Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/Jean-Francois.Coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University Autour des tableaux de contingence Etude de la liaison entre deux variables Notes 1 Autour des tableaux de contingence Définition Distributions conditionnelles Relations entre les différentes fréquences Moyennes et Variances conditionnelles 2 Etude de la liaison entre deux variables Mesure de la dépendance entre deux variables Définition de l’indépendance totale Définition de la dépendance totale χ2 et coefficient de Cramer Mesure de la liaison fonctionnelle Courbes de régression Rapport de corrélation Régression linéaire Autour des tableaux de contingence Etude de la liaison entre deux variables Définition Notes Tableau de contingence = tableau statistique permettant de présenter statistiques et de séries exemple : dans une entreprise de 200 salariés, on étudie les variables X =âge et Y =salaires. X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ (j = 1) (j = 2) 14 28 20 62 6 46 86 138 [20, 22[ (i = 1) [22, 24[ (i = 2) [24, 26[ (i = 3) Total Total 20 74 106 200 X et Y sont des variables continues (regroupées en classes) On note I le nombre de modalités de X (ici nombre de modalités de Y (ici ). Autour des tableaux de contingence ) et J le Etude de la liaison entre deux variables Définition Notes Tableau de contingence (2) X=Age \ Y=Salaire [20, 22[ (i = 1) [22, 24[ (i = 2) [24, 26[ (i = 3) Total i désigne l’indice d’une [800, 1000[ [1000, 1200[ (j = 1) (j = 2) 14 28 20 62 6 46 86 138 Total 20 74 106 200 et j désigne l’indice d’une . désigne l’ . Exemple : n12 = 6 salariés sont âgés entre 20 et 22 ans et ont un salaire compris entre 1000 et 1200 e. on note l’ de X (eff. total en lignes) et l’ de Y (effectif total en colonnes). Exemple : n2• = 74 salariés sont âgés entre 22 et 24 ans ; n•1 = 62 salariés ont un salaire ente 800 et 1000e. correspond à l’effectif total. Autour des tableaux de contingence Etude de la liaison entre deux variables Définition Notes Tableau de contingence (3) X=Age \ Y=Salaire [800, 1000[ [1000, 1200[ (j = 1) (j = 2) 14 28 20 62 6 46 86 138 [20, 22[ (i = 1) [22, 24[ (i = 2) [24, 26[ (i = 3) Total Total 20 74 106 200 Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J ni• = ni• = n = n•• = I X = i=1 J X I X J X = j=1 . i=1 j=1 Autour des tableaux de contingence Etude de la liaison entre deux variables Définition Notes Fréquences partielles et marginales BLes fréquences sont notées entre parenthèses. X=Age \ Y=Salaire [20, 22[ (i = 1) [22, 24[ (i = 2) [24, 26[ (i = 3) Total [800, 1000[ [1000, 1200[ (j = 1) (j = 2) 14 28 20 62 ( ( ( ( %) %) %) %) 6 ( 46 ( 86 ( 138 ( %) %) %) %) Total 20 ( %) 74 ( %) 106 ( %) 200 (100%) désigne la fréquence . Exemple : f12 = 3% des salariés sont âgés entre 20 et 22 ans et ont un salaire compris entre 1000 et 1200 e. on note la fréquence de X (fréq. totale en lignes) et la fréquence de Y (fréq. totale en colonnes). Exemple : f2• = 37% des salariés sont âgés entre 22 et 24 ans ; f•1 = 31% des individus ont un salaire ente 800 et 1000e. Autour des tableaux de contingence Etude de la liaison entre deux variables Définition Notes Fréquences partielles et marginales (2) Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J 6 ex : 3% = 200 ! 74 = 14% + 23% ex : 37% = 200 ! 62 = 7% + 14% + 10% 200 ! fij = fi• = = J X nij j=1 f•j = = n I X nij i=1 n = J X fij j=1 = I X fij ex : 31% = i=1 Autour des tableaux de contingence Etude de la liaison entre deux variables Définition Fréquences partielles et marginales (3) La distribution marginale de X est représentée par la colonne “total” (fréquences bleues). La distribution marginale de Y est représentée par la ligne “total” (fréquences vertes). Ce sont bien des distributions car lorsque l’on somme les fi• ou les f•j , on obtient 100%. ⇒ puisqu’on a une distribution, on peut calculer tous les indicateurs du Notes Autour des tableaux de contingence Etude de la liaison entre deux variables Distributions conditionnelles Notes Généralités Une distribution conditionnelle est une distribution statistique obtenue en la population à un (une classe par exemple). J = 2 ⇒ il y a conditionnelles de X par rapport à Y . 1 2 la distribution de X sachant Y ∈ [800, 1000[. la distribution de X sachant Y ∈ [1000, 1200[. I = 3 ⇒ il y a rapport à X 1 2 3 distributions conditionnelles de Y par la distribution de Y sachant X ∈ [20, 22[. la distribution de Y sachant X ∈ [22, 24[. la distribution de Y sachant X ∈ [24, 26[. Autour des tableaux de contingence Etude de la liaison entre deux variables Distributions conditionnelles Notes Fréquences conditionnelles de X sachant Y X=Age \ Y=Salaire [20, 22[ (i = 1) [22, 24[ (i = 2) [24, 26[ (i = 3) Total [800, 1000[ [1000, 1200[ (j = 1) (j = 2) 14 ( %) 28 ( %) 20 ( %) 62 (100%) 6 ( %) 46 ( %) 86 ( %) 138 (100%) Total 20 74 106 200 On calcule les fréquences des âges en se restreignant à la sous-population des individus ayant un salaire entre 800 et 1000 e , puis à la sous-population des individus ayant un salaire entre 1000 et 1200 e . Les fréquences conditionnelles sont en général notées Interprétation : 22.6% des employés ayant un salaire entre 800 et 1000 esont âgés entre 20 et 22 ans. Parmi les employés ayant un salaire entre 1000 et 1200 e, 62.4% d’entre eux sont âgés entre 24 et 26 ans. Autour des tableaux de contingence Etude de la liaison entre deux variables Distributions conditionnelles Notes Fréquences conditionnelles de X sachant Y (2) Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J nij fi|j = n•j 14 ex : 22.6% = 62 Autour des tableaux de contingence ! Etude de la liaison entre deux variables Distributions conditionnelles Notes Fréquences conditionnelles de Y sachant X X=Age \ Y=Salaire [20, 22[ (i = 1) [22, 24[ (i = 2) [24, 26[ (i = 3) Total [800, 1000[ [1000, 1200[ (j = 1) (j = 2) 14 ( 28 20 ( %) %) %) 62 6 ( 46 ( 86 ( %) %) %) 138 Total 20 100% 74 100% 106 100% 200 Ces fréquences conditionnelles sont en général notées Interprétation : 70% des employés âgés entre 20 et 22 ans ont un salaire compris entre 800 et 1000 e. Parmi les employés âgés entre 22 et 24 ans, 62.2% d’entre eux ont un salaire compris entre 1000 et 1200 e. Autour des tableaux de contingence Etude de la liaison entre deux variables Distributions conditionnelles Fréquences conditionnelles de Y sachant X et quelques formules Notes Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J fj|i = ex : 30% = 6 20 ! En utilisant les précédentes définitions des fréquences conditionnelles, on peut obtenir fij = fi|j × f•j De la même façon on peut obtenir fij = fj|i × fi• Autour des tableaux de contingence Etude de la liaison entre deux variables Moyennes et Variances conditionnelles X=Age \ Y=Salaire [20, 22[ (i = 1) [22, 24[ (i = 2) [24, 26[ (i = 3) Total [800, 1000[ [1000, 1200[ (j = 1) (j = 2) 14 28 20 62 6 46 86 138 Total 20 74 106 200 Concentrons-nous sur la variable X : on notera x 1 (ou x |Y ∈[800,1000[ ) et x 2 (ou x |Y ∈[1000,1200[ ) les deux moy. cond. de X sachant Y : La moyenne de X = la moyenne des moyennes conditionnelles x= J 1 X n•j x j . n j=1 Vérification : En utilisant la distribution marginale : x ' En utilisant les fréq. conditionnelles, x 1 ' x2 ' ans . En combinant ans . ans et ans. Notes Autour des tableaux de contingence Etude de la liaison entre deux variables Moyennes et Variances conditionnelles Notes Décomposition de la variance Notons Varj (X ) les variances conditionnelles de X sachant Y . Rappelons la formule de décomposition de la variance (qui peut s’exprimer en fonction des variances conditionnelles) : Var (X ) = J J 1X 1X n•j Varj (X ) + n•j (x j − x)2 n j=1 n j=1 | {z } | {z } La vérification sur l’exemple considéré est laissée en exercice. Des résultats tout à fait similaires sont bien évidemment valables pour la variable Y (Bnotez que ceci est possible car Y est quantitative). Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la dépendance entre deux variables Notes Généralités Il y a deux extrêmes du niveau de liaison entre deux variables (quelles que soient la ou les natures des variables) : l’ (ou liaison nulle). la (ou liaison fonctionnelle). Le but de cette section est de mesurer la dépendance, et de quantifier en particulier le niveau de proximité par rapport aux deux cas précédents. Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la dépendance entre deux variables Notes Définition 1 La variable Y est totalement indépendante de la variable X si les variations de X n’entraı̂nent pas de variations de Y . 2 La variable X est totalement indépendante de la variable Y si les variations de Y n’entraı̂nent pas de variations de X . Théorème 1 Y est totalement indépendante de X si et seulement si (c-a-d les fréquences conditionnelles ne dépendent pas des lignes du tableau de contingence et sont égales aux fréquences marginales). 2 X est totalement indépendante de Y si et seulement si 3 L’indépendance est . Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la dépendance entre deux variables Indépendance et tableau de contingence Théorème Les variables X et Y sont indépendantes si et seulement si Corollaire Un tableau de contingence est associé à deux variables X et Y indépendantes si et seulement si les sont entre elles. Exemple : tableau associé à deux var. indépendantes X | Y y1 y2 y3 Total On peut par exemple vérifier que x1 2 4 12 18 n2• × n•3 36 × 36 x2 4 8 24 36 = = 24 = n23 . n 54 Total 6 12 36 54 Notes Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la dépendance entre deux variables Notes Dépendance totale Définition 1 Y est de X (ou fonctionnellement liée à X ) si à chaque valeur xi de X correspond une unique valeur yj de Y , autrement dit si chaque ligne du tableau de contingence ne contient qu’un seul effectif nij non nul. 2 X est de Y (ou fonctionnellement liée à Y ) si à chaque valeur yj de Y correspond une unique valeur xi de X , autrement dit si chaque colonne du tableau de contingence ne contient qu’un seul effectif nij non nul. 3 BLa dépendance totale n’est pas une . Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la dépendance entre deux variables Notes Application à la notion de dépendance Exemple 1 : X |Y x1 x2 x3 y1 2 1 0 y2 0 0 1 ⇒ est de et la réciproque est . Exemple 2 : X |Y x1 x2 y1 2 0 y2 0 1 y3 0 4 ⇒ est de et la réciproque est . Exemple 3 : X |Y x1 x2 y1 2 0 y2 0 1 ⇒ est de et la réciproque est . Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la dépendance entre deux variables Notes χ2 et Coefficient de Cramer Définition Le χ2 est un nombre mesurant l’écart entre la situation observée et la situation si les variables avaient été théoriquement . Méthodologie : 1 construction du tableau de contingence sous hypothèse d’indépendance, c-a-d calcul des 2 on calcule ensuite χ2 = Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la dépendance entre deux variables Notes χ2 et Coefficient de Cramer (2) Théorème La quantité χ2max est la valeur du χ2 si la dépendance entre X et Y était totale et réciproque. Définition Le coefficient de Cramer C ∈ [0, 1] est défini par Si C est proche de alors les variables X et Y sont presque Si C est proche de , alors les variables X et Y sont fortement nécessairement liées fonctionnellement) . (pas Le C de Cramer peut être calculé pour n’importe quel type de variables X et Y . Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la dépendance entre deux variables Notes χ2 et Coefficient de Cramer (3) X=Age \ Y=Salaire [20, 22[ (i = 1) [22, 24[ (i = 2) [24, 26[ (i = 3) Total 1 2 4 [1000, 1200[ (j = 1) (j = 2) 14 ( 28 ( 20 ( 62 ) ) ) 6 ( 46 ( 86 ( 138 Total ) ) ) 20 74 106 200 calcul des effectifs théoriques nij0 . 0 •2 Exemple : n32 = n3• ×n = 138×106 ' 73.14. n 200 Calcul du χ2 χ2 = 3 [800, 1000[ (14 − χ2max = 200 × q C= ' )2 + (6 − )2 + ... + (86 − )2 ' . . % (dépendance modérée). Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la dépendance entre deux variables Notes χ2 et Coefficient de Cramer (4) Question Quels sont les couples (xi , yj ) qui contribuent le plus au χ2 ? Réponse : il suffit de calculer pour chaque case le rapport X=Age \ Y=Salaire [20, 22[ (i = 1) [22, 24[ (i = 2) [24, 26[ (i = 3) Total [800, 1000[ [1000, 1200[ (j = 1) (j = 2) 14 (42.4%) 28 (4.8%) 20 (21.8%) 62 6 (19.1%) 46 (2.2%) 86 (9.8%) 138 Total 20 74 106 200 Exemple 1ère case : ((6.2 − 14)2 /6.2)/23.13 ' 42.4%. La case des individus s’écarte le plus de l’hypothèse d’indépendance. Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle Notes Généralités pour savoir si X et Y sont liées fonctionnellement, on trace le nuage de points (xi , yi ). ⇒ section valable uniquement pour X et Y ⇒ il faut disposer des données brutes, autrement dit chaque couple (xi , yi ) est observée une et une seule fois. Autrement dit, la table de contingence correspondante ne contient que des On trace alors le nuage de points (xi , yj ) et on essaie d’estimer la fonction de lien éventuelle. Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle Notes 4 Exemple et définition 3 1 0 0 1 Total 2 1 2 5 ● 2 2 0 1 1 2 ● 1 1 1 0 1 2 ● ● 0 X |Y 1 2 3 Total Y 3 ● 0 1 2 3 4 X Définition 1 est obtenue en faisant correspondre à chaque valeur de xi de X la moy. conditionnelle de Y sachant X = xi . Cette courbe est notée . 2 est obtenue en faisant correspondre à chaque valeur de yj de Y la moy. conditionnelle de X sachant Y = yj . Cette courbe est notée Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle Notes Propriétés Théorème Si X et Y sont deux variables indépendantes alors CY /X est parallèle à l’axe des abscisses et la courbe CX /Y est parallèle à l’axe des ordonnées (Bréciproque fausse). Si aucun point ne s’écarte de dépendante de X ( ). , Y totalement Si aucun point ne s’écarte de dépendante de Y ( ). , X totalement Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle Concept basé sur la formule de décomposition de la variance Définition 1 Le rapport de corrélation de Y en X est défini par η2Y /X = 2 = 1 n P i ni• (Y i − Y )2 Var (Y ) Le rapport de corrélation de X en Y est défini par η2X /Y = = 1 n P i n•j (X j − X )2 Var (X ) et Plus η2 est (resp. (resp. ) ) et plus la liaison fonctionnelle est Notes Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle X=Age \ Y=Salaire [20, 22[ (i = 1) [22, 24[ (i = 2) [24, 26[ (i = 3) Total [800, 1000[ [1000, 1200[ (j = 1) (j = 2) 14 28 20 62 6 46 86 138 Notes Total 20 74 106 200 Démarche pour calculer le rapport de corrélation de X en Y : calcul des moyenne et variance marginale de X : x ' et Var (X ) ' (ans2 ). (ans) calcul des moyennes conditionnelles de X sachant Y ∈ [800, 1000[ et de X sachant Y ∈ [1000, 1200[ : x 1 ' (ans) et x 2 ' (ans). calcul de la variance interpopulation (var. moy. cond.) Var .Inter = 62 × ( − )2 + 138 × ( 200 − )2 ' (ans2 ). η2X /Y ' ' % ( % de la variance de X est expliquée par la variable Y ). Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle Notes Régression linéaire Si le nuage de points observé est ”presque” linéaire, il y a de fortes chances que la liaison entre X et Y soit linéaire (et que celle de Y à X soit linéaire). Exemple : imaginons observer le nuage suivant : ● 10 ● ● y 6 8 ● ⇒ On peut suspecter une Pour mesure ceci on utilise le coefficient de ● ● 4 ● ● 2 ● 0 ● 0 2 4 6 x 8 10 Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle Notes Coefficient de corrélation linéaire Soit (xi , yi ) pour i = 1, . . . , n un nuage de points. Ce coefficient est défini par où Cov (X , Y ) = n 1X (xi − x)(yi − y ) = xy − x × y . n i=1 Si r est proche de , X et Y sont (certainement) Si la pente de la droite est droite est Si , la pente de la Si r est proche de , l’ajustement linéaire n’est pas (Bce qui ne signifie pas que X et Y ne puissent pas être liées par une fonction). r 2 est appelé coefficient de (0 ≤ r 2 ≤ 1). Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle Notes Méthode des moindres carrés Si le coefficient r est jugé acceptable, on peut tenter d’estimer la droite de régression (de Y en X ) en utilisant la ● 10 ● ● y ● ● 4 ● ● 2 ● ● 0 on se donne une droite d’équation y = ax + b, la MMC consiste à minimiser la somme des écarts rouges au carré. 6 8 ● 0 2 4 6 8 10 x Autrement dit, on va chercher le minimum en a et b de la fonction Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle Notes Solutions au problème La droite de régression . . . . . . de Y en X a pour équation y = b ax + b b avec b a= et b b= . . . de X en Y a pour équation x = b a0 y + b b0 avec b a0 = et b b0 = les deux droites de régression passent par le point On peut remarquer que b a ×b a0 = Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle Notes Exemple d’application Le tableau suivant présente les dépenses (dep) des ménages et PIB (pib) en milliards d’euros pour les 4 trimestres de 2011 et 2012. Peut-on expliquer l’évolution du PIB en fonction des dépenses ? dep pib 278.1 496.5 276.8 498.1 278.7 501.2 279.6 504.4 282.4 505.9 281.5 506.7 282.2 509.3 282.9 509.9 ● 508 ● ● 504 500 ● ● 496 pib ● ● ● 277 278 279 280 281 282 283 dep ⇒ L’ajustement linéaire semble Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle Notes Exemple d’application (2) dep pib 278.1 496.5 276.8 498.1 278.7 501.2 279.6 504.4 282.4 505.9 281.5 506.7 282.2 509.3 282.9 509.9 Démarche 1 Calculez dep, pib, Var (dep) et Var (pib) dep ' 2 (Me), pib ' 1 (278 × 496 + . . . + 283 × 510) = 8 (Me)2 . Calcul de la covariance (Me)2 . Cov (dep, pib) = dep × pib − dep × pib ' 4 Calcul du coefficient de corrélation linéaire R= √ 5 (Me)2 Calcul intermédiaire dep × pib = 3 (Me)2 , Var (pib) ' (Me), Var (dep) ' ' Puisque l’ajustement linéaire est très bon, calculons la droite de régression b a= et b b= (Me). Autour des tableaux de contingence Etude de la liaison entre deux variables Mesure de la liaison fonctionnelle Notes Exemple d’application (3) dep pib 278.1 496.5 276.8 498.1 278.7 501.2 ● 508 ● 279.6 504.4 282.4 505.9 281.5 506.7 282.2 509.3 282.9 509.9 La droite de régression pib = 2.04 × dep − 67.77. ● 504 ● ● 500 passe par le point (dep, pib) . Quelle estimation du PIB proposer pour une dep = 279 (Me) ? ⇒ ● ● 496 pib ● ● c = pib 277 278 279 280 281 282 283 dep = (Me).