Métrique du khi – deux, Cédrick Tombola Laboratoire d
Transcription
Métrique du khi – deux, Cédrick Tombola Laboratoire d
Métrique du khi – deux, Cédrick Tombola Laboratoire d’Analyse – Recherche en Economie Quantitative One Pager Février 2013 Vol. 5 – Num. 009 Copyright © Laréq 2013 http://www.lareq.com Au–delà de la corrélation linéaire Métrique du khi – deux et rapport de corrélation Cédrick Tombola Muke « Il ne faut donc pas se demander si nous percevons vraiment un monde, il faut se dire au contraire: le monde est cela que nous percevons.» Maurice Merleau - Ponty Résumé Ce papier introduit la métrique du khi – deux et le rapport de corrélation. Mots – clé : corrélation, distance du khi – deux et rapport de corrélation. Abstract In this paper, we introduce the chi – squared test for independence and the correlation ratio. Introduction Les coefficients de corrélation linéaire – BGP, Spearman et Kendall – donnent la mesure du degré d’association linéaire entre deux variables quantitatives (Tombola, 2012a). De fait, leur interprétation et leur efficacité dépendent fortement de la nature des variables en présence et de la forme de la relation étudiée, si bien que ces coefficients deviennent, totalement, inappropriés aussi bien en présence des variables qualitatives qu’en absence de linéarité. Et c’est précisément cet état de choses qui motive, à la suite de Mayemba et Tombola (2012), l’écriture de ce papier dont l’objectif est, notamment, de compléter Tombola (2012a et 2012b), en présentant les mesures statistiques destinées à rendre compte de la relation entretenue par les variables qualitatives (binaires ou polytomiques) d’une part et à quantifier une liaison non linéaire entre variables intrinsèquement numériques de l’autre. En vue de garantir une lecture fluide du papier, nous dérivons dans un premier temps, à partir d’un tableau de contingence, la distance ou métrique du khi – deux1 (section 1), inventée en 1900 par Karl Pearson. Nous introduisons, par la suite, le calcul du rapport de corrélation (section 2) dont la portée dépasse la simple alternative de chiffrer une liaison non linéaire. En effet, le rapport de corrélation peut également être utilisé pour chiffrer le lien éventuel entre une variable quantitative et une variable qualitative. Dérivation de la distance du Khi - deux A titre de rappel, une variable qualitative ou catégorielle est une variable qui n’est pas numérique par nature, contrairement aux variables quantitatives qui, elles, sont intrinsèquement numériques. Une variable qualitative est dite binaire (dichotomique) ou polytomique, respectivement, selon qu’elle ne prend que deux ou p modalités (avec p>2). Et pour étudier leur corrélation, le statisticien britannique 1 Khi est l’appellation, en grec ancien, de la lettre grecque fréquemment l’écriture chi. . Nous l’avons retenue quoi que de nos jours, on rencontre 54 Cédrick Tombola Muke Laboratoire d’Analyse – Recherche en Economie Quantitative Pearson a proposé, en 1900, une série de mesures basées toutes sur la distance du khi – deux, connue également sous le nom du test d’indépendance des caractères ou attributs étudiés dans un tableau de contingence. Faisons remarquer, en passant, qu’une variable quantitative groupée en p classes peut aussi être envisagée comme une variable qualitative à p modalités, et se prêter aisément au test d’indépendance du Khi – deux. A l’effet de dériver la distance du Khi – deux, considérons deux variables qualitatives polytomiques1 X et Y observées sur un échantillon de taille T. Leurs modalités sont respectivement notées par et (avec et ). Le tableau de contingence ci – après renseigne sur la répartition de T observations, ou la distribution conjointe, suivant les et modalités de X et Y respectivement. Tableau 1. Tableau de contingence des variables polytomiques X et Y Modalités de Y Total Modalités de X Total Disposant de la distribution conjointe qui, par ailleurs, peut être donnée sous forme de fréquence : on peut déduire les distributions marginales et conditionnelles des observations données, généralement, par leurs fréquences marginales et conditionnelles, respectivement : Les k et l fréquences fréquence de correspondant à et se lisent, respectivement, fréquence de conditionnellement à . En d’autres mots, conditionnellement à ( ) est la proportion, dans le total ( ) de Y quelle que soit la modalité de X (Y), des sujets prenant la modalité X (Y) et la modalité et ( ) de Y (X). Quant aux fréquences marginales et ( ) de , elles renseignent sur la proportion, dans le total échantillonnal, des individus prenant la modalité de X et de Y respectivement. 1 Nous préférons présenter le cas polytomique en vertu du principe : qui peut le plus peut le moins. Comprendre ce cas rend la compréhension du cas dichotomique naturelle. 55 Cédrick Tombola Muke Laboratoire d’Analyse – Recherche en Economie Quantitative Remarquons, en outre, que la somme arithmétique des fréquences conditionnelles vaut 1 aussi bien pour les que pour les , ce qui autorise, connaissant (2) et (3), de définir les tableaux des profils1 en ligne et en colonne – dont l’objet est notamment de faciliter l’analyse d’une éventuelle dépendance statistique entre caractères – comme suit. Tableau 2. Tableau des profils en colonne Modalités de Y Modalités de X Distribution marginale selon X Total 1 Le tableau des profils en ligne s’obtient de manière symétrique. A partir du tableau 2, on dira que les variables X et Y, sur les T sujets considérés, sont statistiquement indépendantes lorsque les distributions conditionnelles de X sont identiques à la distribution marginale en X. Formellement, en exploitant les relations (1), (2) et (3) et après un développement trivial, cela, pour tout couple implique successivement : Symétriquement, l’indépendance statistique entre X et Y doit également impliquer que les distributions conditionnelles de Y soient identiques à la distribution marginale en Y. La comparaison des effectifs théoriques, sous l’hypothèse d’indépendance , et des effectifs observés donne, en effet, une idée de dépendance entre les deux caractères, mais inférer ce résultat à l’ensemble de la population exige de calculer une métrique entre les deux effectifs. C’est justement pour répondre à cette préoccupation que Pearson a proposé, sous l’hypothèse d’indépendance des attributs, une métrique donnée par la somme arithmétique du carré de la différence entre effectifs observés et effectifs théoriques (ou attendus), rapporté aux effectifs théoriques. Ainsi dérive – t – on la distance du khi – deux. 1 Les tableaux des profils sont les tableaux des distributions conditionnelles selon un caractère. 56 Cédrick Tombola Muke Laboratoire d’Analyse – Recherche en Economie Quantitative Connaissant la relation (4) et après une manipulation simple, il vient : Sous l’hypothèse d’indépendance, cette statistique est distribuée selon une loi de à 1 degrés de liberté. Signalons que la métrique du khi – deux, quoi qu’elle permette de trancher sur l’indépendance ou non de deux caractères qualitatifs étudiés dans un tableau de contingence ou des profils, n’est pas destinée à évaluer, en cas de dépendance, l’intensité de la relation entretenue par les variables en cause. Cette faiblesse est contournée par le calcul de trois coefficients, basés tous sur la métrique du khi – deux. Il s’agit des coefficients v de Cramer, contingence de Pearson et tétrachorique, développés largement dans Tombola (2012b). Rapport de corrélation Le rapport de corrélation est l’indicateur sollicité pour étudier la relation entre deux variables dont l’une est quantitative et l’autre qualitative ou de deux variables quantitatives dont la relation est supposée non linéaire. Pour le dériver, à partir d’un tableau des profils en ligne, il faut commencer par dégager les moyennes et variances conditionnelles de Y, données ci – après. Notons qu’on supposera tous les effectifs ou les fréquences non nuls, ce qui implique la suppression des modalités pour lesquelles on ne dispose pas d’observations. Et puisque les modalités de X induisent une partition des observations en sous groupes, la moyenne et la variance intraclasse s’écrivent : La relation (7b) est appelée variance intraclasse comparativement à la variance interclasse qui correspond à la moyenne arithmétique du carré des écarts des moyennes conditionnelles à la moyenne, pondéré par les distributions marginales des observations suivant X, soit : 1 l et c représentent respectivement le nombre de ligne et de colonne du tableau de contingence ou du tableau des profils. 57 Cédrick Tombola Muke Laboratoire d’Analyse – Recherche en Economie Quantitative D’après la formule de décomposition de la variance de Y sur une partition de la population et après développement, on établit que : En rapportant (8) à (9), on définit ainsi le rapport de corrélation de Y en , notée Par analogie, on construit aisément le rapport de corrélation de X en ( . ). Faisons remarquer, d’ores et déjà, que le rapport de corrélation, contrairement aux coefficients de corrélation linéaire, est une mesure asymétrique. Généralement, on a possible de trouver et si bien que, pour un même jeu de données, il est et inversement. A l’effet d’inférer une quelconque conclusion à l’ensemble de la population, le rapport de corrélation est soumis à un test de la forme1 : Interprétation et remarques sur le rapport de corrélation Le rapport de corrélation est un indicateur non négatif et toujours inférieur à l’unité. Lorsque deux variables (quantitative – qualitative ou quantitative – quantitative) sont indépendantes, leur rapport de corrélation est nul, mais la réciproque n’est pas vraie. Et une valeur proche de l’unité du rapport de corrélation indique que Y (X) est liée fonctionnellement à X (Y). Assumons que X soit une variable quantitative à modalités et Y, une autre à sur un repère cartésien, les différents couples ( droite de régression de Y en régression de Y en ), on obtient une ligne brisée qui n’est autre que la 2 . En conséquence, si alors les moyennes conditionnelles modalités, en joignant, sont liées aux modalités (avec le coefficient de détermination), par une relation linéaire et la courbe de correspond à la droite des moindres carrés. A contrario, si moyennes conditionnelles de Y sont égales et la courbe de régression de Y en , alors toutes les est une droite parallèle à l’axe des abscisses. Notons que ce raisonnement tient aussi, sur toute la ligne, pour le rapport de corrélation de X en . In fine, remarquons que ce papier n’épuise pas la liste des remèdes aux défauts et limites de la corrélation linéaire si bien que nous envisageons, dans un papier ultérieur et à la suite de Mayemba et Tombola (2012), d’introduire la causalité qui fut un soulagement à la déception exprimée, quant à l’interprétation aveugle de la corrélation linéaire, par Clive w. Granger, en ces termes : "corrélation n’est pas causalité". 1 2 Voir Rakotomalala (2008). En général, . 58 Cédrick Tombola Muke Laboratoire d’Analyse – Recherche en Economie Quantitative Bibliographie GOLDFARB Bernard et Catherine PARDOUX, 1995, Introduction à la méthode statistique, Dunod, Paris, 275p. MAYEMBA Foura et Cédrick TOMBOLA, 2012, « Corrélation linéaire partielle : comment prévenir la dépendance linéaire des régresseurs », One Pager Laréq, vol. 3, num. 010, (Août 2012), 102 – 109. RAKOTOMALALA Ricco, 2008, Analyse de la corrélation. Etudes des dépendances – variables quantitatives, Université Lumière Lyon 2, Lyon, 89p. TOMBOLA Cédrick, 2012a, Econométrie 1 : Rappels et Recueils d’exercices, Guide Laréq pour étudiant, GLEN 010, 109p. TOMBOLA Cédrick, 2012b, Séminaire d’Economie Mathématique 1: Initiation aux Logiciels Eviews, Stata et MatLab (Modules 1 & 2), Guide Laréq pour Étudiant, GLEN 012, 42p. TSASA Jean – Paul, 2012, « Econométrie. Module 1 », Guide Laréq pour étudiant, (mars 2012), 41p. 59 Cédrick Tombola Muke Laboratoire d’Analyse – Recherche en Economie Quantitative