Métrique du khi – deux, Cédrick Tombola Laboratoire d

Transcription

Métrique du khi – deux, Cédrick Tombola Laboratoire d
Métrique du khi – deux, Cédrick Tombola
Laboratoire d’Analyse – Recherche en Economie Quantitative
One Pager
Février 2013
Vol. 5 – Num. 009
Copyright © Laréq 2013
http://www.lareq.com
Au–delà de la corrélation linéaire
Métrique du khi – deux et rapport de corrélation
Cédrick Tombola Muke
« Il ne faut donc pas se demander si nous percevons vraiment un monde, il faut se dire au
contraire: le monde est cela que nous percevons.»
Maurice Merleau - Ponty
Résumé
Ce papier introduit la métrique du khi – deux et le rapport de corrélation.
Mots – clé : corrélation, distance du khi – deux et rapport de corrélation.
Abstract
In this paper, we introduce the chi – squared test for independence and the correlation ratio.
Introduction
Les coefficients de corrélation linéaire – BGP, Spearman et Kendall – donnent la mesure du degré
d’association linéaire entre deux variables quantitatives (Tombola, 2012a). De fait, leur interprétation et
leur efficacité dépendent fortement de la nature des variables en présence et de la forme de la relation
étudiée, si bien que ces coefficients deviennent, totalement, inappropriés aussi bien en présence des
variables qualitatives qu’en absence de linéarité. Et c’est précisément cet état de choses qui motive, à la
suite de Mayemba et Tombola (2012), l’écriture de ce papier dont l’objectif est, notamment, de
compléter Tombola (2012a et 2012b), en présentant les mesures statistiques destinées à rendre compte
de la relation entretenue par les variables qualitatives (binaires ou polytomiques) d’une part et à
quantifier une liaison non linéaire entre variables intrinsèquement numériques de l’autre.
En vue de garantir une lecture fluide du papier, nous dérivons dans un premier temps, à partir d’un
tableau de contingence, la distance ou métrique du khi – deux1 (section 1), inventée en 1900 par Karl
Pearson. Nous introduisons, par la suite, le calcul du rapport de corrélation (section 2) dont la portée
dépasse la simple alternative de chiffrer une liaison non linéaire. En effet, le rapport de corrélation peut
également être utilisé pour chiffrer le lien éventuel entre une variable quantitative et une variable
qualitative.
Dérivation de la distance du Khi - deux
A titre de rappel, une variable qualitative ou catégorielle est une variable qui n’est pas numérique par
nature, contrairement aux variables quantitatives qui, elles, sont intrinsèquement numériques. Une
variable qualitative est dite binaire (dichotomique) ou polytomique, respectivement, selon qu’elle ne
prend que deux ou p modalités (avec p>2). Et pour étudier leur corrélation, le statisticien britannique
1
Khi est l’appellation, en grec ancien, de la lettre grecque
fréquemment l’écriture chi.
. Nous l’avons retenue quoi que de nos jours, on rencontre
54
Cédrick Tombola Muke
Laboratoire d’Analyse – Recherche en Economie Quantitative
Pearson a proposé, en 1900, une série de mesures basées toutes sur la distance du khi – deux, connue
également sous le nom du test d’indépendance des caractères ou attributs étudiés dans un tableau de
contingence.
Faisons remarquer, en passant, qu’une variable quantitative groupée en p classes peut aussi être
envisagée comme une variable qualitative à p modalités, et se prêter aisément au test d’indépendance
du Khi – deux.
A l’effet de dériver la distance du Khi – deux, considérons deux variables qualitatives polytomiques1 X et
Y observées sur un échantillon de taille T. Leurs modalités sont respectivement notées par
et
(avec
et
). Le tableau de contingence ci – après renseigne sur la répartition
de T observations, ou la distribution conjointe, suivant les
et
modalités de X et Y respectivement.
Tableau 1. Tableau de contingence des variables polytomiques X et Y
Modalités de Y
Total
Modalités de X
Total
Disposant de la distribution conjointe qui, par ailleurs, peut être donnée sous forme de fréquence :
on peut déduire les distributions marginales et conditionnelles des observations données, généralement,
par leurs fréquences marginales et conditionnelles, respectivement :
Les k et l fréquences
fréquence de
correspondant à
et
se lisent, respectivement, fréquence de
conditionnellement à
. En d’autres mots,
conditionnellement à
( ) est la proportion, dans le total
( ) de Y quelle que soit la modalité de X (Y), des sujets prenant la modalité
X (Y) et la modalité
et
( ) de Y (X). Quant aux fréquences marginales
et
( ) de
, elles renseignent sur la
proportion, dans le total échantillonnal, des individus prenant la modalité
de X et
de Y
respectivement.
1
Nous préférons présenter le cas polytomique en vertu du principe : qui peut le plus peut le moins. Comprendre ce cas rend la
compréhension du cas dichotomique naturelle.
55
Cédrick Tombola Muke
Laboratoire d’Analyse – Recherche en Economie Quantitative
Remarquons, en outre, que la somme arithmétique des fréquences conditionnelles vaut 1 aussi bien pour
les
que pour les
, ce qui autorise, connaissant (2) et (3), de définir les tableaux des profils1 en ligne
et en colonne – dont l’objet est notamment de faciliter l’analyse d’une éventuelle dépendance statistique
entre caractères – comme suit.
Tableau 2. Tableau des profils en colonne
Modalités de Y
Modalités de X
Distribution
marginale selon X
Total
1
Le tableau des profils en ligne s’obtient de manière symétrique. A partir du tableau 2, on dira que les
variables X et Y, sur les T sujets considérés, sont statistiquement indépendantes lorsque les distributions
conditionnelles de X sont identiques à la distribution marginale en X. Formellement, en exploitant les
relations (1), (2) et (3) et après un développement trivial, cela, pour tout couple
implique
successivement :
Symétriquement, l’indépendance statistique entre X et Y doit également impliquer que les distributions
conditionnelles de Y soient identiques à la distribution marginale en Y.
La comparaison des effectifs théoriques, sous l’hypothèse d’indépendance
, et des effectifs
observés donne, en effet, une idée de dépendance entre les deux caractères, mais inférer ce résultat à
l’ensemble de la population exige de calculer une métrique entre les deux effectifs. C’est justement pour
répondre à cette préoccupation que Pearson a proposé, sous l’hypothèse d’indépendance des attributs,
une métrique donnée par la somme arithmétique du carré de la différence entre effectifs observés et
effectifs théoriques (ou attendus), rapporté aux effectifs théoriques. Ainsi dérive – t – on la distance du
khi – deux.
1
Les tableaux des profils sont les tableaux des distributions conditionnelles selon un caractère.
56
Cédrick Tombola Muke
Laboratoire d’Analyse – Recherche en Economie Quantitative
Connaissant la relation (4) et après une manipulation simple, il vient :
Sous l’hypothèse d’indépendance, cette statistique est distribuée selon une loi de
à
1
degrés de liberté.
Signalons que la métrique du khi – deux, quoi qu’elle permette de trancher sur l’indépendance ou non de
deux caractères qualitatifs étudiés dans un tableau de contingence ou des profils, n’est pas destinée à
évaluer, en cas de dépendance, l’intensité de la relation entretenue par les variables en cause. Cette
faiblesse est contournée par le calcul de trois coefficients, basés tous sur la métrique du khi – deux. Il
s’agit des coefficients v de Cramer, contingence de Pearson et tétrachorique, développés largement dans
Tombola (2012b).
Rapport de corrélation
Le rapport de corrélation est l’indicateur sollicité pour étudier la relation entre deux variables dont l’une
est quantitative et l’autre qualitative ou de deux variables quantitatives dont la relation est supposée non
linéaire. Pour le dériver, à partir d’un tableau des profils en ligne, il faut commencer par dégager les
moyennes et variances conditionnelles de Y, données ci – après. Notons qu’on supposera tous les
effectifs
ou les fréquences
non nuls, ce qui implique la suppression des modalités pour lesquelles on
ne dispose pas d’observations.
Et puisque les
modalités de X induisent une partition des observations en
sous groupes, la moyenne
et la variance intraclasse s’écrivent :
La relation (7b) est appelée variance intraclasse comparativement à la variance interclasse qui
correspond à la moyenne arithmétique du carré des écarts des moyennes conditionnelles à la moyenne,
pondéré par les distributions marginales des observations suivant X, soit :
1
l et c représentent respectivement le nombre de ligne et de colonne du tableau de contingence ou du tableau des profils.
57
Cédrick Tombola Muke
Laboratoire d’Analyse – Recherche en Economie Quantitative
D’après la formule de décomposition de la variance de Y sur une partition de la population et après
développement, on établit que :
En rapportant (8) à (9), on définit ainsi le rapport de corrélation de Y en , notée
Par analogie, on construit aisément le rapport de corrélation de X en
(
.
). Faisons remarquer, d’ores
et déjà, que le rapport de corrélation, contrairement aux coefficients de corrélation linéaire, est une
mesure asymétrique. Généralement, on a
possible de trouver
et
si bien que, pour un même jeu de données, il est
et inversement.
A l’effet d’inférer une quelconque conclusion à l’ensemble de la population, le rapport de corrélation est
soumis à un test de la forme1 :
Interprétation et remarques sur le rapport de corrélation
Le rapport de corrélation est un indicateur non négatif et toujours inférieur à l’unité. Lorsque deux
variables (quantitative – qualitative ou quantitative – quantitative) sont indépendantes, leur rapport de
corrélation est nul, mais la réciproque n’est pas vraie. Et une valeur proche de l’unité du rapport de
corrélation indique que Y (X) est liée fonctionnellement à X (Y).
Assumons que X soit une variable quantitative à
modalités et Y, une autre à
sur un repère cartésien, les différents couples (
droite de régression de Y en
régression de Y en
), on obtient une ligne brisée qui n’est autre que la
2
. En conséquence, si
alors les moyennes conditionnelles
modalités, en joignant,
sont liées aux modalités
(avec
le coefficient de détermination),
par une relation linéaire et la courbe de
correspond à la droite des moindres carrés. A contrario, si
moyennes conditionnelles de Y sont égales et la courbe de régression de Y en
, alors toutes les
est une droite parallèle à
l’axe des abscisses. Notons que ce raisonnement tient aussi, sur toute la ligne, pour le rapport de
corrélation de X en .
In fine, remarquons que ce papier n’épuise pas la liste des remèdes aux défauts et limites de la
corrélation linéaire si bien que nous envisageons, dans un papier ultérieur et à la suite de Mayemba et
Tombola (2012), d’introduire la causalité qui fut un soulagement à la déception exprimée, quant à
l’interprétation aveugle de la corrélation linéaire, par Clive w. Granger, en ces termes : "corrélation n’est
pas causalité".
1
2
Voir Rakotomalala (2008).
En général,
.
58
Cédrick Tombola Muke
Laboratoire d’Analyse – Recherche en Economie Quantitative
Bibliographie

GOLDFARB Bernard et Catherine PARDOUX, 1995, Introduction à la méthode statistique, Dunod,
Paris, 275p.

MAYEMBA Foura et Cédrick TOMBOLA, 2012, « Corrélation linéaire partielle : comment prévenir la
dépendance linéaire des régresseurs », One Pager Laréq, vol. 3, num. 010, (Août 2012), 102 – 109.

RAKOTOMALALA Ricco, 2008, Analyse de la corrélation. Etudes des dépendances – variables
quantitatives, Université Lumière Lyon 2, Lyon, 89p.

TOMBOLA Cédrick, 2012a, Econométrie 1 : Rappels et Recueils d’exercices, Guide Laréq pour
étudiant, GLEN 010, 109p.

TOMBOLA Cédrick, 2012b, Séminaire d’Economie Mathématique 1: Initiation aux Logiciels Eviews,
Stata et MatLab (Modules 1 & 2), Guide Laréq pour Étudiant, GLEN 012, 42p.

TSASA Jean – Paul, 2012, « Econométrie. Module 1 », Guide Laréq pour étudiant, (mars 2012),
41p.
59
Cédrick Tombola Muke
Laboratoire d’Analyse – Recherche en Economie Quantitative