Chapitre 3. Les distributions à deux variables

Transcription

Chapitre 3. Les distributions à deux variables
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Notes
Chapitre 3. Les distributions à deux variables
Jean-François Coeurjolly
http://www-ljk.imag.fr/membres/Jean-Francois.Coeurjolly/
Laboratoire Jean Kuntzmann (LJK), Grenoble University
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Notes
1
Autour des tableaux de contingence
Définition
Distributions conditionnelles
Relations entre les différentes fréquences
Moyennes et Variances conditionnelles
2
Etude de la liaison entre deux variables
Mesure de la dépendance entre deux variables
Définition de l’indépendance totale
Définition de la dépendance totale
χ2 et coefficient de Cramer
Mesure de la liaison fonctionnelle
Courbes de régression
Rapport de corrélation
Régression linéaire
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Définition
Notes
Tableau de contingence
= tableau statistique permettant de présenter
statistiques
et de
séries
exemple : dans une entreprise de 200 salariés, on étudie les
variables X =âge et Y =salaires.
X=Age \ Y=Salaire
[800, 1000[
[1000, 1200[
(j = 1)
(j = 2)
14
28
20
62
6
46
86
138
[20, 22[ (i = 1)
[22, 24[ (i = 2)
[24, 26[ (i = 3)
Total
Total
20
74
106
200
X et Y sont des variables continues (regroupées en classes)
On note I le nombre de modalités de X (ici
nombre de modalités de Y (ici
).
Autour des tableaux de contingence
) et J le
Etude de la liaison entre deux variables
Définition
Notes
Tableau de contingence (2)
X=Age \ Y=Salaire
[20, 22[ (i = 1)
[22, 24[ (i = 2)
[24, 26[ (i = 3)
Total
i désigne l’indice d’une
[800, 1000[
[1000, 1200[
(j = 1)
(j = 2)
14
28
20
62
6
46
86
138
Total
20
74
106
200
et j désigne l’indice d’une
.
désigne l’
.
Exemple : n12 = 6 salariés sont âgés entre 20 et 22 ans et ont un
salaire compris entre 1000 et 1200 e.
on note
l’
de X (eff. total en lignes)
et
l’
de Y (effectif total en colonnes).
Exemple : n2• = 74 salariés sont âgés entre 22 et 24 ans ;
n•1 = 62 salariés ont un salaire ente 800 et 1000e.
correspond à l’effectif total.
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Définition
Notes
Tableau de contingence (3)
X=Age \ Y=Salaire
[800, 1000[
[1000, 1200[
(j = 1)
(j = 2)
14
28
20
62
6
46
86
138
[20, 22[ (i = 1)
[22, 24[ (i = 2)
[24, 26[ (i = 3)
Total
Total
20
74
106
200
Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J
ni• =
ni• =
n = n•• =
I
X
=
i=1
J
X
I X
J
X
=
j=1
.
i=1 j=1
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Définition
Notes
Fréquences partielles et marginales
BLes fréquences sont notées entre parenthèses.
X=Age \ Y=Salaire
[20, 22[ (i = 1)
[22, 24[ (i = 2)
[24, 26[ (i = 3)
Total
[800, 1000[
[1000, 1200[
(j = 1)
(j = 2)
14
28
20
62
(
(
(
(
%)
%)
%)
%)
6 (
46 (
86 (
138 (
%)
%)
%)
%)
Total
20 (
%)
74 (
%)
106 (
%)
200 (100%)
désigne la fréquence
.
Exemple : f12 = 3% des salariés sont âgés entre 20 et 22 ans et
ont un salaire compris entre 1000 et 1200 e.
on note
la fréquence
de X (fréq. totale en
lignes) et
la fréquence
de Y (fréq. totale en
colonnes).
Exemple : f2• = 37% des salariés sont âgés entre 22 et 24 ans ;
f•1 = 31% des individus ont un salaire ente 800 et 1000e.
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Définition
Notes
Fréquences partielles et marginales (2)
Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J
6
ex : 3% =
200
!
74
= 14% + 23%
ex : 37% =
200
!
62
= 7% + 14% + 10%
200
!
fij =
fi• =
=
J
X
nij
j=1
f•j =
=
n
I
X
nij
i=1
n
=
J
X
fij
j=1
=
I
X
fij
ex : 31% =
i=1
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Définition
Fréquences partielles et marginales (3)
La distribution marginale de X est représentée par la colonne
“total” (fréquences bleues).
La distribution marginale de Y est représentée par la ligne
“total” (fréquences vertes).
Ce sont bien des distributions car lorsque l’on somme les
fi• ou les f•j , on obtient 100%.
⇒ puisqu’on a une distribution, on peut calculer tous les
indicateurs du
Notes
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Distributions conditionnelles
Notes
Généralités
Une distribution conditionnelle est une distribution statistique
obtenue en
la population à un
(une classe par exemple).
J = 2 ⇒ il y a
conditionnelles de X par
rapport à Y .
1
2
la distribution de X sachant Y ∈ [800, 1000[.
la distribution de X sachant Y ∈ [1000, 1200[.
I = 3 ⇒ il y a
rapport à X
1
2
3
distributions conditionnelles de Y par
la distribution de Y sachant X ∈ [20, 22[.
la distribution de Y sachant X ∈ [22, 24[.
la distribution de Y sachant X ∈ [24, 26[.
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Distributions conditionnelles
Notes
Fréquences conditionnelles de X sachant Y
X=Age \ Y=Salaire
[20, 22[ (i = 1)
[22, 24[ (i = 2)
[24, 26[ (i = 3)
Total
[800, 1000[
[1000, 1200[
(j = 1)
(j = 2)
14 (
%)
28 (
%)
20 (
%)
62 (100%)
6 (
%)
46 (
%)
86 (
%)
138 (100%)
Total
20
74
106
200
On calcule les fréquences des âges en se restreignant à la
sous-population des individus ayant un salaire entre 800 et 1000 e
, puis à la sous-population des individus ayant un salaire entre
1000 et 1200 e .
Les fréquences conditionnelles sont en général notées
Interprétation :
22.6% des employés ayant un salaire entre 800 et 1000 esont
âgés entre 20 et 22 ans.
Parmi les employés ayant un salaire entre 1000 et 1200 e,
62.4% d’entre eux sont âgés entre 24 et 26 ans.
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Distributions conditionnelles
Notes
Fréquences conditionnelles de X sachant Y (2)
Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J
nij
fi|j =
n•j
14
ex : 22.6% =
62
Autour des tableaux de contingence
!
Etude de la liaison entre deux variables
Distributions conditionnelles
Notes
Fréquences conditionnelles de Y sachant X
X=Age \ Y=Salaire
[20, 22[ (i = 1)
[22, 24[ (i = 2)
[24, 26[ (i = 3)
Total
[800, 1000[
[1000, 1200[
(j = 1)
(j = 2)
14 (
28
20 (
%)
%)
%)
62
6 (
46 (
86 (
%)
%)
%)
138
Total
20 100%
74 100%
106 100%
200
Ces fréquences conditionnelles sont en général notées
Interprétation :
70% des employés âgés entre 20 et 22 ans ont un salaire
compris entre 800 et 1000 e.
Parmi les employés âgés entre 22 et 24 ans, 62.2% d’entre
eux ont un salaire compris entre 1000 et 1200 e.
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Distributions conditionnelles
Fréquences conditionnelles de Y sachant X et quelques
formules
Notes
Formules : Pour i = 1, . . . , I et pour j = 1, . . . , J
fj|i =
ex : 30% =
6
20
!
En utilisant les précédentes définitions des fréquences conditionnelles, on
peut obtenir
fij = fi|j × f•j
De la même façon on peut obtenir
fij = fj|i × fi•
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Moyennes et Variances conditionnelles
X=Age \ Y=Salaire
[20, 22[ (i = 1)
[22, 24[ (i = 2)
[24, 26[ (i = 3)
Total
[800, 1000[
[1000, 1200[
(j = 1)
(j = 2)
14
28
20
62
6
46
86
138
Total
20
74
106
200
Concentrons-nous sur la variable X : on notera x 1 (ou x |Y ∈[800,1000[ ) et x 2
(ou x |Y ∈[1000,1200[ ) les deux moy. cond. de X sachant Y :
La moyenne de X = la moyenne des moyennes conditionnelles
x=
J
1 X
n•j x j .
n j=1
Vérification :
En utilisant la distribution marginale : x '
En utilisant les fréq. conditionnelles, x 1 '
x2 '
ans .
En combinant
ans .
ans et
ans.
Notes
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Moyennes et Variances conditionnelles
Notes
Décomposition de la variance
Notons Varj (X ) les variances conditionnelles de X sachant Y .
Rappelons la formule de décomposition de la variance (qui peut
s’exprimer en fonction des variances conditionnelles) :
Var (X ) =
J
J
1X
1X
n•j Varj (X ) +
n•j (x j − x)2
n j=1
n j=1
|
{z
} |
{z
}
La vérification sur l’exemple considéré est laissée en exercice.
Des résultats tout à fait similaires sont bien évidemment valables
pour la variable Y (Bnotez que ceci est possible car Y est
quantitative).
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la dépendance entre deux variables
Notes
Généralités
Il y a deux extrêmes du niveau de liaison entre deux variables
(quelles que soient la ou les natures des variables) :
l’
(ou liaison nulle).
la
(ou liaison fonctionnelle).
Le but de cette section est de mesurer la dépendance, et de
quantifier en particulier le niveau de proximité par rapport aux
deux cas précédents.
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la dépendance entre deux variables
Notes
Définition
1
La variable Y est totalement indépendante de la variable X si les
variations de X n’entraı̂nent pas de variations de Y .
2
La variable X est totalement indépendante de la variable Y si les
variations de Y n’entraı̂nent pas de variations de X .
Théorème
1
Y est totalement indépendante de X si et seulement si
(c-a-d les fréquences conditionnelles ne dépendent pas des lignes du
tableau de contingence et sont égales aux fréquences marginales).
2
X est totalement indépendante de Y si et seulement si
3
L’indépendance est
.
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la dépendance entre deux variables
Indépendance et tableau de contingence
Théorème
Les variables X et Y sont indépendantes si et seulement si
Corollaire
Un tableau de contingence est associé à deux variables X et Y
indépendantes si et seulement si les
sont
entre elles.
Exemple : tableau associé à deux var. indépendantes
X | Y y1 y2 y3 Total
On peut par exemple vérifier que
x1
2
4 12
18
n2• × n•3
36 × 36
x2
4
8 24
36
=
= 24 = n23 .
n
54
Total
6 12 36
54
Notes
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la dépendance entre deux variables
Notes
Dépendance totale
Définition
1 Y est
de X (ou fonctionnellement
liée à X ) si à chaque valeur xi de X correspond une unique
valeur yj de Y , autrement dit si chaque ligne du tableau de
contingence ne contient qu’un seul effectif nij non nul.
2
X est
de Y (ou fonctionnellement
liée à Y ) si à chaque valeur yj de Y correspond une unique
valeur xi de X , autrement dit si chaque colonne du tableau de
contingence ne contient qu’un seul effectif nij non nul.
3
BLa dépendance totale n’est pas une
.
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la dépendance entre deux variables
Notes
Application à la notion de dépendance
Exemple 1 :
X |Y
x1
x2
x3
y1
2
1
0
y2
0
0
1
⇒
est
de
et la réciproque est
.
Exemple 2 :
X |Y
x1
x2
y1
2
0
y2
0
1
y3
0
4
⇒
est
de
et la réciproque est
.
Exemple 3 :
X |Y
x1
x2
y1
2
0
y2
0
1
⇒
est
de
et la réciproque est
.
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la dépendance entre deux variables
Notes
χ2 et Coefficient de Cramer
Définition
Le χ2 est un nombre mesurant l’écart entre la situation observée et la
situation si les variables avaient été théoriquement
.
Méthodologie :
1
construction du tableau de contingence sous hypothèse
d’indépendance, c-a-d calcul des
2
on calcule ensuite
χ2 =
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la dépendance entre deux variables
Notes
χ2 et Coefficient de Cramer (2)
Théorème
La quantité χ2max est la valeur du χ2 si la dépendance entre X et Y était
totale et réciproque.
Définition
Le coefficient de Cramer C ∈ [0, 1] est défini par
Si C est proche de
alors les variables X et Y sont presque
Si C est proche de
, alors les variables X et Y sont fortement
nécessairement liées fonctionnellement)
.
(pas
Le C de Cramer peut être calculé pour n’importe quel type de variables X et Y .
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la dépendance entre deux variables
Notes
χ2 et Coefficient de Cramer (3)
X=Age \ Y=Salaire
[20, 22[ (i = 1)
[22, 24[ (i = 2)
[24, 26[ (i = 3)
Total
1
2
4
[1000, 1200[
(j = 1)
(j = 2)
14 (
28 (
20 (
62
)
)
)
6 (
46 (
86 (
138
Total
)
)
)
20
74
106
200
calcul des effectifs théoriques nij0 .
0
•2
Exemple : n32
= n3• ×n
= 138×106
' 73.14.
n
200
Calcul du χ2
χ2 =
3
[800, 1000[
(14 −
χ2max = 200 ×
q
C=
'
)2
+
(6 −
)2
+ ... +
(86 −
)2
'
.
.
% (dépendance modérée).
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la dépendance entre deux variables
Notes
χ2 et Coefficient de Cramer (4)
Question
Quels sont les couples (xi , yj ) qui contribuent le plus au χ2 ?
Réponse : il suffit de calculer pour chaque case le rapport
X=Age \ Y=Salaire
[20, 22[ (i = 1)
[22, 24[ (i = 2)
[24, 26[ (i = 3)
Total
[800, 1000[
[1000, 1200[
(j = 1)
(j = 2)
14 (42.4%)
28 (4.8%)
20 (21.8%)
62
6 (19.1%)
46 (2.2%)
86 (9.8%)
138
Total
20
74
106
200
Exemple 1ère case : ((6.2 − 14)2 /6.2)/23.13 ' 42.4%.
La case des individus
s’écarte le plus de
l’hypothèse d’indépendance.
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
Notes
Généralités
pour savoir si X et Y sont liées fonctionnellement, on trace le
nuage de points (xi , yi ).
⇒ section valable uniquement pour X et Y
⇒ il faut disposer des données brutes, autrement dit chaque
couple (xi , yi ) est observée une et une seule fois. Autrement
dit, la table de contingence correspondante ne contient que
des
On trace alors le nuage de points (xi , yj ) et on essaie d’estimer
la fonction de lien éventuelle.
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
Notes
4
Exemple et définition
3
1
0
0
1
Total
2
1
2
5
●
2
2
0
1
1
2
●
1
1
1
0
1
2
●
●
0
X |Y
1
2
3
Total
Y
3
●
0
1
2
3
4
X
Définition
1
est obtenue en faisant correspondre à chaque valeur de xi de X la
moy. conditionnelle de Y sachant X = xi . Cette courbe est notée
.
2
est obtenue en faisant correspondre à chaque valeur de yj de Y la
moy. conditionnelle de X sachant Y = yj . Cette courbe est notée
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
Notes
Propriétés
Théorème
Si X et Y sont deux variables indépendantes alors CY /X est
parallèle à l’axe des abscisses et la courbe CX /Y est parallèle à
l’axe des ordonnées (Bréciproque fausse).
Si aucun point ne s’écarte de
dépendante de X (
).
, Y totalement
Si aucun point ne s’écarte de
dépendante de Y (
).
, X totalement
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
Concept basé sur la formule de décomposition de la variance
Définition
1
Le rapport de corrélation de Y en X est défini par
η2Y /X =
2
=
1
n
P
i
ni• (Y i − Y )2
Var (Y )
Le rapport de corrélation de X en Y est défini par
η2X /Y
=
=
1
n
P
i
n•j (X j − X )2
Var (X )
et
Plus η2 est
(resp.
(resp.
)
) et plus la liaison fonctionnelle est
Notes
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
X=Age \ Y=Salaire
[20, 22[ (i = 1)
[22, 24[ (i = 2)
[24, 26[ (i = 3)
Total
[800, 1000[
[1000, 1200[
(j = 1)
(j = 2)
14
28
20
62
6
46
86
138
Notes
Total
20
74
106
200
Démarche pour calculer le rapport de corrélation de X en Y :
calcul des moyenne et variance marginale de X : x '
et Var (X ) '
(ans2 ).
(ans)
calcul des moyennes conditionnelles de X sachant Y ∈ [800, 1000[ et
de X sachant Y ∈ [1000, 1200[ : x 1 '
(ans) et x 2 '
(ans).
calcul de la variance interpopulation (var. moy. cond.)
Var .Inter =
62 × (
−
)2 + 138 × (
200
−
)2
'
(ans2 ).
η2X /Y '
'
%
(
% de la variance de X est expliquée par la variable Y ).
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
Notes
Régression linéaire
Si le nuage de points observé est ”presque” linéaire, il y a de fortes
chances que la liaison entre X et Y soit linéaire (et que celle de Y à
X soit linéaire).
Exemple : imaginons observer le nuage suivant :
●
10
● ●
y
6
8
●
⇒ On peut suspecter une
Pour mesure ceci on
utilise le coefficient de
●
●
4
●
●
2
●
0
●
0
2
4
6
x
8
10
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
Notes
Coefficient de corrélation linéaire
Soit (xi , yi ) pour i = 1, . . . , n un nuage de points. Ce coefficient est défini
par
où
Cov (X , Y ) =
n
1X
(xi − x)(yi − y ) = xy − x × y .
n i=1
Si r est proche de
, X et Y sont (certainement)
Si
la pente de la droite est
droite est
Si
, la pente de la
Si r est proche de , l’ajustement linéaire n’est pas
(Bce qui ne signifie pas que X et Y ne puissent pas être liées par
une fonction).
r 2 est appelé coefficient de
(0 ≤ r 2 ≤ 1).
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
Notes
Méthode des moindres carrés
Si le coefficient r est jugé acceptable, on peut tenter d’estimer la droite
de régression (de Y en X ) en utilisant la
●
10
● ●
y
●
●
4
●
●
2
●
●
0
on se donne une droite d’équation
y = ax + b, la MMC consiste à
minimiser la somme des écarts
rouges au carré.
6
8
●
0
2
4
6
8
10
x
Autrement dit, on va chercher le minimum en a et b de la fonction
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
Notes
Solutions au problème
La droite de régression . . .
. . . de Y en X a pour équation y = b
ax + b
b avec
b
a=
et b
b=
. . . de X en Y a pour équation x = b
a0 y + b
b0 avec
b
a0 =
et b
b0 =
les deux droites de régression passent par le point
On peut remarquer que
b
a ×b
a0 =
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
Notes
Exemple d’application
Le tableau suivant présente les dépenses (dep) des ménages et PIB (pib)
en milliards d’euros pour les 4 trimestres de 2011 et 2012. Peut-on
expliquer l’évolution du PIB en fonction des dépenses ?
dep
pib
278.1
496.5
276.8
498.1
278.7
501.2
279.6
504.4
282.4
505.9
281.5
506.7
282.2
509.3
282.9
509.9
●
508
●
●
504
500
●
●
496
pib
●
●
●
277 278 279 280 281 282 283
dep
⇒ L’ajustement linéaire semble
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
Notes
Exemple d’application (2)
dep
pib
278.1
496.5
276.8
498.1
278.7
501.2
279.6
504.4
282.4
505.9
281.5
506.7
282.2
509.3
282.9
509.9
Démarche
1 Calculez dep, pib, Var (dep) et Var (pib)
dep '
2
(Me), pib '
1
(278 × 496 + . . . + 283 × 510) =
8
(Me)2 .
Calcul de la covariance
(Me)2 .
Cov (dep, pib) = dep × pib − dep × pib '
4
Calcul du coefficient de corrélation linéaire
R= √
5
(Me)2
Calcul intermédiaire
dep × pib =
3
(Me)2 , Var (pib) '
(Me), Var (dep) '
'
Puisque l’ajustement linéaire est très bon, calculons la droite de régression
b
a=
et
b
b=
(Me).
Autour des tableaux de contingence
Etude de la liaison entre deux variables
Mesure de la liaison fonctionnelle
Notes
Exemple d’application (3)
dep
pib
278.1
496.5
276.8
498.1
278.7
501.2
●
508
●
279.6
504.4
282.4
505.9
281.5
506.7
282.2
509.3
282.9
509.9
La droite de régression
pib = 2.04 × dep − 67.77.
●
504
●
●
500
passe par le point (dep, pib) .
Quelle estimation du PIB proposer pour
une dep = 279 (Me) ? ⇒
●
●
496
pib
●
●
c =
pib
277 278 279 280 281 282 283
dep
=
(Me).