Décomposition de la Variance

Transcription

Décomposition de la Variance
Leçon 3 Décomposition de la Variance
Nous avons choisi de représenter les écarts par un calcul de variance et non pas par un calcul d’écart absolu
moyen. La principale raison que j’avais donné pour ce choix était qu’on pouvait en tirer des conséquences
utiles et faciles à comprendre. Cette leçon expose deux des méthodes qui s’appuient sur directement sur ce
choix. Nous présenterons tout d’abord la théorie à partir d’un exemple, puis nous démontrerons la formule de
décomposition de la variannce, enfin nous montrerons comment cette formule a pu être utilisée pour traiter
des cas réels dans une troisième partie.
I La théorie expliquée à partir d’un exemple
Faisons une petite statistique sur les éclairs au chocolat. J’observe dans, disons 50 pâtisseries, le prix de
l’éclair au chocolat :
2
N° patisserie
prix
prix
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1,83
1,83
1,40
1,46
1,36
1,65
1,61
1,62
1,39
1,40
1,74
1,63
1,56
1,72
1,40
1,75
1,82
1,66
1,60
1,79
1,42
1,54
1,62
1,74
1,52
3,3489
3,3489
1,9600
2,1316
1,8496
2,7225
2,5921
2,6244
1,9321
1,9600
3,0276
2,6569
2,4336
2,9584
1,9600
3,0625
3,3124
2,7556
2,5600
3,2041
2,0164
2,3716
2,6244
3,0276
2,3104
2
N° patisserie
prix
prix
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
total
1,55
1,56
1,79
1,58
1,64
1,23
1,22
1,23
1,30
1,26
1,32
1,26
1,31
1,16
1,27
1,19
1,35
1,33
1,20
1,23
1,31
1,34
1,24
1,33
1,20
73,46
2,4025
2,4336
3,2041
2,4964
2,7225
1,5129
1,4884
1,5129
1,6900
1,5876
1,7424
1,5876
1,7161
1,3456
1,6129
1,4161
1,8225
1,7689
1,4400
1,5129
1,7161
1,7956
1,5376
1,7689
1,4400
110,0257
Je n’ai aucune idée sur le prix "normal" de l’éclair au chocolat, car j’ai cessé de m’y intéresser depuis que
ma belle mère, ... mais ça, c’est une autre histoire. Cependant, je m’aperçois assez vite qu’il y a des endroits
où l’éclair est plus cher que dans d’autres : si je calcule
• le prix moyen des éclairs sur mes cinquante pâtisseries, je trouve
73.46
50
= 1.4692 = 1.477 euros.
• la variance du prix des éclairs, je trouve 110.0257
− (1.47)2 = 0.04196536 : c’est la preuve qu’il y a des
50
différences de prix entre les pâtisseries : certaines pâtisseries vendent plus cher que 1.47 euros, d’autres
moins cher
1
Prenons des notations suivantes :
numérotons les pâtisseries par un indice i variant de 1 à 50,
pour chaque pâtisserie i, appelons Xi le prix de l’éclair au chocolat dans cette pâtisserie.
appelons x̄ le prix moyen de l’éclair dans l’ensemble des pâtisseries.
:
appelons σ 2 la variance du prix de l’éclair au chocolat
ici, x̄ = 1, 47 et σ 2 = 0.04196536
Pour la pâtisserie numéro i, je peux écrire :
xi = x̄ + (xi − x̄)
Le premier terme, c’est ce qu’il y a de commun à tous les éclairs au chocolat : le prix "normal" d’un
éclair au chocolat est de x̄ = 1.47 euros.
Le second terme, c’est ce qui est spécifique à la pâtisserie numéro i : si (xi − x̄) est positif, elle vend
plus cher que la moyenne, si (xi − x̄) est négatif, elle vend moins cher que la moyenne.
xi
=
x̄
+
(xi − x̄)
composante
composante
commune
spécif ique
Les individus un peu prétentieux diront que l’on a décomposé la variable en une composante commune
et une composante spécifique.
Reste que rien ne vient expliquer ces différences de prix. Evidemment, il y a les "bons" et les "mauvais"
patissiers. Mais dans l’éclair au chocolat, cette explication ne tient pas longtemps, tous les éclairs sont à peu
prés équivalents dans la médiocrité.
Bien sur, on peut penser que ces différences de prix sont dus à
• une différence entre les Boulangeries-pâtisseries d’une part et les pâtisseries-Salon-de-thé d’autre part
• une différence de localisation : Rive droite - Rive gauche
• une différence sur la qualité du produit : pâtisserie Industrielle - Fait Maison
Certaines de ces explications ne sont pas pertinentes, sont sans intérêt, d’autres ont du sens. Le problème de cette leçon est de savoir distinguer entre ces explications. Nous donnerons ici deux approches
complémentaires de cette question
1) composante commune et spécifique
Reprenons le problème : ce qu’il faut expliquer ici, c’est la composante spécifique, c’est à dire pour chaque
pâtisserie, l’importance de (xi − x̄). De maniére agrégée, on va mesurer ce que l’on doit expliquer par
n
X
Doit être expliqué =
(xi − x̄)2 = nσ2
i=1
Prenons l’explication de la qualité de la boutique, et distinguons les pâtisseries-salon-de-thé (qui sont
au nombre de n1 = 30 dans l’échantillon) des boulangeries-pâtisserie (qui sont au nombre de n2 = 20 dans
l’échantillon)
2
Patisserie-salon de thé
boulangerie-patisserie
2
N° patisserie
prix
prix
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
total
1,83
1,83
1,40
1,46
1,36
1,65
1,61
1,62
1,39
1,40
1,74
1,63
1,56
1,72
1,40
1,75
1,82
1,66
1,60
1,79
1,42
1,54
1,62
1,74
1,52
1,55
1,56
1,79
1,58
1,64
48,18
3,3489
3,3489
1,9600
2,1316
1,8496
2,7225
2,5921
2,6244
1,9321
1,9600
3,0276
2,6569
2,4336
2,9584
1,9600
3,0625
3,3124
2,7556
2,5600
3,2041
2,0164
2,3716
2,6244
3,0276
2,3104
2,4025
2,4336
3,2041
2,4964
2,7225
78,0107
2
N° patisserie
prix
prix
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
total
1,23
1,22
1,23
1,30
1,26
1,32
1,26
1,31
1,16
1,27
1,19
1,35
1,33
1,20
1,23
1,31
1,34
1,24
1,33
1,20
25,28
1,5129
1,4884
1,5129
1,6900
1,5876
1,7424
1,5876
1,7161
1,3456
1,6129
1,4161
1,8225
1,7689
1,4400
1,5129
1,7161
1,7956
1,5376
1,7689
1,4400
32,0150
Pour les n1 = 30 pâtisseries-salon-de-thé, je peux calculer le prix moyen et la variance du prix de l’éclair
au chocolat :
x̄1 =
48.18
30
σ 21 =
= 1.606
78.0107
30
− (1.606)2 = 0.02112067
Pour les n2 = 20 boulangeries-pâtisseries, je peux calculer le prix moyen et la variance du prix de l’éclair
au chocolat :
x̄2 =
25.28
20
σ 22 =
= 1.264
32.0150
20
− (1.264)2 = 0.003054
On voit bien sur les données que dans chacun des deux groupes, il n’y a pas un prix unique. On peut
trouver une évaluation de ce fait dans les variances "internes à chaque groupe" (σ 21 n’est pas nul et σ 22 non
plus).
Evidemment, on pourrait recommencer notre décomposition en élément commun et spécifique et considérons par exemple une pâtisserie-salon de thé repérée par l’indice i . On peut écrire :
xi
=
x̄
composante
commune à tous
les établissements
+
(x̄1 − x̄)
composante
commune à toutes les
pâtisseries-salon de thé
+
(xi − x̄1 )
composante
spécifique
à l’établissement i
Nous avons donc "expliqué" le prix dans l’établissement i en le décomposant entre
½
une composante commune
une composante spécifique
x̄ + (x̄1 − x̄)
(xi − x̄1 )
3
Reste à expliquer la composante spécifique, c’est à dire, en reprenant le raisonnement précédent, pour
chaque pâtisserie-salon de thé, l’importance de (xi − x̄1 ). De maniére agrégée, on va mesurer ce que l’on doit
expliquer par
30
X
Doit être expliqué =
(xi − x̄1 )2 = 30σ 21 = n1 σ 21
i=1
Ce que nous avons fait pour les pâtisseries-salon de thé peut être fait pour les boulangeries-pâtisseries, il
nous restera à expliquer la composante spécifique, et de manière agrégée :
Doit être expliqué =
50
X
(xi − x̄2 )2 = 20σ 22 = n2 σ 22
i=31
Résumons nous :








Doit être expliqué
au départ
Reste à expliquer
à l’arivée
50σ 2
30σ 21 + 20σ 22
nσ2
n1 σ 21 + n2 σ 22







Pour savoir dans quelle mesure le schmilblick a progressé , on calcule le rapport des deux termes :
30σ 21 +20σ 22
50σ 2
=
n1 σ 21 +n2 σ 22
nσ 2
= ( nn1 σ 21 +
n2 2
2
n σ 2 )/σ
Dans notre exemple, le dénominateur de cette fraction vaut
n1 2
n σ1
+
n2 2
n σ2
=
30
50 0.02112067
+
20
50 0.003054
= 0, 013894
Il est clair que plus ce rapport est petit, plus ce qui reste à expliquer est faible devant la tache qui nous
attendait au départ.
2) quelle information ?
Marcel rentre à la maison et annonce fièrement qu’il a acheté des éclairs au chocolat. Il ne donne aucune
information sur le prix payé, et la meilleure estimation du prix est x̄ = 1.47 euros pièce. Mais d’un coup
d’oeil sur l’emballage j’apprends qu’il a acheté dans une pâtisserie-salon de thé. Mon estimation du prix
change et maintenant je peux estimer qu’il a payé par x̄1 = 1.606.
4
Tout compte fait, je considère ainsi une variable fictive, Y qui assigne
½
à chaque pâtisserie-salon de thé i un prix yi = x̄1 = 1.606
à chaque boulangerie-pâtisserie i un prix yi = x̄2 = 1.264
Evidemment, cette variable Y qui donne à chaque établissement un prix estimé n’est jamais égale à la
variable X qui donne à chaque établissement son prix réel, mais Y capture une certaine partie de la réalité,
la preuve, c’est que Y est "dispersée" entre les établissements et reconstitue une partie de la dispersion de
la variable X.
Calculons alors les caractéristiques de Y : pour calculer les moyennes et vartiances de Y , il faut calculer
la somme des yi et celle des yi2 . Comme Y est constante à l’intérieur du même groupe d’établissement, le
calcul est très simple :
Type
d’établissement
pâtisserie-salon de thé
Boulangerie-pâtisserie
valeur commune
de Y
x̄1 = 1.606
x̄2 = 1.264
Total
La moyenne de la variable Y est de
La variance de Y est de
109,331
50
73.46
50
effectif
ef f ectif ∗ valeur
n1 = 30
n2 = 20
n = 50
n1 x̄1 = 48.18
n2 x̄2 = 25.28
73.46
ef f ectif ∗ valeur 2
n1 x̄21 = 77.37708
n2 x̄22 = 31.95392
109.331
= 1.4692 = 1, 47 : c’est la même que précédemment.
− (1, 4692)2 = 2, 18662 − 2, 15854864 = 0, 02807136
Notons qu’on aurait pu calculer la variance de Y en calculant la somme des carrés des écarts à la moyenne
:
Type
d’établissement
pâtisserie-salon de thé
Boulangerie-pâtisserie
valeur commune
de Y
x̄1
x̄2
Total
effectif
n1
n2
n
ef f ectif ∗ (valeur − moyenne)2
n1 (x̄1 − x̄)2 =
n2 (x̄2 − x̄)2 =
nV (Y ) = n1 (x̄1 − x̄)2 + n2 (x̄2 − x̄)2
On aurait obtenu une formule équivalente pour la variance de Y :
V (Y ) =
n1
n (x̄1
− x̄)2 +
n2
n (x̄2
− x̄)2
formule qui nous servira au second chapître.
3) réconciliation des points de vue
Un premier raisonnement nous a fait calcule ce qu’il reste à expliquer après la distinction entre les deux
types d’établissements :
il reste à expliquer la quantité
n1 2
n σ1
+
n2 2
n σ2
= 0, 013894
le second raisonnement nous a fait calculer "ce que l’on explique" par la distinction entre les deux types
d’établissement
On a expliqué la quantité
V (Y ) =
n1 2
n x̄1
+
n2 2
n x̄2
− x̄2 =
n1
n (x̄1
− x̄)2 +
n2
n (x̄2
− x̄)2 = 0, 02807136
Il serait de bon goût que la somme de ce qui reste à expliquer et de ce que l’on a expliqué soit égale la
somme totale que l’on devait expliquer au départ , c’est à dire que
0, 013894 + 0, 02807136 = 0.04196536
5
ce qui est vrai, et c’est un miracle, connu sous le nom de formules d 0 analyse de la variance qui fait et
fera l’objet de multiples applications, en particulier à l’examen.
II la théorie et les formules
Supposons une population répartie en deux groupes d’individus sur laquelle est définie la variable X telle
que
Population
effectif
moyenne
variance
Groupe 1
n1
x̄1
σ 21
Groupe 2
n2
x̄2
σ 22
Total
n
x̄
σ2
dans ces conditions, on a :
FORMULEs d’ANALYSE DE LA VARIANCE
(a)
n = n1 + n2
(b)
x̄ =
(c)
n1
n x̄1
+
n2
n x̄2
 2 £n 2
 σ = n1 σ 1 +
ou
 2 £ n1 2
σ = n σ1 +
n1 2
n σ2
n1 2
n σ2
¤
¤
+
+
£ n1
n
£ n1
n
x̄21 +
n2 2
n x̄2
− x̄2
(x̄1 − x̄)2 +
¤
n2
n (x̄2
− x̄)2
¤
La formule (a) n’appelle aucun commentaire particulier, elle exprime une tautologie : le tout est la
somme de ses parties.
La formule (b) exprime le fait que la moyenne totale est la "moyenne pondérée" des moyennes de
groupe. Evidemment, si les groupes sont de tailles très différentes, on peut s’attendre à ce que la moyenne de
l’ensemble soit plus proche de la moyenne du groupe le plus gros. Il faut se méfier de cette formule anodine.
Elle peut expliquer l’existence de nombreux paradoxes dont nous donnerons deux exemples
Dans la France du Nord, la consommation moyenne de pommes de terre des familles d’ouvriers est de
50 kilos par personne et par an, bien supérieure à celle des familles d’employés qui n’est que de 40 kilos par
personne et par an
Dans la France du Sud, la consommation moyenne de pommes de terre des ouvriers est de 30 kilos par
personne et par an, bien supérieure à celle des familles d’employés qui n’est que de 20 kilos par personne et
par an.
Pourtant dans la France entière, la consommation moyenne de pommes de terre des familles d’ouvriers
est inférieure à celle des familles d’employés
Ce paradoxe tient au fait que la répartition des familles d’employés entre le Nord et le Sud de la France
n’est pas la même que celle des ouvriers
Supposons, en forçant le trait, la répartition suivante :
Nord
Sud
OUVRIERS
consommation
effectifs
moyenne
10
50
90
30
EMPLOYES
consommation
effectifs
moyenne
90
40
10
20
Nord
Sud
6
la consommation moyenne des ouvriers est de
la consommation moyenne des employés est de
10
100
∗ 50 +
90
100
90
100
∗ 40 +
∗ 30 = 32 kilos par famille
10
100
∗ 20 = 38 kilos par famille
Le deuxième exemple est celui des elections : Rodolphe et Albert sont les seuls candidats à une élection
locale pour laquelle il n’y a que deux bureaux de vote (A et B). Un sondage d’opinion a montré que pour
chacun des bureaux de vote, la proportion des ouvriers favorables à Rodolphe est supérieure à celle des
employés favorables à Rodolphe, comme en témoigne le tableau suivant :
Bureau de vote
A
B
Proportion des
ouvriers favorables
à Rodolphe
0.60
0.30
Proportion des
employés favorables
à Rodolphe
0.50
0.20
dans le bureau A, 60% des ouvriers sont favorables à Rodolphe, ce qui est plus important que la proportion
des employés favorables à Rodolphe qui n’est que de 50%. On fait le même constat pour le bureau B avec
30% des ouvriers favorables à Rodolphe contre 20 des employés.
Peut-il se faire que dans l’ensemble des bureaux, la propoortion des ouvriers favorables à Rodolphe soit
inférieure à la proportion des employés favorables à Rodolphe ? Là encore, tout dépend des effectifs :
supposons la répartition suivante :
Bureau de vote
A
B
Ouvriers
10
90
Employés
90
10
Il y a évidemment 100 ouvriers et 100 employés dans la population totale.
Les nombres d’ouvriers votant pour Rodolphe sont de 10 ∗ 0.6 = 6 pour le bureau A et 90 ∗ 0.3 = 27 dans
le bureau B. Au total, 33 ouvriers sur 100 votent en faveur de Rodolphe
Les nombres d’employés votant pour Rodolphe sont de 90 ∗ 0.4 = 36 pour le bureau A et 10 ∗ 0.3 = 3
dans le bureau B. Au total, 39 employés sur 100 votent en faveur de Rodolphe
Ainsi, lorsqu’une population est morcelée en différents groupes, il faut absolument tenir compte des
effectifs des groupes, sinon on risque fort de proférer des résultats faux.
la formule (c) est la plus astucieuse. Elle nous dit que la variance totale σ 2 est la somme de deux termes
:
n1 2
n σ1
+ nn1 σ 22 : Ce premier terme est une moyenne des variances à l’intérieur des groupes. Nous avons vu
que la décomposition de la population totale en deux groupes est d’autant plus justifiée que ce terme est
faible. Cette grandeur reçoit différents noms selon les contextes, parmi lesquels :



variance interne aux groupes
variance intra-groupes
variance résiduelle
£ n1
¤
£
¤
x̄21 + nn2 x̄22 − x̄2 ou nn1 (x̄1 − x̄)2 + nn2 (x̄2 − x̄)2 : Ce terme, nous l’avons vu, est la variance de la
variable qui serait constante sur chacun des groupes, assignant à chaque individu la valeur moyenne du
groupe auquel il appartient.représente l’information que l’on peut tirer de la décomposition en deux groupes.
Cette grandeur reçoit différents noms selon les contextes, parmi lesquels :
n



Variance entre les centres de groupe
Variance Inter groupes
Variance expliquée.
7
On pourra écrire, l’équation :
Variance Totale = Variance Résiduelle + Variance Expliquée
Reprenons notre histoire d’éclairs au chocolat : nous avons calculé :
la Variance Résiduelle
La Variance Expliquée
La variance totale qui est
la somme de ces deux résultats
n1 2
n2 2
n σ 1 + n σ 2 = 0, 013894
n1 2
n2 2
2
n x̄1 + n x̄2 − x̄ = 0, 02807136
σ 2 = 0.04196536
Nous avons vu que la "qualité" de l’explication par la présence de deux groupes se mesure par le rapport
de la Variance Résiduelle à la variance totale. Nous découvrons que ce coefficient est compris entre 0 et 1 :
la qualité est d’autant meilleure que ce coefficient est proche de 0
Dans la pratique, on préfère donner son complément à 1 : c’est à dire le rapport de la variance expliquée
à la variance totale Dans notre exemple, ce rapport vaut 0, 6689. C’est un nombre compris entre 0 et 1. La
qualité de l’explication par la présence des deux groupes est d’autant meilleure que ce coefficient est proche
de 1.
On désigne généralement ce rapport par la notation R2 . Suivant les auteurs, on l’appelle "Rapport de
corrélation" ou "Coefficient de détermination" ou ...
8
II la démonstration de la formule
Le but de cette partie est de démontrer effectivement la formule de décomposition de la variance qui
apparait comme miraculeuse.
Commençons par rappeler un résultat que nous avons déjà vu dans la Leçon 2 : ( la célèbre formule de
Konig)
Considérons une population de n individus numérotés par i variant de 1 à n,
sur laquelle est définieune variable quantitative Y :
Pour chaque individu i on note Yi la valeur prise par Y sur cet individu.
n
X
Yi
La variance de Y est notée V ar(Y ) =
1
n
La moyenne de Y est notée ȳ =
1
n
i=1
n
X
(Yi − ȳ)2
i=1
On a alors, pour tout nombre a :
n
n
X
X
(Yi − a)2 =
(Yi − ȳ)2 + n(ȳ − a)2
i=1
i=1
n
X
(Yi − a)2 = nV ar(Y ) + n(ȳ − a)2
soit :
i=1
reprenons alors nos deux groupes de personnes et les notations que nous avons utilisées au chapître
précédent, ainsi que les formules que nous devons démontrer
tout d’abord, les notations utilisées
Population
effectif
moyenne
variance
Groupe 1
n1
x̄1
σ 21
Groupe 2
n2
x̄2
σ 22
Total
n
x̄
σ2
ensuite, les formules qu’il convient de démontrer :
FORMULES de
l’ANALYSE DE LA VARIANCE
(a)
n = n1 + n2
(b)
x̄ =
(c)
σ2 =
n1
n x̄1
£ n1
n
+
n2
n x̄2
σ21 +
n1 2
n σ2
¤
+
£ n1
n
x̄21 +
n2 2
n x̄2
− x̄2
¤
La formule (a) n = n1 + n2 est évidente.
La formule (b) x̄ =
n1
n x̄1
+
n2
n x̄2
se démontre de la façon suivante :
9
Pour calculer la moyenne x̄ de la variable X, on calcule la somme des modalités observées
n
X
xi et on
i=1
la divise par l’effectif de la population. Il est facile d’en conclure que la somme des modalités observées est
égale au produit n ∗ x̄ du nombre d’individus par la moyenne de la variable dans la population.
Ce que nous venons de dire pour la population totale est valable pour chacune des sous populations :
somme des modalités observées
Groupe 1
Groupe 2
Total
somme des modalités observées
n1 x̄1
n2 x̄2
nx̄ = n1 x̄1 + n2 x̄2
En divisant la derniére ligne par n, on obtient la formule (b) : x̄ =
La formule (c) σ2 =
£ n1
n
σ 21 +
n1 2
n σ2
¤
+
£ n1
n
x̄21 +
n2 2
n x̄2
n1
n x̄1
+
n2
n x̄2
¤
− x̄2 s’obtient à partir de la formule de Koenig :
Pour calculer σ2 , la variance totale de la variable X, il faut calculer la somme des carrés des écarts à la
n
X
moyenne
(xi − x̄)2 et la diviser par l’effectif de la population. Il est facile d’en conclure que la somme des
i=1
carrés des écarts à la moyenne est égal au produit n ∗ σ 2 de l’effectif de la population par la variance.
Pour le groupe 1, nous voulons calculer la somme des carrés des écarts, non pas à la moyenne x̄1 du
groupe 1, mais la somme des carrés des écarts à la moyenne x̄ générale. Heureusement, la formule de Konig
appliquée au Groupe 1 nous dit que pour tout nombre a,
n1
n1
X
X
(Xi − a)2 = n1
(Xi − x̄1 )2 + n1 (x̄1 − a)2 = n1 σ 21 + n1 (x̄1 − a)2
i=1
i=1
Cette formule est valable pour tout nombre a, et en particulier pour x̄ : on obtient alors
n1
X
(Xi − x̄)2 = n1 σ 21 + n1 (x̄1 − x̄)2
i=1
C’est dire que nous pouvons écrire :
Population
Somme des carrés des écarts à la moyenne générale x̄
Groupe 1
n1 σ21 + n1 (x̄1 − x̄)2
Groupe 2
n2 σ22 + n2 (x̄2 − x̄)2
Totale
£
¤ £
¤
nσ 2 = n1 σ 21 + n1 (x̄1 − x̄)2 + n2 σ 22 + n2 (x̄2 − x̄)2
En divisant la dernière ligne par l’effectif n, et en réarrangeant les différents termes, nous obtenons :
σ2 =
£ n1
n
σ 21 +
n2 2
n σ2
¤
+
£ n1
n
(x̄1 − x̄)2 +
n2
n (x̄2
− x̄)2
¤
La variance totale est somme de deux termes : le premier, nous le connaissons, c’est ce que nous avons
appelé la Variance Résiduelle. Le second, nous le connaissons aussi, c’est la variance expliquée. La formule
de décomposition de la variance est donc démontrée
10
III A quoi sert cette formule : exemples d’applications
Cette formule est d’un emploi très général en statistiques. Nous montrerons des exemples d’application
directe en plusieurs méthodes de statistiques descriptives "avancées", qui sont enseignées dans le cours
d’Analyse des Données, et qui sont une des suites logiques de ce programme. Nous survolerons ici des
exemples de Construction de Typologie, d’Analyse Discriminante, car on peut comprendre l’application de
ces méthodes avec les outils que nous avons développés.
Il ne faut pas se cacher que dans la vie réelle comme on dit, la mise en oeuvre de ces méthodes demande
de gros volumes de calcul et donc presque nécessairement l’utilisation d’un ordinateur. Ces méthodes sont
programmées, et nombreux sont les logiciels qui proposent l’accés à ces ces méthodes de calcul. Certains
sont gratuits, par exemple le logiciel ADE4 que l’on trouve gratuitement sur Internet, d’autres proposent un
tarif "quasi gratuit" pour les étudiants (SPADN ) d’autres enfin sont des solutions professionnelles onéreuses
(SAS, SPSS, ...)
Cette formule est aussi d’un emploi tout à fait courant dans des domaines où l’on fait usage du cacul
des probabilités : par exemple pour la construction de Sondages (d’opinion, ...) ou pour ce que l’on appelle l’Annalyse de la Variance. Helas, il faudrait avoir des connaissances plus importantes en théorie des
probabilités (mais celles du cours A4 suffisent) pour comprendre où intervient réellement cette formule
Reprenons les ingrédients de la formule : on a une population découpée en deux sous populations, une
variable quantitative définie sur cette population et la formule permet de recalculer la moyenne et la variance
de la population totale à partir de moyennes et variances des sous populations. Un coefficient, R2 , permet
d’apprécier l’intérêt du découpage : il y a ici deux interprétations qui peuvent nous servir :
a) soit, ce qui nous intéresse, c’est l’explication de la variable quantitative : on se demande donc en quoi
le découpage en groupes permet d’expliquer les différentes valeurs de la variable quantitative.
b) soit ce qui nous intéresse, c’est l’explication de la variable qualitative : on se demande donc en quoi
la connaissance de la valeur prise par la variable quantitative permet d’inférer l’appartenance au groupe.
11
III.1 Typologie, Classifications
Ici, on veut expliquer les écarts interindividuels d’une variable par la présence dans la population de
plusieurs sous-groupes d’individus aux caractéristiques très différentes. Supposons, comme dans l’exemple
suivant, que l’on dispose de 7 façons de découper la population en 2 groupes d’individus : Aprés un premier
découpage, on peut récidiver, et obtenir ainsi 42 découpages différents, pui recommencer ,... Il n’est pas
question d’explorer "à la main" les différents découpages, on va plutôt rechercher les découpages les plus
pertinents à l’aide du critère précédent.
L’exemple proposé ici est purement fictif : pour 95 logements à la vente, on dispose des variables suivantes
:
P
A
B
C
D
E
F
G
le prix au mètre carré
Nombre de pièces (1= ≤ 2 piéces, 2 = 3 pièces ou plus )
proximité d’un espace naturel ( un parc, un bois, ..) (1 = NON, 2 = OUI)
proximité des transports collectifs (1 = NON, 2 = OUI)
proximité de l’école (1 = NON, 2 = OUI)
Parking privatif (1 = NON, 2 = OUI)
proximité des commerces (1 = NON, 2 = OUI)
Etage (1 = rez de chaussée, 2 = étage )
le tableau ci dessous propose un extait du fichier des données, en annexe de cette leçon, on trouvera le
tableau complet pour ceux qui voudraient refaire les calculs.
N°
1
2
3
4
prix/m2 nb piece
P
A
1,293
2
1,820
2
1,754
2
2,112
1
parc
B
1
2
2
1
trans
C
2
1
2
2
ecole
D
2
1
1
2
park
E
1
2
1
1
comm
F
1
1
2
2
étage
G
1
2
2
1
Ainsi, l’appartement n◦ 3 est un appartement
dont le prix au mètre carré est de 1.754,
situé à proximité d’un espace vert,
qui comporte au moins 3 pièces
situé à proximité des transports collectifs
situé plutôt loin de l’école
ne dispose pas d’un parking privatif
situé à proximité des commerces
situé à l’étage et non au rez de chaussée.
L’histogramme de la variable P, "prix au mètre carré", montre à l’évidence (encore le réflexe plusieurs
modes, plusieurs populations ) qu’il y aurait en fait trois groupes d’appartements.
12
12
10
8
6
4
2
2,
46
9
2,
31
9
2,
16
9
2,
01
9
1,
86
9
1,
71
9
1,
56
9
1,
41
9
1,
26
9
1,
11
9
0
Pour identifier ces différents groupes, s’ils existent, il faudrait regarder les histogrammes de chacun des
découpages en sous groupes proposés par les variables dichotomiques. Ici, le tavail n’est pas insurmontable,
dans la mesure où l’on ne dispose que de 7 de ces variables, imaginez le cas où l’on disposerait d’une centaine
de variables!
Prenons par exemple le cas de la variable A, nombre de pièces du logement :
21 logements ont 2 pièces au plus, et 74 logements ont au moins trois pièces. les histogrammes de la
distribution des prix dans chacun des groupes sont les suivants :
2 piéces au plus
au moins trois pièces
1,
11
9
1,
26
9
1,
41
9
1,
56
9
1,
71
9
1,
86
9
2,
01
9
2,
16
9
2,
31
9
2,
46
9
0
2,
46
9
0
2,
31
9
2
2,
16
9
2
2,
01
9
4
1,
86
9
6
4
1,
71
9
6
1,
56
9
8
1,
41
9
10
8
1,
26
9
12
10
1,
11
9
12
On n’a pas vraiment l’impression d’avoir trouvé une explication à la dispersion des prix au mètre carré.
Regardons alors avec le critère de la variance expliquée : Le tableau suivant donne tous les renseignements
souhaités, :
Population
au plus
au moins
totale
2 pièces
3 pièces
effectif
95
21
74
moyenne 1, 745041832 1, 781165048 1, 734790649
variance
0, 130594093 0, 131721498 0, 129798762
La variance expliquée par le découpage en 2 groupes selon le nombre de pièces est égale à
2
21∗74
952 (1, 781165048 − 1, 734790649) = 0, 000370306
ce qui conduit à un R2 = 0,000370306
0,130594093 = 0, 002835547
le nombre de pièces du logement n’explique en rien le prix au mètre carré.
Examinons maintenant les autres variables dichotomiques selon le critére de la variance expliquée :

 effectif
moyenne
rappelons que dans la population totale, on a

variance
13
95
1, 745041832
0, 130594093
variable
effectifs
moyennes
variances
% variance
expliquée
1
21
1.781
0.1317
0.0028
2
74
1.735
0.1297
1
31
2.108
0.0547
B (espace vert)
0.4879
2
64
1.569
0.0728
1
13
1.405
0.0443
C (transports)
0.1403
2
82
1.799
0.1230
1
21
1.477
0.0480
D (école)
0.1557
2
74
1.821
0.1279
1
29
1.879
0.1592
E (parking)
0.0602
2
66
1.686
0.1067
1
35
1.404
0.0437
F (commerce)
0.5194
2
60
1.944
0.0739
1
37
1.453
0.0551
G (étage)
0.4178
2
58
1.932
0.0894
La "meilleure dichotomie" est obtenue en prenant la variable F (commerce), elle conduit à un R2 de 0.52.
A (nbre piéces)
pas de commerce à proximité
commerces à proximité
10
12
8
10
8
6
6
4
4
2
46
9
2,
24
4
2,
01
9
2,
79
4
1,
56
9
1,
34
4
1,
11
9
1,
1,
11
9
1,
34
4
1,
56
9
1,
79
4
2,
01
9
2,
24
4
2,
46
9
2
0
0
Le découpage proposé permet d’identifier les appartements dont le prix au mètre caré est le plus bas. Reste
la population des 60 logements qui n’ont pas d’espace vert à proximité. Dans cette population, la distribution
du prix au mètre carré est clairement bimodale. Il va falloir redécouper l’ensemble des logements qui ont des
commerces à proximité. On recommence donc l’opération précédente pour cette sous population.
14

 effectif
rappelons les caractéristiques de cette population : moyenne

variance
60
1, 9440
0, 0739
La pertinence des découpages est calculée dans le tableau suivant :
variable
A (nbre piéces)
B (espace vert)
C (transports)
D (école)
E (parking)
G (étage)
effectifs
moyennes
variances
17
43
28
32
2
58
8
52
20
40
5
55
1.8813
1.9872
2.1722
1.7442
1.5222
1.9585
1.6572
1.9881
2.1104
1.8607
1.7682
1.9599
0.09223
0.06448
0.01145
0.04035
0.00605
0.06989
0.00833
0.06939
0.03668
0.07172
0.03913
0.07389
1
2
1
2
1
2
1
2
1
2
1
2
% variance
expliquée
0.02099
0.6170
0.0830
0.1712
0.1875
0.0380
La variable B (proximité des espaces verts) est la variable la plus pertinente : les histogrammes des deux
sous population viennent confirmer ce fait :
commerces à proximité
espaces verts à proximité
12
10
8
6
4
2
15
2,
46
9
2,
24
4
2,
01
9
1,
79
4
1,
56
9
1,
34
4
1,
11
9
2,
46
9
2,
24
4
2,
01
9
1,
79
4
1,
56
9
0
1,
34
4
1,
11
9
9
8
7
6
5
4
3
2
1
0
commerces à proximité
pas d’espaces verts à proximité
Le résultat final de notre étude peut se résumer ainsi :
population totale
commerce à proximité
pas de commerce à proximité
espace verts à proximité
pas d’espace verts à proximité
On doit donc considérer qu’il y a trois groupes d’appartements homogènes : ceux qui n’ont pas de
commerces à proximité et qui sont les moins chers (au prix de mètre carré), ceux qui ont des commerces
et des espaces verts à proximité, dont le prix est "moyen" et ceux qui sont proche des commerces et loin
des espaces verts et qui sont les plus onéreux. On pourrait penser que l’on décrit ainsi le prix des logements
d’une cité avec un centre historique très attractif (?)
16
III.2 Analyse discriminante
Ici, nous faisons la démarche inverse de la précédente : nous voulons nous servir de la connaissance de la
valeur prise par des variables quantitatives sur une population pour déduire l’appartenance d’un individu à
un groupe.
Pour comprendre comment fonctionne la méthode, donnons un exemple avec deux variables : on dispose
de deux types de fleurs des roses de Tasmanie et des roses du Queensland. Rien ne les distingue si ce n’est
la longueur du pétale (X) et la longueur du sépale (Y). Pour chaque rose i, je connais donc sa provenance
(Tasmanie ou Queensland) la longueur de son pétale xi et la longueur de son sépale yi Représentons chacune
des roses par un point sur le dessin :
180
y
160
140
120
100
Queensland
Tasmanie
80
60
40
20
x
0
0
10
20
30
40
50
60
Evidemment, la connaissance de la valeur prise par la longueur du pétale xi ne permet pas de décider
si une rose provient de Tasmanie ou du Queensland, il en est de mêm lorsqu’on connait la longueur yi du
sépale. Par contre, il est clair que l’on peut tracer sur ce dessin une droite qui sépare le plan en deux parties
: chacune de ces parties ne contient qu’un seul type de rose :
17
180
y
160
140
120
100
Queensland
Tasmanie
80
60
40
20
x
0
0
10
20
30
40
50
60
cette droite passe visiblement par les points A(xA = 0; yA = 40) et B(xB = 60; yB = 160). Comme nous
l’avons vu dans le cours A1, nous pouvons calculer l’équation de cette droite qui est y = 2x + 40
Cette droite sépare le plan en deux parties : la première contient les rose de Tasmanie : pour tous les
points de ce demi-plan, on a y > 2x + 40 et la seconde partie contient toutes les roses du Queensland : pour
tous les points de ce demi-plan, on a y < 2x + 40
:
Ainsi, pour savoir si une rose i vient de Tasmanie ou du Queensland, il me suffit de calculer wi = yi − 2xi
si cette quantité est inférieure à 40, la rose vient du Queensland,
si wi est supérieur à 40, elle vient de Tasmanie.
On obtient ici un exemple dans lequel chacune des deux variables X et Y ne discrimine pas entre les deux
groupes (donne un R2 faible) alors qu’une nouvelle variable W calculée comme une combinaison linéaire de
ces deux variables permet de discriminer parfaitement (R2 proche de 1) entre les deux groupes.
Cette technique a été appliquée avec succés dans le cas du crédit scoring dont le principe est le suivant :
Vous demandez un crédit à la consommation à une banque. Au guichet, on vous fait remplir un questionnaire sommaire demandant les valeurs d’un certain nombre de variables : X, le viveau de vos revenus
(fiche de paye),Y le nombre de vos enfants,Z le loyer ou la valeur locative de votre habitation, ... Au vu du
résultat de votre questionnaire, la réponse tombe : oui, vous avez le crédit, non vous ne l’avez pas. Comment
cela fonctionne-t-il ?
Evidemment, vous n’êtes pas le premier à demander un crédit. La banque possède un fichier comportant
plusieurs milliers de questionaires rempli par des personnes qui ont déja fait des transactions avec la banque
: A chacun de ces questionnaires on a pu rajouter un renseignement : appartient au groupe des personnes
qui ont remboursé l’emprunt, appartient au groupe des personnes défaillantes.
Pour chacune des variables du fichier, la banque peut calculer le R2 qui explique en quoi la connaissance
de la variable peut renseigner sur l’appartenance au groupe. On peut très bien obtenir des résultats de la
forme :
18
Variable
Revenu
Nbre d’enfants
Valeur locative
sigle
X
Y
Z
R2
0,21
0,14
0,17
Au vu de ces résultats, il apparait que chacune de ces variables n’explique que très faiblement l’appartenance
au groupe. Cependant, on peut aussi utiliser une variable composite par exemple U = 0.4X + O.8Y − 0.3Z
; ou encore V = 0.2X − 0.4y + 0.3Z et obtenir
variable composite
0.4X + O.8Y − 0.3Z
0.2X − 0.4y + 0.7Z
−0.3X + 0.2y − 0.4Z
R2
0.14
0.37
0.69
Ainsi la troisième variable "est celle qui dicscrimine le mieux" entre les deux groupes. Evidemment,
vous allez me demander comment on fait pour trouver les coefficients. Je vous répondrai que d’une part,
on explique dans le cours de cycle C d’analyse des données comment on fait pratiquement pour résoudre le
problème mathématique de trouver "le ,jeu de coefficients" qui conduit au plus grand R2 .D’autre part, je
vous répondrai que l’important ici, c’est de poser le problème : je cherche les valeurs que je dois donner aux
trois nombres a, b et c pour que le R2 associé à la variable W = aX + bY + cZ soit le plus grand possible.
Le reste, c’est affaire d’un mathématicien.
Une fois que j’ai le "bon jeu de coefficients", je regarde si la variable que j’ai créée permet effectivement
de discriminer entre les groupes : sur un échantillon test, je regarde la proportion de dossiers j’aurais accepté
à tort en utilisant cette variable (pertes dues au non remboursement) et la proportion de dossiers que j’aurais
refusé à tort (manque à gagner). Si ces deux proportions sont raisonnables, j’utilise ce critère pour accepter
ou refuser un dossier
On a essayé d’appliquer cette méthode comme comme une aide au diagnostic en milieu médical : le
principe est le même, on prend un groupe de personnes saines et un groupe de personnes atteintes d’une
maladie. Sur chacune de ces personnes, on mesure un certain nombre de variables (stature, poids, pression
artérielle, température, ...) on cherche une combinaaison de ces critères qui permet de séparer les malades
des personnes saines.
Mais un médecin ne raisonne pas de la même façon qu’un banquier : vous me dites qu’il faut prendre le
poids, enlever 0.47 fois la température et rajouter 1.48 fois la pression systolique : que faites vous de l’age
du capitaine ?
En général les formules que l’on trouve par ce procédé reçoivent peu d’interprétation concrètes. Je veux
comprendre de quoi il s’agit dit le médecin, si je ne comprends pas, je n’autilise pas. Je ne suis pas intéressé
à comprendre, je veux simplement être efficace et ne pas perdre d’argent pense le banquier, même si je ne
comprends pas bien, j’utilise.
Dans le même ordre d’idées, on a donné des procédures pour prendre en compte des variables qualitatives
: ici, on a évidemment un problème du genre soit xi le stratut (célibataire, marié, divorcé, PACS, ... ) de la
personne observée et yi son lieu d’habitation (commune rurale, commune urbaine, agglomération de moins
de 20000 habitants, ..) qu’est-ce que cela veut dire de calculer 0.2xi + 0.78yi et surtout comment faire cette
opération ? Laissons un peu de magie pour le cours de cycle C d’analyse des données.
19
N°
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
prix/m2 nb piece
P
A
1,293
2
1,820
2
1,754
2
2,112
1
1,892
1
2,200
2
2,168
2
1,981
2
1,392
2
1,671
2
2,278
2
1,284
2
1,989
1
1,305
2
1,427
2
2,260
2
2,099
2
1,780
2
2,128
2
2,165
2
2,115
1
1,385
2
1,280
1
1,325
2
1,653
2
1,460
2
1,669
2
2,383
2
1,989
1
1,300
2
1,789
1
2,241
2
1,044
1
1,840
2
2,256
2
2,224
1
2,049
1
1,670
2
1,389
2
1,754
1
1,118
2
2,069
2
2,187
2
1,531
2
2,152
2
1,500
2
1,444
2
1,933
1
parc
B
1
2
2
1
1
2
1
2
2
2
1
2
1
2
2
1
1
2
1
1
1
1
2
2
2
2
2
1
1
2
2
1
2
1
1
1
1
2
2
2
2
2
1
2
1
2
2
2
trans
C
2
1
2
2
2
2
2
2
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
1
2
2
2
2
2
2
2
2
1
2
2
2
2
2
2
2
1
2
2
2
2
2
1
2
ecole
D
2
1
1
2
2
2
2
2
2
1
2
2
2
1
2
2
2
2
2
2
2
2
2
2
1
2
1
2
2
2
2
2
1
2
2
2
2
2
1
1
1
2
2
2
2
2
1
2
park
E
1
2
1
1
2
1
1
2
1
2
1
2
2
2
1
1
1
2
2
1
1
2
2
2
2
2
2
1
2
1
2
2
1
1
1
2
2
2
2
2
2
2
1
2
1
2
2
2
20
comm
F
1
1
2
2
2
2
2
2
1
1
2
1
2
1
1
2
2
2
2
2
2
1
2
1
2
1
2
2
2
1
1
2
1
1
2
2
2
2
1
2
1
2
2
2
2
1
2
2
étage
G
1
2
2
1
2
2
2
2
1
1
2
2
2
1
1
2
2
2
2
2
2
1
2
1
2
1
2
2
2
1
1
2
1
1
2
2
2
1
1
2
1
2
2
1
2
1
2
2

Documents pareils