TD7 : élections européennes de 1999 `a Paris

Transcription

TD7 : élections européennes de 1999 `a Paris
TD7 : élections européennes de 1999 à Paris
(Correction)
Note : les parties 1 et 2 sont indépendantes. On s’attachera à justifier autant que possible les réponses, tout en
évitant de faire du « remplissage » ; la note tiendra compte de la qualité de la rédaction.
1
Valeurs-tests pour des variables à deux modalités
On s’intéresse dans le cadre d’une ACP à une variable supplémentaire qualitative à deux modalités, que l’on notera
(1)
(2)
1 et 2. On note n(1) et n(2) les effectifs de ces catégories, et ck et ck leurs coordonnées sur l’axe k. Ces coordonnées
de catégories peuvent s’écrire, pour j = 1, 2
(j)
ck =
1
n(j)
X
i
cik ,
de mod.
j
où la somme s’effectue sur tous les individus ayant la modalité j. Comme d’habitude, λk est la valeur propre associée
à l’axe k et cik la coordonnée de l’individu i sur l’axe k. On rappelle que chaque vecteur ck est centré.
Question 1: Montrer que, pour chaque k,
(1)
(2)
n(1) ck + n(2) ck = 0.
Pn
On sait que, comme le vecteur ck est centré, i=1 cik = 0. Comme les individus appartiennent nécessairement soit à
la catégorie 1 soit à la 2, on peut écrire
X
i
dans cat.
X
cik +
1
i
dans cat.
cik =
2
n
X
cik = 0.
i=1
Question 2: Montrer que les valeurs tests associées aux deux modalités sont égales au signe près
La valeur-test associée à la catégorie 1 est égale à
s
(1)
ck
(1)
√
n(1)
n−1
√
,
λk n − n(1)
(2)
où là encore ck = −n(2) ck /n(1) et n − n(1) = n(2) . La valeur test ci-dessus devient donc
s
s
√
√
(2)
n(2) ck
n(1)
n−1
n(2) n − 1
(2)
√
√
= −ck
.
− (1)
λk n − n(1)
λk
n
n(1)
Pour chaque axe, les deux catégories ont donc la même valeur test au signe près.
2
Résultat des élections européennes de 1999 à Paris
On étudie les résultats des élections européennes de 1999 à Paris et dans quelques villes de banlieue. Les principales
listes en présence sont : LOLCR (extrême gauche), PC (communistes), PS (socialistes), Verts (écologistes), UDF (centre
droit), RPRDL (droite), RPFIE (droite souverainiste), FN (extrême droite), MN (extrême droite). Les communes sont les 20
arrondissements de Paris (I à XX), la ville dans son ensemble (Paris) et quelques communes de banlieue parisienne :
Athis-M (Athis-Mons), Courneuv (La Courneuve), Draveil, Neuilly (Neuilly-sur-seine), Pontoise et Thiais. On
donne ci-dessous les données brutes et leur matrice de corrélations.
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
1
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Paris
Athis-M
Courneu
Draveil
Neuilly
Pontoise
Thiais
2.1
PS
19.51
22.23
23.37
21.72
20.66
19.27
13.90
12.42
20.63
22.01
23.69
22.02
24.23
22.46
18.90
10.76
15.83
21.74
23.70
23.36
20.21
26.21
22.17
22.94
8.33
21.44
21.36
RPRDL
18.43
13.04
12.67
15.58
16.84
18.69
25.58
28.49
16.61
12.02
11.83
15.35
13.32
15.08
20.62
31.46
22.24
12.24
12.53
10.94
17.20
11.81
6.56
13.33
41.06
12.01
14.97
Verts
18.05
22.64
25.74
20.75
20.21
17.38
10.50
10.17
19.52
22.45
22.23
17.08
18.90
18.36
13.48
7.63
12.93
20.10
18.83
19.94
17.01
9.74
6.94
12.69
6.38
13.27
11.83
RPFIE
12.09
10.79
8.66
10.95
11.72
12.79
16.09
16.31
11.47
9.92
9.17
12.07
9.88
11.23
14.23
17.54
15.50
10.75
9.96
9.62
12.20
12.31
7.85
12.20
17.43
14.36
13.25
UDF LOLCR
PC
FN
MN Absten
10.65 4.39 4.19 4.05 3.03 48.31
9.31 5.49 5.05 3.82 2.18 49.54
8.53 5.73 5.53 2.95 2.00 47.73
10.80 4.98 4.67 3.24 2.39 47.19
10.84 5.25 4.24 3.02 2.08 43.93
15.93 3.04 2.90 2.91 2.42 43.23
18.11 1.97 1.45 3.77 3.06 44.44
15.72 1.68 1.23 4.54 3.19 49.17
10.82 4.53 4.18 4.72 2.52 48.85
7.47 6.97 6.87 4.50 2.96 50.69
7.92 7.08 6.42 4.29 2.53 49.47
10.24 5.44 5.04 4.23 3.21 48.73
8.25 6.57 6.57 4.10 2.80 49.07
11.07 5.31 4.88 3.81 2.84 47.16
13.75 3.56 3.14 3.88 3.11 47.72
16.77 1.43 1.11 4.06 3.68 47.88
13.08 3.62 2.86 4.79 3.40 48.98
6.95 7.21 5.94 6.57 3.50 52.40
7.00 7.05 7.03 5.73 3.24 53.94
7.06 8.07 7.43 5.29 3.19 51.49
10.86 5.16 4.69 4.42 3.03 49.05
7.19 6.40 7.34 7.56 4.47 57.54
3.09 7.37 26.56 9.73 4.12 61.99
9.20 5.98 7.29 5.33 3.59 55.11
13.25 0.82 0.66 3.16 3.23 46.12
10.17 5.85 5.41 6.49 3.31 56.94
8.27 5.70 8.68 5.19 4.11 53.57
PS
RPRDL
Verts
RPFIE
UDF
LOLCR
PC
FN
MN
Absten
PS
1.00
-0.95
0.59
-0.85
-0.77
0.91
0.48
0.33
-0.07
0.44
RPRDL
-0.95
1.00
-0.53
0.87
0.79
-0.93
-0.63
-0.47
0.01
-0.54
Verts
0.59
-0.53
1.00
-0.68
-0.33
0.52
-0.11
-0.38
-0.74
-0.29
RPFIE
-0.85
0.87
-0.68
1.00
0.82
-0.87
-0.62
-0.27
0.26
-0.33
UDF
-0.77
0.79
-0.33
0.82
1.00
-0.91
-0.75
-0.61
-0.20
-0.70
LOLCR
0.91
-0.93
0.52
-0.87
-0.91
1.00
0.62
0.50
0.07
0.58
PC
0.48
-0.63
-0.11
-0.62
-0.75
0.62
1.00
0.76
0.38
0.75
FN
MN Absten
0.33 -0.07
0.44
-0.47 0.01 -0.54
-0.38 -0.74 -0.29
-0.27 0.26 -0.33
-0.61 -0.20 -0.70
0.50 0.07
0.58
0.76 0.38
0.75
1.00 0.74
0.93
0.74 1.00
0.69
0.93 0.69
1.00
Analyse rapide des variables
Question 3: N. Sarkozy était maire de Neuilly en 1999, et il était aussi la tête de liste RPRDL. Comment cela se
retrouve-t-il dans les données ?
On remarque que le score de la liste RPRDL à Neuilly est important à 41, 06%. C’est de loin le meilleur score pour
cette liste (le suivant est 31, 46% pour XVI). On peut donc qu’il y a un rapport avec la popularité de N. Sarkozy à
Neuilly.
Question 4: Quelles sont les couples de variables remarquables (les plus corrélées, les moins corrélées, les plus opposées) ?
– variables les plus corrélées (r proche de 1) : r(FN, Absten)=0,93, aussi (PS, LOLCR), (RPRDL, RPFIE)
– variables les moins corrélées (r proche de 0) : r(RPRDL, MN)=0,01, aussi (PS, MN) et (MN, LOLCR)
– variables les plus opposées (r proche de −1) : r(PS, RPRDL)=-0,95, et (LOLCR, RPRDL), (UDF, LOLCR)
Question 5: Comment se groupent les variables du point de vue des signes de corrélation ? Quelle est la particularité
du vote FN (et dans une moindre mesure MN) ?
On a d’une part un bloc de partis de gauche, corrélés positivement (LOLCR, PC, PS, Verts) entre eux (sauf Verts et
PC, qui sont peu corrélés), et, d’autre part, un bloc de partis de droite (UDF, RPRDL, RPFIE) corrélés négativement avec
les premiers. Ce fonctionnement était assez prévisible.
Les chiffres plus surprenants concernent la liste FN, qui a plutôt tendance à être corrélée avec les partis les plus à
gauche (LOLCR, PC, PS), ce qui rompt avec l’étiquette d’extrême droite de l’énoncé. Le cas de MN est similaire, mais
moins marqué. De plus, le vote FN est très corrélé avec l’abstention.
2.2
Analyse des composantes principales
On procède à une analyse en composantes principales (sur variables centrées-réduites) des scores des différentes
listes. On donne ci-après les variances des composantes principales et, pour les trois premiers axes seulement, les
corrélations des variables, les coordonnées des individus, les contributions des individus aux axes et les qualités de
représentation des individus par les premiers espaces principaux (ces deux derniers tableaux en 10000èmes).
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
2
1
2
3
4
5
6
7
8
9
Variance
5.4795
2.6220
0.4302
0.2213
0.1247
0.0571
0.0414
0.0229
0.0008
Comp1 Comp2 Comp3
PS
0.92 -0.20 -0.25
RPRDL -0.95 0.09 0.12
Verts 0.48 -0.85 -0.07
RPFIE -0.92 0.29 -0.20
UDF
-0.93 -0.15 -0.05
LOLCR 0.97 -0.04 -0.15
PC
0.74 0.49 0.44
FN
0.55 0.79 -0.02
MN
0.06 0.93 -0.29
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Paris
Athis-M
Courneu
Draveil
Neuilly
Pontoise
Thiais
Axis1
-0.41
0.91
1.51
0.23
-0.11
-1.78
-3.86
-3.88
0.05
1.87
2.03
0.33
1.60
0.35
-1.73
-4.72
-2.09
2.01
2.14
2.46
-0.10
1.89
4.71
0.92
-5.44
0.45
0.63
Axis2
-0.52
-2.01
-2.91
-1.81
-2.07
-1.55
0.34
0.88
-1.04
-0.93
-1.54
-0.23
-0.95
-0.96
0.01
1.58
0.83
0.51
0.08
-0.24
-0.30
2.88
4.66
1.07
1.20
1.15
1.86
Axis3
0.00
0.34
0.63
0.30
0.48
0.29
0.07
0.21
0.24
-0.03
0.14
-0.42
-0.01
-0.13
-0.23
-0.03
-0.32
-0.65
-0.32
-0.32
-0.12
-1.51
2.30
-0.51
0.92
-0.77
-0.55
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Paris
Athis-M
Courneu
Draveil
Neuilly
Pontoise
Thiais
Axis1 Axis2 Axis3
11
38
0
56
569
98
154 1197
341
3
465
76
1
603
201
213
341
73
1005
16
5
1016
110
36
0
151
48
236
123
1
278
334
18
8
8
151
173
127
0
8
130
15
202
0
47
1508
353
1
295
98
88
273
37
365
309
1
86
409
8
90
1
12
13
243 1172 1951
1502 3069 4572
57
160
221
1999
203
727
14
187
513
27
488
263
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Paris
Athis-M
Courneu
Draveil
Neuilly
Pontoise
Thiais
Axis1 Axis2 Axis3
2733 7136 7136
1589 9376 9596
2024 9546 9898
146 9542 9793
23 8974 9464
4623 8162 8287
9406 9478 9482
9326 9810 9836
13 6766 7115
7202 8993 8994
6239 9817 9848
2348 3510 7217
6828 9232 9233
967 8236 8376
9032 9032 9198
8941 9943 9943
8164 9455 9648
6846 7289 8006
9316 9329 9533
9075 9160 9317
739 7938 9159
2454 8126 9676
4493 8887 9961
3366 7859 8878
8629 9048 9295
610 4559 6338
799 7722 8334
Question 6: Combien d’axes doit-on garder pour l’analyse ? Quelle sera alors la qualité globale de la représentation ?
3
2
●
1
pca1$eig
4
5
●
0
●
2
●
●
4
●
●
●
6
●
8
Index
Les parts d’inerties mentionnées ci-dessus sont les valeurs propres des axes (voir figure). La règle de Kaiser nous
propose de garder celles qui sont supérieures à 1. On garde donc les 2 premiers axes. On représente alors 90% de
l’inertie totale, puisque la somme des valeurs propres est égale à 9 (nombre de variables).
Question 7: Quelles sont les variables qui déterminent les deux premières composantes principales (précisez les critères
utilisés) ?
MN
FN
PC
RPFIE
RPRDL
LOLCR
UDF
PS
Verts
On représente ci-dessus le cercle des corrélations pour les axes (1, 2). On se fixe un seuil au dessus duquel la
corrélation est supposée pertinente. On propose ici un seuil égal à 0, 80, qui semble pertinent à tous les axes. On
obtient les caractérisations suivantes :
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
3
– axe 1 : en négatif RPRDL (−0, 94), UDF (−0, 93), RPFIE (−0, 92) ; en positif LOLCR (0, 97), PS (0, 92) ;
– axe 2 : en négatif Verts (−0, 85) ; en positif FN (0, 79) et MN (0, 93) ;
Question 8: Y a-t-il un effet de taille ? Pourquoi était-ce prévisible ?
Il n’y a pas d’effet de taille, puisque les corrélations avec le premier axe sont positives et négatives.
Ce n’est pas une surprise, puisque les scores somment à 100% : si une variable augmente, une autre doit diminuer.
La situation aurait été peut être différente avec les nombres de voix brutes.
Question 9: Comment peut-on interpréter les deux premiers axes principaux en fonction des variables ?
– axe 1 : opposition gauche/droite
– axe 2 : opposition verts/extrême droite ; cet axe est difficile à interpréter.
Question 10: Étudiez la contribution des individus aux deux premiers axes (précisez les critères utilisés).
d=2
Courneu
Athis−M
Thiais
XVI
Neuilly
VIII
VII
XVII
XV
Pontoise
Draveil
XVIII
XIX
XX
XII
Paris
I
IXXIV
VI
V
IV
XIIIX
XI
II
III
On compare les contributions des communes aux axes avec leur poids, c’est à dire 10000/27 = 370. On ne conserve
que les véhicules dont la contribution est supérieure à 3 fois le poids, c’est-à-dire ici 370 × 3 = 1110. On garde alors
– axe 1 : en négatif XVI (1508), Neuilly (1999) ; en positif Courneuv (1502)
– axe 2 : en négatif III (1197) ; en positif Courneuv (3069) et Athis-M (1172)
On aurait eu plus d’individus en prenant une limite moins contraignante, mais cela n’aurait pas aidé à l’interprétation.
Question 11: Quelle est la particularité de Courneuv ? Comment pourrait-on la prendre en compte ?
Courneuv est surreprésenté sur les axes 2 et 3. On aurait donc pu vouloir le passer en individu supplémentaire, pour
voir si les axes changent. Toutefois un véritable individu surreprésenté a tendance aussi à modifier les axes.
Dans les données originales, on constate surtout un score PC 3 fois plus élevé que le second (Thiais). Ce sont aussi
de loin les scores les plus bas de la droite classique. On peut supposer que d’autres villes de banlieue sont dans le
même cas, et si elles étaient présentes, Courneuv serait moins extraordinaire.
Question 12: Comparez les qualités de représentation des 5 individus suivants par le premier plan principal : I, XI,
XII, Paris, et Courneuv. Commentez en fonction de leurs coordonnées.
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
4
La qualité de la représentation des individus sur le premier plan principal se trouve directement dans la deuxième
colonne du tableau fourni.
L’individu le moins bien représenté est XII, mais comme il est proche du centre de gravité du nuage projeté, il est
difficile de conclure. I et Paris sont correctement représenté à 7136 et 7938, alors qu’il sont aussi au centre.
XI et Courneuv sont bien très représentés (9817 et 8887), mais celui des deux qui est le plus éloigné du centre est
le moins bien représenté du couple.
2.3
Variables supplémentaires
On se tourne maintenant vers les données qui ont été laissées de côté dans l’analyse de la section précédente : les
chiffres de l’abstention, d’une part, et la différence Paris/banlieue d’autre part. On donne ci-dessous les coordonnées
du barycentre des villes de banlieue sur les trois premiers axes et les corrélations de la variable Absten avec ces mêmes
axes.
banlieue
Axis1 Axis2 Axis3
0.53 2.14 -0.02
Absten
Comp1 Comp2 Comp3
0.61 0.69 -0.09
Question 13: Calculez les valeurs tests de la modalité Banlieue sur les trois axes. A quels axes cette modalité est-elle
liée (on fera comme si le nombre de données n’était pas un problème) ?
La modalité Banlieue a un effectif égal à 6. La formule de la valeur test sur l’axe k est donc
r r
6
27 − 1
,
ck
λk 27 − 6
où ck est la coordonnée du centre de gravité sur l’axe k et λk la valeur propre correspondante. Les valeurs significatives
sont supérieures à 2 ou 3 en valeur absolue. Les valeurs test obtenues sont
banlieue
Axis1 Axis2 Axis3
0.62 3.59 -0.08
Si on néglige le fait qu’un effectif de 6 est trop faible pour conclure, on peut dire que seul le second axe est lié
(positivement) à la modalité Banlieue. Cela permet d’affiner la définition du 2è axe, comme étant une opposition
entre les écologistes parisiens (« bobos ») et les protestataires FN/PC de la banlieue.
Question 14: Commentez la position de la variable Absten ; on rapprochera ces résultats de ceux de la question 5.
Absten est corrélée positivement avec les axes 1 et 2. Sur l’axe 1, on en déduit que l’abstention a surtout touché les
villes « de gauche ». Sur l’axe 2, on déduit que l’abstention est la première voie de protestation avant les votes FN et
MN. Cela rejoint les remarques sur la corrélation de FN et Absten de la question 5.
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
5