corrigé

Transcription

corrigé
TD12 : Examen de l’an dernier (correction)
1
AFC : premier tour des élections présidentielles de 2012 à Paris
1.1
Introduction
Les données qui suivent sont constituées par les résultats du premier tour des élections présidentielles de 2012 pour Paris.
Pour chacun des 10 candidats (en lignes), on a les effectifs de suffrages dans les 20 arrondissements de la ville ainsi que les
effectifs d’abstentions (en colonnes). L’objectif est d’analyser la structure des votes ainsi que les liaisons entre candidats et
arrondissements.
Les candidats sont : Arthaud (Art, extrème gauche), Bayrou (Bay, centre), Cheminade (Che, inclassable), Dupont-Aignan
(Dup, droite souverainiste), Hollande (PS, gauche classique), Joly (Jol, écologie), Le Pen (LeP, extrème droite), Mélenchon
(Mel, gauche communiste), Poutou (Pou, extrème gauche), Sarkozy (Sar, droite classique). Les arrondissements sont numérotés en chiffres romains de I à XX.
Les voix obtenues par les différents candidats sont représentées ci-dessous, ainsi que l’abstention.
Art
Bay Che Dup
Hol
Jol
LeP
Mel Pou
Sar
ABS
TOT
I
10
853
22
76
2546
364
491
660
39
3278
2068
10407
II
17
995
27
70
3595
509
444
993
38
3015
2551
12254
III
35 1641
29 125
6748
947
707
1710
89
4793
4084
20908
IV
41 1341
31 162
4887
675
800
1350
81
4511
3347
17226
V
83 3123
73 295 10356 1403 1561
3001 177
9164
6493
35729
VI
33 2420
47 196
5831
746
985
1249
90
9358
4718
25673
VII
19 2729
49 233
4623
579 1338
875
81 14644
5680
30850
VIII
15 1905
49 179
3307
449 1106
772
73 10975
4596
23426
IX
65 3101
52 262 10047 1347 1396
2667 148
9494
6985
35564
X
126 3353
80 319 16892 2324 2098
5901 304
8234
9744
49375
XI
171 6174 166 609 29024 3746 3378
9703 494 15353 15769
84587
XII
191 7171 145 832 25803 3056 4882
8166 492 19373 16790
86901
XIII
305 7873 205 1000 33824 3620 6236 11383 732 18783 21555 105516
XIV
189 6792 162 746 24502 2842 4141
7433 466 17575 15748
80596
XV
203 12526 256 1264 32006 3404 7143
8001 597 43531 26281 135212
XVI
61 6281 144 693 10583 1268 4062
2324 190 47232 18285
91123
XVII
142 7563 161 720 19897 2253 4671
5353 372 32728 18146
92006
XVIII 318 6059 195 675 33709 4238 5150 12019 716 15253 21688 100020
XIX
322 4949 166 670 30673 3465 4990 11690 653 16692 21620
95890
XX
373 5811 213 833 36774 4260 5919 14850 811 15491 22690 108025
TOT
2719 92660 2272 9959 345627 41495 61498 110100 6643 319477 248838 1241288
On donne les tableaux de profils-lignes et de profils-colonnes, en %.
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Art
0.1
0.1
0.2
0.2
0.2
0.1
0.1
0.1
0.2
0.3
0.2
0.2
0.3
0.2
0.2
0.1
0.2
0.3
0.3
0.3
Bay
8.2
8.1
7.8
7.8
8.7
9.4
8.8
8.1
8.7
6.8
7.3
8.3
7.5
8.4
9.3
6.9
8.2
6.1
5.2
5.4
Che
0.2
0.2
0.1
0.2
0.2
0.2
0.2
0.2
0.1
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
Dup
0.7
0.6
0.6
0.9
0.8
0.8
0.8
0.8
0.7
0.6
0.7
1.0
0.9
0.9
0.9
0.8
0.8
0.7
0.7
0.8
Hol
24.5
29.3
32.3
28.4
29.0
22.7
15.0
14.1
28.3
34.2
34.3
29.7
32.1
30.4
23.7
11.6
21.6
33.7
32.0
34.0
Jol
3.5
4.2
4.5
3.9
3.9
2.9
1.9
1.9
3.8
4.7
4.4
3.5
3.4
3.5
2.5
1.4
2.4
4.2
3.6
3.9
LeP
4.7
3.6
3.4
4.6
4.4
3.8
4.3
4.7
3.9
4.2
4.0
5.6
5.9
5.1
5.3
4.5
5.1
5.1
5.2
5.5
Mel
6.3
8.1
8.2
7.8
8.4
4.9
2.8
3.3
7.5
12.0
11.5
9.4
10.8
9.2
5.9
2.6
5.8
12.0
12.2
13.7
Pou
0.4
0.3
0.4
0.5
0.5
0.4
0.3
0.3
0.4
0.6
0.6
0.6
0.7
0.6
0.4
0.2
0.4
0.7
0.7
0.8
Sar
31.5
24.6
22.9
26.2
25.6
36.5
47.5
46.8
26.7
16.7
18.2
22.3
17.8
21.8
32.2
51.8
35.6
15.2
17.4
14.3
ABS
19.9
20.8
19.5
19.4
18.2
18.4
18.4
19.6
19.6
19.7
18.6
19.3
20.4
19.5
19.4
20.1
19.7
21.7
22.5
21.0
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Art Bay Che Dup Hol Jol LeP Mel Pou Sar ABS
0.4 0.9 1.0 0.8 0.7 0.9 0.8 0.6 0.6 1.0 0.8
0.6 1.1 1.2 0.7 1.0 1.2 0.7 0.9 0.6 0.9 1.0
1.3 1.8 1.3 1.3 2.0 2.3 1.1 1.6 1.3 1.5 1.6
1.5 1.4 1.4 1.6 1.4 1.6 1.3 1.2 1.2 1.4 1.3
3.1 3.4 3.2 3.0 3.0 3.4 2.5 2.7 2.7 2.9 2.6
1.2 2.6 2.1 2.0 1.7 1.8 1.6 1.1 1.4 2.9 1.9
0.7 2.9 2.2 2.3 1.3 1.4 2.2 0.8 1.2 4.6 2.3
0.6 2.1 2.2 1.8 1.0 1.1 1.8 0.7 1.1 3.4 1.8
2.4 3.3 2.3 2.6 2.9 3.2 2.3 2.4 2.2 3.0 2.8
4.6 3.6 3.5 3.2 4.9 5.6 3.4 5.4 4.6 2.6 3.9
6.3 6.7 7.3 6.1 8.4 9.0 5.5 8.8 7.4 4.8 6.3
7.0 7.7 6.4 8.4 7.5 7.4 7.9 7.4 7.4 6.1 6.7
11.2 8.5 9.0 10.0 9.8 8.7 10.1 10.3 11.0 5.9 8.7
7.0 7.3 7.1 7.5 7.1 6.8 6.7 6.8 7.0 5.5 6.3
7.5 13.5 11.3 12.7 9.3 8.2 11.6 7.3 9.0 13.6 10.6
2.2 6.8 6.3 7.0 3.1 3.1 6.6 2.1 2.9 14.8 7.3
5.2 8.2 7.1 7.2 5.8 5.4 7.6 4.9 5.6 10.2 7.3
11.7 6.5 8.6 6.8 9.8 10.2 8.4 10.9 10.8 4.8 8.7
11.8 5.3 7.3 6.7 8.9 8.4 8.1 10.6 9.8 5.2 8.7
13.7 6.3 9.4 8.4 10.6 10.3 9.6 13.5 12.2 4.8 9.1
Question 1: Est-il exact d’affirmer que Hol a fait un meilleur score (en pourcentage) dans le XIè arrondissement que dans
le XXè ? On fera attention au rôle de l’abstention.
Le score de Hollande dans le XIè est de 29024 voix ; pour obtenir son score, il faut comparer au nombre total de voix dans
l’arrondissement hors abstention. On trouve donc 29024/(84587−15769) = 42, 17%. Dans le XXè, le score est 36774/(108025−
22690) = 43, 09%.
L’affirmation est donc fausse. Pourtant, le profil-ligne de Hol est meilleur pour XX que pour XI.
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
1
1.2
Analyse factorielle des correspondances
On effectue une AFC sur les données électorales brutes et on obtient, dans l’ordre, les valeurs propres, la projection des
individus sur les deux premiers axes, les coordonnées des profils ligne et colonne sur 3 axes, la qualité de la représentation
en 10000è des lignes et des colonnes par les 3 premiers axes principaux :
[1] 0.0807 0.0029 0.0013 0.0003 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000
d = 0.05
Art
XVI
XIX
XX
Pou
XVIII
ABS
LeP
VIII
Mel
Sar
XVII
VII
XIII
Che
I
IV
Dup II
IX V
XV
VI
XII
XIV
III
XI
X
Hol
Jol
Bay
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Axis1
-0.154
0.021
0.077
-0.013
0.004
-0.276
-0.545
-0.532
-0.032
0.247
0.213
0.075
0.187
0.086
-0.188
-0.641
-0.256
0.268
0.221
0.308
Axis2
-0.030
-0.049
-0.073
-0.037
-0.071
-0.073
-0.006
0.034
-0.066
-0.011
-0.038
-0.038
-0.007
-0.050
-0.051
0.089
-0.001
0.035
0.089
0.072
Axis3
0.019
0.066
0.090
0.021
0.029
0.036
0.018
0.003
0.041
0.058
0.063
-0.034
-0.053
-0.021
-0.042
0.022
-0.015
0.006
-0.002
-0.006
Comp1 Comp2 Comp3
Art 0.369 0.120 -0.068
Bay -0.088 -0.148 -0.033
Che 0.036 -0.011 -0.024
Dup -0.016 -0.057 -0.108
Hol 0.244 -0.027 0.013
Jol 0.248 -0.048 0.091
LeP 0.037 0.029 -0.116
Mel 0.373 0.074 0.010
Pou 0.286 0.055 -0.064
Sar -0.433 0.014 0.016
ABS 0.023 0.042 -0.010
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Axis1 Axis2 Axis3
9041
335
137
421 2306 4186
2791 2493 3814
544 4355 1393
20 7766 1339
9176
636
157
9976
1
11
9943
40
0
1332 5572 2145
9431
18
522
8816
275
759
6547 1662 1388
9234
13
742
7112 2430
420
8890
651
438
9797
189
11
9953
0
36
9743
168
6
8529 1381
1
9425
518
3
Art
Bay
Che
Dup
Hol
Jol
LeP
Mel
Pou
Sar
ABS
Comp1 Comp2 Comp3
8379
893
283
2517 7092
352
1415
142
657
133 1729 6309
9841
123
29
8414
311 1130
841
538 8407
9546
372
6
9002
329
455
9972
11
14
1722 5661
324
Question 2: Pourquoi y a-t-il 10 valeurs propres ? Combien de variables faut-il garder ?
Le nombre de valeurs propres est min(20 − 1, 11 − 1) = 10.
La somme des valeurs propres (0.0853) est égale à l’inertie totale.
Au vu de la vitesse de décroissance des variables, garder une seule variable semble suffisant. On en garde deux pour
permettre une visualisation correcte. Ainsi, on couvre 98% de l’inertie totale.
Question 3: Donnez les modalités qui déterminent les deux premiers axes dans l’espace des arrondissements et des candidats.
On précisera la méthode utilisée.
On regarde d’abord la contribution de chaque catégorie au premier axe factoriel en la comparant à son poids (on cherche
celles pour lesquelles le rapport est supérieur à 2). Comme on ne dispose pas des contributions aux axes, on travaille sur les
coordonnées : la contribution d’une catégorie (de ligne ici) à un axe est est
ni (aik )2
,
pn µk
où ni /pn est le poids de la catégorie, aik sa coordonnée sur l’axe k et µk la valeur propre associée. Dire que la contribution
√
est supérieure à α fois le poids revient donc à comparer |aik | à αµk . Le raisonnement est le même sur les colonnes.
(de ligne et de colonne) qui ont une coordonnée supérieure à
√ Pour le premier axe, on retient donc les catégories √
2 × 0, 0807 = 0, 402 en valeur absolue, et pour le second 2 × 0, 0029 = 0.077.
– axe 1 : en négatif XVI (−0, 641), VII (−0; 545), VIII (−0, 532) et Sar (−0, 433) ; en positif rien (les plus proches sont
Art et Mel à 0, 37).
– axe 2 : en négatif Bay (−0, 148) et à la limite III et VI (0, 073) ; en positif Art (0, 120), XVI et XIX (0, 089) et à la
limite Mel (0, 074) et XX (0, 072).
Question 4: Interprétez globalement le plan des deux premiers axes (arrondissements et candidats).
La première remarque est que l’on ne retrouve pas la graduation droite-gauche à laquelle on aurait pu s’attendre. En particulier
LeP (extrême droite) et Dup (droite souverainiste) se retrouvent au centre sur l’axe 1. De plus parmi les catégories principales
(Abs, Hol et Sar), seul le premier est caractéristique d’un axe.
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
2
Le premier axe semble caractériser un électorat plutôt traditionnel de droite, caractérisé par Sarkozy et les VIIè, VIIIè
et XVIè arrondissement de Paris 1 . À l’opposé, aucun individu ou arrondissement n’est vraiment déterminant, mais on a les
partis de gauche. Le fait que le nuage soit asymétrique correspond au fait que l’électorat de Sarkozy est peu homogène.
Le second axe oppose d’un coté Bayrou (centriste, et donc peu marqué politiquement) à Arthaud, Mélenchon et Sarkozy,
candidats plus marqués dans le jeu gauche/droite. Encore une fois, Le Pen n’est pas caractéristique. L’axe 2 est un axe de
polarisation politique plus ou moins forte (en termes de gauche/droite classique). Il faut tout de même noter que la seconde
valeur propre est très petite, ce qui diminue l’importance de cet axe.
Question 5: Quels sont les candidats et les arrondissements qui sont bien représentés par le premier plan principal ? Quels
sont les candidats et les arrondissements qui sont mal représentés par le premier plan principal ?
I
9376
II
2727
III
5285
IV
4899
V
7787
VI
9813
VII
9977
VIII
9983
IX
6903
X
9448
XI
9091
XII
8208
XIII
9247
XIV
9542
XV
9541
XVI
9987
XVII XVIII
9953 9912
XIX
9910
XX
9944
Art Bay Che Dup Hol Jol LeP Mel Pou Sar ABS
9272 9609 1556 1863 9964 8725 1379 9919 9332 9983 7383
Pour le premier plan principal, on regarde la qualité de représentation cumulée, qui doit être calculée en additionnant les
deux premières colonnes du tableau.
– mauvaise représentation (qualité < 5000) : candidats Che (1557), Dup (1862), LeP (1379) ; arrondissements II (2727)
et IV (4899). Toutefois, ils sont tous proches du centre de gravité et il est difficile de conclure.
– représentation moyenne (qualité entre 5000 et 8000) : candidats seulement ABS (7383) ; arrondissements V (7887), IX
(6903) et III (5284) ;
– bonne représentation (qualité > 8000) : tous les autres (7 candidats et 15 arrondissements). C’est normal qu’ils soient
nombreux vu la très bonne qualité globale de l’analyse.
2
ACM : perception de la science
En 1993, l’International Social Survey Programme (ISSP) a interrogé 365 personnes sur leur rapport à la science. On
s’intéresse à 4 affirmations particulières :
– a : « nous croyons trop souvent à la science, pas assez aux sentiments et à la foi » ;
– b : « au total, la science fait plus de mal que de bien » ;
– c : « tous les changements que les humains font à la nature, vont probablement empirer les choses » ;
– d : « la science moderne résoudra nos problèmes environnementaux sans trop changer notre mode de vie ».
Pour chacune, les réponses possibles sont : tout à fait d’accord (5), d’accord (4), sans avis (3), pas d’accord (2), pas du tout
d’accord (1).
2.1
Un premier regard
Les données sont résumées dans le tableau de Burt ci-dessous :
1. Qui sont connus pour être les plus bourgeois, mais tout le monde n’est pas obligé de le savoir.
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
3
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5
14
0
0
0
0
7
5 NA NA
0
1
3
4
5
1
3
4
6
1
0
0 80
0
0
0 NA 30 13 15
2
3 20 23 27
7 14 26 12 24
4
0
0 94
0
0 NA NA 23 24
2
1 15 35 32 11 10 25 36 21
2
0
0
0 133
0 15 32 37 31 18
4 14 22 74 19 17 27 36 43 10
0
0
0
0 44
5 NA NA 11 11
2
3
8 16 15
9 11
9 11
4
7 NA NA 15
5 NA
0
0
0
0
8
9 15 20
3 13 13
8 17
4
5 30 NA 32 NA
0 NA
0
0
0
3 28 30 41
8 15 37 32 26
0
NA 13 23 37 NA
0
0 NA
0
0
0
9 24 40 12
8 24 28 21
4
NA 15 24 31 11
0
0
0 NA
0
0
7 20 39 16
9 14 25 27
7
0
2
2 18 11
0
0
0
0 33
0
2
3 14 14
8
5
6
9
5
1
3
1
4
2
8
3
0
0
0 11
0
0
0
0
2
2
1
6
0
3 20 15 14
3
9 28
9
7
2
0 55
0
0
0
8 20 13 14
0
4 23 35 22
8 15 30 24 20
3
0
0 92
0
0
5 17 47 22
1
5 27 32 74 16 20 41 40 39 14
0
0
0 154
0 21 39 32 52 10
1
7 11 19 15
3
8 12 16 14
0
0
0
0 53 17 15
6
6
9
3 14 10 17
9 13 15
8
9
8
2
8
5 21 17 53
0
0
0
0
4 26 25 27 11 13 37 24 14
5
2 20 17 39 15
0 93
0
0
0
6 12 36 36
9
8 32 28 25
6
1 13 47 32
6
0
0 99
0
0
1 24 21 43 11 17 26 21 27
9
6 14 22 52
6
0
0
0 100
0
0
4
2 10
4
4
0
4
7
5
0
0
1 10
9
0
0
0
0 20
Question 6: Des données sont manquantes dans le tableau ci-dessous ( NA). En utilisant les propriétés du tableau, retrouvezles.
On commence par calculer les effectifs totaux pour la question b. On peut le faire en additionnant les colonnes de la sous
matrice (b, c). Par exemple, (b.1, b.1)= 8 + 9 + 15 + 20 + 3 = 55. On peut de même calculer les autres données et on obtient
pour la diagonale
b.1 b.2 b.3 b.4
55 110 85 82
Ensuite, on calcule
– (a.1, b.4)= 82 − 11 − 31 − 24 − 15 = 1,
– (a.1, b.3)= 14 − 7 − 5 − 1 = 1,
– (a.5, b.3)= 85 − 37 − 23 − 13 − 1 = 11
– (a.5, b.2)= 44 − 5 − 11 − 11 − 11 = 6
– (a.2, b.1)= 80 − 30 − 13 − 15 − 2 = 20
– (a.3, b.1)= 55 − 5 − 15 − 20 − 7 = 8
– (a.3, b.2)= 110 − 6 − 32 − 30 − 5 = 37
Les autres valeurs sont obtenues par symétrie par rapport à la diagonale.
Le tableau finalement obtenu est
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5
14
0
0
0
0
7
5
1
1
0
1
3
4
5
1
3
4
6
1
0
0 80
0
0
0 20 30 13 15
2
3 20 23 27
7 14 26 12 24
4
0
0 94
0
0
8 37 23 24
2
1 15 35 32 11 10 25 36 21
2
0
0
0 133
0 15 32 37 31 18
4 14 22 74 19 17 27 36 43 10
0
0
0
0 44
5
6 11 11 11
2
3
8 16 15
9 11
9 11
4
7 20
8 15
5 55
0
0
0
0
8
9 15 20
3 13 13
8 17
4
5 30 37 32
6
0 110
0
0
0
3 28 30 41
8 15 37 32 26
0
1 13 23 37 11
0
0 85
0
0
0
9 24 40 12
8 24 28 21
4
1 15 24 31 11
0
0
0 82
0
0
7 20 39 16
9 14 25 27
7
0
2
2 18 11
0
0
0
0 33
0
2
3 14 14
8
5
6
9
5
1
3
1
4
2
8
3
0
0
0 11
0
0
0
0
2
2
1
6
0
3 20 15 14
3
9 28
9
7
2
0 55
0
0
0
8 20 13 14
0
4 23 35 22
8 15 30 24 20
3
0
0 92
0
0
5 17 47 22
1
5 27 32 74 16 20 41 40 39 14
0
0
0 154
0 21 39 32 52 10
1
7 11 19 15
3
8 12 16 14
0
0
0
0 53 17 15
6
6
9
3 14 10 17
9 13 15
8
9
8
2
8
5 21 17 53
0
0
0
0
4 26 25 27 11 13 37 24 14
5
2 20 17 39 15
0 93
0
0
0
6 12 36 36
9
8 32 28 25
6
1 13 47 32
6
0
0 99
0
0
1 24 21 43 11 17 26 21 27
9
6 14 22 52
6
0
0
0 100
0
0
4
2 10
4
4
0
4
7
5
0
0
1 10
9
0
0
0
0 20
Question 7: On s’intéresse au lien entre les réponses aux affirmations a et d du sondage. Donnez le tableau de contingence
de leurs modalités. Le χ2 correspondant est 26.21. En utilisant la table donnée à la fin de ce sujet, que peut-on dire de la
dépendance entre les réponses à ces deux questions ?
Le tableau de contingence de ces deux questions est le sous tableau suivant du tableau de Burt :
a.1
a.2
a.3
a.4
a.5
d.1 d.2 d.3 d.4 d.5
3
4
6
1
0
14 26 12 24
4
10 25 36 21
2
17 27 36 43 10
9 11
9 11
4
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
4
Le χ2 du tableau doit être interprété comme ayant(5 − 1)(5 − 1) = 16 degrés de liberté. D’après la table du χ² fournie à
la fin, cela correspond à des valeurs critiques de 26, 296 à 5% et 32, 000 à 1%. L’interprétation est la suivante : si les variables
sont indépendantes, alors, par exemple, P (χ216 > 26, 296) = 0, 05. Si la valeur mesurée du χ2 est plus grande que cette valeur
critique, alors on peu affirmer que l’hypothèse H0 d’indépendance est fausse.
Dans notre cas :
– à 1%, la valeur du χ² est nettement au dessous de la valeur critique. Il est impossible d’affirmer que les deux variables
sont liées.
– à 5%, les deux valeurs sont très proches et la réponse est difficile. Il faudrait être à 6% pour affirmer que les variables
sont dépendantes.
On peut en déduire que la dépendance entre ces variable est très faible et difficile à montrer 2 .
2.2
Analyse des correspondances multiples
On procède à l’analyse des correspondances multiples des données ci-dessus. Les 10 premières valeurs propres sont données
ci-dessous, suivies dans l’ordre pour les 4 premières colonnes par : les coordonnées des catégories, leur poids, leur contribution
aux axes et leur qualité de représentation par les sous espaces (ces 3 derniers en 10000è).
[1] 0.45 0.39 0.33 0.32 0.27 0.26 0.26 0.24 0.23 0.22
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
Comp1
0.90
0.46
0.58
-0.38
-1.21
0.25
0.69
-0.04
-0.30
-1.87
0.31
0.77
0.70
-0.21
-1.47
-0.62
0.25
0.50
-0.01
-1.96
Comp2
-1.39
-0.80
0.65
0.19
-0.07
-1.54
-0.09
0.61
0.52
-0.01
-2.90
-0.60
0.57
0.08
0.00
-0.83
-0.24
0.84
-0.19
0.09
Comp3
0.38
0.18
0.40
-0.65
0.68
-0.47
0.47
-0.20
-0.32
0.52
-1.46
0.75
0.13
-0.63
1.14
0.73
0.55
0.09
-0.97
-0.08
Comp4
-1.91
0.40
-0.19
0.27
-0.53
-0.96
0.50
0.11
-0.11
-0.05
-1.81
0.89
-0.88
0.40
-0.20
-0.26
0.73
-0.75
0.26
-0.25
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
poids
96
548
644
911
301
377
753
582
562
226
75
377
630
1055
363
363
637
678
685
137
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
Comp1 Comp2 Comp3 Comp4
173
480
41 1101
263
896
51
271
491
710
306
70
302
83 1160
209
991
4
418
267
53 2295
246 1092
791
16
501
588
2
561
69
21
111
394
174
23
1771
0
182
2
16 1633
476
774
501
354
625
950
698
534
30 1525
105
17 1246
539
1764
0 1398
47
314
645
571
75
90
92
569 1060
385 1221
17 1217
0
61 1916
143
1178
3
3
27
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
Comp1 Comp2 Comp3 Comp4
322 1095 1152 2604
603 2380 2467 2907
1182 2663 3215 3335
849 1051 3495 3912
2016 2023 2660 3045
112 4297 4685 6316
2025 2061 3022 4090
4 1137 1257 1292
256 1043 1345 1382
3482 3482 3751 3753
30 2638 3296 4308
1056 1702 2688 4107
1670 2777 2831 5418
324
371 3259 4442
3690 3690 5882 5951
658 1826 2721 2832
216
407 1430 3235
944 3539 3571 5690
0
130 3666 3915
2230 2234 2238 2275
Question 8: Qu’est-ce que la répartition des valeurs propres nous dit sur les variables d’origine et sur la qualité de l’analyse ?
Combien de valeurs propres doit-on retenir a priori ? Si on n’en retient que 2, quelle sera la part d’inertie expliquée ?
0.30
●
●
●
●
●
0.25
acm1$eig
0.35
0.40
0.45
Pour faciliter la discussion, on donne la représentation des valeurs propres (qui n’est pas obligatoire) :
●
●
●
●
0.20
●
●
●
●
0.15
●
●
●
5
10
15
Index
2. Ce qui n’est pas la même chose que de montrer une indépendance, ce sont les subtilités des tests statistiques.
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
5
On voit ici que la décroissance des valeurs propres est très lente. Cela veut dire que la dépendance entre les variables
d’origine est plutôt faible. L’analyse sera donc assez mauvaise et donnera peu d’informations.
Le nombre total de valeurs propres est 20 − 4 = 16. La somme vaut 16/4 = 4 et les axes intéressants correspondent à une
valeur propre supérieure à 1/4 = 0, 25. Selon ce critère il faudrait retenir les 7 premiers axes, ce qui est bien sûr trop.
Si on ne retient que 2 axes, l’inertie expliquée est 0, 84, soit 21% de l’inertie totale. C’est très faible.
Question 9: Quelles sont les catégories qui déterminent les deux premiers axes principaux ? (on détaillera les critères et on
cherchera à être précis dans la réponse).
On fournit pour référence une représentation des deux premiers axes qui n’est pas dans le sujet.
d=1
b.4
d.5
b.5
a.4
c.5
d.3
a.3
c.3
b.3
c.4
a.5
b.2
d.4 d.2
c.2
a.2
d.1
a.1
b.1
c.1
Si on travaille à partir des coordonnées comme
dans la question 3, mais avec un coefficient
multiplicateur de 3, on obtient
√
√
des valeurs limite pour les coordonnées de 3 × 0, 45 = 1, 16 sur le premier axe et 2 × 0, 39 = 1, 08 sur le second. On
obtient :
– axe 1 : en négatif d.5 (−1, 96), b.5 (−1, 87), c.5 (−1, 47), a.5 (−1, 21) ; en positif, rien ;
– axe 2 : en négatif c.1 (−2.86), b.1 (−1, 54), a.1 (−1, 39) ; en positif, rien.
Si on prend un coefficient multiplicateur de 2, le résultat est le même. On peut être tenté d’ajouter d’autres termes (d.1 sur
l’axe 2, par exemple, mais c’est à mon sens une erreur, vu le « trou » qu’il y a entre les valeurs.
Question 10: Comment peut-on interpréter les axes à partir de ces données ?
Le premier axe met en avant les personnes qui sont tout à fait d’accord avec les affirmations et qui se méfient donc de la
science ; il n’y a pas vraiment d’opposition, les autres sont plutôt dans un paquet homogène. Il y a une bizarrerie avec la
question d, pour laquelle une réponse 5 correspond à des personnes plutôt pro-science. Toutefois, la catégorie d.1, qui est
« anti science » est aussi en négatif en axe 1, alors que tous les autres *.1 sont en positif. Il est difficile de savoir si cela
correspond à une difficulté de compréhension des répondants.
Le second axe met en avant du coté négatif des personnes qui ont confiance en la science (sauf la question d). Là encore,
elles sont opposées à des personnes ayant une opposition plus mesurée.
Même si ces résultats sont difficiles à interpréter, on peut noter qu’ils ne mettent en avant que des personnes ayant des
opinions très tranchées, et que les personnes qui doutent sont plus comparables entre elles.
Question 11: Quels sont les catégories les mieux représentées dans le premier plan principal ? Commentez et expliquez ce
que l’on observe.
On peut lire directement les qualités de représentation dans la seconde colonne. Les catégories les mieux représentées sont
b.1 (4297), c.5 (3690) et d.3 (3539). On peut remarquer que toutes ces variables sont mal représentées (qualité < 5000).
Ce n’est pas étonnant, vu que la qualité de l’analyse est mauvaise.
2.3
Variables supplémentaires
On ajoute à l’analyse de nouvelles variables quantitatives :
– sexe : homme (sex.h) ou femme (sex.f) ;
– âge : age.16-24 ans, age.25-34, age.35-44, age.45-54, age.55-64, et enfin age.65-- (65 ans et plus) ;
– niveau d’éducation : école primaire (edu.pri), secondaire (edu.sec) ou éducation supérieur (edu.sup).
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
6
On donne ci-dessous les coordonnées de ces catégories sur les 2 premiers axes principaux, leur effectif et les valeurs test
correspondantes.
sex.f
sex.h
age.16-24
age.25-34
age.35-44
age.45-54
age.55-64
age.65-edu.pri
edu.sec
edu.sup
Axis1
-0.11
0.12
0.07
0.06
-0.12
0.19
0.12
-0.31
-0.10
0.10
0.10
Axis2
-0.06
0.07
-0.16
-0.01
0.09
-0.02
-0.01
0.05
0.05
0.02
-0.30
sex.f
sex.h
age.16-24
age.25-34
age.35-44
age.45-54
age.55-64
age.65-edu.pri
edu.sec
edu.sup
effectif
196
169
42
80
72
62
54
55
183
142
40
sex.f
sex.h
age.16-24
age.25-34
age.35-44
age.45-54
age.55-64
age.65-edu.pri
edu.sec
edu.sup
Axis1
-2.17
2.17
0.45
0.63
-1.16
1.60
0.95
-2.47
-1.85
1.46
0.69
Axis2
-1.28
1.28
-1.09
NA
0.83
-0.19
-0.05
0.38
0.89
0.37
-2.01
Question 12: La valeur test pour age.25-34 est manquante sur l’axe 2. Calculez-là.
Pour calculer la valeur manquante, on utilise la formule
V T = −0, 01 ×
√
r
80
365 − 1
= −0, 10
365 − 80
Question 13: Quelles sont les catégories qui sont liées aux deux premiers axes ? On justifiera les propriétés utilisées. Quelles
conclusions peut-on en tirer ?
Les valeurs-test données ici permettent de savoir quels sont les catégories liées aux axes. Une catégorie est liée à un axe si
– c’est une catégorie supplémentaire, c’est-à-dire non utilisée dans l’analyse
– son effectif est assez grand (mettons 30)
– sa valeur-test sur l’axe est supérieure à 2 ou 3 en valeur absolue
Les catégories liées aux axes sont ici
– axe 1 : en négatif, sex.f (−2, 17) et age.65-- (−2, 47), en positif sex.h (2, 17) ; les femmes et les personnes de plus
de 65 ans sont plus sujets que la moyenne à rejeter la science 3 ;
– axe 2 : en négatif edu.sup (−2, 01), en positif, rien ; les personnes ayant une éducation supérieure on plus tendance
que la moyenne à être très confiants en la science.
Il faut ajouter que la majorité des gens est plus mitigée. Enfin, la présence de sex.h sur l’axe 1 n’apporte aucune information
supplémentaire, puisque ce n’est que le pendant de sex.f (c’est toujours pareil avec les variables à 2 modalités, cf TD).
3
Contribution des individus à l’inertie en ACM
On considère l’ACM de p variables qualitatives mesurées sur n individus. On a calculé dans le cours la contribution des
catégories et des variables à l’inertie totale. On cherche ici à calculer la contribution des individus à cette même inertie. Dans
le cas de l’ACM, l’inertie totale s’écrit sur les profils lignes
n
X
1
kei − g` k2χ` , avec kei − g` k2χ` =
Ig =
n
i=1
X
toutes les catég.
j
np
nj
xji
nj
−
p
np
!2
,
où xji vaut 1 si l’individu i appartient à la catégorie j et 0 sinon, et nj est le nombre total d’individus de catégorie j.
Question 14: Montrer que
xji
nj
−
p
np
!2
=
n2j
xji
xji nj
+
−
2
.
p2
n2 p 2
np2
On sait, d’après la formule classique (a + b)2 = a2 + b2 + 2ab que
xji
nj
−
p
np
!2
=
xji
p2
!2
+
nj
np
2
−2
xji nj
.
np2
2
Or, comme xji = 0 ou 1, on a xji = xji . La formule ci-dessus se simplifie donc comme demandé dans la question.
Question 15: En déduire que la contribution de l’individu i à l’inertie totale est


X
1
n

 − 1,
np
nj
n
j catég. de i
où la somme est faite sur les catégories auxquelles appartient i.
3. Toutes les affirmations ont finalement des réponses proches, même si le cas de l’affirmation d est un peu mystérieux.
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
7
La contribution de l’individu i à l’inertie totale est
1
n
X
toutes les catég.
j
xji
nj
−
p
np
np
nj
!2
n2j
xji nj
xji
+
−
2
p2
n2 p2
np2
toutes les catég. j
!
X
xji
nj
xji
=
+ 2 −2
.
pnj
n p
np
toutes les catég. j
1
=
n
np
nj
X
!
La somme se calcule somme suit :
P
1
– premier terme : le xij revient à ne garder que les catégories auxquelles i appartient ; il reste donc np
j catég. de
P
– deuxième terme : toutes les catég. j nj = np et le terme restant est donc 1/n.
P
– troisième terme : toutes les catég. j xji = p (chaque individu appartient à p catégories) ; il reste donc −2/n.
En additionnant les termes, on retrouve la valeur souhaitée.
n
i nj .
Question 16: Expliquez pourquoi cette contribution est toujours positive. Comment peut-on caractériser les individus dont la
contribution à l’inertie totale est grande ?
La raison la plus simple pour laquelle la contribution d’un individu est positive est qu’elle vaut n1 kei − g` k2χ` > 0. On peut
P
aussi voir sur la formule finale qu’on a toujours n/ni ≥ 1 et donc que p1 j catég. de i nnj , qui est la moyenne de p valeurs
supérieures à 1, est aussi supérieure à 1. Ceci implique la positivité de la contribution.
Les individus dont la contribution à l’énergie totale est grande sont ceux qui appartiennent le plus à des catégories a petit
effectif. En effet la contribution croı̂t quand l’effectif des catégories diminue.
χ 2
TABLE DU CHI-DEUX : χ2(n)
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
p
p
0.90
0.80
0.70
0.50
0.30
0.20
0.10
0.05
0.02
0.01
0,0158
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865
0,0642
0,446
1,005
1,649
2,343
3,070
3,822
4,594
5,380
6,179
0,148
0,713
1,424
2,195
3,000
3,828
4,671
5,527
6,393
7,267
0,455
1,386
2,366
3,357
4,351
5,348
6,346
7,344
8,343
9,342
1,074
2,408
3,665
4,878
6,064
7,231
8,383
9,524
10,656
11,781
1,642
3,219
4,642
5,989
7,289
8,558
9,803
11,030
12,242
13,442
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
5,412
7,824
9,837
11,668
13,388
15,033
16,622
18,168
19,679
21,161
6,635
9,210
11,341
13,277
15,086
16,812
18,475
20,090
21,666
23,209
5,578
6,304
7,042
7,790
8,547
9,312
10,085
10,865
11,651
12,443
6,989
7,807
8,634
9,467
10,307
11,152
12,002
12,857
13,716
14,578
8,148
9,034
9,926
10,821
11,721
12,624
13,531
14,440
15,352
16,266
10,341
11,340
12,340
13,339
14,339
15,338
16,338
17,338
18,338
19,337
12,899
14,011
15,119
16,222
17,322
18,418
19,511
20,601
21,689
22,775
14,631
15,812
16,985
18,151
19,311
20,465
21,615
22,760
23,900
25,038
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
22,618
24,054
25,472
26,873
28,259
29,633
30,995
32,346
33,687
35,020
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
13,240
14,041
14,848
15,659
16,473
17,292
18,114
18,939
19,768
20,599
15,445
16,314
17,187
18,062
18,940
19,820
20,703
21,588
22,475
23,364
17,182
18,101
19,021
19,943
20,867
21,792
22,719
23,647
24,577
25,508
20,337
21,337
22,337
23,337
24,337
25,336
26,336
27,336
28,336
29,336
23,858
24,939
26,018
27,096
28,172
29,246
30,319
31,391
32,461
33,530
26,171
27,301
28,429
29,553
30,675
31,795
32,912
34,027
35,139
36,250
29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,087
40,256
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
36,343
37,659
38,968
40,270
41,566
42,856
44,140
45,419
46,693
47,962
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
Pour n > 30, on peut admettre que
2χ2 -
2n-1 ≈ N(0,1)
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
8