corrigé

Transcription

corrigé

TD12 : Examen de l’an dernier (correction)
1
AFC : premier tour des élections présidentielles de 2012 à Paris
1.1
Introduction
Les données qui suivent sont constituées par les résultats du premier tour des élections présidentielles de 2012 pour Paris.
Pour chacun des 10 candidats (en lignes), on a les effectifs de suffrages dans les 20 arrondissements de la ville ainsi que les
effectifs d’abstentions (en colonnes). L’objectif est d’analyser la structure des votes ainsi que les liaisons entre candidats et
arrondissements.
Les candidats sont : Arthaud (Art, extrème gauche), Bayrou (Bay, centre), Cheminade (Che, inclassable), Dupont-Aignan
(Dup, droite souverainiste), Hollande (PS, gauche classique), Joly (Jol, écologie), Le Pen (LeP, extrème droite), Mélenchon
(Mel, gauche communiste), Poutou (Pou, extrème gauche), Sarkozy (Sar, droite classique). Les arrondissements sont numérotés en chiffres romains de I à XX.
Les voix obtenues par les différents candidats sont représentées ci-dessous, ainsi que l’abstention.
Art
Bay Che Dup
Hol
Jol
LeP
Mel Pou
Sar
ABS
TOT
I
10
853
22
76
2546
364
491
660
39
3278
2068
10407
II
17
995
27
70
3595
509
444
993
38
3015
2551
12254
III
35 1641
29 125
6748
947
707
1710
89
4793
4084
20908
IV
41 1341
31 162
4887
675
800
1350
81
4511
3347
17226
V
83 3123
73 295 10356 1403 1561
3001 177
9164
6493
35729
VI
33 2420
47 196
5831
746
985
1249
90
9358
4718
25673
VII
19 2729
49 233
4623
579 1338
875
81 14644
5680
30850
VIII
15 1905
49 179
3307
449 1106
772
73 10975
4596
23426
IX
65 3101
52 262 10047 1347 1396
2667 148
9494
6985
35564
X
126 3353
80 319 16892 2324 2098
5901 304
8234
9744
49375
XI
171 6174 166 609 29024 3746 3378
9703 494 15353 15769
84587
XII
191 7171 145 832 25803 3056 4882
8166 492 19373 16790
86901
XIII
305 7873 205 1000 33824 3620 6236 11383 732 18783 21555 105516
XIV
189 6792 162 746 24502 2842 4141
7433 466 17575 15748
80596
XV
203 12526 256 1264 32006 3404 7143
8001 597 43531 26281 135212
XVI
61 6281 144 693 10583 1268 4062
2324 190 47232 18285
91123
XVII
142 7563 161 720 19897 2253 4671
5353 372 32728 18146
92006
XVIII 318 6059 195 675 33709 4238 5150 12019 716 15253 21688 100020
XIX
322 4949 166 670 30673 3465 4990 11690 653 16692 21620
95890
XX
373 5811 213 833 36774 4260 5919 14850 811 15491 22690 108025
TOT
2719 92660 2272 9959 345627 41495 61498 110100 6643 319477 248838 1241288
On donne les tableaux de profils-lignes et de profils-colonnes, en %.
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Art
0.1
0.1
0.2
0.2
0.2
0.1
0.1
0.1
0.2
0.3
0.2
0.2
0.3
0.2
0.2
0.1
0.2
0.3
0.3
0.3
Bay
8.2
8.1
7.8
7.8
8.7
9.4
8.8
8.1
8.7
6.8
7.3
8.3
7.5
8.4
9.3
6.9
8.2
6.1
5.2
5.4
Che
0.2
0.2
0.1
0.2
0.2
0.2
0.2
0.2
0.1
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
0.2
Dup
0.7
0.6
0.6
0.9
0.8
0.8
0.8
0.8
0.7
0.6
0.7
1.0
0.9
0.9
0.9
0.8
0.8
0.7
0.7
0.8
Hol
24.5
29.3
32.3
28.4
29.0
22.7
15.0
14.1
28.3
34.2
34.3
29.7
32.1
30.4
23.7
11.6
21.6
33.7
32.0
34.0
Jol
3.5
4.2
4.5
3.9
3.9
2.9
1.9
1.9
3.8
4.7
4.4
3.5
3.4
3.5
2.5
1.4
2.4
4.2
3.6
3.9
LeP
4.7
3.6
3.4
4.6
4.4
3.8
4.3
4.7
3.9
4.2
4.0
5.6
5.9
5.1
5.3
4.5
5.1
5.1
5.2
5.5
Mel
6.3
8.1
8.2
7.8
8.4
4.9
2.8
3.3
7.5
12.0
11.5
9.4
10.8
9.2
5.9
2.6
5.8
12.0
12.2
13.7
Pou
0.4
0.3
0.4
0.5
0.5
0.4
0.3
0.3
0.4
0.6
0.6
0.6
0.7
0.6
0.4
0.2
0.4
0.7
0.7
0.8
Sar
31.5
24.6
22.9
26.2
25.6
36.5
47.5
46.8
26.7
16.7
18.2
22.3
17.8
21.8
32.2
51.8
35.6
15.2
17.4
14.3
ABS
19.9
20.8
19.5
19.4
18.2
18.4
18.4
19.6
19.6
19.7
18.6
19.3
20.4
19.5
19.4
20.1
19.7
21.7
22.5
21.0
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Art Bay Che Dup Hol Jol LeP Mel Pou Sar ABS
0.4 0.9 1.0 0.8 0.7 0.9 0.8 0.6 0.6 1.0 0.8
0.6 1.1 1.2 0.7 1.0 1.2 0.7 0.9 0.6 0.9 1.0
1.3 1.8 1.3 1.3 2.0 2.3 1.1 1.6 1.3 1.5 1.6
1.5 1.4 1.4 1.6 1.4 1.6 1.3 1.2 1.2 1.4 1.3
3.1 3.4 3.2 3.0 3.0 3.4 2.5 2.7 2.7 2.9 2.6
1.2 2.6 2.1 2.0 1.7 1.8 1.6 1.1 1.4 2.9 1.9
0.7 2.9 2.2 2.3 1.3 1.4 2.2 0.8 1.2 4.6 2.3
0.6 2.1 2.2 1.8 1.0 1.1 1.8 0.7 1.1 3.4 1.8
2.4 3.3 2.3 2.6 2.9 3.2 2.3 2.4 2.2 3.0 2.8
4.6 3.6 3.5 3.2 4.9 5.6 3.4 5.4 4.6 2.6 3.9
6.3 6.7 7.3 6.1 8.4 9.0 5.5 8.8 7.4 4.8 6.3
7.0 7.7 6.4 8.4 7.5 7.4 7.9 7.4 7.4 6.1 6.7
11.2 8.5 9.0 10.0 9.8 8.7 10.1 10.3 11.0 5.9 8.7
7.0 7.3 7.1 7.5 7.1 6.8 6.7 6.8 7.0 5.5 6.3
7.5 13.5 11.3 12.7 9.3 8.2 11.6 7.3 9.0 13.6 10.6
2.2 6.8 6.3 7.0 3.1 3.1 6.6 2.1 2.9 14.8 7.3
5.2 8.2 7.1 7.2 5.8 5.4 7.6 4.9 5.6 10.2 7.3
11.7 6.5 8.6 6.8 9.8 10.2 8.4 10.9 10.8 4.8 8.7
11.8 5.3 7.3 6.7 8.9 8.4 8.1 10.6 9.8 5.2 8.7
13.7 6.3 9.4 8.4 10.6 10.3 9.6 13.5 12.2 4.8 9.1
Question 1: Est-il exact d’affirmer que Hol a fait un meilleur score (en pourcentage) dans le XIè arrondissement que dans
le XXè ? On fera attention au rôle de l’abstention.
Le score de Hollande dans le XIè est de 29024 voix ; pour obtenir son score, il faut comparer au nombre total de voix dans
l’arrondissement hors abstention. On trouve donc 29024/(84587−15769) = 42, 17%. Dans le XXè, le score est 36774/(108025−
22690) = 43, 09%.
L’affirmation est donc fausse. Pourtant, le profil-ligne de Hol est meilleur pour XX que pour XI.
J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne
1
1.2
Analyse factorielle des correspondances
On effectue une AFC sur les données électorales brutes et on obtient, dans l’ordre, les valeurs propres, la projection des
individus sur les deux premiers axes, les coordonnées des profils ligne et colonne sur 3 axes, la qualité de la représentation
en 10000è des lignes et des colonnes par les 3 premiers axes principaux :
[1] 0.0807 0.0029 0.0013 0.0003 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000
d = 0.05
Art
XVI
XIX
XX
Pou
XVIII
ABS
LeP
VIII
Mel
Sar
XVII
VII
XIII
Che
I
IV
Dup II
IX V
XV
VI
XII
XIV
III
XI
X
Hol
Jol
Bay
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Axis1
-0.154
0.021
0.077
-0.013
0.004
-0.276
-0.545
-0.532
-0.032
0.247
0.213
0.075
0.187
0.086
-0.188
-0.641
-0.256
0.268
0.221
0.308
Axis2
-0.030
-0.049
-0.073
-0.037
-0.071
-0.073
-0.006
0.034
-0.066
-0.011
-0.038
-0.038
-0.007
-0.050
-0.051
0.089
-0.001
0.035
0.089
0.072
Axis3
0.019
0.066
0.090
0.021
0.029
0.036
0.018
0.003
0.041
0.058
0.063
-0.034
-0.053
-0.021
-0.042
0.022
-0.015
0.006
-0.002
-0.006
Comp1 Comp2 Comp3
Art 0.369 0.120 -0.068
Bay -0.088 -0.148 -0.033
Che 0.036 -0.011 -0.024
Dup -0.016 -0.057 -0.108
Hol 0.244 -0.027 0.013
Jol 0.248 -0.048 0.091
LeP 0.037 0.029 -0.116
Mel 0.373 0.074 0.010
Pou 0.286 0.055 -0.064
Sar -0.433 0.014 0.016
ABS 0.023 0.042 -0.010
I
II
III
IV
V
VI
VII
VIII
IX
X
XI
XII
XIII
XIV
XV
XVI
XVII
XVIII
XIX
XX
Axis1 Axis2 Axis3
9041
335
137
421 2306 4186
2791 2493 3814
544 4355 1393
20 7766 1339
9176
636
157
9976
1
11
9943
40
0
1332 5572 2145
9431
18
522
8816
275
759
6547 1662 1388
9234
13
742
7112 2430
420
8890
651
438
9797
189
11
9953
0
36
9743
168
6
8529 1381
1
9425
518
3
Art
Bay
Che
Dup
Hol
Jol
LeP
Mel
Pou
Sar
ABS
Comp1 Comp2 Comp3
8379
893
283
2517 7092
352
1415
142
657
133 1729 6309
9841
123
29
8414
311 1130
841
538 8407
9546
372
6
9002
329
455
9972
11
14
1722 5661
324
Question 2: Pourquoi y a-t-il 10 valeurs propres ? Combien de variables faut-il garder ?
Le nombre de valeurs propres est min(20 − 1, 11 − 1) = 10.
La somme des valeurs propres (0.0853) est égale à l’inertie totale.
Au vu de la vitesse de décroissance des variables, garder une seule variable semble suffisant. On en garde deux pour
permettre une visualisation correcte. Ainsi, on couvre 98% de l’inertie totale.
Question 3: Donnez les modalités qui déterminent les deux premiers axes dans l’espace des arrondissements et des candidats.
On précisera la méthode utilisée.
On regarde d’abord la contribution de chaque catégorie au premier axe factoriel en la comparant à son poids (on cherche
celles pour lesquelles le rapport est supérieur à 2). Comme on ne dispose pas des contributions aux axes, on travaille sur les
coordonnées : la contribution d’une catégorie (de ligne ici) à un axe est est
ni (aik )2
,
pn µk
où ni /pn est le poids de la catégorie, aik sa coordonnée sur l’axe k et µk la valeur propre associée. Dire que la contribution
√
est supérieure à α fois le poids revient donc à comparer |aik | à αµk . Le raisonnement est le même sur les colonnes.
(de ligne et de colonne) qui ont une coordonnée supérieure à
√ Pour le premier axe, on retient donc les catégories √
2 × 0, 0807 = 0, 402 en valeur absolue, et pour le second 2 × 0, 0029 = 0.077.
– axe 1 : en négatif XVI (−0, 641), VII (−0; 545), VIII (−0, 532) et Sar (−0, 433) ; en positif rien (les plus proches sont
Art et Mel à 0, 37).
– axe 2 : en négatif Bay (−0, 148) et à la limite III et VI (0, 073) ; en positif Art (0, 120), XVI et XIX (0, 089) et à la
limite Mel (0, 074) et XX (0, 072).
Question 4: Interprétez globalement le plan des deux premiers axes (arrondissements et candidats).
La première remarque est que l’on ne retrouve pas la graduation droite-gauche à laquelle on aurait pu s’attendre. En particulier
LeP (extrême droite) et Dup (droite souverainiste) se retrouvent au centre sur l’axe 1. De plus parmi les catégories principales
(Abs, Hol et Sar), seul le premier est caractéristique d’un axe.
2
Le premier axe semble caractériser un électorat plutôt traditionnel de droite, caractérisé par Sarkozy et les VIIè, VIIIè
et XVIè arrondissement de Paris 1 . À l’opposé, aucun individu ou arrondissement n’est vraiment déterminant, mais on a les
partis de gauche. Le fait que le nuage soit asymétrique correspond au fait que l’électorat de Sarkozy est peu homogène.
Le second axe oppose d’un coté Bayrou (centriste, et donc peu marqué politiquement) à Arthaud, Mélenchon et Sarkozy,
candidats plus marqués dans le jeu gauche/droite. Encore une fois, Le Pen n’est pas caractéristique. L’axe 2 est un axe de
polarisation politique plus ou moins forte (en termes de gauche/droite classique). Il faut tout de même noter que la seconde
valeur propre est très petite, ce qui diminue l’importance de cet axe.
Question 5: Quels sont les candidats et les arrondissements qui sont bien représentés par le premier plan principal ? Quels
sont les candidats et les arrondissements qui sont mal représentés par le premier plan principal ?
I
9376
II
2727
III
5285
IV
4899
V
7787
VI
9813
VII
9977
VIII
9983
IX
6903
X
9448
XI
9091
XII
8208
XIII
9247
XIV
9542
XV
9541
XVI
9987
XVII XVIII
9953 9912
XIX
9910
XX
9944
Art Bay Che Dup Hol Jol LeP Mel Pou Sar ABS
9272 9609 1556 1863 9964 8725 1379 9919 9332 9983 7383
Pour le premier plan principal, on regarde la qualité de représentation cumulée, qui doit être calculée en additionnant les
deux premières colonnes du tableau.
– mauvaise représentation (qualité < 5000) : candidats Che (1557), Dup (1862), LeP (1379) ; arrondissements II (2727)
et IV (4899). Toutefois, ils sont tous proches du centre de gravité et il est difficile de conclure.
– représentation moyenne (qualité entre 5000 et 8000) : candidats seulement ABS (7383) ; arrondissements V (7887), IX
(6903) et III (5284) ;
– bonne représentation (qualité > 8000) : tous les autres (7 candidats et 15 arrondissements). C’est normal qu’ils soient
nombreux vu la très bonne qualité globale de l’analyse.
2
ACM : perception de la science
En 1993, l’International Social Survey Programme (ISSP) a interrogé 365 personnes sur leur rapport à la science. On
s’intéresse à 4 affirmations particulières :
– a : « nous croyons trop souvent à la science, pas assez aux sentiments et à la foi » ;
– b : « au total, la science fait plus de mal que de bien » ;
– c : « tous les changements que les humains font à la nature, vont probablement empirer les choses » ;
– d : « la science moderne résoudra nos problèmes environnementaux sans trop changer notre mode de vie ».
Pour chacune, les réponses possibles sont : tout à fait d’accord (5), d’accord (4), sans avis (3), pas d’accord (2), pas du tout
d’accord (1).
2.1
Un premier regard
Les données sont résumées dans le tableau de Burt ci-dessous :
1. Qui sont connus pour être les plus bourgeois, mais tout le monde n’est pas obligé de le savoir.
3
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5
14
0
0
0
0
7
5 NA NA
0
1
3
4
5
1
3
4
6
1
0
0 80
0
0
0 NA 30 13 15
2
3 20 23 27
7 14 26 12 24
4
0
0 94
0
0 NA NA 23 24
2
1 15 35 32 11 10 25 36 21
2
0
0
0 133
0 15 32 37 31 18
4 14 22 74 19 17 27 36 43 10
0
0
0
0 44
5 NA NA 11 11
2
3
8 16 15
9 11
9 11
4
7 NA NA 15
5 NA
0
0
0
0
8
9 15 20
3 13 13
8 17
4
5 30 NA 32 NA
0 NA
0
0
0
3 28 30 41
8 15 37 32 26
0
NA 13 23 37 NA
0
0 NA
0
0
0
9 24 40 12
8 24 28 21
4
NA 15 24 31 11
0
0
0 NA
0
0
7 20 39 16
9 14 25 27
7
0
2
2 18 11
0
0
0
0 33
0
2
3 14 14
8
5
6
9
5
1
3
1
4
2
8
3
0
0
0 11
0
0
0
0
2
2
1
6
0
3 20 15 14
3
9 28
9
7
2
0 55
0
0
0
8 20 13 14
0
4 23 35 22
8 15 30 24 20
3
0
0 92
0
0
5 17 47 22
1
5 27 32 74 16 20 41 40 39 14
0
0
0 154
0 21 39 32 52 10
1
7 11 19 15
3
8 12 16 14
0
0
0
0 53 17 15
6
6
9
3 14 10 17
9 13 15
8
9
8
2
8
5 21 17 53
0
0
0
0
4 26 25 27 11 13 37 24 14
5
2 20 17 39 15
0 93
0
0
0
6 12 36 36
9
8 32 28 25
6
1 13 47 32
6
0
0 99
0
0
1 24 21 43 11 17 26 21 27
9
6 14 22 52
6
0
0
0 100
0
0
4
2 10
4
4
0
4
7
5
0
0
1 10
9
0
0
0
0 20
Question 6: Des données sont manquantes dans le tableau ci-dessous ( NA). En utilisant les propriétés du tableau, retrouvezles.
On commence par calculer les effectifs totaux pour la question b. On peut le faire en additionnant les colonnes de la sous
matrice (b, c). Par exemple, (b.1, b.1)= 8 + 9 + 15 + 20 + 3 = 55. On peut de même calculer les autres données et on obtient
pour la diagonale
b.1 b.2 b.3 b.4
55 110 85 82
Ensuite, on calcule
– (a.1, b.4)= 82 − 11 − 31 − 24 − 15 = 1,
– (a.1, b.3)= 14 − 7 − 5 − 1 = 1,
– (a.5, b.3)= 85 − 37 − 23 − 13 − 1 = 11
– (a.5, b.2)= 44 − 5 − 11 − 11 − 11 = 6
– (a.2, b.1)= 80 − 30 − 13 − 15 − 2 = 20
– (a.3, b.1)= 55 − 5 − 15 − 20 − 7 = 8
– (a.3, b.2)= 110 − 6 − 32 − 30 − 5 = 37
Les autres valeurs sont obtenues par symétrie par rapport à la diagonale.
Le tableau finalement obtenu est
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5
14
0
0
0
0
7
5
1
1
0
1
3
4
5
1
3
4
6
1
0
0 80
0
0
0 20 30 13 15
2
3 20 23 27
7 14 26 12 24
4
0
0 94
0
0
8 37 23 24
2
1 15 35 32 11 10 25 36 21
2
0
0
0 133
0 15 32 37 31 18
4 14 22 74 19 17 27 36 43 10
0
0
0
0 44
5
6 11 11 11
2
3
8 16 15
9 11
9 11
4
7 20
8 15
5 55
0
0
0
0
8
9 15 20
3 13 13
8 17
4
5 30 37 32
6
0 110
0
0
0
3 28 30 41
8 15 37 32 26
0
1 13 23 37 11
0
0 85
0
0
0
9 24 40 12
8 24 28 21
4
1 15 24 31 11
0
0
0 82
0
0
7 20 39 16
9 14 25 27
7
0
2
2 18 11
0
0
0
0 33
0
2
3 14 14
8
5
6
9
5
1
3
1
4
2
8
3
0
0
0 11
0
0
0
0
2
2
1
6
0
3 20 15 14
3
9 28
9
7
2
0 55
0
0
0
8 20 13 14
0
4 23 35 22
8 15 30 24 20
3
0
0 92
0
0
5 17 47 22
1
5 27 32 74 16 20 41 40 39 14
0
0
0 154
0 21 39 32 52 10
1
7 11 19 15
3
8 12 16 14
0
0
0
0 53 17 15
6
6
9
3 14 10 17
9 13 15
8
9
8
2
8
5 21 17 53
0
0
0
0
4 26 25 27 11 13 37 24 14
5
2 20 17 39 15
0 93
0
0
0
6 12 36 36
9
8 32 28 25
6
1 13 47 32
6
0
0 99
0
0
1 24 21 43 11 17 26 21 27
9
6 14 22 52
6
0
0
0 100
0
0
4
2 10
4
4
0
4
7
5
0
0
1 10
9
0
0
0
0 20
Question 7: On s’intéresse au lien entre les réponses aux affirmations a et d du sondage. Donnez le tableau de contingence
de leurs modalités. Le χ2 correspondant est 26.21. En utilisant la table donnée à la fin de ce sujet, que peut-on dire de la
dépendance entre les réponses à ces deux questions ?
Le tableau de contingence de ces deux questions est le sous tableau suivant du tableau de Burt :
a.1
a.2
a.3
a.4
a.5
d.1 d.2 d.3 d.4 d.5
3
4
6
1
0
14 26 12 24
4
10 25 36 21
2
17 27 36 43 10
9 11
9 11
4
4
Le χ2 du tableau doit être interprété comme ayant(5 − 1)(5 − 1) = 16 degrés de liberté. D’après la table du χ² fournie à
la fin, cela correspond à des valeurs critiques de 26, 296 à 5% et 32, 000 à 1%. L’interprétation est la suivante : si les variables
sont indépendantes, alors, par exemple, P (χ216 > 26, 296) = 0, 05. Si la valeur mesurée du χ2 est plus grande que cette valeur
critique, alors on peu affirmer que l’hypothèse H0 d’indépendance est fausse.
Dans notre cas :
– à 1%, la valeur du χ² est nettement au dessous de la valeur critique. Il est impossible d’affirmer que les deux variables
sont liées.
– à 5%, les deux valeurs sont très proches et la réponse est difficile. Il faudrait être à 6% pour affirmer que les variables
sont dépendantes.
On peut en déduire que la dépendance entre ces variable est très faible et difficile à montrer 2 .
2.2
Analyse des correspondances multiples
On procède à l’analyse des correspondances multiples des données ci-dessus. Les 10 premières valeurs propres sont données
ci-dessous, suivies dans l’ordre pour les 4 premières colonnes par : les coordonnées des catégories, leur poids, leur contribution
aux axes et leur qualité de représentation par les sous espaces (ces 3 derniers en 10000è).
[1] 0.45 0.39 0.33 0.32 0.27 0.26 0.26 0.24 0.23 0.22
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
Comp1
0.90
0.46
0.58
-0.38
-1.21
0.25
0.69
-0.04
-0.30
-1.87
0.31
0.77
0.70
-0.21
-1.47
-0.62
0.25
0.50
-0.01
-1.96
Comp2
-1.39
-0.80
0.65
0.19
-0.07
-1.54
-0.09
0.61
0.52
-0.01
-2.90
-0.60
0.57
0.08
0.00
-0.83
-0.24
0.84
-0.19
0.09
Comp3
0.38
0.18
0.40
-0.65
0.68
-0.47
0.47
-0.20
-0.32
0.52
-1.46
0.75
0.13
-0.63
1.14
0.73
0.55
0.09
-0.97
-0.08
Comp4
-1.91
0.40
-0.19
0.27
-0.53
-0.96
0.50
0.11
-0.11
-0.05
-1.81
0.89
-0.88
0.40
-0.20
-0.26
0.73
-0.75
0.26
-0.25
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
poids
96
548
644
911
301
377
753
582
562
226
75
377
630
1055
363
363
637
678
685
137
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
Comp1 Comp2 Comp3 Comp4
173
480
41 1101
263
896
51
271
491
710
306
70
302
83 1160
209
991
4
418
267
53 2295
246 1092
791
16
501
588
2
561
69
21
111
394
174
23
1771
0
182
2
16 1633
476
774
501
354
625
950
698
534
30 1525
105
17 1246
539
1764
0 1398
47
314
645
571
75
90
92
569 1060
385 1221
17 1217
0
61 1916
143
1178
3
3
27
a.1
a.2
a.3
a.4
a.5
b.1
b.2
b.3
b.4
b.5
c.1
c.2
c.3
c.4
c.5
d.1
d.2
d.3
d.4
d.5
Comp1 Comp2 Comp3 Comp4
322 1095 1152 2604
603 2380 2467 2907
1182 2663 3215 3335
849 1051 3495 3912
2016 2023 2660 3045
112 4297 4685 6316
2025 2061 3022 4090
4 1137 1257 1292
256 1043 1345 1382
3482 3482 3751 3753
30 2638 3296 4308
1056 1702 2688 4107
1670 2777 2831 5418
324
371 3259 4442
3690 3690 5882 5951
658 1826 2721 2832
216
407 1430 3235
944 3539 3571 5690
0
130 3666 3915
2230 2234 2238 2275
Question 8: Qu’est-ce que la répartition des valeurs propres nous dit sur les variables d’origine et sur la qualité de l’analyse ?
Combien de valeurs propres doit-on retenir a priori ? Si on n’en retient que 2, quelle sera la part d’inertie expliquée ?
0.30
●
●
●
●
●
0.25
acm1$eig
0.35
0.40
0.45
Pour faciliter la discussion, on donne la représentation des valeurs propres (qui n’est pas obligatoire) :
●
●
●
●
0.20
●
●
●
●
0.15
●
●
●
5
10
15
Index
2. Ce qui n’est pas la même chose que de montrer une indépendance, ce sont les subtilités des tests statistiques.
5
On voit ici que la décroissance des valeurs propres est très lente. Cela veut dire que la dépendance entre les variables
d’origine est plutôt faible. L’analyse sera donc assez mauvaise et donnera peu d’informations.
Le nombre total de valeurs propres est 20 − 4 = 16. La somme vaut 16/4 = 4 et les axes intéressants correspondent à une
valeur propre supérieure à 1/4 = 0, 25. Selon ce critère il faudrait retenir les 7 premiers axes, ce qui est bien sûr trop.
Si on ne retient que 2 axes, l’inertie expliquée est 0, 84, soit 21% de l’inertie totale. C’est très faible.
Question 9: Quelles sont les catégories qui déterminent les deux premiers axes principaux ? (on détaillera les critères et on
cherchera à être précis dans la réponse).
On fournit pour référence une représentation des deux premiers axes qui n’est pas dans le sujet.
d=1
b.4
d.5
b.5
a.4
c.5
d.3
a.3
c.3
b.3
c.4
a.5
b.2
d.4 d.2
c.2
a.2
d.1
a.1
b.1
c.1
Si on travaille à partir des coordonnées comme
dans la question 3, mais avec un coefficient
multiplicateur de 3, on obtient
√
√
des valeurs limite pour les coordonnées de 3 × 0, 45 = 1, 16 sur le premier axe et 2 × 0, 39 = 1, 08 sur le second. On
obtient :
– axe 1 : en négatif d.5 (−1, 96), b.5 (−1, 87), c.5 (−1, 47), a.5 (−1, 21) ; en positif, rien ;
– axe 2 : en négatif c.1 (−2.86), b.1 (−1, 54), a.1 (−1, 39) ; en positif, rien.
Si on prend un coefficient multiplicateur de 2, le résultat est le même. On peut être tenté d’ajouter d’autres termes (d.1 sur
l’axe 2, par exemple, mais c’est à mon sens une erreur, vu le « trou » qu’il y a entre les valeurs.
Question 10: Comment peut-on interpréter les axes à partir de ces données ?
Le premier axe met en avant les personnes qui sont tout à fait d’accord avec les affirmations et qui se méfient donc de la
science ; il n’y a pas vraiment d’opposition, les autres sont plutôt dans un paquet homogène. Il y a une bizarrerie avec la
question d, pour laquelle une réponse 5 correspond à des personnes plutôt pro-science. Toutefois, la catégorie d.1, qui est
« anti science » est aussi en négatif en axe 1, alors que tous les autres *.1 sont en positif. Il est difficile de savoir si cela
correspond à une difficulté de compréhension des répondants.
Le second axe met en avant du coté négatif des personnes qui ont confiance en la science (sauf la question d). Là encore,
elles sont opposées à des personnes ayant une opposition plus mesurée.
Même si ces résultats sont difficiles à interpréter, on peut noter qu’ils ne mettent en avant que des personnes ayant des
opinions très tranchées, et que les personnes qui doutent sont plus comparables entre elles.
Question 11: Quels sont les catégories les mieux représentées dans le premier plan principal ? Commentez et expliquez ce
que l’on observe.
On peut lire directement les qualités de représentation dans la seconde colonne. Les catégories les mieux représentées sont
b.1 (4297), c.5 (3690) et d.3 (3539). On peut remarquer que toutes ces variables sont mal représentées (qualité < 5000).
Ce n’est pas étonnant, vu que la qualité de l’analyse est mauvaise.
2.3
Variables supplémentaires
On ajoute à l’analyse de nouvelles variables quantitatives :
– sexe : homme (sex.h) ou femme (sex.f) ;
– âge : age.16-24 ans, age.25-34, age.35-44, age.45-54, age.55-64, et enfin age.65-- (65 ans et plus) ;
– niveau d’éducation : école primaire (edu.pri), secondaire (edu.sec) ou éducation supérieur (edu.sup).
6
On donne ci-dessous les coordonnées de ces catégories sur les 2 premiers axes principaux, leur effectif et les valeurs test
correspondantes.
sex.f
sex.h
age.16-24
age.25-34
age.35-44
age.45-54
age.55-64
age.65-edu.pri
edu.sec
edu.sup
Axis1
-0.11
0.12
0.07
0.06
-0.12
0.19
0.12
-0.31
-0.10
0.10
0.10
Axis2
-0.06
0.07
-0.16
-0.01
0.09
-0.02
-0.01
0.05
0.05
0.02
-0.30
sex.f
sex.h
age.16-24
age.25-34
age.35-44
age.45-54
age.55-64
age.65-edu.pri
edu.sec
edu.sup
effectif
196
169
42
80
72
62
54
55
183
142
40
sex.f
sex.h
age.16-24
age.25-34
age.35-44
age.45-54
age.55-64
age.65-edu.pri
edu.sec
edu.sup
Axis1
-2.17
2.17
0.45
0.63
-1.16
1.60
0.95
-2.47
-1.85
1.46
0.69
Axis2
-1.28
1.28
-1.09
NA
0.83
-0.19
-0.05
0.38
0.89
0.37
-2.01
Question 12: La valeur test pour age.25-34 est manquante sur l’axe 2. Calculez-là.
Pour calculer la valeur manquante, on utilise la formule
V T = −0, 01 ×
√
r
80
365 − 1
= −0, 10
365 − 80
Question 13: Quelles sont les catégories qui sont liées aux deux premiers axes ? On justifiera les propriétés utilisées. Quelles
conclusions peut-on en tirer ?
Les valeurs-test données ici permettent de savoir quels sont les catégories liées aux axes. Une catégorie est liée à un axe si
– c’est une catégorie supplémentaire, c’est-à-dire non utilisée dans l’analyse
– son effectif est assez grand (mettons 30)
– sa valeur-test sur l’axe est supérieure à 2 ou 3 en valeur absolue
Les catégories liées aux axes sont ici
– axe 1 : en négatif, sex.f (−2, 17) et age.65-- (−2, 47), en positif sex.h (2, 17) ; les femmes et les personnes de plus
de 65 ans sont plus sujets que la moyenne à rejeter la science 3 ;
– axe 2 : en négatif edu.sup (−2, 01), en positif, rien ; les personnes ayant une éducation supérieure on plus tendance
que la moyenne à être très confiants en la science.
Il faut ajouter que la majorité des gens est plus mitigée. Enfin, la présence de sex.h sur l’axe 1 n’apporte aucune information
supplémentaire, puisque ce n’est que le pendant de sex.f (c’est toujours pareil avec les variables à 2 modalités, cf TD).
3
Contribution des individus à l’inertie en ACM
On considère l’ACM de p variables qualitatives mesurées sur n individus. On a calculé dans le cours la contribution des
catégories et des variables à l’inertie totale. On cherche ici à calculer la contribution des individus à cette même inertie. Dans
le cas de l’ACM, l’inertie totale s’écrit sur les profils lignes
n
X
1
kei − g` k2χ` , avec kei − g` k2χ` =
Ig =
n
i=1
X
toutes les catég.
j
np
nj
xji
nj
−
p
np
!2
,
où xji vaut 1 si l’individu i appartient à la catégorie j et 0 sinon, et nj est le nombre total d’individus de catégorie j.
Question 14: Montrer que
xji
nj
−
p
np
!2
=
n2j
xji
xji nj
+
−
2
.
p2
n2 p 2
np2
On sait, d’après la formule classique (a + b)2 = a2 + b2 + 2ab que
xji
nj
−
p
np
!2
=
xji
p2
!2
+
nj
np
2
−2
xji nj
.
np2
2
Or, comme xji = 0 ou 1, on a xji = xji . La formule ci-dessus se simplifie donc comme demandé dans la question.
Question 15: En déduire que la contribution de l’individu i à l’inertie totale est


X
1
n

 − 1,
np
nj
n
j catég. de i
où la somme est faite sur les catégories auxquelles appartient i.
3. Toutes les affirmations ont finalement des réponses proches, même si le cas de l’affirmation d est un peu mystérieux.
7
La contribution de l’individu i à l’inertie totale est
1
n
X
toutes les catég.
j
xji
nj
−
p
np
np
nj
!2
n2j
xji nj
xji
+
−
2
p2
n2 p2
np2
toutes les catég. j
!
X
xji
nj
xji
=
+ 2 −2
.
pnj
n p
np
toutes les catég. j
1
=
n
np
nj
X
!
La somme se calcule somme suit :
P
1
– premier terme : le xij revient à ne garder que les catégories auxquelles i appartient ; il reste donc np
j catég. de
P
– deuxième terme : toutes les catég. j nj = np et le terme restant est donc 1/n.
P
– troisième terme : toutes les catég. j xji = p (chaque individu appartient à p catégories) ; il reste donc −2/n.
En additionnant les termes, on retrouve la valeur souhaitée.
n
i nj .
Question 16: Expliquez pourquoi cette contribution est toujours positive. Comment peut-on caractériser les individus dont la
contribution à l’inertie totale est grande ?
La raison la plus simple pour laquelle la contribution d’un individu est positive est qu’elle vaut n1 kei − g` k2χ` > 0. On peut
P
aussi voir sur la formule finale qu’on a toujours n/ni ≥ 1 et donc que p1 j catég. de i nnj , qui est la moyenne de p valeurs
supérieures à 1, est aussi supérieure à 1. Ceci implique la positivité de la contribution.
Les individus dont la contribution à l’énergie totale est grande sont ceux qui appartiennent le plus à des catégories a petit
effectif. En effet la contribution croı̂t quand l’effectif des catégories diminue.
χ 2
TABLE DU CHI-DEUX : χ2(n)
n
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
p
p
0.90
0.80
0.70
0.50
0.30
0.20
0.10
0.05
0.02
0.01
0,0158
0,211
0,584
1,064
1,610
2,204
2,833
3,490
4,168
4,865
0,0642
0,446
1,005
1,649
2,343
3,070
3,822
4,594
5,380
6,179
0,148
0,713
1,424
2,195
3,000
3,828
4,671
5,527
6,393
7,267
0,455
1,386
2,366
3,357
4,351
5,348
6,346
7,344
8,343
9,342
1,074
2,408
3,665
4,878
6,064
7,231
8,383
9,524
10,656
11,781
1,642
3,219
4,642
5,989
7,289
8,558
9,803
11,030
12,242
13,442
2,706
4,605
6,251
7,779
9,236
10,645
12,017
13,362
14,684
15,987
3,841
5,991
7,815
9,488
11,070
12,592
14,067
15,507
16,919
18,307
5,412
7,824
9,837
11,668
13,388
15,033
16,622
18,168
19,679
21,161
6,635
9,210
11,341
13,277
15,086
16,812
18,475
20,090
21,666
23,209
5,578
6,304
7,042
7,790
8,547
9,312
10,085
10,865
11,651
12,443
6,989
7,807
8,634
9,467
10,307
11,152
12,002
12,857
13,716
14,578
8,148
9,034
9,926
10,821
11,721
12,624
13,531
14,440
15,352
16,266
10,341
11,340
12,340
13,339
14,339
15,338
16,338
17,338
18,338
19,337
12,899
14,011
15,119
16,222
17,322
18,418
19,511
20,601
21,689
22,775
14,631
15,812
16,985
18,151
19,311
20,465
21,615
22,760
23,900
25,038
17,275
18,549
19,812
21,064
22,307
23,542
24,769
25,989
27,204
28,412
19,675
21,026
22,362
23,685
24,996
26,296
27,587
28,869
30,144
31,410
22,618
24,054
25,472
26,873
28,259
29,633
30,995
32,346
33,687
35,020
24,725
26,217
27,688
29,141
30,578
32,000
33,409
34,805
36,191
37,566
13,240
14,041
14,848
15,659
16,473
17,292
18,114
18,939
19,768
20,599
15,445
16,314
17,187
18,062
18,940
19,820
20,703
21,588
22,475
23,364
17,182
18,101
19,021
19,943
20,867
21,792
22,719
23,647
24,577
25,508
20,337
21,337
22,337
23,337
24,337
25,336
26,336
27,336
28,336
29,336
23,858
24,939
26,018
27,096
28,172
29,246
30,319
31,391
32,461
33,530
26,171
27,301
28,429
29,553
30,675
31,795
32,912
34,027
35,139
36,250
29,615
30,813
32,007
33,196
34,382
35,563
36,741
37,916
39,087
40,256
32,671
33,924
35,172
36,415
37,652
38,885
40,113
41,337
42,557
43,773
36,343
37,659
38,968
40,270
41,566
42,856
44,140
45,419
46,693
47,962
38,932
40,289
41,638
42,980
44,314
45,642
46,963
48,278
49,588
50,892
Pour n > 30, on peut admettre que
2χ2 -
2n-1 ≈ N(0,1)
8

corrigé

Transcription

Documents pareils

Abstract representation theory and the cotangent complex formalism

Les relations professionnelles au Maroc au prisme de la formation

Match d`improvisation junior du 4 avril `a paris

Lycée Saint Louis MP2, année 2011

Première session - Département Informatique Cnam Paris

Description acoustique des objets du quotidien

TD n°7/8 - Vente de voitures

Alg`ebre. Mat 2600 Devoir 8. Ne pas remettre. Discuté le 13

N°13 février 2011

Marie Serindou, consultante UX senior