corrigé
Transcription
corrigé
TD12 : Examen de l’an dernier (correction) 1 AFC : premier tour des élections présidentielles de 2012 à Paris 1.1 Introduction Les données qui suivent sont constituées par les résultats du premier tour des élections présidentielles de 2012 pour Paris. Pour chacun des 10 candidats (en lignes), on a les effectifs de suffrages dans les 20 arrondissements de la ville ainsi que les effectifs d’abstentions (en colonnes). L’objectif est d’analyser la structure des votes ainsi que les liaisons entre candidats et arrondissements. Les candidats sont : Arthaud (Art, extrème gauche), Bayrou (Bay, centre), Cheminade (Che, inclassable), Dupont-Aignan (Dup, droite souverainiste), Hollande (PS, gauche classique), Joly (Jol, écologie), Le Pen (LeP, extrème droite), Mélenchon (Mel, gauche communiste), Poutou (Pou, extrème gauche), Sarkozy (Sar, droite classique). Les arrondissements sont numérotés en chiffres romains de I à XX. Les voix obtenues par les différents candidats sont représentées ci-dessous, ainsi que l’abstention. Art Bay Che Dup Hol Jol LeP Mel Pou Sar ABS TOT I 10 853 22 76 2546 364 491 660 39 3278 2068 10407 II 17 995 27 70 3595 509 444 993 38 3015 2551 12254 III 35 1641 29 125 6748 947 707 1710 89 4793 4084 20908 IV 41 1341 31 162 4887 675 800 1350 81 4511 3347 17226 V 83 3123 73 295 10356 1403 1561 3001 177 9164 6493 35729 VI 33 2420 47 196 5831 746 985 1249 90 9358 4718 25673 VII 19 2729 49 233 4623 579 1338 875 81 14644 5680 30850 VIII 15 1905 49 179 3307 449 1106 772 73 10975 4596 23426 IX 65 3101 52 262 10047 1347 1396 2667 148 9494 6985 35564 X 126 3353 80 319 16892 2324 2098 5901 304 8234 9744 49375 XI 171 6174 166 609 29024 3746 3378 9703 494 15353 15769 84587 XII 191 7171 145 832 25803 3056 4882 8166 492 19373 16790 86901 XIII 305 7873 205 1000 33824 3620 6236 11383 732 18783 21555 105516 XIV 189 6792 162 746 24502 2842 4141 7433 466 17575 15748 80596 XV 203 12526 256 1264 32006 3404 7143 8001 597 43531 26281 135212 XVI 61 6281 144 693 10583 1268 4062 2324 190 47232 18285 91123 XVII 142 7563 161 720 19897 2253 4671 5353 372 32728 18146 92006 XVIII 318 6059 195 675 33709 4238 5150 12019 716 15253 21688 100020 XIX 322 4949 166 670 30673 3465 4990 11690 653 16692 21620 95890 XX 373 5811 213 833 36774 4260 5919 14850 811 15491 22690 108025 TOT 2719 92660 2272 9959 345627 41495 61498 110100 6643 319477 248838 1241288 On donne les tableaux de profils-lignes et de profils-colonnes, en %. I II III IV V VI VII VIII IX X XI XII XIII XIV XV XVI XVII XVIII XIX XX Art 0.1 0.1 0.2 0.2 0.2 0.1 0.1 0.1 0.2 0.3 0.2 0.2 0.3 0.2 0.2 0.1 0.2 0.3 0.3 0.3 Bay 8.2 8.1 7.8 7.8 8.7 9.4 8.8 8.1 8.7 6.8 7.3 8.3 7.5 8.4 9.3 6.9 8.2 6.1 5.2 5.4 Che 0.2 0.2 0.1 0.2 0.2 0.2 0.2 0.2 0.1 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 Dup 0.7 0.6 0.6 0.9 0.8 0.8 0.8 0.8 0.7 0.6 0.7 1.0 0.9 0.9 0.9 0.8 0.8 0.7 0.7 0.8 Hol 24.5 29.3 32.3 28.4 29.0 22.7 15.0 14.1 28.3 34.2 34.3 29.7 32.1 30.4 23.7 11.6 21.6 33.7 32.0 34.0 Jol 3.5 4.2 4.5 3.9 3.9 2.9 1.9 1.9 3.8 4.7 4.4 3.5 3.4 3.5 2.5 1.4 2.4 4.2 3.6 3.9 LeP 4.7 3.6 3.4 4.6 4.4 3.8 4.3 4.7 3.9 4.2 4.0 5.6 5.9 5.1 5.3 4.5 5.1 5.1 5.2 5.5 Mel 6.3 8.1 8.2 7.8 8.4 4.9 2.8 3.3 7.5 12.0 11.5 9.4 10.8 9.2 5.9 2.6 5.8 12.0 12.2 13.7 Pou 0.4 0.3 0.4 0.5 0.5 0.4 0.3 0.3 0.4 0.6 0.6 0.6 0.7 0.6 0.4 0.2 0.4 0.7 0.7 0.8 Sar 31.5 24.6 22.9 26.2 25.6 36.5 47.5 46.8 26.7 16.7 18.2 22.3 17.8 21.8 32.2 51.8 35.6 15.2 17.4 14.3 ABS 19.9 20.8 19.5 19.4 18.2 18.4 18.4 19.6 19.6 19.7 18.6 19.3 20.4 19.5 19.4 20.1 19.7 21.7 22.5 21.0 I II III IV V VI VII VIII IX X XI XII XIII XIV XV XVI XVII XVIII XIX XX Art Bay Che Dup Hol Jol LeP Mel Pou Sar ABS 0.4 0.9 1.0 0.8 0.7 0.9 0.8 0.6 0.6 1.0 0.8 0.6 1.1 1.2 0.7 1.0 1.2 0.7 0.9 0.6 0.9 1.0 1.3 1.8 1.3 1.3 2.0 2.3 1.1 1.6 1.3 1.5 1.6 1.5 1.4 1.4 1.6 1.4 1.6 1.3 1.2 1.2 1.4 1.3 3.1 3.4 3.2 3.0 3.0 3.4 2.5 2.7 2.7 2.9 2.6 1.2 2.6 2.1 2.0 1.7 1.8 1.6 1.1 1.4 2.9 1.9 0.7 2.9 2.2 2.3 1.3 1.4 2.2 0.8 1.2 4.6 2.3 0.6 2.1 2.2 1.8 1.0 1.1 1.8 0.7 1.1 3.4 1.8 2.4 3.3 2.3 2.6 2.9 3.2 2.3 2.4 2.2 3.0 2.8 4.6 3.6 3.5 3.2 4.9 5.6 3.4 5.4 4.6 2.6 3.9 6.3 6.7 7.3 6.1 8.4 9.0 5.5 8.8 7.4 4.8 6.3 7.0 7.7 6.4 8.4 7.5 7.4 7.9 7.4 7.4 6.1 6.7 11.2 8.5 9.0 10.0 9.8 8.7 10.1 10.3 11.0 5.9 8.7 7.0 7.3 7.1 7.5 7.1 6.8 6.7 6.8 7.0 5.5 6.3 7.5 13.5 11.3 12.7 9.3 8.2 11.6 7.3 9.0 13.6 10.6 2.2 6.8 6.3 7.0 3.1 3.1 6.6 2.1 2.9 14.8 7.3 5.2 8.2 7.1 7.2 5.8 5.4 7.6 4.9 5.6 10.2 7.3 11.7 6.5 8.6 6.8 9.8 10.2 8.4 10.9 10.8 4.8 8.7 11.8 5.3 7.3 6.7 8.9 8.4 8.1 10.6 9.8 5.2 8.7 13.7 6.3 9.4 8.4 10.6 10.3 9.6 13.5 12.2 4.8 9.1 Question 1: Est-il exact d’affirmer que Hol a fait un meilleur score (en pourcentage) dans le XIè arrondissement que dans le XXè ? On fera attention au rôle de l’abstention. Le score de Hollande dans le XIè est de 29024 voix ; pour obtenir son score, il faut comparer au nombre total de voix dans l’arrondissement hors abstention. On trouve donc 29024/(84587−15769) = 42, 17%. Dans le XXè, le score est 36774/(108025− 22690) = 43, 09%. L’affirmation est donc fausse. Pourtant, le profil-ligne de Hol est meilleur pour XX que pour XI. J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 1 1.2 Analyse factorielle des correspondances On effectue une AFC sur les données électorales brutes et on obtient, dans l’ordre, les valeurs propres, la projection des individus sur les deux premiers axes, les coordonnées des profils ligne et colonne sur 3 axes, la qualité de la représentation en 10000è des lignes et des colonnes par les 3 premiers axes principaux : [1] 0.0807 0.0029 0.0013 0.0003 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 d = 0.05 Art XVI XIX XX Pou XVIII ABS LeP VIII Mel Sar XVII VII XIII Che I IV Dup II IX V XV VI XII XIV III XI X Hol Jol Bay I II III IV V VI VII VIII IX X XI XII XIII XIV XV XVI XVII XVIII XIX XX Axis1 -0.154 0.021 0.077 -0.013 0.004 -0.276 -0.545 -0.532 -0.032 0.247 0.213 0.075 0.187 0.086 -0.188 -0.641 -0.256 0.268 0.221 0.308 Axis2 -0.030 -0.049 -0.073 -0.037 -0.071 -0.073 -0.006 0.034 -0.066 -0.011 -0.038 -0.038 -0.007 -0.050 -0.051 0.089 -0.001 0.035 0.089 0.072 Axis3 0.019 0.066 0.090 0.021 0.029 0.036 0.018 0.003 0.041 0.058 0.063 -0.034 -0.053 -0.021 -0.042 0.022 -0.015 0.006 -0.002 -0.006 Comp1 Comp2 Comp3 Art 0.369 0.120 -0.068 Bay -0.088 -0.148 -0.033 Che 0.036 -0.011 -0.024 Dup -0.016 -0.057 -0.108 Hol 0.244 -0.027 0.013 Jol 0.248 -0.048 0.091 LeP 0.037 0.029 -0.116 Mel 0.373 0.074 0.010 Pou 0.286 0.055 -0.064 Sar -0.433 0.014 0.016 ABS 0.023 0.042 -0.010 I II III IV V VI VII VIII IX X XI XII XIII XIV XV XVI XVII XVIII XIX XX Axis1 Axis2 Axis3 9041 335 137 421 2306 4186 2791 2493 3814 544 4355 1393 20 7766 1339 9176 636 157 9976 1 11 9943 40 0 1332 5572 2145 9431 18 522 8816 275 759 6547 1662 1388 9234 13 742 7112 2430 420 8890 651 438 9797 189 11 9953 0 36 9743 168 6 8529 1381 1 9425 518 3 Art Bay Che Dup Hol Jol LeP Mel Pou Sar ABS Comp1 Comp2 Comp3 8379 893 283 2517 7092 352 1415 142 657 133 1729 6309 9841 123 29 8414 311 1130 841 538 8407 9546 372 6 9002 329 455 9972 11 14 1722 5661 324 Question 2: Pourquoi y a-t-il 10 valeurs propres ? Combien de variables faut-il garder ? Le nombre de valeurs propres est min(20 − 1, 11 − 1) = 10. La somme des valeurs propres (0.0853) est égale à l’inertie totale. Au vu de la vitesse de décroissance des variables, garder une seule variable semble suffisant. On en garde deux pour permettre une visualisation correcte. Ainsi, on couvre 98% de l’inertie totale. Question 3: Donnez les modalités qui déterminent les deux premiers axes dans l’espace des arrondissements et des candidats. On précisera la méthode utilisée. On regarde d’abord la contribution de chaque catégorie au premier axe factoriel en la comparant à son poids (on cherche celles pour lesquelles le rapport est supérieur à 2). Comme on ne dispose pas des contributions aux axes, on travaille sur les coordonnées : la contribution d’une catégorie (de ligne ici) à un axe est est ni (aik )2 , pn µk où ni /pn est le poids de la catégorie, aik sa coordonnée sur l’axe k et µk la valeur propre associée. Dire que la contribution √ est supérieure à α fois le poids revient donc à comparer |aik | à αµk . Le raisonnement est le même sur les colonnes. (de ligne et de colonne) qui ont une coordonnée supérieure à √ Pour le premier axe, on retient donc les catégories √ 2 × 0, 0807 = 0, 402 en valeur absolue, et pour le second 2 × 0, 0029 = 0.077. – axe 1 : en négatif XVI (−0, 641), VII (−0; 545), VIII (−0, 532) et Sar (−0, 433) ; en positif rien (les plus proches sont Art et Mel à 0, 37). – axe 2 : en négatif Bay (−0, 148) et à la limite III et VI (0, 073) ; en positif Art (0, 120), XVI et XIX (0, 089) et à la limite Mel (0, 074) et XX (0, 072). Question 4: Interprétez globalement le plan des deux premiers axes (arrondissements et candidats). La première remarque est que l’on ne retrouve pas la graduation droite-gauche à laquelle on aurait pu s’attendre. En particulier LeP (extrême droite) et Dup (droite souverainiste) se retrouvent au centre sur l’axe 1. De plus parmi les catégories principales (Abs, Hol et Sar), seul le premier est caractéristique d’un axe. J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 2 Le premier axe semble caractériser un électorat plutôt traditionnel de droite, caractérisé par Sarkozy et les VIIè, VIIIè et XVIè arrondissement de Paris 1 . À l’opposé, aucun individu ou arrondissement n’est vraiment déterminant, mais on a les partis de gauche. Le fait que le nuage soit asymétrique correspond au fait que l’électorat de Sarkozy est peu homogène. Le second axe oppose d’un coté Bayrou (centriste, et donc peu marqué politiquement) à Arthaud, Mélenchon et Sarkozy, candidats plus marqués dans le jeu gauche/droite. Encore une fois, Le Pen n’est pas caractéristique. L’axe 2 est un axe de polarisation politique plus ou moins forte (en termes de gauche/droite classique). Il faut tout de même noter que la seconde valeur propre est très petite, ce qui diminue l’importance de cet axe. Question 5: Quels sont les candidats et les arrondissements qui sont bien représentés par le premier plan principal ? Quels sont les candidats et les arrondissements qui sont mal représentés par le premier plan principal ? I 9376 II 2727 III 5285 IV 4899 V 7787 VI 9813 VII 9977 VIII 9983 IX 6903 X 9448 XI 9091 XII 8208 XIII 9247 XIV 9542 XV 9541 XVI 9987 XVII XVIII 9953 9912 XIX 9910 XX 9944 Art Bay Che Dup Hol Jol LeP Mel Pou Sar ABS 9272 9609 1556 1863 9964 8725 1379 9919 9332 9983 7383 Pour le premier plan principal, on regarde la qualité de représentation cumulée, qui doit être calculée en additionnant les deux premières colonnes du tableau. – mauvaise représentation (qualité < 5000) : candidats Che (1557), Dup (1862), LeP (1379) ; arrondissements II (2727) et IV (4899). Toutefois, ils sont tous proches du centre de gravité et il est difficile de conclure. – représentation moyenne (qualité entre 5000 et 8000) : candidats seulement ABS (7383) ; arrondissements V (7887), IX (6903) et III (5284) ; – bonne représentation (qualité > 8000) : tous les autres (7 candidats et 15 arrondissements). C’est normal qu’ils soient nombreux vu la très bonne qualité globale de l’analyse. 2 ACM : perception de la science En 1993, l’International Social Survey Programme (ISSP) a interrogé 365 personnes sur leur rapport à la science. On s’intéresse à 4 affirmations particulières : – a : « nous croyons trop souvent à la science, pas assez aux sentiments et à la foi » ; – b : « au total, la science fait plus de mal que de bien » ; – c : « tous les changements que les humains font à la nature, vont probablement empirer les choses » ; – d : « la science moderne résoudra nos problèmes environnementaux sans trop changer notre mode de vie ». Pour chacune, les réponses possibles sont : tout à fait d’accord (5), d’accord (4), sans avis (3), pas d’accord (2), pas du tout d’accord (1). 2.1 Un premier regard Les données sont résumées dans le tableau de Burt ci-dessous : 1. Qui sont connus pour être les plus bourgeois, mais tout le monde n’est pas obligé de le savoir. J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 3 a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5 a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5 14 0 0 0 0 7 5 NA NA 0 1 3 4 5 1 3 4 6 1 0 0 80 0 0 0 NA 30 13 15 2 3 20 23 27 7 14 26 12 24 4 0 0 94 0 0 NA NA 23 24 2 1 15 35 32 11 10 25 36 21 2 0 0 0 133 0 15 32 37 31 18 4 14 22 74 19 17 27 36 43 10 0 0 0 0 44 5 NA NA 11 11 2 3 8 16 15 9 11 9 11 4 7 NA NA 15 5 NA 0 0 0 0 8 9 15 20 3 13 13 8 17 4 5 30 NA 32 NA 0 NA 0 0 0 3 28 30 41 8 15 37 32 26 0 NA 13 23 37 NA 0 0 NA 0 0 0 9 24 40 12 8 24 28 21 4 NA 15 24 31 11 0 0 0 NA 0 0 7 20 39 16 9 14 25 27 7 0 2 2 18 11 0 0 0 0 33 0 2 3 14 14 8 5 6 9 5 1 3 1 4 2 8 3 0 0 0 11 0 0 0 0 2 2 1 6 0 3 20 15 14 3 9 28 9 7 2 0 55 0 0 0 8 20 13 14 0 4 23 35 22 8 15 30 24 20 3 0 0 92 0 0 5 17 47 22 1 5 27 32 74 16 20 41 40 39 14 0 0 0 154 0 21 39 32 52 10 1 7 11 19 15 3 8 12 16 14 0 0 0 0 53 17 15 6 6 9 3 14 10 17 9 13 15 8 9 8 2 8 5 21 17 53 0 0 0 0 4 26 25 27 11 13 37 24 14 5 2 20 17 39 15 0 93 0 0 0 6 12 36 36 9 8 32 28 25 6 1 13 47 32 6 0 0 99 0 0 1 24 21 43 11 17 26 21 27 9 6 14 22 52 6 0 0 0 100 0 0 4 2 10 4 4 0 4 7 5 0 0 1 10 9 0 0 0 0 20 Question 6: Des données sont manquantes dans le tableau ci-dessous ( NA). En utilisant les propriétés du tableau, retrouvezles. On commence par calculer les effectifs totaux pour la question b. On peut le faire en additionnant les colonnes de la sous matrice (b, c). Par exemple, (b.1, b.1)= 8 + 9 + 15 + 20 + 3 = 55. On peut de même calculer les autres données et on obtient pour la diagonale b.1 b.2 b.3 b.4 55 110 85 82 Ensuite, on calcule – (a.1, b.4)= 82 − 11 − 31 − 24 − 15 = 1, – (a.1, b.3)= 14 − 7 − 5 − 1 = 1, – (a.5, b.3)= 85 − 37 − 23 − 13 − 1 = 11 – (a.5, b.2)= 44 − 5 − 11 − 11 − 11 = 6 – (a.2, b.1)= 80 − 30 − 13 − 15 − 2 = 20 – (a.3, b.1)= 55 − 5 − 15 − 20 − 7 = 8 – (a.3, b.2)= 110 − 6 − 32 − 30 − 5 = 37 Les autres valeurs sont obtenues par symétrie par rapport à la diagonale. Le tableau finalement obtenu est a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5 a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5 14 0 0 0 0 7 5 1 1 0 1 3 4 5 1 3 4 6 1 0 0 80 0 0 0 20 30 13 15 2 3 20 23 27 7 14 26 12 24 4 0 0 94 0 0 8 37 23 24 2 1 15 35 32 11 10 25 36 21 2 0 0 0 133 0 15 32 37 31 18 4 14 22 74 19 17 27 36 43 10 0 0 0 0 44 5 6 11 11 11 2 3 8 16 15 9 11 9 11 4 7 20 8 15 5 55 0 0 0 0 8 9 15 20 3 13 13 8 17 4 5 30 37 32 6 0 110 0 0 0 3 28 30 41 8 15 37 32 26 0 1 13 23 37 11 0 0 85 0 0 0 9 24 40 12 8 24 28 21 4 1 15 24 31 11 0 0 0 82 0 0 7 20 39 16 9 14 25 27 7 0 2 2 18 11 0 0 0 0 33 0 2 3 14 14 8 5 6 9 5 1 3 1 4 2 8 3 0 0 0 11 0 0 0 0 2 2 1 6 0 3 20 15 14 3 9 28 9 7 2 0 55 0 0 0 8 20 13 14 0 4 23 35 22 8 15 30 24 20 3 0 0 92 0 0 5 17 47 22 1 5 27 32 74 16 20 41 40 39 14 0 0 0 154 0 21 39 32 52 10 1 7 11 19 15 3 8 12 16 14 0 0 0 0 53 17 15 6 6 9 3 14 10 17 9 13 15 8 9 8 2 8 5 21 17 53 0 0 0 0 4 26 25 27 11 13 37 24 14 5 2 20 17 39 15 0 93 0 0 0 6 12 36 36 9 8 32 28 25 6 1 13 47 32 6 0 0 99 0 0 1 24 21 43 11 17 26 21 27 9 6 14 22 52 6 0 0 0 100 0 0 4 2 10 4 4 0 4 7 5 0 0 1 10 9 0 0 0 0 20 Question 7: On s’intéresse au lien entre les réponses aux affirmations a et d du sondage. Donnez le tableau de contingence de leurs modalités. Le χ2 correspondant est 26.21. En utilisant la table donnée à la fin de ce sujet, que peut-on dire de la dépendance entre les réponses à ces deux questions ? Le tableau de contingence de ces deux questions est le sous tableau suivant du tableau de Burt : a.1 a.2 a.3 a.4 a.5 d.1 d.2 d.3 d.4 d.5 3 4 6 1 0 14 26 12 24 4 10 25 36 21 2 17 27 36 43 10 9 11 9 11 4 J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 4 Le χ2 du tableau doit être interprété comme ayant(5 − 1)(5 − 1) = 16 degrés de liberté. D’après la table du χ² fournie à la fin, cela correspond à des valeurs critiques de 26, 296 à 5% et 32, 000 à 1%. L’interprétation est la suivante : si les variables sont indépendantes, alors, par exemple, P (χ216 > 26, 296) = 0, 05. Si la valeur mesurée du χ2 est plus grande que cette valeur critique, alors on peu affirmer que l’hypothèse H0 d’indépendance est fausse. Dans notre cas : – à 1%, la valeur du χ² est nettement au dessous de la valeur critique. Il est impossible d’affirmer que les deux variables sont liées. – à 5%, les deux valeurs sont très proches et la réponse est difficile. Il faudrait être à 6% pour affirmer que les variables sont dépendantes. On peut en déduire que la dépendance entre ces variable est très faible et difficile à montrer 2 . 2.2 Analyse des correspondances multiples On procède à l’analyse des correspondances multiples des données ci-dessus. Les 10 premières valeurs propres sont données ci-dessous, suivies dans l’ordre pour les 4 premières colonnes par : les coordonnées des catégories, leur poids, leur contribution aux axes et leur qualité de représentation par les sous espaces (ces 3 derniers en 10000è). [1] 0.45 0.39 0.33 0.32 0.27 0.26 0.26 0.24 0.23 0.22 a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5 Comp1 0.90 0.46 0.58 -0.38 -1.21 0.25 0.69 -0.04 -0.30 -1.87 0.31 0.77 0.70 -0.21 -1.47 -0.62 0.25 0.50 -0.01 -1.96 Comp2 -1.39 -0.80 0.65 0.19 -0.07 -1.54 -0.09 0.61 0.52 -0.01 -2.90 -0.60 0.57 0.08 0.00 -0.83 -0.24 0.84 -0.19 0.09 Comp3 0.38 0.18 0.40 -0.65 0.68 -0.47 0.47 -0.20 -0.32 0.52 -1.46 0.75 0.13 -0.63 1.14 0.73 0.55 0.09 -0.97 -0.08 Comp4 -1.91 0.40 -0.19 0.27 -0.53 -0.96 0.50 0.11 -0.11 -0.05 -1.81 0.89 -0.88 0.40 -0.20 -0.26 0.73 -0.75 0.26 -0.25 a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5 poids 96 548 644 911 301 377 753 582 562 226 75 377 630 1055 363 363 637 678 685 137 a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5 Comp1 Comp2 Comp3 Comp4 173 480 41 1101 263 896 51 271 491 710 306 70 302 83 1160 209 991 4 418 267 53 2295 246 1092 791 16 501 588 2 561 69 21 111 394 174 23 1771 0 182 2 16 1633 476 774 501 354 625 950 698 534 30 1525 105 17 1246 539 1764 0 1398 47 314 645 571 75 90 92 569 1060 385 1221 17 1217 0 61 1916 143 1178 3 3 27 a.1 a.2 a.3 a.4 a.5 b.1 b.2 b.3 b.4 b.5 c.1 c.2 c.3 c.4 c.5 d.1 d.2 d.3 d.4 d.5 Comp1 Comp2 Comp3 Comp4 322 1095 1152 2604 603 2380 2467 2907 1182 2663 3215 3335 849 1051 3495 3912 2016 2023 2660 3045 112 4297 4685 6316 2025 2061 3022 4090 4 1137 1257 1292 256 1043 1345 1382 3482 3482 3751 3753 30 2638 3296 4308 1056 1702 2688 4107 1670 2777 2831 5418 324 371 3259 4442 3690 3690 5882 5951 658 1826 2721 2832 216 407 1430 3235 944 3539 3571 5690 0 130 3666 3915 2230 2234 2238 2275 Question 8: Qu’est-ce que la répartition des valeurs propres nous dit sur les variables d’origine et sur la qualité de l’analyse ? Combien de valeurs propres doit-on retenir a priori ? Si on n’en retient que 2, quelle sera la part d’inertie expliquée ? 0.30 ● ● ● ● ● 0.25 acm1$eig 0.35 0.40 0.45 Pour faciliter la discussion, on donne la représentation des valeurs propres (qui n’est pas obligatoire) : ● ● ● ● 0.20 ● ● ● ● 0.15 ● ● ● 5 10 15 Index 2. Ce qui n’est pas la même chose que de montrer une indépendance, ce sont les subtilités des tests statistiques. J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 5 On voit ici que la décroissance des valeurs propres est très lente. Cela veut dire que la dépendance entre les variables d’origine est plutôt faible. L’analyse sera donc assez mauvaise et donnera peu d’informations. Le nombre total de valeurs propres est 20 − 4 = 16. La somme vaut 16/4 = 4 et les axes intéressants correspondent à une valeur propre supérieure à 1/4 = 0, 25. Selon ce critère il faudrait retenir les 7 premiers axes, ce qui est bien sûr trop. Si on ne retient que 2 axes, l’inertie expliquée est 0, 84, soit 21% de l’inertie totale. C’est très faible. Question 9: Quelles sont les catégories qui déterminent les deux premiers axes principaux ? (on détaillera les critères et on cherchera à être précis dans la réponse). On fournit pour référence une représentation des deux premiers axes qui n’est pas dans le sujet. d=1 b.4 d.5 b.5 a.4 c.5 d.3 a.3 c.3 b.3 c.4 a.5 b.2 d.4 d.2 c.2 a.2 d.1 a.1 b.1 c.1 Si on travaille à partir des coordonnées comme dans la question 3, mais avec un coefficient multiplicateur de 3, on obtient √ √ des valeurs limite pour les coordonnées de 3 × 0, 45 = 1, 16 sur le premier axe et 2 × 0, 39 = 1, 08 sur le second. On obtient : – axe 1 : en négatif d.5 (−1, 96), b.5 (−1, 87), c.5 (−1, 47), a.5 (−1, 21) ; en positif, rien ; – axe 2 : en négatif c.1 (−2.86), b.1 (−1, 54), a.1 (−1, 39) ; en positif, rien. Si on prend un coefficient multiplicateur de 2, le résultat est le même. On peut être tenté d’ajouter d’autres termes (d.1 sur l’axe 2, par exemple, mais c’est à mon sens une erreur, vu le « trou » qu’il y a entre les valeurs. Question 10: Comment peut-on interpréter les axes à partir de ces données ? Le premier axe met en avant les personnes qui sont tout à fait d’accord avec les affirmations et qui se méfient donc de la science ; il n’y a pas vraiment d’opposition, les autres sont plutôt dans un paquet homogène. Il y a une bizarrerie avec la question d, pour laquelle une réponse 5 correspond à des personnes plutôt pro-science. Toutefois, la catégorie d.1, qui est « anti science » est aussi en négatif en axe 1, alors que tous les autres *.1 sont en positif. Il est difficile de savoir si cela correspond à une difficulté de compréhension des répondants. Le second axe met en avant du coté négatif des personnes qui ont confiance en la science (sauf la question d). Là encore, elles sont opposées à des personnes ayant une opposition plus mesurée. Même si ces résultats sont difficiles à interpréter, on peut noter qu’ils ne mettent en avant que des personnes ayant des opinions très tranchées, et que les personnes qui doutent sont plus comparables entre elles. Question 11: Quels sont les catégories les mieux représentées dans le premier plan principal ? Commentez et expliquez ce que l’on observe. On peut lire directement les qualités de représentation dans la seconde colonne. Les catégories les mieux représentées sont b.1 (4297), c.5 (3690) et d.3 (3539). On peut remarquer que toutes ces variables sont mal représentées (qualité < 5000). Ce n’est pas étonnant, vu que la qualité de l’analyse est mauvaise. 2.3 Variables supplémentaires On ajoute à l’analyse de nouvelles variables quantitatives : – sexe : homme (sex.h) ou femme (sex.f) ; – âge : age.16-24 ans, age.25-34, age.35-44, age.45-54, age.55-64, et enfin age.65-- (65 ans et plus) ; – niveau d’éducation : école primaire (edu.pri), secondaire (edu.sec) ou éducation supérieur (edu.sup). J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 6 On donne ci-dessous les coordonnées de ces catégories sur les 2 premiers axes principaux, leur effectif et les valeurs test correspondantes. sex.f sex.h age.16-24 age.25-34 age.35-44 age.45-54 age.55-64 age.65-edu.pri edu.sec edu.sup Axis1 -0.11 0.12 0.07 0.06 -0.12 0.19 0.12 -0.31 -0.10 0.10 0.10 Axis2 -0.06 0.07 -0.16 -0.01 0.09 -0.02 -0.01 0.05 0.05 0.02 -0.30 sex.f sex.h age.16-24 age.25-34 age.35-44 age.45-54 age.55-64 age.65-edu.pri edu.sec edu.sup effectif 196 169 42 80 72 62 54 55 183 142 40 sex.f sex.h age.16-24 age.25-34 age.35-44 age.45-54 age.55-64 age.65-edu.pri edu.sec edu.sup Axis1 -2.17 2.17 0.45 0.63 -1.16 1.60 0.95 -2.47 -1.85 1.46 0.69 Axis2 -1.28 1.28 -1.09 NA 0.83 -0.19 -0.05 0.38 0.89 0.37 -2.01 Question 12: La valeur test pour age.25-34 est manquante sur l’axe 2. Calculez-là. Pour calculer la valeur manquante, on utilise la formule V T = −0, 01 × √ r 80 365 − 1 = −0, 10 365 − 80 Question 13: Quelles sont les catégories qui sont liées aux deux premiers axes ? On justifiera les propriétés utilisées. Quelles conclusions peut-on en tirer ? Les valeurs-test données ici permettent de savoir quels sont les catégories liées aux axes. Une catégorie est liée à un axe si – c’est une catégorie supplémentaire, c’est-à-dire non utilisée dans l’analyse – son effectif est assez grand (mettons 30) – sa valeur-test sur l’axe est supérieure à 2 ou 3 en valeur absolue Les catégories liées aux axes sont ici – axe 1 : en négatif, sex.f (−2, 17) et age.65-- (−2, 47), en positif sex.h (2, 17) ; les femmes et les personnes de plus de 65 ans sont plus sujets que la moyenne à rejeter la science 3 ; – axe 2 : en négatif edu.sup (−2, 01), en positif, rien ; les personnes ayant une éducation supérieure on plus tendance que la moyenne à être très confiants en la science. Il faut ajouter que la majorité des gens est plus mitigée. Enfin, la présence de sex.h sur l’axe 1 n’apporte aucune information supplémentaire, puisque ce n’est que le pendant de sex.f (c’est toujours pareil avec les variables à 2 modalités, cf TD). 3 Contribution des individus à l’inertie en ACM On considère l’ACM de p variables qualitatives mesurées sur n individus. On a calculé dans le cours la contribution des catégories et des variables à l’inertie totale. On cherche ici à calculer la contribution des individus à cette même inertie. Dans le cas de l’ACM, l’inertie totale s’écrit sur les profils lignes n X 1 kei − g` k2χ` , avec kei − g` k2χ` = Ig = n i=1 X toutes les catég. j np nj xji nj − p np !2 , où xji vaut 1 si l’individu i appartient à la catégorie j et 0 sinon, et nj est le nombre total d’individus de catégorie j. Question 14: Montrer que xji nj − p np !2 = n2j xji xji nj + − 2 . p2 n2 p 2 np2 On sait, d’après la formule classique (a + b)2 = a2 + b2 + 2ab que xji nj − p np !2 = xji p2 !2 + nj np 2 −2 xji nj . np2 2 Or, comme xji = 0 ou 1, on a xji = xji . La formule ci-dessus se simplifie donc comme demandé dans la question. Question 15: En déduire que la contribution de l’individu i à l’inertie totale est X 1 n − 1, np nj n j catég. de i où la somme est faite sur les catégories auxquelles appartient i. 3. Toutes les affirmations ont finalement des réponses proches, même si le cas de l’affirmation d est un peu mystérieux. J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 7 La contribution de l’individu i à l’inertie totale est 1 n X toutes les catég. j xji nj − p np np nj !2 n2j xji nj xji + − 2 p2 n2 p2 np2 toutes les catég. j ! X xji nj xji = + 2 −2 . pnj n p np toutes les catég. j 1 = n np nj X ! La somme se calcule somme suit : P 1 – premier terme : le xij revient à ne garder que les catégories auxquelles i appartient ; il reste donc np j catég. de P – deuxième terme : toutes les catég. j nj = np et le terme restant est donc 1/n. P – troisième terme : toutes les catég. j xji = p (chaque individu appartient à p catégories) ; il reste donc −2/n. En additionnant les termes, on retrouve la valeur souhaitée. n i nj . Question 16: Expliquez pourquoi cette contribution est toujours positive. Comment peut-on caractériser les individus dont la contribution à l’inertie totale est grande ? La raison la plus simple pour laquelle la contribution d’un individu est positive est qu’elle vaut n1 kei − g` k2χ` > 0. On peut P aussi voir sur la formule finale qu’on a toujours n/ni ≥ 1 et donc que p1 j catég. de i nnj , qui est la moyenne de p valeurs supérieures à 1, est aussi supérieure à 1. Ceci implique la positivité de la contribution. Les individus dont la contribution à l’énergie totale est grande sont ceux qui appartiennent le plus à des catégories a petit effectif. En effet la contribution croı̂t quand l’effectif des catégories diminue. χ 2 TABLE DU CHI-DEUX : χ2(n) n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 p p 0.90 0.80 0.70 0.50 0.30 0.20 0.10 0.05 0.02 0.01 0,0158 0,211 0,584 1,064 1,610 2,204 2,833 3,490 4,168 4,865 0,0642 0,446 1,005 1,649 2,343 3,070 3,822 4,594 5,380 6,179 0,148 0,713 1,424 2,195 3,000 3,828 4,671 5,527 6,393 7,267 0,455 1,386 2,366 3,357 4,351 5,348 6,346 7,344 8,343 9,342 1,074 2,408 3,665 4,878 6,064 7,231 8,383 9,524 10,656 11,781 1,642 3,219 4,642 5,989 7,289 8,558 9,803 11,030 12,242 13,442 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 5,412 7,824 9,837 11,668 13,388 15,033 16,622 18,168 19,679 21,161 6,635 9,210 11,341 13,277 15,086 16,812 18,475 20,090 21,666 23,209 5,578 6,304 7,042 7,790 8,547 9,312 10,085 10,865 11,651 12,443 6,989 7,807 8,634 9,467 10,307 11,152 12,002 12,857 13,716 14,578 8,148 9,034 9,926 10,821 11,721 12,624 13,531 14,440 15,352 16,266 10,341 11,340 12,340 13,339 14,339 15,338 16,338 17,338 18,338 19,337 12,899 14,011 15,119 16,222 17,322 18,418 19,511 20,601 21,689 22,775 14,631 15,812 16,985 18,151 19,311 20,465 21,615 22,760 23,900 25,038 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 22,618 24,054 25,472 26,873 28,259 29,633 30,995 32,346 33,687 35,020 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 13,240 14,041 14,848 15,659 16,473 17,292 18,114 18,939 19,768 20,599 15,445 16,314 17,187 18,062 18,940 19,820 20,703 21,588 22,475 23,364 17,182 18,101 19,021 19,943 20,867 21,792 22,719 23,647 24,577 25,508 20,337 21,337 22,337 23,337 24,337 25,336 26,336 27,336 28,336 29,336 23,858 24,939 26,018 27,096 28,172 29,246 30,319 31,391 32,461 33,530 26,171 27,301 28,429 29,553 30,675 31,795 32,912 34,027 35,139 36,250 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 36,343 37,659 38,968 40,270 41,566 42,856 44,140 45,419 46,693 47,962 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 Pour n > 30, on peut admettre que 2χ2 - 2n-1 ≈ N(0,1) J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 8