TD7 : élections européennes de 1999 `a Paris
Transcription
TD7 : élections européennes de 1999 `a Paris
TD7 : élections européennes de 1999 à Paris (Correction) Note : les parties 1 et 2 sont indépendantes. On s’attachera à justifier autant que possible les réponses, tout en évitant de faire du « remplissage » ; la note tiendra compte de la qualité de la rédaction. 1 Valeurs-tests pour des variables à deux modalités On s’intéresse dans le cadre d’une ACP à une variable supplémentaire qualitative à deux modalités, que l’on notera (1) (2) 1 et 2. On note n(1) et n(2) les effectifs de ces catégories, et ck et ck leurs coordonnées sur l’axe k. Ces coordonnées de catégories peuvent s’écrire, pour j = 1, 2 (j) ck = 1 n(j) X i cik , de mod. j où la somme s’effectue sur tous les individus ayant la modalité j. Comme d’habitude, λk est la valeur propre associée à l’axe k et cik la coordonnée de l’individu i sur l’axe k. On rappelle que chaque vecteur ck est centré. Question 1: Montrer que, pour chaque k, (1) (2) n(1) ck + n(2) ck = 0. Pn On sait que, comme le vecteur ck est centré, i=1 cik = 0. Comme les individus appartiennent nécessairement soit à la catégorie 1 soit à la 2, on peut écrire X i dans cat. X cik + 1 i dans cat. cik = 2 n X cik = 0. i=1 Question 2: Montrer que les valeurs tests associées aux deux modalités sont égales au signe près La valeur-test associée à la catégorie 1 est égale à s (1) ck (1) √ n(1) n−1 √ , λk n − n(1) (2) où là encore ck = −n(2) ck /n(1) et n − n(1) = n(2) . La valeur test ci-dessus devient donc s s √ √ (2) n(2) ck n(1) n−1 n(2) n − 1 (2) √ √ = −ck . − (1) λk n − n(1) λk n n(1) Pour chaque axe, les deux catégories ont donc la même valeur test au signe près. 2 Résultat des élections européennes de 1999 à Paris On étudie les résultats des élections européennes de 1999 à Paris et dans quelques villes de banlieue. Les principales listes en présence sont : LOLCR (extrême gauche), PC (communistes), PS (socialistes), Verts (écologistes), UDF (centre droit), RPRDL (droite), RPFIE (droite souverainiste), FN (extrême droite), MN (extrême droite). Les communes sont les 20 arrondissements de Paris (I à XX), la ville dans son ensemble (Paris) et quelques communes de banlieue parisienne : Athis-M (Athis-Mons), Courneuv (La Courneuve), Draveil, Neuilly (Neuilly-sur-seine), Pontoise et Thiais. On donne ci-dessous les données brutes et leur matrice de corrélations. J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 1 I II III IV V VI VII VIII IX X XI XII XIII XIV XV XVI XVII XVIII XIX XX Paris Athis-M Courneu Draveil Neuilly Pontoise Thiais 2.1 PS 19.51 22.23 23.37 21.72 20.66 19.27 13.90 12.42 20.63 22.01 23.69 22.02 24.23 22.46 18.90 10.76 15.83 21.74 23.70 23.36 20.21 26.21 22.17 22.94 8.33 21.44 21.36 RPRDL 18.43 13.04 12.67 15.58 16.84 18.69 25.58 28.49 16.61 12.02 11.83 15.35 13.32 15.08 20.62 31.46 22.24 12.24 12.53 10.94 17.20 11.81 6.56 13.33 41.06 12.01 14.97 Verts 18.05 22.64 25.74 20.75 20.21 17.38 10.50 10.17 19.52 22.45 22.23 17.08 18.90 18.36 13.48 7.63 12.93 20.10 18.83 19.94 17.01 9.74 6.94 12.69 6.38 13.27 11.83 RPFIE 12.09 10.79 8.66 10.95 11.72 12.79 16.09 16.31 11.47 9.92 9.17 12.07 9.88 11.23 14.23 17.54 15.50 10.75 9.96 9.62 12.20 12.31 7.85 12.20 17.43 14.36 13.25 UDF LOLCR PC FN MN Absten 10.65 4.39 4.19 4.05 3.03 48.31 9.31 5.49 5.05 3.82 2.18 49.54 8.53 5.73 5.53 2.95 2.00 47.73 10.80 4.98 4.67 3.24 2.39 47.19 10.84 5.25 4.24 3.02 2.08 43.93 15.93 3.04 2.90 2.91 2.42 43.23 18.11 1.97 1.45 3.77 3.06 44.44 15.72 1.68 1.23 4.54 3.19 49.17 10.82 4.53 4.18 4.72 2.52 48.85 7.47 6.97 6.87 4.50 2.96 50.69 7.92 7.08 6.42 4.29 2.53 49.47 10.24 5.44 5.04 4.23 3.21 48.73 8.25 6.57 6.57 4.10 2.80 49.07 11.07 5.31 4.88 3.81 2.84 47.16 13.75 3.56 3.14 3.88 3.11 47.72 16.77 1.43 1.11 4.06 3.68 47.88 13.08 3.62 2.86 4.79 3.40 48.98 6.95 7.21 5.94 6.57 3.50 52.40 7.00 7.05 7.03 5.73 3.24 53.94 7.06 8.07 7.43 5.29 3.19 51.49 10.86 5.16 4.69 4.42 3.03 49.05 7.19 6.40 7.34 7.56 4.47 57.54 3.09 7.37 26.56 9.73 4.12 61.99 9.20 5.98 7.29 5.33 3.59 55.11 13.25 0.82 0.66 3.16 3.23 46.12 10.17 5.85 5.41 6.49 3.31 56.94 8.27 5.70 8.68 5.19 4.11 53.57 PS RPRDL Verts RPFIE UDF LOLCR PC FN MN Absten PS 1.00 -0.95 0.59 -0.85 -0.77 0.91 0.48 0.33 -0.07 0.44 RPRDL -0.95 1.00 -0.53 0.87 0.79 -0.93 -0.63 -0.47 0.01 -0.54 Verts 0.59 -0.53 1.00 -0.68 -0.33 0.52 -0.11 -0.38 -0.74 -0.29 RPFIE -0.85 0.87 -0.68 1.00 0.82 -0.87 -0.62 -0.27 0.26 -0.33 UDF -0.77 0.79 -0.33 0.82 1.00 -0.91 -0.75 -0.61 -0.20 -0.70 LOLCR 0.91 -0.93 0.52 -0.87 -0.91 1.00 0.62 0.50 0.07 0.58 PC 0.48 -0.63 -0.11 -0.62 -0.75 0.62 1.00 0.76 0.38 0.75 FN MN Absten 0.33 -0.07 0.44 -0.47 0.01 -0.54 -0.38 -0.74 -0.29 -0.27 0.26 -0.33 -0.61 -0.20 -0.70 0.50 0.07 0.58 0.76 0.38 0.75 1.00 0.74 0.93 0.74 1.00 0.69 0.93 0.69 1.00 Analyse rapide des variables Question 3: N. Sarkozy était maire de Neuilly en 1999, et il était aussi la tête de liste RPRDL. Comment cela se retrouve-t-il dans les données ? On remarque que le score de la liste RPRDL à Neuilly est important à 41, 06%. C’est de loin le meilleur score pour cette liste (le suivant est 31, 46% pour XVI). On peut donc qu’il y a un rapport avec la popularité de N. Sarkozy à Neuilly. Question 4: Quelles sont les couples de variables remarquables (les plus corrélées, les moins corrélées, les plus opposées) ? – variables les plus corrélées (r proche de 1) : r(FN, Absten)=0,93, aussi (PS, LOLCR), (RPRDL, RPFIE) – variables les moins corrélées (r proche de 0) : r(RPRDL, MN)=0,01, aussi (PS, MN) et (MN, LOLCR) – variables les plus opposées (r proche de −1) : r(PS, RPRDL)=-0,95, et (LOLCR, RPRDL), (UDF, LOLCR) Question 5: Comment se groupent les variables du point de vue des signes de corrélation ? Quelle est la particularité du vote FN (et dans une moindre mesure MN) ? On a d’une part un bloc de partis de gauche, corrélés positivement (LOLCR, PC, PS, Verts) entre eux (sauf Verts et PC, qui sont peu corrélés), et, d’autre part, un bloc de partis de droite (UDF, RPRDL, RPFIE) corrélés négativement avec les premiers. Ce fonctionnement était assez prévisible. Les chiffres plus surprenants concernent la liste FN, qui a plutôt tendance à être corrélée avec les partis les plus à gauche (LOLCR, PC, PS), ce qui rompt avec l’étiquette d’extrême droite de l’énoncé. Le cas de MN est similaire, mais moins marqué. De plus, le vote FN est très corrélé avec l’abstention. 2.2 Analyse des composantes principales On procède à une analyse en composantes principales (sur variables centrées-réduites) des scores des différentes listes. On donne ci-après les variances des composantes principales et, pour les trois premiers axes seulement, les corrélations des variables, les coordonnées des individus, les contributions des individus aux axes et les qualités de représentation des individus par les premiers espaces principaux (ces deux derniers tableaux en 10000èmes). J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 2 1 2 3 4 5 6 7 8 9 Variance 5.4795 2.6220 0.4302 0.2213 0.1247 0.0571 0.0414 0.0229 0.0008 Comp1 Comp2 Comp3 PS 0.92 -0.20 -0.25 RPRDL -0.95 0.09 0.12 Verts 0.48 -0.85 -0.07 RPFIE -0.92 0.29 -0.20 UDF -0.93 -0.15 -0.05 LOLCR 0.97 -0.04 -0.15 PC 0.74 0.49 0.44 FN 0.55 0.79 -0.02 MN 0.06 0.93 -0.29 I II III IV V VI VII VIII IX X XI XII XIII XIV XV XVI XVII XVIII XIX XX Paris Athis-M Courneu Draveil Neuilly Pontoise Thiais Axis1 -0.41 0.91 1.51 0.23 -0.11 -1.78 -3.86 -3.88 0.05 1.87 2.03 0.33 1.60 0.35 -1.73 -4.72 -2.09 2.01 2.14 2.46 -0.10 1.89 4.71 0.92 -5.44 0.45 0.63 Axis2 -0.52 -2.01 -2.91 -1.81 -2.07 -1.55 0.34 0.88 -1.04 -0.93 -1.54 -0.23 -0.95 -0.96 0.01 1.58 0.83 0.51 0.08 -0.24 -0.30 2.88 4.66 1.07 1.20 1.15 1.86 Axis3 0.00 0.34 0.63 0.30 0.48 0.29 0.07 0.21 0.24 -0.03 0.14 -0.42 -0.01 -0.13 -0.23 -0.03 -0.32 -0.65 -0.32 -0.32 -0.12 -1.51 2.30 -0.51 0.92 -0.77 -0.55 I II III IV V VI VII VIII IX X XI XII XIII XIV XV XVI XVII XVIII XIX XX Paris Athis-M Courneu Draveil Neuilly Pontoise Thiais Axis1 Axis2 Axis3 11 38 0 56 569 98 154 1197 341 3 465 76 1 603 201 213 341 73 1005 16 5 1016 110 36 0 151 48 236 123 1 278 334 18 8 8 151 173 127 0 8 130 15 202 0 47 1508 353 1 295 98 88 273 37 365 309 1 86 409 8 90 1 12 13 243 1172 1951 1502 3069 4572 57 160 221 1999 203 727 14 187 513 27 488 263 I II III IV V VI VII VIII IX X XI XII XIII XIV XV XVI XVII XVIII XIX XX Paris Athis-M Courneu Draveil Neuilly Pontoise Thiais Axis1 Axis2 Axis3 2733 7136 7136 1589 9376 9596 2024 9546 9898 146 9542 9793 23 8974 9464 4623 8162 8287 9406 9478 9482 9326 9810 9836 13 6766 7115 7202 8993 8994 6239 9817 9848 2348 3510 7217 6828 9232 9233 967 8236 8376 9032 9032 9198 8941 9943 9943 8164 9455 9648 6846 7289 8006 9316 9329 9533 9075 9160 9317 739 7938 9159 2454 8126 9676 4493 8887 9961 3366 7859 8878 8629 9048 9295 610 4559 6338 799 7722 8334 Question 6: Combien d’axes doit-on garder pour l’analyse ? Quelle sera alors la qualité globale de la représentation ? 3 2 ● 1 pca1$eig 4 5 ● 0 ● 2 ● ● 4 ● ● ● 6 ● 8 Index Les parts d’inerties mentionnées ci-dessus sont les valeurs propres des axes (voir figure). La règle de Kaiser nous propose de garder celles qui sont supérieures à 1. On garde donc les 2 premiers axes. On représente alors 90% de l’inertie totale, puisque la somme des valeurs propres est égale à 9 (nombre de variables). Question 7: Quelles sont les variables qui déterminent les deux premières composantes principales (précisez les critères utilisés) ? MN FN PC RPFIE RPRDL LOLCR UDF PS Verts On représente ci-dessus le cercle des corrélations pour les axes (1, 2). On se fixe un seuil au dessus duquel la corrélation est supposée pertinente. On propose ici un seuil égal à 0, 80, qui semble pertinent à tous les axes. On obtient les caractérisations suivantes : J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 3 – axe 1 : en négatif RPRDL (−0, 94), UDF (−0, 93), RPFIE (−0, 92) ; en positif LOLCR (0, 97), PS (0, 92) ; – axe 2 : en négatif Verts (−0, 85) ; en positif FN (0, 79) et MN (0, 93) ; Question 8: Y a-t-il un effet de taille ? Pourquoi était-ce prévisible ? Il n’y a pas d’effet de taille, puisque les corrélations avec le premier axe sont positives et négatives. Ce n’est pas une surprise, puisque les scores somment à 100% : si une variable augmente, une autre doit diminuer. La situation aurait été peut être différente avec les nombres de voix brutes. Question 9: Comment peut-on interpréter les deux premiers axes principaux en fonction des variables ? – axe 1 : opposition gauche/droite – axe 2 : opposition verts/extrême droite ; cet axe est difficile à interpréter. Question 10: Étudiez la contribution des individus aux deux premiers axes (précisez les critères utilisés). d=2 Courneu Athis−M Thiais XVI Neuilly VIII VII XVII XV Pontoise Draveil XVIII XIX XX XII Paris I IXXIV VI V IV XIIIX XI II III On compare les contributions des communes aux axes avec leur poids, c’est à dire 10000/27 = 370. On ne conserve que les véhicules dont la contribution est supérieure à 3 fois le poids, c’est-à-dire ici 370 × 3 = 1110. On garde alors – axe 1 : en négatif XVI (1508), Neuilly (1999) ; en positif Courneuv (1502) – axe 2 : en négatif III (1197) ; en positif Courneuv (3069) et Athis-M (1172) On aurait eu plus d’individus en prenant une limite moins contraignante, mais cela n’aurait pas aidé à l’interprétation. Question 11: Quelle est la particularité de Courneuv ? Comment pourrait-on la prendre en compte ? Courneuv est surreprésenté sur les axes 2 et 3. On aurait donc pu vouloir le passer en individu supplémentaire, pour voir si les axes changent. Toutefois un véritable individu surreprésenté a tendance aussi à modifier les axes. Dans les données originales, on constate surtout un score PC 3 fois plus élevé que le second (Thiais). Ce sont aussi de loin les scores les plus bas de la droite classique. On peut supposer que d’autres villes de banlieue sont dans le même cas, et si elles étaient présentes, Courneuv serait moins extraordinaire. Question 12: Comparez les qualités de représentation des 5 individus suivants par le premier plan principal : I, XI, XII, Paris, et Courneuv. Commentez en fonction de leurs coordonnées. J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 4 La qualité de la représentation des individus sur le premier plan principal se trouve directement dans la deuxième colonne du tableau fourni. L’individu le moins bien représenté est XII, mais comme il est proche du centre de gravité du nuage projeté, il est difficile de conclure. I et Paris sont correctement représenté à 7136 et 7938, alors qu’il sont aussi au centre. XI et Courneuv sont bien très représentés (9817 et 8887), mais celui des deux qui est le plus éloigné du centre est le moins bien représenté du couple. 2.3 Variables supplémentaires On se tourne maintenant vers les données qui ont été laissées de côté dans l’analyse de la section précédente : les chiffres de l’abstention, d’une part, et la différence Paris/banlieue d’autre part. On donne ci-dessous les coordonnées du barycentre des villes de banlieue sur les trois premiers axes et les corrélations de la variable Absten avec ces mêmes axes. banlieue Axis1 Axis2 Axis3 0.53 2.14 -0.02 Absten Comp1 Comp2 Comp3 0.61 0.69 -0.09 Question 13: Calculez les valeurs tests de la modalité Banlieue sur les trois axes. A quels axes cette modalité est-elle liée (on fera comme si le nombre de données n’était pas un problème) ? La modalité Banlieue a un effectif égal à 6. La formule de la valeur test sur l’axe k est donc r r 6 27 − 1 , ck λk 27 − 6 où ck est la coordonnée du centre de gravité sur l’axe k et λk la valeur propre correspondante. Les valeurs significatives sont supérieures à 2 ou 3 en valeur absolue. Les valeurs test obtenues sont banlieue Axis1 Axis2 Axis3 0.62 3.59 -0.08 Si on néglige le fait qu’un effectif de 6 est trop faible pour conclure, on peut dire que seul le second axe est lié (positivement) à la modalité Banlieue. Cela permet d’affiner la définition du 2è axe, comme étant une opposition entre les écologistes parisiens (« bobos ») et les protestataires FN/PC de la banlieue. Question 14: Commentez la position de la variable Absten ; on rapprochera ces résultats de ceux de la question 5. Absten est corrélée positivement avec les axes 1 et 2. Sur l’axe 1, on en déduit que l’abstention a surtout touché les villes « de gauche ». Sur l’axe 2, on déduit que l’abstention est la première voie de protestation avant les votes FN et MN. Cela rejoint les remarques sur la corrélation de FN et Absten de la question 5. J.-M. Lasgouttes — Cours d’analyse de données 2015-2016 — Université Paris I Panthéon–Sorbonne 5