Sujet 2016
Transcription
Sujet 2016
Année universitaire 2015/2016 Ecole SITI Dpt. Imath case 2D5000 UE STA 108 : Enquêtes et sondages - Travail pratique obligatoire responsables : Philippe Périé - Sylvie Rousseau Les données : résultats des élections présidentielles 2007 et 2012 La population étudiée est celle des bureaux de votes des élections présidentielles de 2007 et 2012. Les données sont les résultats au premier et au deuxième tour sur 59242 bureaux de France métropolitaine en 2007 (60863 en 2012). Les unité individuelles sont donc les bureaux de vote. Ces données longtemps conservées au ministère de l’intérieur sont maintenant téléchargeables à cette adresse (il y a 28 jeux de données sur les élections) : http://www.nosdonnees.fr/dataset?groups=elections&page=1 La présidentielle est l’élection la plus simple à modéliser, les candidats sont identiques sur tout le territoire, il n’y a pas d’équivalences à recoder selon les partis et les étiquettes. De plus le scrutin est au suffrage universel direct, avec un seul élu à la fin (pas de proportionnelle ou de triangulaire complexe). Les fichiers électoraux ont été fusionnés avec des données INSEE qui donnent la région, la tranche d’unité urbaine et l’heure de fermeture des bureaux. Les fichiers sont en format csv (texte avec séparateur point-virgule). Nous vous les avons préparés pour être lus dans les logiciels SAS et R (programmes de création des données). Les fichiers sont éditables avec Excel si vous le souhaitez. Le contenu de deux fichiers est pratiquement identique : pour chacun des bureaux, il y a des informations auxiliaires et les résultats au premier et au deuxième tour. On s’intéresse à l’estimation des totaux (nombre de voix) pour chaque candidat du deuxième tour. Les variables auxiliaires sont les données géographiques INSEE, les horaires de fermeture des bureaux, et les données des premiers tours (qui sont assimilables à un recensement puisque l’élection du premier été validée par le conseil constitutionnel au moment ou à lieu le deuxième tour) On connait les résultats, on pourra donc étudier la qualité des estimations selon la méthode d’échantillonnage. Attention, les valeurs exactes dans les fichiers proposés diffèrent légèrement des résultats publiés par le ministère de l’intérieur, car ils sont limités à la France métropolitaine et ne comprennent pas les votes des français à l’étranger. L’exercice consiste à se mettre en condition de soirée électorale pour laquelle les données des DOM/TOM et des votes à l’étranger ne sont pas disponibles lors de l’estimation Voici les résultats officiels et les données dans les fichiers : http://www.interieur.gouv.fr/Elections/Les-resultats/Presidentielles/elecresult__presidentielle_2007/(path)/presidentielle_2007/FE.html 2007 Fichier Ministère Ségolène Royal 46.94% 15181348 46.94% 16790440 Nicolas Sarkozy 53.06% 1716046 0 32341808 53.06% 18983138 35773578 http://www.interieur.gouv.fr/Elections/Les-resultats/Presidentielles/elecresult__PR2012/(path)/PR2012/FE.html 2012 Fichier Ministère François Hollande 51.58% 16206514 51.64% 18000668 Nicolas Sarkozy 48.41% 15208598 48.36% 1686068 5 34861353 31415112 1 La liste des variables dans les fichiers 2007 et 2012 2007 Numéro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 Variable D C CODGEO LIBGEO REG DEP TUU2010 LIBREGION LIBTUU2010 POP_MUN_2008 HORAIRE NumBVot LIBUDA9 CODEUDA Ins.T107 Vot.T107 Exp.T107 NbVoix.BESA_T107 NbVoix.BUFF_T107 NbVoix.SCHI_T107 NbVoix.BAYR_T107 NbVoix.BOVE_T107 NbVoix.VOYN_T107 NbVoix.VILL_T107 NbVoix.ROYA_T107 NbVoix.NIHO_T107 NbVoix.LEPE_T107 NbVoix.LAGU_T107 NbVoix.SARK_T107 Ins.T207 Vot.T207 Exp.T207 NbVoix.SARK_T207 NbVoix.ROYA_T207 PctVoix.BESA_T107 PctVoix.BUFF_T107 PctVoix.SCHI_T107 PctVoix.BAYR_T107 PctVoix.BOVE_T107 PctVoix.VOYN_T107 PctVoix.VILL_T107 PctVoix.ROYA_T107 PctVoix.NIHO_T107 PctVoix.LEPE_T107 PctVoix.LAGU_T107 PctVoix.SARK_T107 PctVoix.SARK_T207 PctVoix.ROYA_T207 ident 2012 Contenu code département code commune D+C libellé commune région INSEE code département tranche d'unité urbaine libellé de région INSEE libellé de TUU2010 population municipale 2008 horaire de fermeture du bureau numéro de bureau de vote dans la commune libellé de région UDA9 code région UDA9 Inscrits 1er tour 2007 Votants 1er tour 2007 exprimés 1er tour 2007 Numéro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 Inscrits 2eme tour 2007 Votants 2eme tour 2007 exprimés 2eme tour 2007 pourcentage sur les exprimés 2 Variable D C CODGEO LIBGEO REG DEP TUU2010 LIBREGION LIBTUU2010 POP_MUN_2008 HORAIRE NumBVot LIBUDA9 CODEUDA Ins.T112 Vot.T112 Exp.T112 NbVoix.JOLY_T112 NbVoix.LEPE_T112 NbVoix.SARK_T112 NbVoix.MELE_T112 NbVoix.POUT_T112 NbVoix.ARTH_T112 NbVoix.CHEM_T112 NbVoix.BAYR_T112 NbVoix.DUPO_T112 NbVoix.HOLL_T112 Ins.T212 Vot.T212 Exp.T212 NbVoix.SARK_T212 NbVoix.HOLL_T212 PctVoix.JOLY_T112 PctVoix.LEPE_T112 PctVoix.SARK_T112 PctVoix.MELE_T112 PctVoix.POUT_T112 PctVoix.ARTH_T112 PctVoix.CHEM_T112 PctVoix.BAYR_T112 PctVoix.DUPO_T112 PctVoix.HOLL_T112 PctVoix.SARK_T212 PctVoix.HOLL_T212 ident Contenu code département code commune D+C libellé commune région INSEE code département tranche d'unité urbaine libellé de région INSEE libellé de TUU2010 population municipale 2008 horaire de fermeture du bureau numéro de bureau de vote dans la commune libellé de région UDA9 code région UDA9 Inscrits 1er tour 2012 Votants 1er tour 2012 exprimés 1er tour 2012 Inscrits 2eme tour 2012 Votants 2eme tour 2012 exprimés 2eme tour 2012 pourcentage sur les exprimés Programme de lecture dans R Le programme suivant permet de lire les données dans R après avoir chargé les librairies utiles pour l’analyse : le code ci-dessous les charge à la première exécution du programme Le programme crée aussi la variable UDA5 qui sert de support à la stratification des régions # # # # # # # -------------------------------------------------------------------------------------------------STA108 - TP SAS - DEC 2015 - [email protected] l objectif de ce TP est de passer en revue les principaux plans de sondage au travers d un exemple consistant à estimer les résultats electoraux des presidentielles 2007 et 2012 (ce que font les instituts de sondage privés en soirées electorales) setwd("c:/Users/Philippe.Perie/Mes Documents/Datasets/Elections/") # -------------------------------------------------------------------------------------------------# --- donnees 2007 P07 <- read.csv("pres07.txt", header = TRUE, sep = "\t", quote="\"", colClasses = c(rep("character", 9),"numeric", rep("character",4),rep("numeric",34)), dec = ".", fill = TRUE, comment.char = "") P07[is.na(P07)] <- 0 # base : bureaux avec exprimes au premier tour > 0 P07 <- P07[which(P07$Exp.T107 > 0),] P07$ident <- paste0(P07$D,P07$C,P07$NumBVot) P07 <- P07[order(P07$LIBUDA9, P07$HORAIRE, P07$D,P07$C,P07$NumBVot) ,] # !! trier les donnees !! # regroupement des régions UDA9 vers UDA5 P07$LIBUDA5 <- P07$LIBUDA9 P07$LIBUDA5 <- ifelse (P07$LIBUDA9 %in% c("REGION PARISIENNE"), "REGION PARISIENNE",P07$LIBUDA5) P07$LIBUDA5 <- ifelse (P07$LIBUDA9 %in% c("BASSIN PARISIEN EST", "EST", "NORD"), "NORD EST",P07$LIBUDA5) P07$LIBUDA5 <- ifelse (P07$LIBUDA9 %in% c("BASSIN PARISIEN OUEST", "OUEST"), "NORD OUEST",P07$LIBUDA5) P07$LIBUDA5 <- ifelse (P07$LIBUDA9 %in% c("SUD-OUEST"), "SUD-OUEST",P07$LIBUDA5) P07$LIBUDA5 <- ifelse (P07$LIBUDA9 %in% c("MEDITERRANEE", "SUD-EST"), "SUD-EST",P07$LIBUDA5) table(P07$LIBUDA5,P07$LIBUDA9) # -------------------------------------------------------------------------------------------------# --- donnees 2012 P12 <- read.csv("pres12.txt", header = TRUE, sep = "\t", quote="\"", colClasses = c(rep("character", 9),"numeric", rep("character",4),rep("numeric",30)), dec = ".", fill = TRUE, comment.char = "") P12[is.na(P12)] <- 0 # base : bureaux avec exprimes au premier tour > 0 P12 <- P12[which(P12$Exp.T112 > 0),] P12$ident <- paste0(P12$D,P12$C,P12$NumBVot) P12 <- P12[order(P12$LIBUDA9, P12$HORAIRE, P12$D,P12$C,P12$NumBVot) ,] # !! trier les donnees !! # regroupement des régions UDA9 vers UDA5 P12$LIBUDA5 <- P12$LIBUDA9 P12$LIBUDA5 <- ifelse (P12$LIBUDA9 %in% c("REGION PARISIENNE"), "REGION PARISIENNE",P12$LIBUDA5) P12$LIBUDA5 <- ifelse (P12$LIBUDA9 %in% c("BASSIN PARISIEN EST", "EST", "NORD"), "NORD EST",P12$LIBUDA5) P12$LIBUDA5 <- ifelse (P12$LIBUDA9 %in% c("BASSIN PARISIEN OUEST", "OUEST"), "NORD OUEST",P12$LIBUDA5) P12$LIBUDA5 <- ifelse (P12$LIBUDA9 %in% c("SUD-OUEST"), "SUD-OUEST",P12$LIBUDA5) P12$LIBUDA5 <- ifelse (P12$LIBUDA9 %in% c("MEDITERRANEE", "SUD-EST"), "SUD-EST",P12$LIBUDA5) table(P12$LIBUDA5,P12$LIBUDA9) # Rlibraries, installed if necessary if(!require(sampling)){ install.packages("sampling") library(sampling) } if(!require(survey)){ install.packages("survey") library(survey) } if(!require(PracTools)){ install.packages("PracTools") library(PracTools) } library(survey) library(sampling) library(PracTools) 3 Programme de lecture dans SAS Le programme suivant permet de lire les données dans SAS. Les librairies et programmes utiles à l’analyse sont les procédures SURVEYSELECT, SURVEYMEANS et SURVEYREG ainsi que la macro %Calmar de l’INSEE /* -------------------------------------------------------------STA108 - TP SAS - DEC 2014 - [email protected] l objectif de ce projet est de passer en revue les principaux plans de sondage au travers d un exemple consitant à estimer les résultats electoraux du 2ème tour des presidentielles (ce que font les instituts de sondage privés en soirées electorales) * -------------------------------------------------------------*/ ; * -------------------------------------------------------------* Accès à %Calmar (lien vers le répertoire où se trouve la macro (fichier sas7bcat); libname calmar "C:\Wpgm64\SASHome\SASFoundation\9.4\macros\bin"; options mstored nomprint sasmstore=calmar; * Reference au repertoire des données; %let PATH = C:\Users\philippe.perie\Documents\Datasets\Elections\; libname lib "&PATH"; * les données 2007 et 2012; %let pres07 = "C:\Users\philippe.perie\Documents\Datasets\Elections\Pres07.txt"; %let pres12 = "C:\Users\philippe.perie\Documents\Datasets\Elections\Pres12.txt"; * les données 2007; proc import datafile = &pres07 dbms = dlm out = P07 replace; delimiter = '09'x; getnames = yes; guessingrows = 61000; proc sql; delete from P07 where Ins_T107 <= 0; quit; data P07; set P07; ident = compress(D||C||put(NumBVot,4.)); run; * regroupement des régions UDA9 vers UDA5; data P07; set P07; LIBUDA5 = LIBUDA9; if LIBUDA9 in ("REGION PARISIENNE") then LIBUDA5 = "REGION PARISIENNE"; if LIBUDA9 in ("BASSIN PARISIEN EST", "EST", "NORD") then LIBUDA5 = "NORD EST"; if LIBUDA9 in ("BASSIN PARISIEN OUEST", "OUEST") then LIBUDA5 = "NORD OUEST"; if LIBUDA9 in ("SUD-OUEST") then LIBUDA5 = "SUD-OUEST"; if LIBUDA9 in ("MEDITERRANEE", "SUD-EST") then LIBUDA5 = "SUD-EST"; proc freq data = P07; table LIBUDA5 * LIBUDA9 /norow nocol nopercent; run; 4 * les données 2012; proc import datafile = &pres12 dbms = dlm out = P12 replace; delimiter = '09'x; getnames = yes; guessingrows = 61000; proc sql; delete from P12 where Ins_T112 <= 0; quit; data P12; set P12; ident = compress(D||C||put(NumBVot,4.)); run; * regroupement des régions UDA9 vers UDA5; data P12; set P12; LIBUDA5 = LIBUDA9; if LIBUDA9 in ("REGION PARISIENNE") then LIBUDA5 = "REGION PARISIENNE"; if LIBUDA9 in ("BASSIN PARISIEN EST", "EST", "NORD") then LIBUDA5 = "NORD EST"; if LIBUDA9 in ("BASSIN PARISIEN OUEST", "OUEST") then LIBUDA5 = "NORD OUEST"; if LIBUDA9 in ("SUD-OUEST") then LIBUDA5 = "SUD-OUEST"; if LIBUDA9 in ("MEDITERRANEE", "SUD-EST") then LIBUDA5 = "SUD-EST"; proc freq data = P12; table LIBUDA5 * LIBUDA9 /norow nocol nopercent; run; Projet : simuler les soirées électorales Lors des soirées électorales, les instituts (TNS, IPSOS,..) constituent un échantillon de bureaux fermant avant 20 heures, puis annoncent une estimation des résultats nationaux sur la base de cet échantillon. Pour la présidentielle 2007, l’échantillon de TNS contenait 220 bureaux de vote. L’estimation se faisait avec un estimateur par la régression (sur les résultats du premier tour) Voici les estimations de 20h pour le deuxième tour 2007 de TNS Sofres, et les coefficients de corrélation entre variables à estimer (2ème tour) et information auxiliaire (1er tour). L’estimation retenue en soirée électorale pour être annoncée à la TV est celle qui a la plus grande corrélation. L’annonce faite en 2007 a été donc de 46.9 pour Ségolène Royal et 53.1 pour Nicolas Sarkozy (vs 46.94 et 53.06) sur 160 bureaux (les bureaux des grandes villes n’étant pas rentrés à 20h). 5 On travaillera sur les données 2007 ou 2012 au choix 1/ Etude de distributions d’échantillonnage selon la méthode : Etude de l’efficacité de la stratification Région x Heure de fermeture. On effectuera des simulations de tirages d’échantillons (100 tirages) de n= 300 unités selon deux plans Probabilités inégales selon la taille des bureaux (taille sur le nombre d’inscrits au premier tour) Stratifiés avec allocation proportionnelle et probabilités inégales selon la taille des bureaux (stratification selon le croisement région UDA5 x horaire de fermeture du bureau). Les résultats du deuxième tour sur les 100 tirages seront présentés sous forme statistique (moyenne, écart-type, histogramme) et commentés, en précisant les programmes utilisés. 2/ Soirée électorale correction du biais des grandes villes : Lors des soirées électorales, il faut donner l’estimation à 20h, c’est-àdire à l’heure où certains bureaux ferment (Paris, Lyon, Marseille, Lille …). Il faut donc travailler sur un échantillon de bureaux fermant à 18h, ou à 18h et 19h. Pour information, les bureaux de 20h représentent environ 8% du total, ceux de 19h 20% Sélectionner 300 bureaux avec sondage stratifié à allocation proportionnelle sur les strates géographique x horaires de fermeture, avec probabilités proportionnelles aux inscrits du premier tour. Isoler les bureaux de 18h Isoler les bureaux de 18h+19h Donner les estimations brutes et redressées sur les résultats du premier tour pour les deux sous échantillons (pour simuler une estimation à annoncer avant 19h, puis une estimation à 20h). On utilisera un estimateur par la régression pour les deux candidats au deuxième tour sur les résultats du premier tour (les leurs et ceux des autres qui sont significatifs). Pour simplifier, on ne tiendra pas compte de la stratification et des probabilités inégales dans le modèle de régression et l’expression de l’estimateur : on supposera que les bureaux ont été choisis avec un plan simple. La date de remise du travail qui peut s’effectuer à deux, est fixée au 10 février 2015 pour la première session ou au 15 avril 2015 pour la deuxième session. Le travail sera remis par courrier électronique à [email protected] ou [email protected] Le rapport devra être rédigé et consister en un fichier unique au format .doc ou .pdf. La note finale de STA108 sera la moyenne arithmétique équipondérée de la note d’examen (1ère ou 2ème session) et de la note de projet. 6