Sujet 2016

Transcription

Sujet 2016
Année universitaire 2015/2016
Ecole SITI
Dpt. Imath
case 2D5000
UE STA 108 : Enquêtes et sondages - Travail pratique obligatoire
responsables : Philippe Périé - Sylvie Rousseau
Les données : résultats des élections présidentielles 2007 et 2012
La population étudiée est celle des bureaux de votes des élections présidentielles de 2007 et 2012. Les données sont les résultats
au premier et au deuxième tour sur 59242 bureaux de France métropolitaine en 2007 (60863 en 2012). Les unité individuelles
sont donc les bureaux de vote. Ces données longtemps conservées au ministère de l’intérieur sont maintenant téléchargeables à
cette adresse (il y a 28 jeux de données sur les élections) : http://www.nosdonnees.fr/dataset?groups=elections&page=1
La présidentielle est l’élection la plus simple à modéliser, les candidats sont identiques sur tout le territoire, il n’y a pas
d’équivalences à recoder selon les partis et les étiquettes. De plus le scrutin est au suffrage universel direct, avec un seul élu à la
fin (pas de proportionnelle ou de triangulaire complexe).
Les fichiers électoraux ont été fusionnés avec des données INSEE qui donnent la région, la tranche d’unité urbaine et l’heure de
fermeture des bureaux. Les fichiers sont en format csv (texte avec séparateur point-virgule). Nous vous les avons préparés pour
être lus dans les logiciels SAS et R (programmes de création des données). Les fichiers sont éditables avec Excel si vous le
souhaitez.
Le contenu de deux fichiers est pratiquement identique : pour chacun des bureaux, il y a des informations auxiliaires et les
résultats au premier et au deuxième tour. On s’intéresse à l’estimation des totaux (nombre de voix) pour chaque candidat du
deuxième tour. Les variables auxiliaires sont les données géographiques INSEE, les horaires de fermeture des bureaux, et les
données des premiers tours (qui sont assimilables à un recensement puisque l’élection du premier été validée par le conseil
constitutionnel au moment ou à lieu le deuxième tour)
On connait les résultats, on pourra donc étudier la qualité des estimations selon la méthode d’échantillonnage. Attention, les
valeurs exactes dans les fichiers proposés diffèrent légèrement des résultats publiés par le ministère de l’intérieur, car ils sont
limités à la France métropolitaine et ne comprennent pas les votes des français à l’étranger.
L’exercice consiste à se mettre en condition de soirée électorale pour laquelle les données des DOM/TOM et des votes à
l’étranger ne sont pas disponibles lors de l’estimation
Voici les résultats officiels et les données dans les fichiers :
http://www.interieur.gouv.fr/Elections/Les-resultats/Presidentielles/elecresult__presidentielle_2007/(path)/presidentielle_2007/FE.html
2007
Fichier
Ministère
Ségolène Royal
46.94%
15181348
46.94%
16790440
Nicolas Sarkozy
53.06%
1716046
0
32341808
53.06%
18983138
35773578
http://www.interieur.gouv.fr/Elections/Les-resultats/Presidentielles/elecresult__PR2012/(path)/PR2012/FE.html
2012
Fichier
Ministère
François Hollande
51.58%
16206514
51.64%
18000668
Nicolas Sarkozy
48.41%
15208598
48.36%
1686068
5
34861353
31415112
1
La liste des variables dans les fichiers 2007 et 2012
2007
Numéro
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
Variable
D
C
CODGEO
LIBGEO
REG
DEP
TUU2010
LIBREGION
LIBTUU2010
POP_MUN_2008
HORAIRE
NumBVot
LIBUDA9
CODEUDA
Ins.T107
Vot.T107
Exp.T107
NbVoix.BESA_T107
NbVoix.BUFF_T107
NbVoix.SCHI_T107
NbVoix.BAYR_T107
NbVoix.BOVE_T107
NbVoix.VOYN_T107
NbVoix.VILL_T107
NbVoix.ROYA_T107
NbVoix.NIHO_T107
NbVoix.LEPE_T107
NbVoix.LAGU_T107
NbVoix.SARK_T107
Ins.T207
Vot.T207
Exp.T207
NbVoix.SARK_T207
NbVoix.ROYA_T207
PctVoix.BESA_T107
PctVoix.BUFF_T107
PctVoix.SCHI_T107
PctVoix.BAYR_T107
PctVoix.BOVE_T107
PctVoix.VOYN_T107
PctVoix.VILL_T107
PctVoix.ROYA_T107
PctVoix.NIHO_T107
PctVoix.LEPE_T107
PctVoix.LAGU_T107
PctVoix.SARK_T107
PctVoix.SARK_T207
PctVoix.ROYA_T207
ident
2012
Contenu
code département
code commune
D+C
libellé commune
région INSEE
code département
tranche d'unité urbaine
libellé de région INSEE
libellé de TUU2010
population municipale 2008
horaire de fermeture du bureau
numéro de bureau de vote dans la commune
libellé de région UDA9
code région UDA9
Inscrits 1er tour 2007
Votants 1er tour 2007
exprimés 1er tour 2007
Numéro
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
Inscrits 2eme tour 2007
Votants 2eme tour 2007
exprimés 2eme tour 2007
pourcentage sur les exprimés
2
Variable
D
C
CODGEO
LIBGEO
REG
DEP
TUU2010
LIBREGION
LIBTUU2010
POP_MUN_2008
HORAIRE
NumBVot
LIBUDA9
CODEUDA
Ins.T112
Vot.T112
Exp.T112
NbVoix.JOLY_T112
NbVoix.LEPE_T112
NbVoix.SARK_T112
NbVoix.MELE_T112
NbVoix.POUT_T112
NbVoix.ARTH_T112
NbVoix.CHEM_T112
NbVoix.BAYR_T112
NbVoix.DUPO_T112
NbVoix.HOLL_T112
Ins.T212
Vot.T212
Exp.T212
NbVoix.SARK_T212
NbVoix.HOLL_T212
PctVoix.JOLY_T112
PctVoix.LEPE_T112
PctVoix.SARK_T112
PctVoix.MELE_T112
PctVoix.POUT_T112
PctVoix.ARTH_T112
PctVoix.CHEM_T112
PctVoix.BAYR_T112
PctVoix.DUPO_T112
PctVoix.HOLL_T112
PctVoix.SARK_T212
PctVoix.HOLL_T212
ident
Contenu
code département
code commune
D+C
libellé commune
région INSEE
code département
tranche d'unité urbaine
libellé de région INSEE
libellé de TUU2010
population municipale 2008
horaire de fermeture du bureau
numéro de bureau de vote dans la commune
libellé de région UDA9
code région UDA9
Inscrits 1er tour 2012
Votants 1er tour 2012
exprimés 1er tour 2012
Inscrits 2eme tour 2012
Votants 2eme tour 2012
exprimés 2eme tour 2012
pourcentage sur les exprimés
Programme de lecture dans R
Le programme suivant permet de lire les données dans R après avoir chargé les librairies utiles pour
l’analyse : le code ci-dessous les charge à la première exécution du programme
Le programme crée aussi la variable UDA5 qui sert de support à la stratification des régions
#
#
#
#
#
#
#
-------------------------------------------------------------------------------------------------STA108 - TP SAS - DEC 2015 - [email protected]
l objectif de ce TP est de passer en revue les principaux
plans de sondage au travers d un exemple consistant à estimer
les résultats electoraux des presidentielles 2007 et 2012
(ce que font les instituts de sondage privés en soirées electorales)
setwd("c:/Users/Philippe.Perie/Mes Documents/Datasets/Elections/")
# -------------------------------------------------------------------------------------------------# --- donnees 2007
P07 <- read.csv("pres07.txt", header = TRUE, sep = "\t", quote="\"",
colClasses = c(rep("character", 9),"numeric", rep("character",4),rep("numeric",34)),
dec = ".", fill = TRUE, comment.char = "")
P07[is.na(P07)] <- 0 # base : bureaux avec exprimes au premier tour > 0
P07 <- P07[which(P07$Exp.T107 > 0),]
P07$ident <- paste0(P07$D,P07$C,P07$NumBVot)
P07 <- P07[order(P07$LIBUDA9, P07$HORAIRE, P07$D,P07$C,P07$NumBVot) ,] # !! trier les donnees !!
# regroupement des régions UDA9 vers UDA5
P07$LIBUDA5 <- P07$LIBUDA9
P07$LIBUDA5 <- ifelse (P07$LIBUDA9 %in% c("REGION PARISIENNE"), "REGION PARISIENNE",P07$LIBUDA5)
P07$LIBUDA5 <- ifelse (P07$LIBUDA9 %in% c("BASSIN PARISIEN EST", "EST", "NORD"), "NORD EST",P07$LIBUDA5)
P07$LIBUDA5 <- ifelse (P07$LIBUDA9 %in% c("BASSIN PARISIEN OUEST", "OUEST"), "NORD OUEST",P07$LIBUDA5)
P07$LIBUDA5 <- ifelse (P07$LIBUDA9 %in% c("SUD-OUEST"), "SUD-OUEST",P07$LIBUDA5)
P07$LIBUDA5 <- ifelse (P07$LIBUDA9 %in% c("MEDITERRANEE", "SUD-EST"), "SUD-EST",P07$LIBUDA5)
table(P07$LIBUDA5,P07$LIBUDA9)
# -------------------------------------------------------------------------------------------------# --- donnees 2012
P12 <- read.csv("pres12.txt", header = TRUE, sep = "\t", quote="\"",
colClasses = c(rep("character", 9),"numeric", rep("character",4),rep("numeric",30)),
dec = ".", fill = TRUE, comment.char = "")
P12[is.na(P12)] <- 0 # base : bureaux avec exprimes au premier tour > 0
P12 <- P12[which(P12$Exp.T112 > 0),]
P12$ident <- paste0(P12$D,P12$C,P12$NumBVot)
P12 <- P12[order(P12$LIBUDA9, P12$HORAIRE, P12$D,P12$C,P12$NumBVot) ,] # !! trier les donnees !!
# regroupement des régions UDA9 vers UDA5
P12$LIBUDA5 <- P12$LIBUDA9
P12$LIBUDA5 <- ifelse (P12$LIBUDA9 %in% c("REGION PARISIENNE"), "REGION PARISIENNE",P12$LIBUDA5)
P12$LIBUDA5 <- ifelse (P12$LIBUDA9 %in% c("BASSIN PARISIEN EST", "EST", "NORD"), "NORD EST",P12$LIBUDA5)
P12$LIBUDA5 <- ifelse (P12$LIBUDA9 %in% c("BASSIN PARISIEN OUEST", "OUEST"), "NORD OUEST",P12$LIBUDA5)
P12$LIBUDA5 <- ifelse (P12$LIBUDA9 %in% c("SUD-OUEST"), "SUD-OUEST",P12$LIBUDA5)
P12$LIBUDA5 <- ifelse (P12$LIBUDA9 %in% c("MEDITERRANEE", "SUD-EST"), "SUD-EST",P12$LIBUDA5)
table(P12$LIBUDA5,P12$LIBUDA9)
# Rlibraries, installed if necessary
if(!require(sampling)){
install.packages("sampling")
library(sampling)
}
if(!require(survey)){
install.packages("survey")
library(survey)
}
if(!require(PracTools)){
install.packages("PracTools")
library(PracTools)
}
library(survey)
library(sampling)
library(PracTools)
3
Programme de lecture dans SAS
Le programme suivant permet de lire les données dans SAS. Les librairies et programmes utiles à
l’analyse sont les procédures SURVEYSELECT, SURVEYMEANS et SURVEYREG ainsi que la macro
%Calmar de l’INSEE
/* -------------------------------------------------------------STA108 - TP SAS - DEC 2014 - [email protected]
l objectif de ce projet est de passer en revue les principaux
plans de sondage au travers d un exemple consitant à estimer
les résultats electoraux du 2ème tour des presidentielles
(ce que font les instituts de sondage privés en soirées electorales)
* -------------------------------------------------------------*/
;
* -------------------------------------------------------------* Accès à %Calmar (lien vers le répertoire où se trouve la macro (fichier sas7bcat);
libname calmar "C:\Wpgm64\SASHome\SASFoundation\9.4\macros\bin";
options mstored nomprint sasmstore=calmar;
* Reference au repertoire des données;
%let PATH = C:\Users\philippe.perie\Documents\Datasets\Elections\;
libname lib "&PATH";
* les données 2007 et 2012;
%let pres07 = "C:\Users\philippe.perie\Documents\Datasets\Elections\Pres07.txt";
%let pres12 = "C:\Users\philippe.perie\Documents\Datasets\Elections\Pres12.txt";
* les données 2007;
proc import datafile = &pres07 dbms = dlm out = P07 replace;
delimiter = '09'x;
getnames = yes;
guessingrows = 61000;
proc sql;
delete from P07 where Ins_T107 <= 0;
quit;
data P07;
set P07;
ident = compress(D||C||put(NumBVot,4.));
run;
* regroupement des régions UDA9 vers UDA5;
data P07;
set P07;
LIBUDA5 = LIBUDA9;
if LIBUDA9 in ("REGION PARISIENNE") then LIBUDA5 = "REGION PARISIENNE";
if LIBUDA9 in ("BASSIN PARISIEN EST", "EST", "NORD") then LIBUDA5 = "NORD EST";
if LIBUDA9 in ("BASSIN PARISIEN OUEST", "OUEST") then LIBUDA5 = "NORD OUEST";
if LIBUDA9 in ("SUD-OUEST") then LIBUDA5 = "SUD-OUEST";
if LIBUDA9 in ("MEDITERRANEE", "SUD-EST") then LIBUDA5 = "SUD-EST";
proc freq data = P07;
table LIBUDA5 * LIBUDA9 /norow nocol nopercent;
run;
4
* les données 2012;
proc import datafile = &pres12 dbms = dlm out = P12 replace;
delimiter = '09'x;
getnames = yes;
guessingrows = 61000;
proc sql;
delete from P12 where Ins_T112 <= 0;
quit;
data P12;
set P12;
ident = compress(D||C||put(NumBVot,4.));
run;
* regroupement des régions UDA9 vers UDA5;
data P12;
set P12;
LIBUDA5 = LIBUDA9;
if LIBUDA9 in ("REGION PARISIENNE") then LIBUDA5 = "REGION PARISIENNE";
if LIBUDA9 in ("BASSIN PARISIEN EST", "EST", "NORD") then LIBUDA5 = "NORD EST";
if LIBUDA9 in ("BASSIN PARISIEN OUEST", "OUEST") then LIBUDA5 = "NORD OUEST";
if LIBUDA9 in ("SUD-OUEST") then LIBUDA5 = "SUD-OUEST";
if LIBUDA9 in ("MEDITERRANEE", "SUD-EST") then LIBUDA5 = "SUD-EST";
proc freq data = P12;
table LIBUDA5 * LIBUDA9 /norow nocol nopercent;
run;
Projet : simuler les soirées électorales
Lors des soirées électorales, les instituts (TNS, IPSOS,..) constituent un échantillon de bureaux fermant avant 20 heures, puis
annoncent une estimation des résultats nationaux sur la base de cet échantillon. Pour la présidentielle 2007, l’échantillon de TNS
contenait 220 bureaux de vote. L’estimation se faisait avec un estimateur par la régression (sur les résultats du premier tour)
Voici les estimations de 20h pour le deuxième tour 2007 de TNS Sofres, et les coefficients de corrélation entre variables à
estimer (2ème tour) et information auxiliaire (1er tour). L’estimation retenue en soirée électorale pour être annoncée à la TV est
celle qui a la plus grande corrélation. L’annonce faite en 2007 a été donc de 46.9 pour Ségolène Royal et 53.1 pour Nicolas
Sarkozy (vs 46.94 et 53.06) sur 160 bureaux (les bureaux des grandes villes n’étant pas rentrés à 20h).
5
On travaillera sur les données 2007 ou 2012 au choix
1/ Etude de distributions d’échantillonnage selon la méthode : Etude de l’efficacité de la stratification Région x Heure de
fermeture.
On effectuera des simulations de tirages d’échantillons (100 tirages) de n= 300 unités selon deux plans
Probabilités inégales selon la taille des bureaux (taille sur le nombre d’inscrits au premier tour)
Stratifiés avec allocation proportionnelle et probabilités inégales selon la taille des bureaux (stratification selon le
croisement région UDA5 x horaire de fermeture du bureau).
Les résultats du deuxième tour sur les 100 tirages seront présentés sous forme statistique (moyenne, écart-type, histogramme)
et commentés, en précisant les programmes utilisés.
2/ Soirée électorale correction du biais des grandes villes : Lors des soirées électorales, il faut donner l’estimation à 20h, c’est-àdire à l’heure où certains bureaux ferment (Paris, Lyon, Marseille, Lille …). Il faut donc travailler sur un échantillon de bureaux
fermant à 18h, ou à 18h et 19h. Pour information, les bureaux de 20h représentent environ 8% du total, ceux de 19h 20%
Sélectionner 300 bureaux avec sondage stratifié à allocation proportionnelle sur les strates géographique x horaires de
fermeture, avec probabilités proportionnelles aux inscrits du premier tour.
Isoler les bureaux de 18h
Isoler les bureaux de 18h+19h
Donner les estimations brutes et redressées sur les résultats du premier tour pour les deux sous échantillons (pour
simuler une estimation à annoncer avant 19h, puis une estimation à 20h). On utilisera un estimateur par la régression
pour les deux candidats au deuxième tour sur les résultats du premier tour (les leurs et ceux des autres qui sont
significatifs). Pour simplifier, on ne tiendra pas compte de la stratification et des probabilités inégales dans le modèle de
régression et l’expression de l’estimateur : on supposera que les bureaux ont été choisis avec un plan simple.
La date de remise du travail qui peut s’effectuer à deux, est fixée au 10 février 2015 pour la première session ou au 15 avril 2015
pour la deuxième session. Le travail sera remis par courrier électronique à [email protected] ou [email protected]
Le rapport devra être rédigé et consister en un fichier unique au format .doc ou .pdf. La note finale de STA108 sera la moyenne
arithmétique équipondérée de la note d’examen (1ère ou 2ème session) et de la note de projet.
6

Documents pareils