Feuille de T.P. 4. Analyse Factorielle de Correspondance 1. Les

Transcription

Feuille de T.P. 4. Analyse Factorielle de Correspondance 1. Les
Master 1 Statistique-Économétrie
A NALYSE DE DONN ÉES MULTIDIMENSIONNELLES
Feuille de T.P. 4.
Université de Rennes I
A NN ÉE 09-10
Analyse Factorielle de Correspondance
Introduction.
Contrairement aux autres techniques factorielles qui ont été developpées dans SAS il y a d enombreuses
années, la procedure corresp est plus récente. En conséquence, son usage pour mettre en œuvre une
analyse des correspondances simple ou multiple repond bien aux besoins des présentations récentes de ces
techniques. Il n’est donc pas indispensable de faire appel à des macros pour en faciliter l’usage, seules
quelques manipulations de base sont nécessaires pour obtenir des graphiques .
1. Les données
Il s’agit des résultats du premier tour des élections présidentielles de 1995. On connaı̂t, pour chacun
des 95 departements metropolitains et la Corse1 les informations suivantes :
– le nombre d’inscrits ;
– le nombre de votants ;
– le nombre de suffrages exprimés ;
– et, dans l’ordre, le nombre de voix des candidats : Villiers, Le Pen, Chirac, Laguiller, Cheminad,
Jospin, Voynet, Balladur et Hue.
I Lire les données et calculer le nombre des abstentions, des votes blancs ou nuls.
data sasuser.elec95;
infile "˜/elec95.dat" dlm=’09’x;
input num $ inscrits votants exprimes villiers le_pen
chirac laguill cheminad jospin voynet balladur hue poids;
abstent=inscrits-votants;
blancs=votants-exprimes;
run;
2. AFC simple
I Éxecuter le programme suivant :
proc corresp data=sasuser.elec95 observed out=resul;
var abstent blancs villiers le_pen chirac laguill cheminad
jospin voynet balladur hue;
id num;
run;
I Exploration avec SAS/INSIGHT Ouvrir la table work.resul dans SAS/INSIGHT, déclarer la variable
NUM en label, construire les graphiques : distributions des composantes principales dim1 et dim2, nuage
des modalites dans ces axes.
I Commenter le vote Villiers et la Vendée, ainsi que le vote Chirac et la Corrèze.2
Ces deux départements sont mis en “supplémentaire” dans l’analyse suivante :
proc corresp data=sasuser.elec95 observed out=resul dim=3;
var abstent blancs villiers le_pen chirac laguill cheminad
jospin voynet balladur hue;
id num;
weight poids;
run;
IQuestion : Comment ce code permet-il de sortir ces deux départements de l’analyse ?
I Choisir le nombre d’axes, refaire les representations graphiques. Comparer à l’analyse précédente.
I Croiser les votes suivants avec les départements :
1 Pour faciliter la comparaison avec les données socio-économiques, les résultats des deux départements de Corse sont agregés :
20=2a+2b.
2 Pour la liste des départements, sous Google, on arrive facilement à la page du Wikipedia.
1
– Le Pen ;
– Hue ;
– Chirac v.s. Balladur.
IMacro SAS pour les graphiques : Charger dans SAS le fichier de macro gafcx.sas. Les representations graphiques sont aussi obtenues avec la macro %gafcx(num).
3. Comparaison avec l’ACP
Commenter le rôle de la metrique du χ2 dans le cadre de l’AFC en comparant les resultats avec ceux
de l’ACP des taux de suffrage exprimes pour chacun des candidats.
data sasuser.telec95;
set sasuser.elec95;
villiers=villiers/inscrits;
le_pen=le_pen/inscrits;
chirac=chirac/inscrits;
laguill=laguill/inscrits;
cheminad=cheminad/inscrits;
jospin=jospin/inscrits;
voynet=voynet/inscrits;
balladur=balladur/inscrits;
hue=hue/inscrits;
run;
%acp(telec95,num,villiers--hue);
%gacpsx;
%gacpvx;
%gacpix;
IInterpretations.
2