Feuille de T.P. 4. Analyse Factorielle de Correspondance 1. Les
Transcription
Feuille de T.P. 4. Analyse Factorielle de Correspondance 1. Les
Master 1 Statistique-Économétrie A NALYSE DE DONN ÉES MULTIDIMENSIONNELLES Feuille de T.P. 4. Université de Rennes I A NN ÉE 09-10 Analyse Factorielle de Correspondance Introduction. Contrairement aux autres techniques factorielles qui ont été developpées dans SAS il y a d enombreuses années, la procedure corresp est plus récente. En conséquence, son usage pour mettre en œuvre une analyse des correspondances simple ou multiple repond bien aux besoins des présentations récentes de ces techniques. Il n’est donc pas indispensable de faire appel à des macros pour en faciliter l’usage, seules quelques manipulations de base sont nécessaires pour obtenir des graphiques . 1. Les données Il s’agit des résultats du premier tour des élections présidentielles de 1995. On connaı̂t, pour chacun des 95 departements metropolitains et la Corse1 les informations suivantes : – le nombre d’inscrits ; – le nombre de votants ; – le nombre de suffrages exprimés ; – et, dans l’ordre, le nombre de voix des candidats : Villiers, Le Pen, Chirac, Laguiller, Cheminad, Jospin, Voynet, Balladur et Hue. I Lire les données et calculer le nombre des abstentions, des votes blancs ou nuls. data sasuser.elec95; infile "˜/elec95.dat" dlm=’09’x; input num $ inscrits votants exprimes villiers le_pen chirac laguill cheminad jospin voynet balladur hue poids; abstent=inscrits-votants; blancs=votants-exprimes; run; 2. AFC simple I Éxecuter le programme suivant : proc corresp data=sasuser.elec95 observed out=resul; var abstent blancs villiers le_pen chirac laguill cheminad jospin voynet balladur hue; id num; run; I Exploration avec SAS/INSIGHT Ouvrir la table work.resul dans SAS/INSIGHT, déclarer la variable NUM en label, construire les graphiques : distributions des composantes principales dim1 et dim2, nuage des modalites dans ces axes. I Commenter le vote Villiers et la Vendée, ainsi que le vote Chirac et la Corrèze.2 Ces deux départements sont mis en “supplémentaire” dans l’analyse suivante : proc corresp data=sasuser.elec95 observed out=resul dim=3; var abstent blancs villiers le_pen chirac laguill cheminad jospin voynet balladur hue; id num; weight poids; run; IQuestion : Comment ce code permet-il de sortir ces deux départements de l’analyse ? I Choisir le nombre d’axes, refaire les representations graphiques. Comparer à l’analyse précédente. I Croiser les votes suivants avec les départements : 1 Pour faciliter la comparaison avec les données socio-économiques, les résultats des deux départements de Corse sont agregés : 20=2a+2b. 2 Pour la liste des départements, sous Google, on arrive facilement à la page du Wikipedia. 1 – Le Pen ; – Hue ; – Chirac v.s. Balladur. IMacro SAS pour les graphiques : Charger dans SAS le fichier de macro gafcx.sas. Les representations graphiques sont aussi obtenues avec la macro %gafcx(num). 3. Comparaison avec l’ACP Commenter le rôle de la metrique du χ2 dans le cadre de l’AFC en comparant les resultats avec ceux de l’ACP des taux de suffrage exprimes pour chacun des candidats. data sasuser.telec95; set sasuser.elec95; villiers=villiers/inscrits; le_pen=le_pen/inscrits; chirac=chirac/inscrits; laguill=laguill/inscrits; cheminad=cheminad/inscrits; jospin=jospin/inscrits; voynet=voynet/inscrits; balladur=balladur/inscrits; hue=hue/inscrits; run; %acp(telec95,num,villiers--hue); %gacpsx; %gacpvx; %gacpix; IInterpretations. 2