Corrigé du problème 2 : partis politiques américains
Transcription
Corrigé du problème 2 : partis politiques américains
Corrigé du problème 2 : partis politiques américains Lee Dinetan Cécile Chouquet 23 mars 2013 1 Choix du modèle 1.1 Problématique d'étude Le tableau de données porte sur N = 737 individus, sur lesquels on se repose pour tenter de déterminer si l'appartenance à un parti politique est discriminatoire (certains prols sont principalement associés à l'un des partis plus qu'un autre) ou non. Les modalités observées sont ici toutes qualitatives ; la problématique d'étude étant de la forme : Quels sont les liens entre des facteurs qualitatifs ?, le modèle d'interactions à facteurs croisés sera privilégié ici. La table de données se présentant sous forme d'une table de contingence (nombre d'individus dans chacune des cellules), il s'agit de modéliser ici une variable de comptage. 1.2 Modèle mathématique La fonction de lien associée à une variable de comptage (de type Poisson) est la fonction donc en application le modèle d = 2 · 3 · 3 = 18 ln-linéaire d'interactions à f =3 ln. On met facteurs croisés : le modèle comprendra donc cellules. L'objet de l'étude est d'observer les variations de répartition de sexe et de race en fonction de l'appartenance à un parti politique, et ainsi de déterminer des liens de causalité entre ces facteurs : la variable réponse est donc la répartition des individus dans les partis politiques, les variables explicatives étant sexe et race. Attention ! On n'étudie pas l'eet des facteurs sur l'appartenance ou non à un parti politique. De même que dans le TP sur les accidents de la route, considérer directement l'eectif de parti comme la variable réponse tord l'échantillon vers les gros partis et peut mener à des résultats inexacts. 2 Estimation du modèle saturé 2.1 Syntaxe On commence par estimer le modèle saturé comme indiqué : distribution Poisson, fonction de lien On utilise la procédure GENMOD, avec l'option type3 ln. pour juger de l'eet de chaque composante : SAS teste ainsi la nullité de chaque composante en comparant le modèle complet avec celui sans la composante, ce qui conduit à accepter ou refuser l'hypothèse de nullité de celle-ci pour un niveau donné (disons 5%). proc genmod data=sasuser.politique ; class sexe race parti ; model nb = sexe | race | parti / dist=poisson link=log type3 ; run; 2.2 Résultats du modèle Les critères d'évaluation de l'adéquation font apparaître des valeurs et d.d.l. nuls, ce qui est obligatoire puisque le modle saturé prend en compte toutes les intéractions possibles pour s'ajuster parfaitement aux données. 1 Les paramètres estimés s'achent en-dessous : certains ont un d.d.l. unité, les autres (ceux qui servent à l'alignement de chaque type de paramètre d'interaction sur sa valeur de référence) sont nuls. On retrouve d, et que le nombre de lignes du tableau est (2 + 1) · (3 + 1) · (3 + 1) = 48. f = 3, ln étant la fonction de lien, on écrit donc les eectifs des cellules ni,j,k pour i ∈ {M, F }, j ∈ {W, H, B} et k ∈ {D, I, R} comme : que la somme des d.d.l. est Dans ce modèle avec ln (ni,j,k ) = α.,.,. + αi,.,. + α.,j,. + α.,.,k + αi,j,. + α.,j,k + αi,.,k + αi,j,k {z } | {z } | {z } |{z} | F0 Dans cette description 3 Fi F1 F2 indique les facteurs d'ordre F3 i ∈ {0, 1, 2, 3}. Choix du meilleur modèle 3.1 Démarche descendante Pour déterminer les facteurs (ou interactions) signicatifs, on choisit un seuil (par exemple 5%) et l'on compare le test du χ2 issu de l'analyse de Type 3 à ce seuil, en supprimant les facteurs non signicatifs en commençant par les interactions d'ordre le plus élevé. On obtient donc successivement que : 1. L'interaction d'ordre 3 n'est pas du tout signicative avec p > .95 et sera donc éliminée. On la supprime 2: donc, puis on recommence avec le modèle homogène d'ordre proc genmod data=sasuser.politique ; class sexe race parti ; model nb = sexe | race | parti @2 / dist=poisson link=log type3 ; run; 2. Dans ce nouveau modèle, l'interaction en sexe*race n'est pas signicative avec p > .68 et est donc elle aussi éliminée. Le modèle restant est nommé Modèle d'indépendance conditionnelle (entre et race) d'ordre 2 sexe : proc genmod data=sasuser.politique ; class sexe race parti ; model nb = sexe race parti sexe*parti race*parti/ dist=poisson link=log type3; run; p-valeur sont des paramètres d'ordre 1, mais ils gurent aussi dans p < .0007 que sont sexe*parti et race*parti. En conséquence, la 3. Les paramètres suivants de forte les interactions signicatives de démarche descendante doit être arrêtée ici, et c'est le modèle d'indépendance conditionnelle d'ordre 2 que l'on 4 + 2 = 6. 4 retiendra. Ce modèle a un nombre de d.d.l. égal à la somme des d.d.l. éliminés, à savoir Interprétation des résultats Pour interpréter les résultats conservés par la procédure, qui sont donc les résultats signicatifs (alors que GENMOD, au seuil d'erreur choisi, aura éliminé les eets FREQ pour acher les tableaux de fréquences répondant à la sélection de modèle précédente eectuée à l'aide de qui sont issus du hasard), on utilise la procédure la problématique d'étude, à savoir la composition des partis suivant le sexe et la race. proc freq data=sasuser.politique ; weight nb ; tables sexe*parti race*parti ; run; 2 4.1 Relations entre sexe et parti Dans la table en sexe*parti, ce sont les fréquences marginales en colonnes (ratios des sexes contition- nellement à appartenir à un certain parti) qui nous intéressent. On lit ainsi que, alors que les Indépendants se partagent assez équitablement (fréquences conditionnelles semblables aux fréquences marginales), les Démocrates sont plus souvent féminins et les Républicains masculins que le cas marginal moyen ne le fait apparaître. 4.2 Relations entre race et parti Dans la table en race*parti, ce sont les fréquences marginales en colonnes (ratios des races contition- nellement à appartenir à un certain parti) qui nous intéressent. On peut lire ainsi que, proportionnellement au cas d'indépendance : Les individus de race noire se retrouvent majoritairement dans le parti Démocrate ; Les individus de race hispanique sont davantage présents dans le rang Indépendant ; Les individus de race blanche fuient le parti Démocrate, au prot des deux autres partis. 4.3 Conclusion En dénitive, il y a bel et bien un stéréotype de sexe et de race au regard de l'appartenance à un parti politique américain : le Démocrate-type est une femme noire, l'Indépendant-type est un hispanique (peu importe le sexe), et le Républicain-type est un homme blanc. 3