Corrigé du problème 2 : partis politiques américains

Transcription

Corrigé du problème 2 : partis politiques américains
Corrigé du problème 2 : partis politiques américains
Lee Dinetan
Cécile Chouquet
23 mars 2013
1
Choix du modèle
1.1
Problématique d'étude
Le tableau de données porte sur
N = 737
individus, sur lesquels on se repose pour tenter de déterminer
si l'appartenance à un parti politique est discriminatoire (certains prols sont principalement associés à l'un
des partis plus qu'un autre) ou non. Les modalités observées sont ici toutes qualitatives ; la problématique
d'étude étant de la forme : Quels sont les liens entre des facteurs qualitatifs ?, le modèle d'interactions à
facteurs croisés sera privilégié ici. La table de données se présentant sous forme d'une table de contingence
(nombre d'individus dans chacune des cellules), il s'agit de modéliser ici une variable de comptage.
1.2
Modèle mathématique
La fonction de lien associée à une variable de comptage (de type Poisson) est la fonction
donc en application le modèle
d = 2 · 3 · 3 = 18
ln-linéaire
d'interactions à
f =3
ln.
On met
facteurs croisés : le modèle comprendra donc
cellules.
L'objet de l'étude est d'observer les variations de répartition de sexe et de race en fonction de l'appartenance à un parti politique, et ainsi de déterminer des liens de causalité entre ces facteurs : la variable réponse
est donc la répartition des individus dans les partis politiques, les variables explicatives étant
sexe
et
race.
Attention ! On n'étudie pas l'eet des facteurs sur l'appartenance ou non à un parti politique. De même
que dans le TP sur les accidents de la route, considérer directement l'eectif de
parti
comme la variable
réponse tord l'échantillon vers les gros partis et peut mener à des résultats inexacts.
2
Estimation du modèle saturé
2.1
Syntaxe
On commence par estimer le modèle saturé comme indiqué : distribution Poisson, fonction de lien
On utilise la procédure
GENMOD,
avec l'option
type3
ln.
pour juger de l'eet de chaque composante : SAS teste
ainsi la nullité de chaque composante en comparant le modèle complet avec celui sans la composante, ce qui
conduit à accepter ou refuser l'hypothèse de nullité de celle-ci pour un niveau donné (disons 5%).
proc genmod data=sasuser.politique ;
class sexe race parti ;
model nb = sexe | race | parti / dist=poisson link=log type3 ;
run;
2.2
Résultats du modèle
Les critères d'évaluation de l'adéquation font apparaître des valeurs et d.d.l. nuls, ce qui est obligatoire
puisque le modle saturé prend en compte toutes les intéractions possibles pour s'ajuster parfaitement aux
données.
1
Les paramètres estimés s'achent en-dessous : certains ont un d.d.l. unité, les autres (ceux qui servent
à l'alignement de chaque type de paramètre d'interaction sur sa valeur de référence) sont nuls. On retrouve
d, et que le nombre de lignes du tableau est (2 + 1) · (3 + 1) · (3 + 1) = 48.
f = 3, ln étant la fonction de lien, on écrit donc les eectifs des cellules ni,j,k pour
i ∈ {M, F }, j ∈ {W, H, B} et k ∈ {D, I, R} comme :
que la somme des d.d.l. est
Dans ce modèle avec
ln (ni,j,k ) = α.,.,. + αi,.,. + α.,j,. + α.,.,k + αi,j,. + α.,j,k + αi,.,k + αi,j,k
{z
} |
{z
} | {z }
|{z} |
F0
Dans cette description
3
Fi
F1
F2
indique les facteurs d'ordre
F3
i ∈ {0, 1, 2, 3}.
Choix du meilleur modèle
3.1
Démarche descendante
Pour déterminer les facteurs (ou interactions) signicatifs, on choisit un seuil (par exemple 5%) et l'on
compare le test du
χ2
issu de l'analyse de Type 3 à ce seuil, en supprimant les facteurs non signicatifs en
commençant par les interactions d'ordre le plus élevé. On obtient donc successivement que :
1. L'interaction d'ordre
3 n'est pas du tout signicative avec p > .95 et sera donc éliminée. On la supprime
2:
donc, puis on recommence avec le modèle homogène d'ordre
proc genmod data=sasuser.politique ;
class sexe race parti ;
model nb = sexe | race | parti @2 / dist=poisson link=log type3 ;
run;
2. Dans ce nouveau modèle, l'interaction en
sexe*race
n'est pas signicative avec
p > .68
et est donc
elle aussi éliminée. Le modèle restant est nommé Modèle d'indépendance conditionnelle (entre
et
race)
d'ordre
2
sexe
:
proc genmod data=sasuser.politique ;
class sexe race parti ;
model nb = sexe race parti sexe*parti race*parti/ dist=poisson link=log type3;
run;
p-valeur sont des paramètres d'ordre 1, mais ils gurent aussi dans
p < .0007 que sont sexe*parti et race*parti. En conséquence, la
3. Les paramètres suivants de forte
les interactions signicatives de
démarche descendante doit être arrêtée ici, et c'est le modèle d'indépendance conditionnelle d'ordre
2 que l'on
4 + 2 = 6.
4
retiendra. Ce modèle a un nombre de d.d.l. égal à la somme des d.d.l. éliminés, à savoir
Interprétation des résultats
Pour interpréter les résultats conservés par la procédure, qui sont donc les résultats signicatifs (alors que
GENMOD, au seuil d'erreur choisi, aura éliminé les eets
FREQ pour acher les tableaux de fréquences répondant à
la sélection de modèle précédente eectuée à l'aide de
qui sont issus du hasard), on utilise la procédure
la problématique d'étude, à savoir la composition des partis suivant le sexe et la race.
proc freq data=sasuser.politique ;
weight nb ;
tables sexe*parti race*parti ;
run;
2
4.1
Relations entre sexe et parti
Dans la table en
sexe*parti,
ce sont les fréquences marginales en colonnes (ratios des sexes contition-
nellement à appartenir à un certain parti) qui nous intéressent. On lit ainsi que, alors que les Indépendants
se partagent assez équitablement (fréquences conditionnelles semblables aux fréquences marginales), les Démocrates sont plus souvent féminins et les Républicains masculins que le cas marginal moyen ne le fait
apparaître.
4.2
Relations entre race et parti
Dans la table en
race*parti,
ce sont les fréquences marginales en colonnes (ratios des races contition-
nellement à appartenir à un certain parti) qui nous intéressent. On peut lire ainsi que, proportionnellement
au cas d'indépendance :
Les individus de race noire se retrouvent majoritairement dans le parti Démocrate ;
Les individus de race hispanique sont davantage présents dans le rang Indépendant ;
Les individus de race blanche fuient le parti Démocrate, au prot des deux autres partis.
4.3
Conclusion
En dénitive, il y a bel et bien un stéréotype de sexe et de race au regard de l'appartenance à un parti
politique américain : le Démocrate-type est une femme noire, l'Indépendant-type est un hispanique (peu
importe le sexe), et le Républicain-type est un homme blanc.
3