Feuille de TP N˚3 : Modèle log-linéaire

Transcription

Feuille de TP N˚3 : Modèle log-linéaire
Année 2012 − 2013
M1 MLG
Feuille de TP N˚3 :
Modèle log-linéaire - Travail guidé
1
Cancers : modèle log-linéaire à deux facteurs croisés
Ce premier exercice reprend l’exercice 1 de la feuille de TD n˚3. Les données sont extraites du registre
des cancers du Tarn. Elles concernent des patients ayant déclaré un cancer entre 1982 et 1984. L’objet
de cette analyse est d’étudier le nombre de cancers en fonction de la localisation du cancer et du sexe
du patient ; pour cela, on met en œuvre un modèle log-linéaire à 2 facteurs croisés.
1. Copiez la table SAS cancer (envoyée par mail).
La table contient les variables suivantes :
– la localisation (notée loc), à 3 niveaux : A = Voies digestives ; B = Peau ; C = Organes génitaux
et voies urinaires
– le sexe (noté sexe) : 1 = Femme / 2 = Homme,
– le nombre de patients (noté n).
Vérifiez son contenu.
Eléments de réponse : La table cancer contient 6 observations correspondant aux 6 combinaisons possibles entre la localisation (A, B ou C) et le sexe (Homme/Femme). La variable n fournit le
nombre de patients atteints de cancers répartis selon la localisation du cancer et le sexe du patient.
2. Affichez la table de contingence à l’aide de la procédure FREQ. Etant donné le format de la table
SAS (données regroupées par localisation et par sexe), vous devez utiliser l’instruction weight (qui
attribue à chaque cellule un poids égal à n) :
proc freq data=... ;
weight n ;
tables loc * sexe / chisq ;
run;
Commentez ce tableau croisé.
Eléments de réponse : Le test d’indépendance du Khi-2 est significatif (p-value= 0.03) montrant
une dépendance significative entre les 2 facteurs. En commentant les profils-lignes et les profilscolonnes, on peut en déduire que :
– Chez les femmes, les cancers de type A et C sont les plus fréquents (respectivement, 48% et
39%), contrairement aux cancers de type B (12%).
– Chez les hommes, la fréquence des cancers de type B est similaire (11.7%). En revanche, les
cancers de type C sont plus présents (47%) que chez les femmes au détriment des cancers de
type C (41%).
Globalement, sur l’ensemble de l’échantillon, il y a 59% de femmes : cette proportion est plus
élevée parmi les cancers de type A (63%) que parmi les cancers de type C (54%).
3. Lancez la procédure GENMOD pour estimer le modèle saturé de la façon suivante :
1
proc genmod data=... ;
class loc sexe ;
model n = loc | sexe / dist=poisson link=log;
run;
Note : en spécifiant loc | sexe en variables explicatives, cela revient à spécifier loc sexe loc*sexe,
c’est-à-dire le modèle avec interactions (saturé).
A partir des informations détaillées sur les sorties de la procédure GENMOD, suivez les commentaires
sur les résultats obtenus :
Informations sur le modèle
Informations sur le modèle
Data Set (A)
Distribution (B)
Link Function (C)
Dependent Variable (D)
SASUSER.CANCER
Poisson
Log
n
Number of Observations Read (E)
Number of Observations Used (E)
6
6
Informations sur le niveau de classe (F)
Classe
loc
sexe
Niveaux
3
2
Valeurs
A B C
1 2
(A) Table / Data set : table SAS utilisée dans la procédure.
(B) Distribution : distribution de la variable réponse. Dans le cas d’un modèle log-linéaire, on
modélise un nombre d’évènements, distribué selon une loi de Poisson, comme spécifié dans le
code de la procédure par dist.
(C) Link function : Fonction de lien associée à la loi de Poisson : fonction ln, comme mentionné
dans le code de la procédure par link.
(D) Dependent variable : variable réponse que l’on cherche à expliquer par ce modèle, c’est le
nombre d’évènements observés.
(E) Nombre d’observations lues/utilisées : Nombre d’observations lues et utilisées pour l’analyse. Le nombre d’observations utilisées peut être inférieur au nombre d’observations lues en cas
de valeur manquante. Par défaut, SAS supprime les observations manquantes ou incomplètes.
Le nombre d’observations correspond au nombre de lignes dans la table SAS ; ici, c’est le nombre
de combinaisons possibles obtenues en croisant tous les facteurs.
(F) Level information : liste les facteurs pris en compte dans le modèle, spécifiés comme variable
qualitative dans l’instruction CLASS. SAS y précise le nombre de niveaux de chaque facteur et
les valeurs de ces niveaux.
Ajustement global du modèle
Critères d’évaluation de l’adéquation
Critère
Deviance
(G)
DDL (K)
0
2
Valeur (L)
0.0000
Valeur/DDL (M)
.
Scaled Deviance (I)
Pearson Chi-Square (H)
Scaled Pearson X2 (I)
Log Likelihood (J)
0
.
.
0.0000
0.0000
0.0000
4149.5564
.
.
.
Algorithm converged.
L’ajustement du modèle est mesuré selon plusieurs critères : la Deviance (G) qui mesure l’écart
entre l’ajustement du modèle saturé et celui du modèle estimé, et la statistique du Khi-deux de
Pearson (H) qui compare les effectifs observés avec les effectifs prédits par le modèle estimé. Ces
critères sont nuls pour le modèle saturé, dont l’ajustement est parfait (yi = ybi ).
(I) Scaled Deviance et Scaled Pearson X2 : ces critères sont issus des deux critères précédents.
Dans le cas où la distribution de la variable réponse ne dépend que d’un seul paramètre, ces
critères sont égaux aux précédents. Ce n’est pas le cas si on estime un paramètre lié à la variance.
(J) Log likelihood : donne la valeur de la log-vraisemblance.
(K) DF : donne le nombre de degrés de liberté du modèle = nombre d’observations (de cellules)
- nombre de paramètres estimés. Le DDL du modèle saturé est nul puisque le nombre de paramètres estimés dans un modèle saturé est égal au nombre d’observations.
(L) Value : donne la valeur de chaque critère.
(M) Value/DF : calcule la valeur des critères divisée par le nombre de degrés de liberté. Par
exemple, pour la déviance, on obtient la déviance relative. C’est grâce à cette colonne que l’on
peut juger de la qualité d’ajustement du modèle estimé. Plus les valeurs relatives sont proches
de 1, meilleur est l’ajustement du modèle. Une déviance relative inférieure à 3 indique un bon
ajustement. Un mauvais ajustement du modèle est associé à une déviance relative élevée (> 10).
Estimations des paramètres
Paramètres estimés par l’analyse du maximum de vraisemblance
Paramètre (N)
Intercept
loc
A
loc
B
loc
C
sexe
1
sexe
2
loc*sexe
A
loc*sexe
A
loc*sexe
B
loc*sexe
B
loc*sexe
C
loc*sexe
C
Scale
1
2
1
2
1
2
Intervalle de
Valeur
Erreur
confiance de
DDL (O) estimée (P)
type (Q)
Wald à 95 % (R)
1
5.2523
0.0724
5.1105
5.3941
1
-0.1463
0.1063
-0.3546
0.0620
1
-1.4021
0.1628
-1.7213
-1.0830
0
0.0000
0.0000
0.0000
0.0000
1
0.1638
0.0984
-0.0290
0.3567
0
0.0000
0.0000
0.0000
0.0000
1
0.3614
0.1390
0.0890
0.6339
0
0.0000
0.0000
0.0000
0.0000
1
0.2765
0.2113
-0.1377
0.6907
0
0.0000
0.0000
0.0000
0.0000
0
0.0000
0.0000
0.0000
0.0000
0
0.0000
0.0000
0.0000
0.0000
0
1.0000
0.0000
1.0000
1.0000
Khi-2
de Wald (S)
5269.00
1.90
74.15
.
2.77
.
6.76
.
1.71
.
.
.
Pr > Khi-2 (S)
<.0001
0.1686
<.0001
.
0.0959
.
0.0093
.
0.1907
.
.
.
Ce tableau donne les estimations des paramètres du modèle selon le paramétrage SAS et teste la
nullité de chaque paramètre. Attention ce tableau ne donne pas les résultats des tests sur l’effet
de chaque composante du modèle.
3
(N) Paramètre / Parameter : donne la liste de tous les niveaux des facteurs et de toutes les interactions entre facteurs, spécifiés dans la procédure. Selon le paramétrage SAS, les paramètres
associés aux derniers niveaux sont nuls, car le dernier niveau sert de référence.
(O) DDL / DF : nombre de degrés de liberté associé au test de nullité d’un paramètre : 1 si le
paramètre est estimé, 0 si le paramètre est fixé à 0 selon le paramétrage SAS (pour les derniers
niveaux).
(P) Valeur estimée / estimate : donne les valeurs des paramètres estimés. Dans le cas du modèle log-linéaire, les variables explicatives sont des facteurs pour lesquels on n’estime pas un seul
paramètre comme c’est le cas pour une variable explicative quantitative, mais on en estime un
par niveau du facteur (-1). Chaque paramètre associé à un niveau ou à une cellule représente
l’écart entre ce niveau et le dernier niveau (de référence), ou entre cette cellule et la dernière
cellule.
(Q) Erreur Type / Standard errors : donne les erreurs standard de chaque paramètre estimé,
permettant d’évaluer la précision des estimations. Ils sont utilisés pour calculer les intervalles
de confiance de chaque paramètre, et la statistique de Wald pour tester la nullité de chaque
paramètre.
(S) Khi-2 de Wald et Pr>Khi-2 / Chi-square et Pr>Chisq : donne, pour chaque paramètre,
la valeur de la statistique de test de Wald et la p-value associée, pour tester l’hypothèse de nullité du paramètre (sachant que d’autres variables explicatives sont dans le modèle). On compare
la p-value au risque 5%. Si la p-value est inférieure à 5%, on rejette H0 et on conclut que le paramètre est significativement différent de 0, c’est-à-dire que le niveau testé est significativement
différent du niveau de référence.
Synthèse des résultats : Etant donné que l’on estime le modèle saturé, les critères de qualité
d’ajustement (Déviance et Chi-2 de Pearson) sont nuls. Ce modèle fournit le meilleur ajustement
possible.
Les paramètres estimés montrent que certains d’entre eux sont significativement différents de 0, indiquant un effet du facteur Localisation et des interactions significatives. Par exemple, on observe
que le paramètre associé à Loc=B est estimé à −1.4021, indiquant que la fréquence des cancers de
type B est plus basse que celle des cancers de type C.
On observe également un paramètre d’interaction élevé pour Loc=A et Sexe=1 suggérant que les
cancers de type A sont sur-représentés chez les femmes.
A souligner que l’on retrouve dans ce tableau les paramètres nuls associés aux derniers niveaux
de chaque facteur, selon les contraintes du paramétrage SAS.
Toutefois cette syntaxe de base ne permet pas de juger de l’effet de chaque composante du modèle,
d’où la question suivante.
4. Dans l’instruction model, rajoutez l’option type3. Quel est son effet ? Interprétez.
Eléments de réponse : L’option type3 affiche un nouveau tableau LR Statistics for type 3
analysis permettant de juger de l’effet de chaque composante (facteur / interaction) en se basant
la statistique du rapport de vraisemblance.
On teste l’absence d’effet de chaque composante (correspondant à H0 ) en comparant le modèle
estimé avec le modèle sous H0 (ne contenant pas la composante). Une p-value inférieure à 5% indique un effet significatif de la composante ; plus la p-value est faible, plus l’effet de la composante
est fort.
4
Statistique LR pour Analyse de Type 3
Source
loc
sexe
loc*sexe
DDL
2
1
2
Khi-2
225.85
24.05
7.00
Pr > Khi-2
<.0001
<.0001
0.0302
On détecte ici un effet très significatif de la localisation et du sexe (p-value< 0.0001), mais aussi
une interaction significative entre les 2 facteurs (p-value= 0.03).
On retrouve les résultats du test d’absence d’interaction sur la sortie de la procédure FREQ (sous
la ligne du test du Chi-2).
Très important ! Cette option n’est pas optionnelle : il est obligatoire d’afficher ce
tableau pour juger de l’effet de chaque composante, sous cette forme (associée à la statistique du rapport de vraisemblance) ou sous la forme suivante (correspondant au test de Wald).
5. Même question pour l’option type3 wald.
Eléments de réponse : L’option type3 wald donne les mêmes résultats que l’option précédente,
mais les tests sont basés sur la statistique de Wald. On en déduit les mêmes effets significatifs.
6. Relancez la procédure GENMOD pour le modèle d’indépendance (en spécifiant uniquement loc et
sexe comme variables explicatives). Comparez ces résultats au modèle saturé et commentez.
Eléments de réponse : Le modèle d’indépendance ne contient plus les termes d’interaction.
On observe à nouveau des effets très significatifs de chaque facteur (p-value < 0.0001), mais les
critères AIC et BIC sont plus élevés, respectivement 55.58 et 54.75, alors qu’ils valent 52.58 et
51.33 pour le modèle saturé. Cela est logique puisqu’en retirant des interactions significatives, on
perd en qualité d’ajustement.
7. Concluez.
Eléments de réponse : Pour conclure, on a mis en évidence que les cancers n’étaient pas répartis
de façon équiprobable selon le sexe (plus de femmes atteintes) et selon la localisation (moins de
cancers de la peau). On a également montré que la répartition des cancers selon la localisation
n’est pas la même chez les hommes et chez les femmes. En effet, les femmes sont plus touchées
par les cancers sur voies digestives, alors chez les hommes, ce sont les cancers sur voies urinaires
et appareils génitaux qui sont les plus fréquents.
5
2
Accidents : modèle log-linéaire à trois facteurs croisés
Les données traitées ici concernent des accidents de voitures. Les 86769 accidents enregistrés (notés
nbaccid) sont classés selon 3 facteurs :
– alcool : absorption d’alcool avant l’accident (0=non, 1=oui) ;
– ceint : usage de la ceinture de sécurité au moment de l’accident (0=non, 1=oui) ;
– bles : gravité des blessures (1=pas de blessure, 2=blessures légères, 3=blessures sérieuses et
4=blessures très graves ou fatales).
Le croisement de ces 3 facteurs donne une table de contingence à 16 cellules.
On veut étudier la répartition des accidents de la route selon les 3 facteurs. On met alors en œuvre sur
ces données un modèle log-linéaire à 3 facteurs croisés.
1. Copiez la table SAS suivante accid.sas7bdat.
Indications : Elle comprend 16 observations correspondant aux 16 combinaisons possibles entre
les 3 facteurs et 4 colonnes (les 3 facteurs dans l’ordre cité ci-dessus, et le nombre d’accidents par
cellule).
2. Quelle est la variable réponse ? Quelles sont les variables explicatives ?
Quel est l’objectif de cette modélisation ?
Eléments de réponse : On met en œuvre un modèle log-linéaire à 3 facteurs croisés pour modéliser le nombre d’accidents de la route (variable réponse) selon les 3 facteurs (variables explicatives) :
consommation d’alcool avant l’accident, usage de la ceinture de sécurité et gravité des blessures.
L’objectif de cette modélisation est d’étudier la répartition du nombre d’accidents de la route
selon chaque facteur, et de détecter d’éventuelles dépendances/interactions entre ces facteurs.
Par exemple, la gravité des blessures est-elle corrélée à la consommation d’alcool et au port de la
ceinture ? (Attention, on n’étudie pas ici les effets de facteurs sur la présence ou non d’un accident).
3. Estimez le modèle saturé en utilisant la procédure GENMOD (avec l’option type3 vue à l’exemple
précédent). Commentez ces premiers résultats.
Eléments de réponse : On met en œuvre le modèle saturé à 3 facteurs croisés, contenant toutes
les interactions possibles, par la procédure GENMOD :
proc genmod data=sasuser.accid ;
class alcool ceint bles ;
model nbaccid = alcool | ceint | bles / dist=poisson link=log type3 ;
run;
Nous obtenons les estimations du modèle saturé contenant au total 16 paramètres. Dans un premier
temps, on étudie les effets de chaque composante selon les statistiques de test du rapport de
vraisemblance (de type 3) :
Statistique LR pour Analyse de Type 3
Source
alcool
ceint
alcool*ceint
bles
alcool*bles
ceint*bles
alcool*ceint*bles
DDL
1
1
1
3
3
3
3
Khi-2
1158.56
1613.60
57.04
7740.36
105.16
15.62
5.01
Pr > Khi-2
<.0001
<.0001
<.0001
<.0001
<.0001
0.0014
0.1708
On observe que l’interaction d’ordre 3 n’est pas significative (p-value= 0.17 > 0.05). En revanche, toutes les interactions d’ordre 2 ainsi que les effets de chaque facteur sont significatifs
6
(p-value< 0.05). Dans une prochaine étape, on pourra donc supprimer l’interaction d’ordre 3 et
estimer le modèle d’association homogène.
4. Dans ce modèle saturé, on estime que l’interaction entre les facteurs Ceinture et Blessures est
significative (p-value = 0.0014), alors que les paramètres associés à cette interaction ne sont pas
significativement non-nuls (p-value > 0.50). Comment expliquez-vous cela ?
Eléments de réponse : Les paramètres estimés correspondent à l’écart entre un niveau (ou
une cellule), et le dernier niveau (ou la dernière cellule) qui sert de référence. Par exemple, le
paramètre associé à alcool=0 égal à 18.34 mesure l’écart entre les accidents sans consommation
d’alcool (codé 0) et avec (codé 1, pris pour référence selon la paramétrage SAS).
Si le facteur étudié a plusieurs niveaux, il se peut que les paramètres estimés soient nuls, indiquant
que les premiers niveaux ne sont pas significativement différents du dernier niveau. En revanche, il
se peut qu’il y ait des différences entre d’autres niveaux, mais cela n’est pas directement observable
avec le paramétrage SAS. C’est ce qui se passe avec l’interaction entre les facteurs ceinture et
blessure, il n’y a pas de différence par rapport à la dernière cellule, mais il doit y en avoir entre
d’autres cellules.
Si on détecte un effet significatif pour un facteur, cela signifie qu’il y a des différences entre au
moins 2 niveaux de ce facteur.
5. En adoptant une démarche descendante logique (suppression des interactions non significatives,
puis des facteurs non significatifs si possible), trouvez le meilleur modèle expliquant le nombre
d’accidents. Commentez.
Eléments de réponse : On a montré à la question 4 que l’interaction d’ordre 3 n’était pas
significative. On peut donc estimer le modèle d’association homogène contenant les effets des 3
facteurs et les 3 interactions d’ordre 2. L’analyse de type 3 permettant de tester l’effet de chaque
composante montre que toutes les composantes sont très significatives (p-value< 0.0001).
Statistique LR pour Analyse de Type 3
Source
alcool
ceint
bles
alcool*ceint
ceint*bles
alcool*bles
DDL
1
1
3
1
3
3
Khi-2
3431.09
3041.55
28282.9
377.00
42.32
474.72
Pr > Khi-2
<.0001
<.0001
<.0001
<.0001
<.0001
<.0001
Par ailleurs, on peut comparer ce modèle avec le modèle saturé selon les critères AIC et BIC :
– pour le modèle saturé :
Critères d’évaluation de l’adéquation
Critère
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log Likelihood
Full Log Likelihood
AIC (smaller is better)
AICC (smaller is better)
BIC (smaller is better)
DDL
0
0
.
.
Valeur
0.0000
0.0000
0.0000
0.0000
809113.0959
-62.6787
157.3574
.
169.7188
7
Valeur/DDL
.
.
.
.
– pour le modèle d’association homogène :
Critères d’évaluation de l’adéquation
Critère
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log Likelihood
Full Log Likelihood
AIC (smaller is better)
AICC (smaller is better)
BIC (smaller is better)
DDL
3
3
3
3
Valeur
5.0136
5.0136
5.0159
5.0159
809110.5891
-65.1855
156.3710
338.3710
166.4147
Valeur/DDL
1.6712
1.6712
1.6720
1.6720
On observe que les critères AIC et BIC sont plus faibles pour le modèle sans l’interaction 3. De
plus, la déviance du modèle d’association homogène est inférieure à 3, montrant un bon ajustement du modèle aux données.
6. Pour compléter les résultats du modèle sélectionné, utilisez la procédure FREQ pour obtenir les tris
croisés entre 2 facteurs correspondant aux interactions significatives.
Synthétisez l’ensemble de ces résultats pour caractériser les accidents de la route selon les 3 facteurs étudiés.
Eléments de réponse : L’analyse par modèle log-linéaire à 3 facteurs croisés montre des dépendances deux-à-deux entre les facteurs, ainsi qu’un effet de chaque facteur (modèle d’association
homogène). Pour commenter ces résutats, on s’appuie sur les tableaux croisés entre 2 facteurs.
– Globalement, les accidents sont en majorité survenus : sans port de la ceinture de sécurité
(84.0%) (à l’époque de l’étude, le port de la ceinture n’était pas obligatoire) et sans consommation d’alcool (94%). On observe que 90.8% des accidents n’ont pas occasionné de blessures,
5.4% des blessures légères, 3.5% des blessures sérieuses et 0.4% des blessures fatales.
– La proportion de conducteurs sans ceinture augmente avec la gravité des blessures : de 83.7%
pour les accidents sans blessure, jusqu’à 87.8% pour les accidents avec blessures graves.
– Plus les accidents sont graves, plus la proportion de conducteurs ayant consommé de l’alcool
est importante : de 5.5% pour les accidents sans blessure, jusqu’à 20.3% pour les accidents avec
blessures graves.
– La proportion de personnes avec ceinture est deux fois moins importante quand la personne a
consommé de l’alcool : 16.5% contre 7.1%.
En conclusion, on a pu montrer que les blessures sont aggravées par le non-port de la ceinture de
sécurité et par la consommation d’alcool.
8

Documents pareils