to get the file

Transcription

to get the file
Laboratoire d’Enseignement et de Recherche sur le Traitement de
l’Information Médicale
Faculté de Médecine de Marseille, Université de la Méditerranée
Master Professionnel EISIS
Expertise et Ingénierie des Systèmes d’Information en Santé
UE OPT 3 : Outils méthodologiques du traitement de l’information (3) :
biostatistique
Problème sur la régression logistique :
Une étude visant à mettre en évidence les facteurs de l’environnement de travail des salariés liés avec
le surpoids et l’obésité a été menée. On dispose des informations suivantes :
- surpoids : surpoids (0= Non, 1= Oui),
- age : âge (en années),
- sex : sexe (0=Femme, 1=Homme),
- pcfin : indemnité forfaitaire payée par l’employeur pour le repas (0= Non, 1= Oui),
- taillent : taille de l’entreprise (0=Moins de 99 salariés, 1=Plus de 100 salariés),
- ouvrier : catégorie socio-professionnelle(0=Employé, profession intermédiaire, cadre ;
1=Ouvrier).
1) Expliquez pourquoi la régression logistique est adaptée à l’étude de ces données.
La régression logistique est une méthode particulièrement utilisée en épidémiologie. Elle exprime
sous forme de risque la relation entre une maladie (présente ou absente) et des variables quantitatives
et qualitatives. Dans notre cas, le surpoids est une variable binaire (Oui/Non). Il se caractérise par un
risque que l’on souhaite estimer en fonction de variables explicatives quantitative (âge) et qualitatives
(sexe, indemnité forfaitaire, taille de l’entreprise, catégorie socio-professionnelle).
2) Commentez le modèle réalisé ci-dessous avec le logiciel R et interprétez les résultats.
> fit1<-glm(surpoids~age,family=binomial,data= poidssalaries)
> summary(fit1)
Call:
glm(formula = surpoids ~ age, family = binomial, data = poidssalaries)
Deviance Residuals:
Min
1Q
Median
3Q
Max
-1.416
-1.017
-0.811
1.235
1.862
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.091385
0.256456
-8.155 3.49e-16 ***
age
0.006222
6.836 8.17e-12 ***
0.042528
--Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1572.0
on 1167
degrees of freedom
Residual deviance: 1523.0
on 1166
degrees of freedom
AIC: 1527.0
Number of Fisher Scoring iterations: 4
© Pascale ROUAUD, LERTIM, Faculté de Médecine, Université de la Méditerranée
http://cybertim.timone.univ-mrs.fr/
1/4
Laboratoire d’Enseignement et de Recherche sur le Traitement de
l’Information Médicale
Faculté de Médecine de Marseille, Université de la Méditerranée
La fonction glm, avec pour option family=binomial réalise une régression logistique. Le risque de
surpoids est exprimé en fonction de l’âge de l’individu. L’estimation du coefficient associé à l’âge est
0.042528, ce qui signifie que l’odds ratio (OR) pour une année de plus est de exp(0.042528)=
1,04344527. Par exemple, l’OR d’une personne de 30 ans par rapport à une personne de 20 ans est de
1,0434452710=1,5.
Le coefficient associé à l’âge est statistiquement différent de 0 puisque Pr(>|z|)=8.17e-12.
Le modèle permet de dire que le risque de surpoids augmente de manière significative avec l’âge.
3) Commentez le modèle plus complet ci-dessous. Est-il meilleur que le précédent ?
>
fit2<-glm(surpoids~
poidssalaries)
age
+
sex
+
pcfin
+
taillent
+
ouvrier,family=binomial,data=
> summary(fit2)
Call:
glm(formula = poids ~ age + sex + pcfin + taillent + ouvrier,
family = binomial, data = poidssalaries)
Deviance Residuals:
Min
1Q
Median
3Q
Max
-1.6781
-0.9844
-0.7215
1.1794
2.0208
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.719753
0.283826
age
0.043343
0.006484
-9.582
6.684 2.32e-11 ***
< 2e-16 ***
sex
0.549204
0.137348
3.999 6.37e-05 ***
pcfin
0.530552
0.171367
3.096
0.00196 **
taillent
0.253524
0.126682
2.001
0.04536 *
ouvrier
0.244980
0.143553
1.707
0.08791 .
--Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1572.0
on 1167
degrees of freedom
Residual deviance: 1469.5
on 1162
degrees of freedom
AIC: 1481.5
Number of Fisher Scoring iterations: 4
> dev1<-deviance(fit1)-deviance(fit2)
> 1-pchisq(dev1,4)
[1] 6.609702e-11
Dans ce modèle, le risque de surpoids est exprimé en fonction de l’âge, du sexe, de la catégorie socioprofessionnelle du salarié, de la prise en charge financière du repas et de la taille de l’entreprise.
Excepté la catégorie socio-professionnelle, les autres variables explicatives sont liées au surpoids au
seuil 5%.
Les OR de chaque variable sont ajustés sur les autres variables explicatives.
L’OR du surpoids des hommes par rapport aux femmes est de exp(0,549204)=1,7. L’OR du surpoids
des personnes recevant une indemnité financière par rapport aux autres est de 1,7…
© Pascale ROUAUD, LERTIM, Faculté de Médecine, Université de la Méditerranée
http://cybertim.timone.univ-mrs.fr/
2/4
Laboratoire d’Enseignement et de Recherche sur le Traitement de
l’Information Médicale
Faculté de Médecine de Marseille, Université de la Méditerranée
Pour savoir si ce modèle est meilleur que le précédent ne comprenant que l’âge, on réalise le test du
rapport de vraisemblance qui s’applique aux modèles emboîtés. Si le modèle nul est vrai,
deviance(fit1) – deviance(fit2) suit une loi du Chi-deux à 4 degrés de liberté. Ici, la probabilité pour
que H0 soit vraie est <0,05. On en conclue que le modèle plus complet est « meilleur » que le premier
modèle.
4) Interprétez le modèle ci-dessous
> fit3<-glm (surpoids~age+ sex + pcfin + taillent + ouvrier+ouvrier*sex,family=binomial, data=
poidssalaries)
> summary(fit3)
Call:
glm(formula = surpoids ~ age + sex + pcfin + taillent + ouvrier +
ouvrier * sex, family = binomial, data = poidssalaries)
Deviance Residuals:
Min
1Q
Median
3Q
Max
-1.7055
-0.9747
-0.6995
1.1437
2.0384
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.707951
0.284651
age
0.041294
0.006548
-9.513
6.307 2.85e-10 ***
< 2e-16 ***
sex
0.714256
0.152898
4.671 2.99e-06 ***
pcfin
0.559472
0.171674
3.259
0.00112 **
taillent
0.227468
0.127457
1.785
0.07432 .
ouvrier
0.836517
0.278923
2.999
0.00271 **
sex:ouvrier -0.808698
0.326750
-2.475
0.01332 *
--Signif. codes:
0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1572.0
on 1167
degrees of freedom
Residual deviance: 1463.4
on 1161
degrees of freedom
AIC: 1477.4
Number of Fisher Scoring iterations: 4
dev2<-deviance (fit2)-deviance(fit3)
> 1-pchisq(dev2,1)
[1] 0.01325128
On a rajouté un terme d’interaction par rapport au précédent modèle. Le coefficient associé à ce terme
d’interaction est statistiquement significatif. Il existe donc une interaction entre le sexe et la catégorie
socio-professionnelle.
Le test du rapport de vraisemblance montre que ce modèle est meilleur que le précédent.
Le modèle obtenu est donc le suivant (sans intercept) :
Logit(P) = 0,71.sex + 0,83.ouvrier – 0,80.sex*ouvrier
© Pascale ROUAUD, LERTIM, Faculté de Médecine, Université de la Méditerranée
http://cybertim.timone.univ-mrs.fr/
3/4
Laboratoire d’Enseignement et de Recherche sur le Traitement de
l’Information Médicale
Faculté de Médecine de Marseille, Université de la Méditerranée
Le calcul des OR montre (graphique suivant) que le fait d’être ouvrier ou non pour un homme
n’influence pas la probabilité de surpoids. Par contre, chez les femmes, il existe un lien très fort entre
le fait d’être ouvrière et le surpoids. En effet, les femmes ouvrières ont un OR de 2,3 par rapport aux
femmes non ouvrières (OR = exp(0,71.0 + 0,83.1 – 0,80.0*1) = 2,3).
2,5
2,3
2,1
2,04
2
OR
1,5
1
1
0,5
0
Femme
Homme
Ouvrier
Non ouvrier
© Pascale ROUAUD, LERTIM, Faculté de Médecine, Université de la Méditerranée
http://cybertim.timone.univ-mrs.fr/
4/4