to get the file
Transcription
to get the file
Laboratoire d’Enseignement et de Recherche sur le Traitement de l’Information Médicale Faculté de Médecine de Marseille, Université de la Méditerranée Master Professionnel EISIS Expertise et Ingénierie des Systèmes d’Information en Santé UE OPT 3 : Outils méthodologiques du traitement de l’information (3) : biostatistique Problème sur la régression logistique : Une étude visant à mettre en évidence les facteurs de l’environnement de travail des salariés liés avec le surpoids et l’obésité a été menée. On dispose des informations suivantes : - surpoids : surpoids (0= Non, 1= Oui), - age : âge (en années), - sex : sexe (0=Femme, 1=Homme), - pcfin : indemnité forfaitaire payée par l’employeur pour le repas (0= Non, 1= Oui), - taillent : taille de l’entreprise (0=Moins de 99 salariés, 1=Plus de 100 salariés), - ouvrier : catégorie socio-professionnelle(0=Employé, profession intermédiaire, cadre ; 1=Ouvrier). 1) Expliquez pourquoi la régression logistique est adaptée à l’étude de ces données. La régression logistique est une méthode particulièrement utilisée en épidémiologie. Elle exprime sous forme de risque la relation entre une maladie (présente ou absente) et des variables quantitatives et qualitatives. Dans notre cas, le surpoids est une variable binaire (Oui/Non). Il se caractérise par un risque que l’on souhaite estimer en fonction de variables explicatives quantitative (âge) et qualitatives (sexe, indemnité forfaitaire, taille de l’entreprise, catégorie socio-professionnelle). 2) Commentez le modèle réalisé ci-dessous avec le logiciel R et interprétez les résultats. > fit1<-glm(surpoids~age,family=binomial,data= poidssalaries) > summary(fit1) Call: glm(formula = surpoids ~ age, family = binomial, data = poidssalaries) Deviance Residuals: Min 1Q Median 3Q Max -1.416 -1.017 -0.811 1.235 1.862 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.091385 0.256456 -8.155 3.49e-16 *** age 0.006222 6.836 8.17e-12 *** 0.042528 --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1572.0 on 1167 degrees of freedom Residual deviance: 1523.0 on 1166 degrees of freedom AIC: 1527.0 Number of Fisher Scoring iterations: 4 © Pascale ROUAUD, LERTIM, Faculté de Médecine, Université de la Méditerranée http://cybertim.timone.univ-mrs.fr/ 1/4 Laboratoire d’Enseignement et de Recherche sur le Traitement de l’Information Médicale Faculté de Médecine de Marseille, Université de la Méditerranée La fonction glm, avec pour option family=binomial réalise une régression logistique. Le risque de surpoids est exprimé en fonction de l’âge de l’individu. L’estimation du coefficient associé à l’âge est 0.042528, ce qui signifie que l’odds ratio (OR) pour une année de plus est de exp(0.042528)= 1,04344527. Par exemple, l’OR d’une personne de 30 ans par rapport à une personne de 20 ans est de 1,0434452710=1,5. Le coefficient associé à l’âge est statistiquement différent de 0 puisque Pr(>|z|)=8.17e-12. Le modèle permet de dire que le risque de surpoids augmente de manière significative avec l’âge. 3) Commentez le modèle plus complet ci-dessous. Est-il meilleur que le précédent ? > fit2<-glm(surpoids~ poidssalaries) age + sex + pcfin + taillent + ouvrier,family=binomial,data= > summary(fit2) Call: glm(formula = poids ~ age + sex + pcfin + taillent + ouvrier, family = binomial, data = poidssalaries) Deviance Residuals: Min 1Q Median 3Q Max -1.6781 -0.9844 -0.7215 1.1794 2.0208 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.719753 0.283826 age 0.043343 0.006484 -9.582 6.684 2.32e-11 *** < 2e-16 *** sex 0.549204 0.137348 3.999 6.37e-05 *** pcfin 0.530552 0.171367 3.096 0.00196 ** taillent 0.253524 0.126682 2.001 0.04536 * ouvrier 0.244980 0.143553 1.707 0.08791 . --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1572.0 on 1167 degrees of freedom Residual deviance: 1469.5 on 1162 degrees of freedom AIC: 1481.5 Number of Fisher Scoring iterations: 4 > dev1<-deviance(fit1)-deviance(fit2) > 1-pchisq(dev1,4) [1] 6.609702e-11 Dans ce modèle, le risque de surpoids est exprimé en fonction de l’âge, du sexe, de la catégorie socioprofessionnelle du salarié, de la prise en charge financière du repas et de la taille de l’entreprise. Excepté la catégorie socio-professionnelle, les autres variables explicatives sont liées au surpoids au seuil 5%. Les OR de chaque variable sont ajustés sur les autres variables explicatives. L’OR du surpoids des hommes par rapport aux femmes est de exp(0,549204)=1,7. L’OR du surpoids des personnes recevant une indemnité financière par rapport aux autres est de 1,7… © Pascale ROUAUD, LERTIM, Faculté de Médecine, Université de la Méditerranée http://cybertim.timone.univ-mrs.fr/ 2/4 Laboratoire d’Enseignement et de Recherche sur le Traitement de l’Information Médicale Faculté de Médecine de Marseille, Université de la Méditerranée Pour savoir si ce modèle est meilleur que le précédent ne comprenant que l’âge, on réalise le test du rapport de vraisemblance qui s’applique aux modèles emboîtés. Si le modèle nul est vrai, deviance(fit1) – deviance(fit2) suit une loi du Chi-deux à 4 degrés de liberté. Ici, la probabilité pour que H0 soit vraie est <0,05. On en conclue que le modèle plus complet est « meilleur » que le premier modèle. 4) Interprétez le modèle ci-dessous > fit3<-glm (surpoids~age+ sex + pcfin + taillent + ouvrier+ouvrier*sex,family=binomial, data= poidssalaries) > summary(fit3) Call: glm(formula = surpoids ~ age + sex + pcfin + taillent + ouvrier + ouvrier * sex, family = binomial, data = poidssalaries) Deviance Residuals: Min 1Q Median 3Q Max -1.7055 -0.9747 -0.6995 1.1437 2.0384 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.707951 0.284651 age 0.041294 0.006548 -9.513 6.307 2.85e-10 *** < 2e-16 *** sex 0.714256 0.152898 4.671 2.99e-06 *** pcfin 0.559472 0.171674 3.259 0.00112 ** taillent 0.227468 0.127457 1.785 0.07432 . ouvrier 0.836517 0.278923 2.999 0.00271 ** sex:ouvrier -0.808698 0.326750 -2.475 0.01332 * --Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 1572.0 on 1167 degrees of freedom Residual deviance: 1463.4 on 1161 degrees of freedom AIC: 1477.4 Number of Fisher Scoring iterations: 4 dev2<-deviance (fit2)-deviance(fit3) > 1-pchisq(dev2,1) [1] 0.01325128 On a rajouté un terme d’interaction par rapport au précédent modèle. Le coefficient associé à ce terme d’interaction est statistiquement significatif. Il existe donc une interaction entre le sexe et la catégorie socio-professionnelle. Le test du rapport de vraisemblance montre que ce modèle est meilleur que le précédent. Le modèle obtenu est donc le suivant (sans intercept) : Logit(P) = 0,71.sex + 0,83.ouvrier – 0,80.sex*ouvrier © Pascale ROUAUD, LERTIM, Faculté de Médecine, Université de la Méditerranée http://cybertim.timone.univ-mrs.fr/ 3/4 Laboratoire d’Enseignement et de Recherche sur le Traitement de l’Information Médicale Faculté de Médecine de Marseille, Université de la Méditerranée Le calcul des OR montre (graphique suivant) que le fait d’être ouvrier ou non pour un homme n’influence pas la probabilité de surpoids. Par contre, chez les femmes, il existe un lien très fort entre le fait d’être ouvrière et le surpoids. En effet, les femmes ouvrières ont un OR de 2,3 par rapport aux femmes non ouvrières (OR = exp(0,71.0 + 0,83.1 – 0,80.0*1) = 2,3). 2,5 2,3 2,1 2,04 2 OR 1,5 1 1 0,5 0 Femme Homme Ouvrier Non ouvrier © Pascale ROUAUD, LERTIM, Faculté de Médecine, Université de la Méditerranée http://cybertim.timone.univ-mrs.fr/ 4/4