Exemple de régression de Poisson
Transcription
Exemple de régression de Poisson
MODELISATION DE DONNEES QUALITATIVES LA REGRESSION DE POISSON Pierre-Louis GONZALEZ - La régressiode Poisson permet de modélisedes comptages distribuéselon une loi de Poisson en fonction de variables explicatives quantitatives ou qualitatives. Y = comptage X, ...Xi, Variables explicatives Population Y suit une loi de Poisson de moyenne = N exp [Po Effectif population soumise au risque 45 - 54 + 55 - 64 65 - 74 3 74 Régio Âg * PS -P 7 -P S -Pc Pl0 -Pl0 P l1 -Pli P7 Pl3 - P7-- Pl1 P7+**.+ P l i s N Âg * Régio oÃ1est l'indice de la ieme population. On estime les 13, en maximisant la vraisemblance. On rejette Hosi : H. Exemples Exemple 1 :Mélanome Nous reprenons l'exemple sur le risque de Mélanomprésentdans Tenenhaus (1993) : La régressiode Poisson, Modlisation et Analyse des Dodes, no 4, pp.41-48. Les donnée proviennent de Koch, Atkinson & Stokes (1986) :Poisson Regression. In Kotz, Johnson & Read (Eds) : Encyclopedies ofStatistical Sciences, VOL 7, Wiley. Elles concernent des personnes de race blanche atteintes de mélanomdans les année1969-197 1 et sont dans le tableau ci-dessous. L'indice i varie de 1 a 6 pour la régioNord et de 7 3 présenté 12 pour la régioSud, Tranche d'fige - Nombre de cas de &lanomes, ni ' Régio Sud, ni 64 35-44 45-54 55-64 65-74 275 76 98 63 80 Nombre estimÃde personnes soumises au risque, Ni Régio 1 Régio Nord, Ni 1 Sud, Ni 2 880 262 1 1 074 246 75 68 63 1 27 Le but de l'étudest ici de détermine si le rapport entre le nombre d'atteints et le nombre d'expo&s, ni / Ni, est à peu prèconstant ou non selon la régioet la tranche d'âge Nous allons utiliser sur cet exemple la regession de Poisson. On suppose que le comptage Yi = ni suit une loi de Poisson de moyenne : Le modèlGtudiÃs'&rit donc : Plus précisebent notons Ah la variable indicatrice de la tranche d'âg h (de c35 à 275) et Rk la variable indicatrice de la régiok (1 = Nord et 2 = Sud). Abandonnant les dernière modalités le modèl avec interaction s'écri: C'est un modèl satur6 puisqu'il y a 12 paramètrepour 12 observations. Utilisons maintenant la Proc Genmod pour 6tudier ce modèle 1 1 Les d o n n k OBS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 AGE REGION <35 <35 35-44 35 44 45-54 45-54 55 64 55-64 65-74 65-74 >74 >74 <35 <35 35 44 35-44 45 - 54 45 54 55 64 55'-64 65-74 65-74 >74 >74 - - - EFFECT1F 61 64 76 75 98 68 1O4 63 63 45 80 27 2880201 1O74 182 564459 220332 592885 198051 450636 134021 270845 70663 161770 34206 a Le programme (modèlavec interaction) o p t i o n s nocenter nodate n o l a b e l pageno=l ; d a t a melanome ; i n p u t i d S age $ region $ cas pop; logcsp=log ( c a s / p o p ) ; ~ o g p o P = l o g ( ~ o;P ) cards; n 61 2880262 n,<35 <35 s 64 1074246 S,<35 <35 n.35-44 35-44 n 76 564535 s,35-44 35-44 S 75 220407 n,45-54 45-54 n 98 592983 s , 4 5 - 5 4 45-54 S 68 198119 n,55-64 55-64 n 104 450740 6 3 134084 ~$55-65 45-64 S n,65-74 65-74 n 6 3 270908 45 70708 S,65-74 65-74 s n,>74 >74 n 8 0 161850 s , > 7 4 >74 s 2 7 34233 s proc p r i n t data=inelanome ; run ; proc genmod data=çelanom O r d e F d a t a ; class age region; mode1 cas=age r e g i o n a g e * r e g i o n i d i s t = p o i s s o n link=log o f f set=logpop type3 ; run ; Les Résultat CAS POP LOGCSP 61 64 76 75 98 68 1O4 63 63 45 80 27 2880262 1074246 564535 220407 592983 198% 19 450740 134084 270908 70708 161850 34233 -10.7625 9.7282 -8.9130 7.9857 8.7080 -7.9771 -8.3743 -7.6631 - 8.3664 -7.3597 -7.6124 -7.1451 LOGPOP - - The GENMOD Procedure Mode1 Information Description Value Data Set Distribution Link F u n c t i o n Dependent Variable Off s e t Variable Observations Used WORK MELANOME POISSON LOG CAS LOGPOP 12 . Class Level Information Class Levels Values AGE 6 <35 35-44 45-54 55-64 65-74 >74 REGION 2 n s C r i t e r i a For Assessing Goodness Of F i t Criterion Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X2 Log Likelihood DF Value O 0.0000 0.0000 0.0000 O. 0000 2698.0337 0 0 O ValuejDF A n a l y s i s Of P a r a n e t e r E s t i m a t e s DF Parameter Estlaate Std Err Chsquare Pr>Chi INTERCEPT AGE AGE AGE AGE AGE AGE REGION REGION AGEÈREGIO AGEÈREGIO AGESREGION AGEXREGION AGEXREGION AGEXREGION AGE*REGION AGEXREGION AGE*REGION AGEÈREGIO AGEÈREGIO AGEÈREGI0 SCALE NOTE: T h e scale parameter w a s h e l d f i x e d . LU S t a t i s t i c s F o r T y p e 3 A n a l y s i s source AGE REGION AGEXREGION DF Chisquare Pr>Chi 5 715.9897 108.1919 6.2149 0.0001 0.0001 0.2859 1 5 Commentaires 1) 2) On vkrifie que la dkviance et le khi-deux de Pearson sont nuls puisque le rnodkle est saturé La vraisemblance des donnees s'écri et son logarithme Le Log Likelifwod 1 fournit par la Proc Genmod correspond en fait à la partie de 1qui dkpend des pi, c'est à dire 3) Il est donc possible d'obtenir des Log Likelihood 1 positifs (!), ce qui est le cas sur cet exemple. Les tests LRT peuvent êtr construits a partir des Log Likelihood f. L'interaction étan non significative, on passe maintenant au modèl sans interaction. Le programme (mod&leadditif) p r o c genmod data=melanome o r d e r = d a t a 7 class a g e r e g i o n ; mode1 c a s = a g e r e g i o n l d i s t = p o i s s o n link=log o f f s e t = l o g pop type3 obstats residuals; contrast '<35vs35-44' age-1 1 0 . 0 0 c o n t r a s t '35-44 vs 45-54' age 0 - 1 1 0 0 c o n t r a s t '45-54 v s 5 5 - 6 4 ' age 0 0 -1 1 0 c o n t r a s t '55-64 v s 6 5 - 7 4 ' a g e 0 0 0 - 1 1 c o n t r a s t '65-74 vs >74' age 0 0 0 0 - 1 c o n t r a s t ' ~ 3 5v s 35-44, age - 1 1 0 0 0 c o n t r a s t '35-44 vs 4 5 - 5 4 ' a g e 0 - 1 1 0 0 c o n t r a s t '45-54 v s 5 5 - 6 4 ' a g e 0 0 -1 1 0 c o n t r a s t '55-64 v s 6 5 - 7 4 ' age 0 0 0 - 1 1 age 0 0 0 0 - 1 c o n t r a s t '65-74 v s >74' rnake ' o b s t a t s ' o u t = a ; run; 0; 0; 0; 0; 1; 0 0 0 0 1 / wald; / wald; / wald; / wald; 1 wald; d a t a aa; Berge me-lanolae a ; proc p l o t d a t a = a a ; p l o t logcsp*xbeta='* ' S id; run ; Les kultats C r i t e ria For A s s e s s i n g Goodness Of F i t Criterion Deviance S c a l e d Deviance P e a r s o n Chi-Square S c a l e d P e a r s o n X2 Log L i k e l i h o o d DF Value ValueIDF 5 5 5 5 6.2149 6.2149 6.1151 6.1151 2694.9262 1 .2430 1 .243O 1.2230 1 .2230 a Analysis O f Paraneter Estimates Parameter DF Estimate INTERCEPT AG E AGE AG E AG E AGE AG E REGION REGION SCALE NOTE: The s c a l e p a r a m e t e r was h e l d f i x e d . Std Err Chisquare Pr>Chi LR S t a t i s t i c s For Type 3 Analysis Source DF Chisquare Pr>Chi AGE REGION 5 796.7436 124.2203 0.0001 0.0001 1 CONTRAST Statement Results Cont rast Chisq uare LR LR 206 -3042 1 -0595 8.9551 O. 9974 17.7438 220.9204 1.0581 8.9924 1 .O068 18.0049 LR LR LR Wald Wald Wald wa id Wald Observation Stat i s t i c s CAS ' 61 64 76 75 98 68 1 O4 63 63 45 80 27 std Xbeta Pred HessWgt 67.6998 57.3002 80.O638 70.9362 94.4150 71.5850 99.6974 67.3026 67.8263 40.1737 72-2979 34.7021 Lowe r Resraw 56.1779 47.3456 67.3860 59.5032 80.1708 60.3035 84.8113 56.6139 55.7776 32.6334 59.5022 28.0857 - 6.6998 Observation S t a t i s t i c s Reschi -0.8143 0.8851 -0.4542 0.4825 O. 3690 -0.4237 0 -4309 -0.5245 -0.5860 0.7614 O. 9058 - 1 -3075 Resdev StResdev StReschi Reslik - 1 -3183 1.2985 -0.7386 O. 7332 0 -6280 -0.6327 0.7585 - 0.7642 - 1 -0326 1 .O178 1 .6857 6.6998 -4.0638 4 .O638 3.5850 - 3.5850 4.3026 -4.3026 -4.8263 4.8263 7 .?O21 -7.7021 Commentaires 1) On v6rifie que la statistique LRT de l'interaction Age*R&gionvaut : 2[log L(Age, Rkgion, Age*R&gion)- log L(Age, Region)] = 2(2698.0337 - 2694.9262) = 6.2150 2) 3) Les facteurs Age et Régiosont significatifs. Le modèladditif &tudi6est accepte. La par leur degréde deviarice norndis& et le khi-deux de Pearson normalisÃdivisé libertÃN-p = 12-7 = 5 sont proches de 1 (respectivement 1.2430 et 1.2230). Le modèl estirnt5 s'écri L'ajustement entre les donnees et le modèl est visualisÃdans la figure ci-dessous oà on a représenten ordonni5 le logarithme de nJN, ,notÃLOGCSP,et en abscisse VALUE OF THE LINEAR PREDICTOR XBETA 4) L'examen des coefficients des variables indicatrices de l'âg suggkre de regrouper les âge35-44 et 45-54 et égalemen les âge55-64 et 65-74. Nous avons donc construit les contrastespermettant de comparer les tranches d'âgadjacentes. Nous avons utilisà les statistiques de Wald et LRT. Les résultat donné par ces deux statistiques sont trè voisins et confirment la possibilitÃde regroupement. Nous avons donc étudiun troisièmmodèlen réalisan ces regroupement. Le programme (modele additif simplifie) data b; s e t melanome; agel= (age = "<35"); age2=(age = "35-44") o r (age="45-54"); age3=(age = '55-64") or (age="65-74"); proc genmod data=b order=data; c l a s s region; mode1 cas=agel age2 age3 region/dist=poisson l i n k s log off set=logpop type3 residuals waldci l r c i ; contrast 'age' agel 1 , age2 1 , age3 1 l e ; agel 1, contrast ' age ' age2 1 , 8 age3 1 / wald; run ; Les rbultats Parameter Information Paraneter ~ff e c t REGION C r i t e r i a For Assessing Goodness Of F i t Criterion Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X2 Log ~ i k e l i h o o d DF Value ValueIDF 7 8.2709 8.2709 8.2329 8.2329 2693.8982 1.1816 1.1816 1.. 1761 1. 1761 7 7 7 A n a l y s i s Of parameter E s t i m a t e s Parameter INTERCEPT AGE1 AG=. AGE3 RESION REGION SCALE NOTE: OF n S S t d Err Chsquare PrSChi 1 1 1 1 1 0 0 The $ c a l e p a r a m e t e r was held f i x e d . Normal Confidence I n t e r v a i s For Parameters Two -Sided Confidence C o e f f i c i e n t : 0 .95OO Parameter Confidence L i m i t s Lower upper Lower UPPer Lower u PPW Lowe r u P P r~ Lower Upper L i k e l i h o o d R a t i o Based Confidence I n t e r v a l s For P a r a m e t e r s Parameter Two -Sideci Confidence C o e f f i c i e n t : 0.9500 C o n f i d e n c e Limits Parameter Values PRM1 PRM2 PRM3 Lower wper Lowe r UPPer Lower upper Lowe r UPPer Lowe r u PPe r LR S t a t i s t i c s For Type 3 A n a l y s i s Source DF Chisquare Pr>Chi AGE1 AGE~' AGE3 REGION 1 1 1 1 362.7350 77.2131 29.7461 123.4360 0.0001 0.0001 0.0001 0.0001 PRM4 PRM5 C o e f f i c i e n t s For a g e Parameter RW1 ROW2 ROW3 GONTRAST Statement R e s u l t s Contrast age %le DF Chisquare 3 794.6877 605.9962 3 PraGhi Type 0 -0001 LR 0.0001 Wald Commentaires 1) On peut comparer le modele additif complet et le modele simplifiÃà l'aide d'un test LRT. La statistique LRT vaut 2(2694.9262 - 2693.8982) = 2.056 3 comparer au On peut retrouver ce fractile xi.05(2) = 5.99. On accepte donc le modèl simplifié résulta à l'aide d'un test sur le modèl additif complet. On utilise le programme cidessous : p r o c genmod data=melanome o r d e r = d a t a ; c l a s s age r e g i o n ; mode1 cas=age region/ d i s t = p o i s s o n l i n k=log o f f set=logpop t Y pe3; c o n t r a s t 'modèl complet v s s i m p l i f i à © age 0 - 1 1 0 0 0 , age 0 0 0 - 1 1 0 / e ; run; Et on obtient le rgsultat : C o e f f i c i e n t s For modèl complet v s s i CONTRAST S t a t e m e n t R e s u l t s contrast modèl complet v s s i 2) 3) 4) DF Chisquare Pr>Chi Type 2 2.0560 0.3577 LR On peut aussi remarquer que la déviancdivisÃpar ses degréde libertÃa diminuÃen passant du modcle additif complet au modhle simplifiÃ(respectivement 1.243 et 1.1816) Le mod5le simplifiÃestimÃs'écri Dans cet exemple, les tailles des populations soumises au risque sont élevé par rapport au nombre de cas observes. En fait on peut aussi considére que Y;suit une loi binomiale bin(Ni ;pi) oÃpi est la probabilitÃqu'un individu tirÃau hasard dans la population soumise au risque présentun mélanome Cette loi binomiale est approché par une loi de Poisson de moyenne pi = Nipi. Nous avons donc essayÃde mod6liser ces donnkes en utilisant la loi binomiale et en conservant la fonction de lien logarithme : Voici le nouveau progamme. 9 Programme (Réponsbinomiale, fonction de lien log, modèladditif simplifie) p r o c genmod d a t a = b o r d e r = d a t a ; c l a s s region: nodel cas/pop=agel a g e 2 a g e 3 r e g i o n / d i s t = b i n link=log t Y pe3; contrast 'age' agel 1, a g e 2 1, age3 1; run; The GENMOD Procedure Mode1 I n f o r m a t i o n Description Value Data S e t Distribution Link F u n c t i o n Dependent Va r i a b l e Dependent V a r i a b l e O b s e r v a t i o n s Used Nuaber Of E v e n t s Number Of T r i a l s WORK B . BINOMIAL LOG CAS POP 12 824 6653075 C r i t e r i a For Assessing Goodness Of F i t Criterion DF Value Value/DF 7 7 7 7 8 -2745 8.2745 8.2368 8 -2368 -7793.1578 1 .1821 Deviance Scaled Deviance Pearson Chi-Square Scaled Pearson X2 Log Likelihood 1.1821 1.1767 1.1767 Analysis O f Parameter Estimates Parameter DF Estiaate . Std Err Chisquare PrXhi INTERCEPT AGE1 AG E2 AGE3 REGION REGION SCALE NOTE: n s The scale parameter was held fixed. LR S t a t i s t i c s For Type 3 Analysis DF Source Chisquare Pr>Chi CONTRAST Statement Results COntraSt age DF ChiSquare 3 794.8074 Pr>Chi Type ' 0.0001 LR Commentaires Le modèl estimÃs'écri On retrouve exactement (en tout cas avec la précisiochoisie) la régressiode Poisson estiméplus haut. Ce résulta est toujours vrai lorsqu'on est dans les conditions de convergence de la loi binomiale vers la loi de Poisson : N,grand et pi petit. Ce qui est le cas ici. 5) Les probabilité pi ktant petites, log(pi) est trèpeu different de log(- pi ).par '-pi cons6quent la regression de Poisson est ici équivalentà une rigression logistique. Nous allons donc verifier que le modèl conduit à la m&meestimation des coefficients de régressioque le modkle prkcédent Le programme (Réponsbinomiale, fonction de lien logit) proc genmod daTa=b o r d e r = d a t a ; c l a s s region; mode1 c a s / p o p = a g e i age2 age3 r e g i o n / d i s t = b i n link=logit type3; contrast age' agel 1 , age2 ' , age3 1 ; run; Résultat The GENMOD Procedure Mode1 Information Description Va l u e Data s e t Distribution Link Function Dependent V a r i a b l e Dependent V a r i a b l e O b s e r v a t i o n s Used Nurnber Of Events hiumber Of T r i a l s WORK .B BINOMIAL LOGIT CAS POP 12 824 6653075 C r i t e r i a For Assessing Goodness O f F i t Criterion Deviance S c a l e d Deviance Pearson Chi-Square S c a l e d Pearson X2 Log Likelihood DF 7 7 7 7 . Value ValueiDF 8.2667 8.2667 8 .2292 8.2292 -7793.1539 1.1810 1 . 1810 1.1756 1.1756 Analy sis Of Parameter Estimates Parameter DF S t d Err Estimate ChiSquare Pr>Chi INTERCEPT AGE 1 AGE2 AGE3 REGION Analysis Of Parameter Estimates RF Parameter Estimate Std Err Chisquare Pr>Chi REGION SCALE NOTE: The s c a l e parameter was held "fxed. LR S t a T i s t i c s For Type 3 Analysis DF Chisquare Pr>Chi AGEI 1 AGE2 AGES REGION ; 362.7964 77.2398 29.7586 123.4705 0.0001 0.0001 0.0001 0.0001 Source 1 1 CONTRAST Statement R e s u l t s Contrast ag e DF ChiSquare Pr>Chi Type 3 794.8152 0.0001 LR Commentaires Le mod&leestirnii s'écri On retrouve exactement (en tout cas avec la précisiochoisie) la régressiode Poisson estiméplus haut. Ce rksultat est toujours vrai lorsqu'on est dans les conditions de convergence de la loi binomiale vers la loi de Poisson : Y; grand et pi petit. Ce qui est le cas ici.