Exemple de régression de Poisson

Transcription

Exemple de régression de Poisson
MODELISATION DE DONNEES QUALITATIVES LA REGRESSION DE POISSON
Pierre-Louis GONZALEZ -
La régressiode Poisson permet de modélisedes comptages
distribuéselon une loi de Poisson en fonction de variables
explicatives quantitatives ou qualitatives.
Y = comptage X, ...Xi, Variables explicatives Population
Y suit une loi de Poisson de moyenne = N exp
[Po
Effectif population
soumise au risque
45 - 54
+
55 - 64
65 - 74
3 74
Régio
Âg
*
PS
-P 7
-P S
-Pc
Pl0
-Pl0
P l1
-Pli
P7
Pl3
- P7--
Pl1
P7+**.+ P l i
s
N
Âg
* Régio
oÃ1est l'indice de la ieme population.
On estime les
13, en maximisant la vraisemblance.
On rejette Hosi :
H.
Exemples
Exemple 1 :Mélanome
Nous reprenons l'exemple sur le risque de Mélanomprésentdans Tenenhaus (1993) : La
régressiode Poisson, Modlisation et Analyse des Dodes, no 4, pp.41-48. Les donnée
proviennent de Koch, Atkinson & Stokes (1986) :Poisson Regression. In Kotz, Johnson &
Read (Eds) : Encyclopedies ofStatistical Sciences, VOL 7, Wiley. Elles concernent des
personnes de race blanche atteintes de mélanomdans les année1969-197 1 et sont
dans le tableau ci-dessous. L'indice i varie de 1 a 6 pour la régioNord et de 7 3
présenté
12 pour la régioSud,
Tranche
d'fige
-
Nombre de cas de
&lanomes, ni
'
Régio
Sud, ni
64
35-44
45-54
55-64
65-74
275
76
98
63
80
Nombre estimÃde
personnes soumises
au risque, Ni
Régio
1
Régio
Nord, Ni
1
Sud, Ni
2 880 262
1
1 074 246
75
68
63
1
27
Le but de l'étudest ici de détermine
si le rapport entre le nombre d'atteints et le nombre
d'expo&s, ni / Ni, est à peu prèconstant ou non selon la régioet la tranche d'âge
Nous allons utiliser sur cet exemple la regession de Poisson. On suppose que le comptage Yi
= ni suit une loi de Poisson de moyenne :
Le modèlGtudiÃs'&rit donc :
Plus précisebent
notons Ah la variable indicatrice de la tranche d'âg h (de c35 à 275) et Rk
la variable indicatrice de la régiok (1 = Nord et 2 = Sud). Abandonnant les dernière
modalités
le modèl avec interaction s'écri:
C'est un modèl satur6 puisqu'il y a 12 paramètrepour 12 observations.
Utilisons maintenant la Proc Genmod pour 6tudier ce modèle
1
1
Les d o n n k
OBS
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
AGE
REGION
<35
<35
35-44
35 44
45-54
45-54
55 64
55-64
65-74
65-74
>74
>74
<35
<35
35 44
35-44
45 - 54
45 54
55 64
55'-64
65-74
65-74
>74
>74
-
-
-
EFFECT1F
61
64
76
75
98
68
1O4
63
63
45
80
27
2880201
1O74 182
564459
220332
592885
198051
450636
134021
270845
70663
161770
34206
a
Le programme (modèlavec interaction)
o p t i o n s nocenter nodate n o l a b e l pageno=l ; d a t a melanome ; i n p u t i d S age $ region $ cas pop; logcsp=log ( c a s / p o p ) ; ~ o g p o P = l o g ( ~ o;P )
cards;
n
61 2880262
n,<35
<35
s
64 1074246
S,<35
<35
n.35-44 35-44 n
76 564535
s,35-44 35-44 S
75 220407
n,45-54 45-54 n
98 592983
s , 4 5 - 5 4 45-54 S
68 198119
n,55-64 55-64 n 104 450740
6 3 134084
~$55-65
45-64 S
n,65-74 65-74 n
6 3 270908
45
70708
S,65-74 65-74 s
n,>74
>74
n
8 0 161850
s , > 7 4 >74
s 2 7 34233
s
proc p r i n t data=inelanome ; run ; proc genmod data=çelanom O r d e F d a t a ; class age region; mode1 cas=age r e g i o n a g e * r e g i o n i d i s t = p o i s s o n link=log
o f f set=logpop
type3 ;
run ;
Les Résultat
CAS
POP
LOGCSP
61
64
76
75
98
68
1O4
63
63
45
80
27
2880262
1074246
564535
220407
592983
198%
19
450740
134084
270908
70708
161850
34233
-10.7625
9.7282
-8.9130
7.9857
8.7080
-7.9771
-8.3743
-7.6631
- 8.3664
-7.3597
-7.6124
-7.1451
LOGPOP
-
-
The GENMOD Procedure
Mode1 Information
Description
Value
Data Set
Distribution
Link F u n c t i o n
Dependent Variable
Off s e t Variable
Observations Used
WORK MELANOME
POISSON
LOG
CAS
LOGPOP
12
.
Class Level Information
Class
Levels
Values
AGE
6
<35 35-44 45-54 55-64 65-74 >74 REGION
2
n s
C r i t e r i a For Assessing Goodness Of F i t
Criterion
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log Likelihood
DF
Value
O
0.0000
0.0000
0.0000
O. 0000
2698.0337
0
0
O
ValuejDF
A n a l y s i s Of P a r a n e t e r E s t i m a t e s
DF
Parameter
Estlaate
Std Err
Chsquare
Pr>Chi
INTERCEPT AGE AGE AGE AGE AGE AGE REGION REGION AGEÈREGIO AGEÈREGIO AGESREGION AGEXREGION AGEXREGION AGEXREGION AGE*REGION AGEXREGION AGE*REGION AGEÈREGIO AGEÈREGIO AGEÈREGI0 SCALE NOTE:
T h e scale
parameter w a s h e l d f i x e d .
LU S t a t i s t i c s F o r T y p e 3 A n a l y s i s
source
AGE
REGION
AGEXREGION
DF
Chisquare
Pr>Chi
5
715.9897
108.1919
6.2149
0.0001
0.0001
0.2859
1
5
Commentaires
1)
2)
On vkrifie que la dkviance et le khi-deux de Pearson sont nuls puisque le rnodkle est
saturé
La vraisemblance des donnees s'écri
et son logarithme
Le Log Likelifwod 1 fournit par la Proc Genmod correspond en fait à la partie de 1qui
dkpend des pi, c'est à dire
3)
Il est donc possible d'obtenir des Log Likelihood 1 positifs (!), ce qui est le cas sur cet
exemple. Les tests LRT peuvent êtr construits a partir des Log Likelihood f.
L'interaction étan
non significative, on passe maintenant au modèl sans interaction.
Le programme (mod&leadditif)
p r o c genmod data=melanome o r d e r = d a t a 7
class a g e r e g i o n ;
mode1 c a s = a g e r e g i o n l d i s t = p o i s s o n
link=log
o f f s e t = l o g pop
type3 obstats residuals;
contrast '<35vs35-44'
age-1 1 0 . 0 0
c o n t r a s t '35-44 vs 45-54' age 0 - 1 1 0 0
c o n t r a s t '45-54 v s 5 5 - 6 4 ' age 0 0 -1 1 0
c o n t r a s t '55-64 v s 6 5 - 7 4 ' a g e 0 0 0 - 1 1
c o n t r a s t '65-74 vs >74'
age 0 0 0 0 - 1
c o n t r a s t ' ~ 3 5v s 35-44,
age - 1 1 0 0 0
c o n t r a s t '35-44 vs 4 5 - 5 4 ' a g e 0 - 1 1 0 0
c o n t r a s t '45-54 v s 5 5 - 6 4 ' a g e 0 0 -1 1 0
c o n t r a s t '55-64 v s 6 5 - 7 4 ' age 0 0 0 - 1 1
age 0 0 0 0 - 1
c o n t r a s t '65-74 v s >74'
rnake ' o b s t a t s ' o u t = a ;
run;
0;
0;
0;
0;
1;
0
0
0
0
1
/ wald;
/ wald;
/ wald;
/ wald;
1 wald;
d a t a aa;
Berge me-lanolae a ;
proc p l o t d a t a = a a ;
p l o t logcsp*xbeta='*
' S
id;
run ;
Les kultats
C r i t e ria For A s s e s s i n g Goodness Of F i t
Criterion
Deviance
S c a l e d Deviance
P e a r s o n Chi-Square
S c a l e d P e a r s o n X2
Log L i k e l i h o o d
DF
Value
ValueIDF
5
5
5
5
6.2149
6.2149
6.1151
6.1151
2694.9262
1 .2430
1 .243O
1.2230
1 .2230
a
Analysis O f Paraneter Estimates
Parameter
DF
Estimate
INTERCEPT AG E AGE
AG E AG E AGE
AG E REGION REGION SCALE NOTE:
The s c a l e p a r a m e t e r was h e l d f i x e d .
Std Err
Chisquare
Pr>Chi
LR S t a t i s t i c s For Type 3 Analysis
Source
DF
Chisquare
Pr>Chi
AGE
REGION
5
796.7436
124.2203
0.0001
0.0001
1
CONTRAST Statement Results
Cont rast
Chisq uare
LR LR 206 -3042 1 -0595 8.9551 O. 9974 17.7438 220.9204 1.0581 8.9924 1 .O068 18.0049 LR
LR
LR
Wald
Wald
Wald
wa id
Wald
Observation Stat i s t i c s
CAS
'
61
64
76
75
98
68
1 O4
63
63
45
80
27
std
Xbeta
Pred
HessWgt
67.6998
57.3002
80.O638
70.9362
94.4150
71.5850
99.6974
67.3026
67.8263
40.1737
72-2979
34.7021
Lowe r
Resraw
56.1779 47.3456 67.3860 59.5032 80.1708 60.3035 84.8113 56.6139 55.7776 32.6334 59.5022 28.0857 - 6.6998
Observation S t a t i s t i c s
Reschi
-0.8143
0.8851
-0.4542
0.4825
O. 3690
-0.4237
0 -4309
-0.5245
-0.5860
0.7614
O. 9058
- 1 -3075
Resdev
StResdev
StReschi
Reslik
- 1 -3183
1.2985
-0.7386
O. 7332
0 -6280
-0.6327
0.7585
- 0.7642
- 1 -0326
1 .O178
1 .6857
6.6998
-4.0638
4 .O638
3.5850
- 3.5850
4.3026
-4.3026
-4.8263
4.8263
7 .?O21
-7.7021
Commentaires
1) On v6rifie que la statistique LRT de l'interaction Age*R&gionvaut :
2[log L(Age, Rkgion, Age*R&gion)- log L(Age, Region)] = 2(2698.0337 - 2694.9262) = 6.2150
2) 3) Les facteurs Age et Régiosont significatifs. Le modèladditif &tudi6est accepte. La
par leur degréde
deviarice norndis& et le khi-deux de Pearson normalisÃdivisé
libertÃN-p = 12-7 = 5 sont proches de 1 (respectivement 1.2430 et 1.2230).
Le modèl estirnt5 s'écri
L'ajustement entre les donnees et le modèl est visualisÃdans la figure ci-dessous oÃ
on a représenten ordonni5 le logarithme de nJN, ,notÃLOGCSP,et en abscisse
VALUE OF THE LINEAR PREDICTOR XBETA
4) L'examen des coefficients des variables indicatrices de l'âg suggkre de regrouper les
âge35-44 et 45-54 et égalemen
les âge55-64 et 65-74. Nous avons donc construit
les contrastespermettant de comparer les tranches d'âgadjacentes. Nous avons utilisÃ
les statistiques de Wald et LRT. Les résultat
donné
par ces deux statistiques sont trè
voisins et confirment la possibilitÃde regroupement. Nous avons donc étudiun
troisièmmodèlen réalisan
ces regroupement.
Le programme (modele additif simplifie)
data b;
s e t melanome;
agel= (age = "<35");
age2=(age = "35-44") o r (age="45-54");
age3=(age = '55-64") or (age="65-74");
proc genmod data=b order=data;
c l a s s region;
mode1 cas=agel age2 age3 region/dist=poisson
l i n k s log
off set=logpop
type3 residuals waldci l r c i ;
contrast 'age'
agel 1 ,
age2 1 ,
age3 1 l e ;
agel 1,
contrast ' age '
age2 1 ,
8
age3 1 / wald;
run ;
Les rbultats
Parameter Information Paraneter
~ff e c t
REGION
C r i t e r i a For Assessing Goodness Of F i t
Criterion
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log ~ i k e l i h o o d
DF
Value
ValueIDF
7
8.2709
8.2709
8.2329
8.2329
2693.8982
1.1816
1.1816
1.. 1761
1. 1761
7
7
7
A n a l y s i s Of parameter E s t i m a t e s
Parameter
INTERCEPT
AGE1
AG=.
AGE3
RESION
REGION
SCALE
NOTE:
OF
n
S
S t d Err
Chsquare
PrSChi
1
1
1
1
1
0
0
The $ c a l e p a r a m e t e r was held f i x e d .
Normal Confidence I n t e r v a i s For Parameters
Two -Sided Confidence C o e f f i c i e n t : 0 .95OO
Parameter
Confidence L i m i t s
Lower
upper
Lower
UPPer
Lower
u PPW
Lowe r
u P P r~
Lower
Upper
L i k e l i h o o d R a t i o Based Confidence I n t e r v a l s For P a r a m e t e r s
Parameter
Two -Sideci Confidence C o e f f i c i e n t : 0.9500
C o n f i d e n c e Limits
Parameter Values
PRM1
PRM2
PRM3
Lower
wper Lowe r UPPer Lower
upper Lowe r UPPer Lowe r
u PPe r
LR S t a t i s t i c s For Type 3 A n a l y s i s
Source
DF
Chisquare
Pr>Chi
AGE1
AGE~'
AGE3
REGION
1
1
1
1
362.7350
77.2131
29.7461
123.4360
0.0001
0.0001
0.0001
0.0001
PRM4
PRM5
C o e f f i c i e n t s For a g e Parameter
RW1
ROW2
ROW3
GONTRAST Statement R e s u l t s
Contrast
age
%le
DF
Chisquare
3
794.6877
605.9962
3
PraGhi
Type
0 -0001 LR
0.0001 Wald
Commentaires
1) On peut comparer le modele additif complet et le modele simplifiÃÃ l'aide d'un test
LRT. La statistique LRT vaut 2(2694.9262 - 2693.8982) = 2.056 3 comparer au
On peut retrouver ce
fractile xi.05(2) = 5.99. On accepte donc le modèl simplifié
résulta
à l'aide d'un test sur le modèl additif complet. On utilise le programme cidessous :
p r o c genmod data=melanome o r d e r = d a t a ; c l a s s age r e g i o n ; mode1 cas=age region/ d i s t = p o i s s o n l i n k=log
o f f set=logpop
t Y pe3; c o n t r a s t 'modèl complet v s s i m p l i f i à © age 0 - 1 1 0 0 0 , age 0 0 0 - 1 1 0 / e ; run;
Et on obtient le rgsultat :
C o e f f i c i e n t s For modèl complet v s s i
CONTRAST S t a t e m e n t R e s u l t s
contrast modèl complet v s s i
2) 3) 4)
DF
Chisquare
Pr>Chi
Type
2
2.0560
0.3577
LR
On peut aussi remarquer que la déviancdivisÃpar ses degréde libertÃa diminuÃen
passant du modcle additif complet au modhle simplifiÃ(respectivement 1.243 et
1.1816)
Le mod5le simplifiÃestimÃs'écri
Dans cet exemple, les tailles des populations soumises au risque sont élevé
par
rapport au nombre de cas observes. En fait on peut aussi considére
que Y;suit une loi
binomiale bin(Ni ;pi) oÃpi est la probabilitÃqu'un individu tirÃau hasard dans la
population soumise au risque présentun mélanome
Cette loi binomiale est approché
par une loi de Poisson de moyenne pi = Nipi. Nous avons donc essayÃde mod6liser ces
donnkes en utilisant la loi binomiale et en conservant la fonction de lien logarithme :
Voici le nouveau progamme.
9 Programme (Réponsbinomiale, fonction de lien log, modèladditif simplifie)
p r o c genmod d a t a = b o r d e r = d a t a ;
c l a s s region:
nodel cas/pop=agel a g e 2 a g e 3 r e g i o n / d i s t = b i n
link=log
t Y pe3;
contrast 'age'
agel 1,
a g e 2 1,
age3 1;
run;
The GENMOD Procedure
Mode1 I n f o r m a t i o n
Description Value
Data S e t Distribution Link F u n c t i o n Dependent Va r i a b l e
Dependent V a r i a b l e
O b s e r v a t i o n s Used Nuaber Of E v e n t s
Number Of T r i a l s WORK B
.
BINOMIAL
LOG
CAS
POP
12
824
6653075
C r i t e r i a For Assessing Goodness Of F i t
Criterion
DF
Value
Value/DF
7
7
7
7
8 -2745
8.2745
8.2368
8 -2368
-7793.1578
1 .1821
Deviance
Scaled Deviance
Pearson Chi-Square
Scaled Pearson X2
Log Likelihood
1.1821
1.1767
1.1767
Analysis O f Parameter Estimates
Parameter
DF
Estiaate
.
Std Err
Chisquare
PrXhi
INTERCEPT
AGE1 AG E2
AGE3
REGION
REGION
SCALE
NOTE:
n
s
The scale parameter was held fixed.
LR S t a t i s t i c s For Type 3 Analysis
DF
Source
Chisquare
Pr>Chi
CONTRAST Statement Results
COntraSt
age
DF
ChiSquare
3
794.8074
Pr>Chi Type
'
0.0001
LR
Commentaires
Le modèl estimÃs'écri
On retrouve exactement (en tout cas avec la précisiochoisie) la régressiode Poisson
estiméplus haut. Ce résulta
est toujours vrai lorsqu'on est dans les conditions de
convergence de la loi binomiale vers la loi de Poisson : N,grand et pi petit. Ce qui est le cas
ici.
5)
Les probabilité
pi ktant petites, log(pi) est trèpeu different de log(- pi ).par
'-pi
cons6quent la regression de Poisson est ici équivalentà une rigression logistique.
Nous allons donc verifier que le modèl
conduit à la m&meestimation des coefficients de régressioque le modkle prkcédent
Le programme (Réponsbinomiale, fonction de lien logit)
proc genmod daTa=b o r d e r = d a t a ;
c l a s s region;
mode1 c a s / p o p = a g e i age2 age3 r e g i o n / d i s t = b i n
link=logit
type3;
contrast age'
agel 1 ,
age2 ' ,
age3 1 ;
run;
Résultat
The GENMOD Procedure
Mode1 Information
Description
Va l u e
Data s e t
Distribution
Link Function
Dependent V a r i a b l e
Dependent V a r i a b l e
O b s e r v a t i o n s Used
Nurnber Of Events
hiumber Of T r i a l s
WORK .B
BINOMIAL
LOGIT
CAS
POP
12
824
6653075
C r i t e r i a For Assessing Goodness O f F i t
Criterion
Deviance
S c a l e d Deviance
Pearson Chi-Square
S c a l e d Pearson X2
Log Likelihood
DF
7
7
7
7
.
Value
ValueiDF
8.2667
8.2667
8 .2292
8.2292
-7793.1539
1.1810
1 . 1810
1.1756
1.1756
Analy sis Of Parameter Estimates
Parameter
DF
S t d Err
Estimate
ChiSquare
Pr>Chi
INTERCEPT AGE 1 AGE2
AGE3
REGION
Analysis Of Parameter Estimates
RF
Parameter
Estimate
Std Err
Chisquare
Pr>Chi
REGION
SCALE
NOTE:
The s c a l e parameter was held "fxed.
LR S t a T i s t i c s For Type 3 Analysis
DF
Chisquare
Pr>Chi
AGEI
1
AGE2
AGES
REGION
;
362.7964
77.2398
29.7586
123.4705
0.0001
0.0001
0.0001
0.0001
Source
1
1
CONTRAST Statement R e s u l t s
Contrast
ag e
DF
ChiSquare
Pr>Chi
Type
3
794.8152
0.0001
LR
Commentaires
Le mod&leestirnii s'écri
On retrouve exactement (en tout cas avec la précisiochoisie) la régressiode Poisson
estiméplus haut. Ce rksultat est toujours vrai lorsqu'on est dans les conditions de
convergence de la loi binomiale vers la loi de Poisson : Y; grand et pi petit. Ce qui est le cas
ici.

Documents pareils