Analyse des données longitudinales

Transcription

Analyse des données longitudinales
Analyse des données longitudinales
EA Sauleau
SémStat 03/10/2006
Table des matières
1 Introduction
1.1 Généralités . . . . . . .
1.2 La structure des données
1.3 Exemple . . . . . . . . .
1.4 Des impasses . . . . . .
2 (M)ANOVA
2.1 Quelques rappels . .
2.2 ANOVA-R . . . . . .
2.3 MANOVA . . . . . .
2.4 Nouvelle formulation
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2
2
3
4
4
. . . . . . . .
. . . . . . . .
. . . . . . . .
de l’ANOVA
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
5
6
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3 Modèle linéaire
3.1 Spécification . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Les matrices de covariance . . . . . . . . . . . . . . . . . . .
3.4 Les cas particuliers . . . . . . . . . . . . . . . . . . . . . . .
3.5 L’analyse des profils dans les groupes parallèles . . . . . . .
3.6 Paramétrisation des tendances temporelles dans les groupes
rallèles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . .
. . .
. . .
. . .
. . .
pa. . .
9
9
9
10
11
12
14
4 LMM
15
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.2 Spécifications du modèle . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Les cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5 Exemple
19
5.1 Orthodont data . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1
6 GL(M)M
6.1 Modèles marginaux . .
6.2 GLMM . . . . . . . .
6.3 Modèles de transition
6.4 Lequel choisir ? . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Conclusion
1
1.1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
22
22
23
23
24
24
Introduction
Généralités
Définitions
Données longitudinales
– Etudes dans lesquelles les sujets sont ”mesurés” plusieurs fois au cours du
temps
– Terme plus ancien : mesures répétées
Intérêts
– Vision des changements
– Même(s) variable(s) répétée(s) plusieurs fois dans des conditions identiques
– Corrélation (positive) entre les mesures
– Certains types de corrélation
Caractéristiques
– La variable résultats peut être continue, binaire, compte
– Les données peuvent être incomplètes
Deux grands types
Design parallèle
– Chaque sujet appartient à un groupe défini par un traitement ou une
exposition
– L’objectif est de comparer les réponses entre les groupes
Design en crossover
– Chaque sujet subit plusieurs traitements ou exposition
– L’objectif est de comparer les réponses d’un même sujet sous différentes
conditions
2
1.2
La structure des données
Cas général
yij = mesure du sujet i au temps j
Temps
2
...
1
Sujets
1
2
...
n
p
y11
y21
y12
y22
...
...
y1p
y2p
yn1
yn2
...
ynp
Cas particuliers
Deux groupes parallèles
Temps
2
...
1
Groupe
1
2
Sujets
1
...
m
m+1
...
n
p
y11
y12
...
y1p
ym1
ym+1,1
ym2
ym+1,2
...
...
ymp
ym+1,p
yn1
yn2
...
ynp
Crossover
Traitement
Placebo
1
2
Sujets
1
2
...
n
y11
y21
y12
y22
y13
y23
yn1
yn2
yn3
Crossover : traitements A et B
3
Groupe
AB
BA
1.3
Sujets
1
..
m
m+1
..
n
1
..
Temps
q
y11(A)
..
ym1(A)
ym+1,1(B)
yn,1(B)
q+1
..
p
y1q(A)
y1,q+1,(B)
..
y1p(B)
..
..
ymq(A)
ym+1,q(B)
ym,q+1,(B)
ym+1,q+1,(A)
..
..
ymp(B)
ym+1,p(A)
..
yn,q(B)
yn,q+1,(A)
..
yn,p(A)
Exemple
Un exemple très simple
Orthodont data (package nlme de R)
– 27 enfants (16 garçons, 11 filles) dont on mesure tous les deux ans entre 8
et 14 ans la distance (en millimètre, sur un cliché radio) entre l’hypophyse
et la fente pterygomaxillaire
– cf. figure (1)
Age
Sujets
1
2
...
27
1.4
8
10
12
14
Sexe
M
M
26,0
21,5
25,0
22,5
29,0
23,0
31,0
26,5
F
24,5
25,0
28,0
28,0
Des impasses
Je passe sous silence
– Analyses non longitudinales :
– Approches ”descriptives”
– Recherche de points de rupture
– De nombreux modèles
– L’inférence bayésienne (si, c’est possible)
– Les données manquantes
2
2.1
Approche ANOVA et données répétées
Quelques rappels
ANOVA simple a un facteur
4
(a) Data
(b) Régressions
Fig. 1 – Orthodont dataset
Notation
– p groupes (mesures)
– n sujets
Pp par groupe (sujets)
– N = k=1 n (total des mesures)
– Mesure du sujet i dans le groupe j : yij
Pn
– Somme des mesures dans le groupe j : T(g)j = i=1 yij
2
( ni=1 pj=1 yij )
– Facteur de correction : F C =
N P
n Pp
2
– Somme des carrés des mesures : SY 2 = i=1 j=1 yij
P P
Table d’ANOVA
Source
Facteur
Résiduelle
Totale
2.2
P
Somme carrés
p
j=1
2
T(g)j
− FC
n
p
2
j=1 T(g)j
2
−
n
2
P
SY
SY − F C
ddl
Test
p−1
~
N −p
N −1
~
ANOVA pour données répétées
ANOVA adaptée aux données répétées
Principe
– Deux sources de variabilité dans l’ANOVA simple : facteur et résiduelle
– Dans l’ANOVA pour données répétées, on isole de la résiduelle une source
”inter-sujet”
5
Notation additionnelle
Pp
– Somme des mesures pour le sujet i : T(s)i = j=1 yij
Table d’ANOVA-R
Source
Facteur
Inter-sujet
Résiduelle
Totale
P T
SCF = P n
T
Somme carrés
ddl
p
j=1
2
j
n
i=1
2
(s)i
− FC
SCS =
− FC
p
SCR = SCT − SCF − SCS
SCT = SY 2 − F C
Test
p−1
~
n−1
(p − 1)(n − 1)
N −1
~
Conditions d’application de l’ANOVA-R
Deux conditions
– Sphéricité
– Egalité des variances des mesures entre les temps
– Egalité des covariances des mesures entre les différents temps
– Statistique de Greenhouse-Geisser (test à 1)
– En cas de violation
1. Adapter les ddl de l’ANOVA-R (F de Greenhouse-Geisser, très
conservatif)
2. Utiliser une MANOVA
– Normalité des mesures
– Test non paramétrique de Friedman pour échantillon indépendant si
conditionPvioléeP
p
n
12
2
2
– N p(p+1)
j=1 (
i=1 rij ) − 3N (p + 1) ∼ χp−1 ddl
2.3
MANOVA
Principe
yij = mesure du sujet i au temps j
Temps
2
...
1
Sujets
1
2
...
n
p
y11
y21
y12
y22
...
...
y1p
y2p
yn1
yn2
...
ynp
6
Le modèle
– Y 0i = (yi1 yi2 . . . yip )
 
µ1
 µ2  

 
– Y i = µ + i , Y ∼ N 
 · · ·  , Σ
µp
– Tests
– Test de µj − µp à 0 : T 2 de Hotelling
– Test de changement au cours du temps : Λ de Wilks, trace de Pillai,
trace de Hotelling
2.4
Nouvelle formulation de l’ANOVA
Limites de l’approche ANOVA-R / MANOVA
Différents soucis
– Problème de représentation du temps
– Problème d’extension à des designs plus complexes
Régression multiple avec des variables indicatrices
ANOVA simple a un facteur
– Variable indicatrice xijk , valant 1 si la mesure j du sujet i est au niveau
(temps) k et 0 sinon
– Temps de référence
Pp−1 : p
– yij = β0 + k=1 βk xijk
µ1 = β0 + β1



µ2 = β0 + β2
–
...



µp = β0
Orthodont data
Présentation initiale
Age
Sujets
1
2
...
27
8
10
12
14
Sexe
M
M
26,0
21,5
25,0
22,5
29,0
23,0
31,0
26,5
F
24,5
25,0
28,0
28,0
Réorganisation
7
Sujet
1
1
1
1
2
2
2
2
...
Temps
8
10
12
14
8
10
12
14
y
26,0
25,0
29,0
31,0
21,5
22,5
23,0
26,5
x.1
1
0
0
0
1
0
0
0
x.2
0
1
0
0
0
1
0
0
x.3
0
0
1
0
0
0
1
0
Cas général
ANOVA simple a un facteur
– On ordonne
les n × p mesures en un vecteur Y
Pp−1
– yi = β0 + j=1 βj xij + i
– xij vaut 1 si l’observation i a été recueillie au temps j et 0 sinon
– Pas de prise en compte de la corrélation entre les mesures et donc nécessité
de modifier le modèle
Orthodont data
Covariance entre les mesures
8
10
12
14
8
6,017
2,292
3,629
1,613
Age
10
12
2,292 3,629
4,563 2,194
2,194 7,032
2,810 3,241
14
1,613
2,810
3,241
4,349
Corrélation entre les mesures
8
10
12
14
8
1
0,4374
0,5579
0,3152
Age
10
12
0,4374 0,5579
1
0,3873
0,3873
1
0,6309 0,5860
8
14
0,3152
0,6309
0,5860
1
3
3.1
Approche par modèle linéaire
Spécification
Modèle linéaire multiple
Spécification plus élaborée
– Corrélation entre les mesures d’un sujet
– yij = β0 + β1 xij1 + · · · + βp−1 xij,p−1 + ij = X ij β + ij
– Cov(ij , ij 0 ) 6= 0
Hypothèses
– Les observations de sujets différents sont indépendantes
– Les observations d’un même sujet ne sont pas indépendantes
– Les vecteurs Y i = (yi1 , · · · , yip ) ont une distribution normale multivariée
de moyennes µi = X i β et de variance-covariance Σ
– Les éléments de Σ sont σjj 0
3.2
Estimation
Les moindres carrés généralisés
Cas régressif simple
– Y = Xβ
– β̂ = (X 0 X)−1 X 0 Y
Données corrélées
– Moindres carrés généralisés : β̂ = (X 0 Σ−1 X)−1 X 0 Σ−1 Y et Cov(β̂) =
(X 0 Σ−1 X)−1
– Mais la matrice Σ est inconnue. On la remplace alors par son estimateur
(maximum de vraisemblance par algorithmes numériques)
Propriétés des estimateurs GLS
Ca c’est bien
– Si on connaı̂t Σ, β̂ est sans biais : E(β̂) = β
– Si Σ = σ 2 I, les GLS sont les OLS
– On peut construire des tests de Wald sur des contrastes sur des éléments
de β
– Des tests de rapport des vraisemblances (LRT) permettent de comparer
des modèles emboı̂tés
Ca c’est moins bien
– L’estimateur ML Σ̂ est biaisé pour les petits échantillons
9
Estimateurs du maximum de la vraisemblance restreinte
Idée générale des REML
– Eliminer β de la vraisemblance de telle manière qu’elle ne dépende que de
Σ
– Estimer β par OLS puis ne travailler qu’avec les résidus
A noter : avec la technique REML
– On peut comparer différents modèles de covariances (cf. plus loin)
– On ne peut pas comparer différents modèles de régression (terme de pénalité)
La technique REML plus spécifiquement
L’estimateur GLS de β maximisait :
− n2 log (|Σ|) − 12 (Y − Xβ)0 Σ−1 (Y − Xβ)
L’estimateur REML de Σ maximise :
− n2 log (|Σ|) − 12 (Y − X β̂ OLS )0 Σ−1 (Y − X β̂ OLS ) −
1
2
log (|X 0 Σ−1 X|)
1. Y − X β̂ OLS sont les résidus de la régression OLS
2. − 12 log (|X 0 Σ−1 X|) est un terme de pénalité
L’estimateur GLS de β devient :
−1
−1
β̂ = (X 0 Σ̂REML X)−1 X 0 Σ̂REML Y
3.3
Les matrices de covariance
La corrélation des mesures
Rappel
cor(X, Y ) =
cov(X,Y )
σX σY
Les covariances homogènes les plus courantes
– Compound symmetry : cor(ij , ij 0 ) = ρ
– Générale : cor(ij , ij 0 ) = ρjj 0
– ARMA(p,q)
– Le plus souvent AR(1)
0
– cor(ij , ij 0 ) = ρ|j−j |
– La corrélation décroı̂t avec le temps 1, ρ, ρ2 , . . .
– Bien pour les mesures également espacées, dans le cas contraire : cor(ij , ij 0 ) =
0
ρ|tj −tj |
10
Sélection des modèles de covariance
Deux méthodes
– Modèles emboı̂tés : test du rapport des vraisemblances
– Modèles emboı̂tés ou non : critères d’information (AIC, BIC)
Problème avec le LRT
– Test d’hypothèse en limite du domaine des valeurs des paramètres (variance à zero)
– Conditions d’application des LRT peuvent ne pas être remplies
– Le LRT est alors plutôt un mélange de Chi2
Emboı̂tement des modèles de covariance
Quelques relations simples
– Compound symmetry et AR(1) emboı̂tées dans générale
– Compound symmetry et AR(1) non emboı̂tées
– Indépendance emboı̂tée dans compound symmetry et dans AR(1)
3.4
Les cas particuliers
Le crossover à deux traitements
Le design
– Un traitement A et un placebo P
– Chaque sujet reçoit aléatoirement A puis P ou P puis A
Le modèle
– Les variables
– Mesure du sujet i au temps j : yij
– Temps correspondant à yij : tij
– Traitement correspondant à yij : Tij
– Modèle sans carry-over 1 : yij = β0 + β1 tij + β2 Tij + ij
– Le carry-over
– Traitement donné à la période précédente : Cij = 1
– Modèle avec carry-over : yij = β0 + β1 tij + β2 Tij + β3 Cij + ij
Les groupes parallèles
Le design
– Des groupes de sujets sont définis au préalable et chaque sujet sont mesurés
plusieurs fois
– Caractéristiques des groupes
1. Observation : âge, sexe, baseline de la quantité mesurée, . . .
2. Randomisation : traitements
1 Persistance
de l’effet d’un traitement sur la période suivante
11
L’analyse
– Le but est de caractériser des formes de changement et de vérifier s’ils
diffèrent entre les groupes
– Deux techniques
1. Analyse des profils
2. Paramétrisation des courbes de tendance temporelle
3.5
L’analyse des profils dans les groupes parallèles
Au moins trois hypothèses possibles
Hypothèse 1
– Absence d’interaction groupe-temps
– Figures (2a) vs (2d)
Hypothèse 2
– Absence d’effet groupe
– Figure (2a) vs (2b)
Hypothèse 3
– Absence d’effet temps
– Figure (2c) vs (2a)
Le modèle
Le modèle linéaire
y i = X i β + i
yi
Xi
β
i
n×1
n×p
p×1
n×1
Mesures du sujet i
Design matrice pour les effets
Paramètres pour les effets
Résidus
i ∼ N 0, σ 2 I n
Les notations dans les matrices indicatrices X
(1)
– Mesure de i prise au temps j : Xij = 1
(2)
– Mesure de i au temps j dans le groupe 1 : Xij = 1
(3)
(1)
(2)
– Interaction : Xij = Xij Xij
Le nouveau modèle linéaire (2 groupes)
p−1
p−1
X
X
(1)
(2)
(2) (1)
yij = β0 +
βk Xik + βp Xi +
βp+k Xi Xik + ij
k=1
k=1
12
(a) Pas d’effet groupe
(b) Effet groupe
(c) Pas d’effet groupe ni temps
(d) Interaction
Fig. 2 – Profils dans deux groupes
Un exemple
Le design
– Deux traitements (A et B) et trois mesures à t1 , t2 et t3
– Les variables indicatrices
(1)
(1)
1. X.1 = 1 si mesure à t1 et X.2 = 1 si t2
2. X.(2) = 1 quand le sujet est dans le groupe du traitement A
(3)
(1)
(3)
(1)
3. X.1 = X.1 X.(2) et X.2 = X.2 X.(2)
(1)
(1)
(2)
– Le modèle est E(yij ) = β0 + β1 Xi1 + β2 Xi2 + β3 Xi
(1) (2)
β5 Xi2 Xi
(1)
Les moyennes
Traitement
A
B
t1
β0 + β1 + β3 + β4
β0 + β1
13
t2
β0 + β2 + β3 + β5
β0 + β2
(2)
+ β4 Xi1 Xi
t3
β0 + β3
β0
+
3.6
Paramétrisation des tendances temporelles dans les
groupes parallèles
Trois types de tendance
Tendance linéaire
– Changement des mesures linéaires avec le temps
– E(yij ) = β0 + β1 tj + β2 Ti + β3 tj Ti
1. Temps à la mesure j : tj
2. Traitement du sujet i : Ti
– Un modèle linéaire avec interaction
1. Groupe 0 : E(yij ) = β0 + β1 tj
2. Groupe 1 : E(yij ) = (β0 + β2 ) + (β1 + β3 )tj
Tendance quadratique
– E(yij ) = β0 + β1 tj + β2 t2j + β3 Ti + β4 tj Ti + β5 t2j Ti
1. Groupe 0 : E(yij ) = β0 + β1 tj + β2 t2j
2. Groupe 1 : E(yij ) = (β0 + β3 ) + (β1 + β4 )tj + (β2 + β5 )t2j
Segments de droites
– Segments de droites entre des noeuds
– Noeuds fixés a priori aux points de rupture de pente
Exemple de deux segments de droite
Hypothèse
Un segment avant un temps t? donné et un segment après t?
Le modèle
– Avant t? , 
tendance linéaire
tj ≤ t?
 β0 + β1 tj + β2 Ti + β3 tj Ti
?
?
(β0 + β1 t ) + β2 Ti + β3 t Ti
– E(yij ) =

+β4 (tj − t? ) + β4 (tj − t? )Ti tj > t?
β0 + β1 tj
tj ≤ t ?
1. Groupe 0 : E(yij ) =
?
?
(β0 + β1 t ) + β4 (tj − t ) tj > t?
(β0 + β2 ) + (β1 + β3 )tj
tj ≤ t?
2. Groupe 1 : E(yij ) =
?
?
(β0 + β2 ) + (β1 + β3 )t + (β4 + β5 )(tj − t ) tj > t?
14
Pros and Cons de la paramétrisation des tendances
– Petit nombre de paramètre pour les effets traitement et temps
– tj repère le temps (et non un numéro de mesure ou une variable indicatrice)
et donc chaque sujet peut avoir un nombre de mesures différents et des
mesures à des temps différents
– Extension à des formes cubiques ou d’autres formes aisée
– La modélisation des tendances peut ne pas coller aux données
– Ces modèles sont inclus dans les modèles ”saturés” utilisés dans l’analyse
des profils et donc peuvent être jugés par LRT
4
Approche par modèle linéaire mixte
4.1
Introduction
Idée phare
– On suppose que chaque sujet a un certain niveau de réponse sous-jacent
qui persiste
– On distingue désormais deux sources de variations aléatoires
1. Entre les sujets : b
2. Variations des mesures par sujet : w
2
, on retrouve la matrice
– Si on suppose que var(bi ) = σb2 et var(wi ) = σw
covariance compound symmetry
Intérêt des modèles mixtes
Avantages sur la MANOVA pour données répétées
– Modélisation explicite du changement individuel au cours du temps
– Nombre de mesures différent par sujet
– Temps de mesures différents par sujet
– Temps continu
– Spécification flexible de la structure de covariance, notamment comme
fonction continue du temps
– Domaine des modèles multi-niveaux (individus en clusters)
– Covariables dépendantes ou non du temps
– Données manquantes
– Extension généralisée
– ···
4.2
Spécifications du modèle
Modèle à deux niveaux
Le modèle linéaire
y i = X i β + i
15
yi
Xi
β
i
n×1
n×p
p×1
n×1
Mesures du sujet i
Design matrice pour les effets
Paramètres pour les effets
Résidus
i ∼ N 0, σ 2 I n
Les notations
y i = X i β + Z i bi + wi
yi
Xi
β
Zi
bi
wi
ni × 1
ni × p
p×1
ni × r
r×1
ni × 1
Mesures du sujet i
Design matrice pour les effets fixes
Paramètres pour les effets fixes
Design matrice pour les effets aléatoires
Paramètres pour les effets aléatoires
Résidus
wi ∼ N (0, Ri ) et bi ∼ N (0, Σb )
Le modèle le plus simple
– Modèle d’ordonnée à l’origine aléatoire
– yij = (β0 + bi ) + β1 tij + wij
– var(bi ) = σb2
2
– var(wij ) = σw
– Matrice de covariance de la forme compound symmetry
La matrice de covariance
compound
 2
2
σb2
σb + σw
2
2
2

σb
σ b + σw


···
···
σb2
σb2
symmetry
···
σb2
···
σb2
···
···
2
· · · σb2 + σw




LE modèle mixte
Peut être le plus courant
– Modèle à ordonnée à l’origine et pente aléatoires
– Modèle à temps continu
– yij = (β0 + bi0 ) + (β1 + bi1 )tij + wij
2
2
– var(wij
) = σw et donc
Ri = σw I pi
g11 g12
– Σb =
g12 g11
– cov(yij , yij 0 ) = g11 + (tij + tij 0 )g12 + g22 tij tij 0 , donc fonction du temps
– var(y i ) = var(Z i bi ) + var(wi ) = Z i Σb Z 0i + Ri , ici g11 + 2tij g12 + g22 t2ij +
2
σw
16
La covariance des mesures
– Ri = var(wi ) est la covariance des mesures du sujet i
2
– Hypothèse Ri = σw
I pi d’indépendance conditionnelle
– Hypothèse alternative de structure autre des Ri : ARMA(p,q), générale,
Toeplitz, . . . , structures non homogènes
4.3
Les cas particuliers
Modèles pour deux groupes parallèles
Le problème
– Deux groupes : placebo (G=0) et traitement (G=1)
– Trois modèles
1. Ordonnée par groupe
2. Ordonnée et pente par groupe
3. Inflation de variance
Trois modèles de complexité croissante
Le modèle 1 : figure (3a)
yij =
β0 + β1 t + β2 G + b0i + wij
– G=0
y = β0 + β1 t + b0i
– G=1
y = (β0 + β2 ) + β1 t + b0i
Le modèle 2 : figure (3b)
yij =
β0 + β1 t + β2 G + b0i + wij
+β3 tG
– G=0
y = β0 + β1 t + b0i
– G=1
y = (β0 + β2 ) + (β1 + β3 )t + b0i
Le modèle 3 : figure (3c)
17
(a) Modèle 1
(b) Modèle 2
(c) Modèle 3
Fig. 3 – LMM pour deux groupes
yij =
β0 + β1 t + β2 G + b0i + wij
+β3 tG + b1i t
– G=0
y = β0 + β1 t + (b0i + b1i t)
– G=1
y = (β0 + β2 ) + (β1 + β3 )t + (b0i + b1i t)
Le crossover à deux traitements
Le modèle fixe
– Sans carry-over yij = β0 + β1 tij + β2 Tij + ij
– Avec carry-over yij = β0 + β1 tij + β2 Tij + β3 Cij + ij
– Traitement au moment de la mesure yij : Tij
– Variable indicatrice du carry-over : Cij = 1 si le traitement avec persistance est donné à la période avant j
18
Le modèle mixte sans carry-over à compound symmetry
– yij = β0 + β1 tij + β2 Tij + bi + wij
2
– var(bi ) = σb2 et var(wi ) = σw
2
2
– var(yij ) = σb + σw et cov(yij , yij 0 ) = σb2
5
5.1
Exemple
Orthodont data
Un premier LMM pour les filles
Modèle à 
ordonnéealéatoire et
 pente
 commune
1 8
1
 1 10  β0
 1 



– yi = 
+
 1  bi + wi
1 12  β1
1 14
1
2
et var(bi ) = σb2
– var(wi ) = σw
Résultats partie fixe
– σ̂w = 0, 78
Valeur Ecart-type ddl Valeur t p
– β̂0
17,4
0,86
32
20,23 0
β̂1
0,48
0,05
32
9,12 0
– Régression linéaire simple : mêmes estimations ponctuelles de β0 et β1
mais écarts-type de 1,7 et 0,15
Résultats partie aléatoire
– σ̂b = 2, 07
– b̂i permettent de calculer l’ordonnée pour chaque sujet β0 + bi
Sujet
β0
β0 + bi
β1
F10
17,4
13,4
0,48
...
F11
17,4
21,0
0,48
Un second LMM pour les filles
Modèle à 
ordonnéeet pente aléatoires


1 8
1 8
 1 10  β0
 1 10  bi0




– yi = 
+
+ wi
1 12  β1
1 12  bi1
1 14
1 14
2
– var(wi ) = σw
et var(bi ) = Σb
Résultats partie fixe
– σ̂w = 0, 67 (0,78 pour LMM1)
19
Fig. 4 – Orthodont dataset : LMM
Valeur Ecart-type ddl Valeur t p
β̂0
17,4
0,76
32
22,84 0
β̂1
0,48
0,07
32
7,24 0
– Mêmes estimations ponctuelles de β0 et β1 que LMM1
–
Résultats partie aléatoire
– σ̂b0 = 1, 88 et σ̂b1 = 0, 16
– Ordonnée à l’origine pour chaque sujet : β0 + bi0
– Pente pour chaque sujet : β1 + bi1
Sujet
β0
β0 + bi0
β1
β1 + bi1
F10
17,4
14,5
0,48
0,38
...
F11
17,4
19,1
0,48
0,65
Comparaison des LMM pour les filles
Avec le MLE et non le REML
Modèle
LMM1.F
LMM2.F
ddl
4
6
AIC
149,2
149,4
BIC
156,2
159,9
LogVrais.
-70,7
-68,7
LRT
p-value
3,79
0,150
Par parcimonie, on préfère le modèle avec pente commune et
ordonnée à l’origine aléatoire
20
Comparaison des LMM pour les garçons
Comparaison des deux mêmes LMM
Modèle
LMM1.G
LMM2.G
ddl
4
6
AIC
281,5
285,1
BIC
290,0
297,9
LogVrais.
-136,7
-136,6
LRT
p-value
0,31
0,586
Par parcimonie, on préfère, comme pour les filles, le modèle avec
pente commune et ordonnée à l’origine aléatoire (ouf !)
Une série de troisièmes LMM
Modèle à ordonnée, pente aléatoires et effet sexe
– Modèle 31 : yij = β0 + β1 t + β2 sexe + b0i + ij
– Modèle 32 : modèle 31 +β3 t × sexe
– Modèle 33 : modèle 32 +b1i t
– Modèle 0 : yij = β0 + β1 t + b0i + ij
Comparaison des modèles (MLE)
Modèle
LMM0
LMM31
LMM32
LMM33
ddl
4
5
6
8
AIC
451,4
444,9
440,6
443,8
BIC
462,1
458,3
456,7
465,3
LogVrais.
-221,7
-217,4
-214,3
-213,9
LRT
p-value
8.53
6.22
0.833
0.0035
0.0126
0.6593
Le troisième LMM
Le modèle
– yij = β0 + β1 t + β2 sexe + β3 t × sexe + b0i + wij
– sexe = 0 (filles) : y = (β0 + b0i ) + β1 t
– sexe = 1 (garçons) : y = (β0 + β2 + b0i ) + (β1 + β3 )t
Résultats partie fixe
Valeur Ecart-type ddl Valeur t
p
β̂0
16,3
0,98
79
16,65
0
– β̂1
0,78
0,08
79
10,06
0
β̂2
1,03
1,54
25
0,67
0,508
β̂3
-0,30
0,12
79
-2,50 0,0147
– Les modèles par sexe
– Filles : y = 16, 3 + 0, 78t + b0i
– Garçons : y = 17, 3 + 0, 48t + b0i
– Différence de pente par sexe plus que d’ordonnée à l’origine
21
Les matrices de corrélation
Comparaison des modèles de corrélation
Modèle
CS
Générale
AR(1)
Générale
ddl
6
12
7
12
AIC
440,6
445,2
442,5
445,2
BIC
456,7
477,4
461,3
477,4
LogVrais.
-214,3
-210,6
-214,2
-210,6
LRT
p-value
7,404
0,2851
7,249
0,2028
Par parcimonie, on préfère garder le modèle avec compound
symmetry
6
Approche par modèle linéaire généralisé (mixte)
Introduction
GLM pour données longitudinales
– Des mesures continues aux mesures discrètes (comptes ou binaires)
– Trois extensions des GLM
1. Modèles marginaux
2. GLMM
3. Modèles de transition
6.1
Modèles marginaux
L’extension des GLM
Le modèle
– Modèles pour la moyenne et pour la covariance spécifiés séparément
1. La moyenne : g(µ) = Xβ
2. La variance : var(y) = φv(µ)
3. La covariance : cov = h(µ, α)
Exemple des données de compte
1. Régression de Poisson : log(µ) = Xβ
2. Surdispersion : var(y) = φµ
3. Corrélation compound symmetry : corr(yij , yij 0 ) = α
22
L’inférence sur β
Pas de MLE
– Pas de fonction de vraisemblance utilisable
– Pas d’estimateur du maximum de vraisemblance
– Equations d’estimation généralisées (GEE, Liang et Zeger, 1986)
– Bonnes propriétés de l’estimateur des β
– Estimation de la variance de β̂ par estimateur ”sandwich”
Les GEE
– Introduire la matrice de covariance
– Solution de D 0 V −1 (Y − µ) = 0
∂µ
1. D dépend de β : D = ∂β
2. V est une matrice de covariance ”de travail”, dependant de β et α :
V = φtr(v(µ))1/2 R(α)tr(v(µ))1/2
– Estimation en deux étapes itératives
1. Sachant α et φ, estimer β des GEE
2. Sachant β, estimer α et φ par minimisation des résidus standardisés
6.2
GLMM
La généralisation des LMM
Spécification facile
– LMM : E(y i |bi ) = X i β + Z i bi
– GLMM : g(E(y i |bi )) = X i β + Z i bi
– Estimation par intégration de Monte Carlo (solutions analytiques rares)
Exemple du modèle de compte
– Modèle : log(E(y i |bi )) = X i β + Z i bi
– Ordonnée et pente aléatoire : X i = Z i = [1 ti ]
– bi ∼ N (0, Σb )
6.3
Modèles de transition
La spécification
Idées phares
– Modèles de séries chronologiques
– Response à un moment donné sous une forme explicite des réponses antérieures
– La réponse yij dépend de l’ensemble Hij = {yi1 , . . . , yi,j−1 }
– Estimation par vraisemblance conditionnelle
Exemple du modèle généralisé
Ps autorégressif
– g(E(y i |H i )) = X i β + r=1 αr fr (H i )
– Fonctions fr (.) connues : f1 (Hij ) = yi,j−1 , f2 (Hij ) = yi,j−2
– Modèle de Markov d’ordre q : les yij dépendent des q précédentes
23
6.4
Lequel choisir ?
Laquelle des trois extensions choisir ?
Ca dépend . . .
– Comparaison de groupes modèle marginal
– Intérêt sur effet intra-sujet : GLMM
– Connaissance du lien passé-présent : modèle de transition
7
Conclusion
En résumé
La succession des modèles
1. Réponse continue
– ANOVA à un facteur
– Modèle linéaire : β, Σ
– Modèle linéaire et structure de la matrice de covariance
– Modèle mixte = souplesse et temps continu
2. Réponse discrète
– Généralisation des modèles linéaires
– Modèle mixte
Les GLMM et plus
– Peut être souci logiciel
– R : packages nlme (Pinheiro et Bates) et repeated
– SAS
– SPSS : non
– Stata : package gllamm (linear latent and mixed models)
– ...
– GAMM (nombre de mesures suffisant)
– Temps en continu si assez de mesures ou également espacées sinon variables
indicatrices mais GLMM quand même !
Les modèles hiérarchiques
Le lien entre les deux
– Les modèles longitudinaux sont clusterisés par essence (plusieurs mesures
par sujet)
– Les modèles hiérarchiques sont clusterisés
– Tout ce qui précède : modèles hiérarchiques à deux niveaux
Orthodont data
Présentation initiale
24
Age
Sujets
1
2
...
27
8
10
12
14
Sexe
M
M
26,0
21,5
25,0
22,5
29,0
23,0
31,0
26,5
F
24,5
25,0
28,0
28,0
x.2
0
1
0
0
0
1
0
0
x.3
0
0
1
0
0
0
1
0
Réorganisation
Sujet
1
1
1
1
2
2
2
2
...
Temps
8
10
12
14
8
10
12
14
y
26,0
25,0
29,0
31,0
21,5
22,5
23,0
26,5
x.1
1
0
0
0
1
0
0
0
Présentation à deux niveaux
Niveau 1
1
1
1
1
2
2
2
2
...
Niveau 2
1
2
3
4
1
2
3
4
Un exemple à trois niveaux
Les données
1. (top niveau) Médecin : 1, . . . , k, . . . , K
2. Sujet : 1, . . . , j, . . . , Jk
25
Mesure
26,0
25,0
29,0
31,0
21,5
22,5
23,0
26,5
3. Mesure : 1, . . . , i, . . . , Ij
Le modèle
(1) (1)
(2) (2)
yijk = Xijk β + Zijk bk + Zijk bjk + wijk
26