Njomo - MASTAT

Transcription

Njomo - MASTAT
EFFET DE L’ALBENDAZOLE SUR
LA MICRO-FILAIRE LOA LOA
Par :
NJOMO NANA YANNICK LIONEL
Etudiant en master II de Statistique Appliquée
Dirigé par :
Dr. Joseph KAMGNO
Directeur du CRFILMT
Sous la supervision du :
Pr. Henri GWET
Chef de Département de Mathématiques et Sciences
Physiques à l’ENSP de Yaoundé
Responsable du Master de Statistique Appliquée.
Octobre 2010
Table des matières
liste des figures
iii
liste des tableaux
iv
Dédicaces
v
Remerciements
vi
Lexique des termes techniques
vii
Résumé
viii
Abstract
ix
Résumé exécutif
x
Introduction
1
1 Etude descriptive des données
3
1.1
Présentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
1.2
Analyse descriptive des données d’inclusion . . . . . . . . . . . . . . . . . . . .
4
1.2.1
Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.2.2
Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3
Comparaison des groupes de traitement à l’inclusion . . . . . . . . . . . . . . . 12
1.3.1
Tests de comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4
Profil graphique des charges dans les différents groupes . . . . . . . . . . . . . 16
1.5
Comparaison des courbes de survie . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
ii
2 modélisation de l’effet de l’albendazole sur la Loa loa par l’approche conditionnelle
20
2.1
La modélisation avec effets aléatoires . . . . . . . . . . . . . . . . . . . . . . . 20
2.2
Structure du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3
estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4
2.5
. . . . . . . . . . . . . . . 22
2.3.1
Estimation par maximum de vraisemblance
2.3.2
Estimation par maximum de vraisemblance restreint . . . . . . . . . . 23
Inférence sur les paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.1
Paramètres fixes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.2
Paramètres aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Application aux données de la cohorte Albendazole . . . . . . . . . . . . . . . 25
2.5.1
Effet de l’Albendazol sur la loase . . . . . . . . . . . . . . . . . . . . . 25
2.5.2
Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Modélisation par l’Approche marginale basée sur les équations d’estimation
généralisées(GEE)
33
3.1
Définitions et hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2
Equations d’estimation sous l’hypothèse d’indépendance . . . . . . . . . . . . 35
3.2.1
Estimation des paramètres de régression . . . . . . . . . . . . . . . . . 35
3.2.2
Intervalles de confiance et tests d’hypothèses pour βj . . . . . . . . . . 37
3.3
Équations d’estimation généralisées (GEE) . . . . . . . . . . . . . . . . . . . . 37
3.4
Spécification et estimation de R(α) . . . . . . . . . . . . . . . . . . . . . . . . 39
3.5
3.4.1
Corrélation échangeable . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4.2
Corrélation auto-regressive d’ordre 1 (AR(1)) . . . . . . . . . . . . . . 40
3.4.3
Corrélation non structurée . . . . . . . . . . . . . . . . . . . . . . . . . 41
Application aux données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.1
Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4 Discussion et Conclusion
4.1
46
Comparaison des résultats des deux approches. . . . . . . . . . . . . . . . . . . 46
Bibliographie
48
Annexe
51
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
Table des figures
1.1
Diagramme de la variable Age . . . . . . . . . . . . . . . . . . . . . . . . . . .
6
1.2
Diagramme de la variable Creat . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.3
Diagramme de la variable GPT . . . . . . . . . . . . . . . . . . . . . . . . . .
8
1.4
Diagramme de la variable GOT . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.5
Diagramme de la variable Hb . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6
Diagramme de la variable LoaM0 . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.7
Boîte à moustache Age en fonction des groupes . . . . . . . . . . . . . . . . . 13
1.8
boîte à moustache LoaM0 en fonction des groupes
1.9
Profil moyen des charges de Loa loa dans les 3 groupes . . . . . . . . . . . . . 17
. . . . . . . . . . . . . . . 15
1.10 Profil médian des charges de Loa loa dans les 3 groupes . . . . . . . . . . . . . 18
1.11 Courbes de survie de Kaplan-Meier dans les 3 groupes
2.1
. . . . . . . . . . . . . 19
test de normalité des effets aléatoires . . . . . . . . . . . . . . . . . . . . . . . 31
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
Liste des tableaux
xii
1
résumé des variables et comparaison des groupes selon chacune d’elle . . . . .
2
Comparaison des anova des modèles retenus . . . . . . . . . . . . . . . . . . . xiii
1.1
Résumés des variables quantitatives
1.2
Résumé des variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3
Comparaison des 3 groupes selon l’Age . . . . . . . . . . . . . . . . . . . . . . 13
1.4
comparaison des 3 groupes selon la variable Creat . . . . . . . . . . . . . . . . 14
1.5
comparaison des 3 groupes selon la variable GPT . . . . . . . . . . . . . . . . 14
1.6
Comparaison des 3 groupes selon la variable GOT . . . . . . . . . . . . . . . . 14
1.7
Comparaison des 3 groupes selon la variable Hb . . . . . . . . . . . . . . . . . 15
1.8
comparaison des 3 groupes selon la variable LoaM0 . . . . . . . . . . . . . . . 15
1.9
test de Log-Rank de comparaison des 3 courbes de survie . . . . . . . . . . . . 18
2.1
Tableau de l’anova du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2
Estimation des paramètres du modèle mixte modélisant la variance . . . . . . 28
2.3
Tableau de l’anova du modèle2
2.4
Valeurs de plusieurs critères : critère d’Akaike (AIC) et de Schwarz(BIC) pour
. . . . . . . . . . . . . . . . . . . . . . .
5
. . . . . . . . . . . . . . . . . . . . . . . . . . 28
les 2 modèles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5
Test de significativité de l’effet aléatoire . . . . . . . . . . . . . . . . . . . . . . 30
2.6
Estimation des paramètres du modèle2 modélisant la moyenne . . . . . . . . . 32
3.1
Paramètres du modèle marginal modélisant la moyenne . . . . . . . . . . . . . 43
3.2
Paramètre du modèle marginal modélisant la variance : avec correlation du
type AR1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.3
Tableau de l’anova du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4
Comparaison des modèles avec différentes structures de travail . . . . . . . . . 44
4.1
comparaison des paramètres du modèle 1 modèle 2 et modèle 4
4.2
Comparaison des anova des modèles . . . . . . . . . . . . . . . . . . . . . . . . 47
Master de Statistique Appliquée
. . . . . . . . 47
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
Dédicaces
Je dédie ce mémoire à ma Maman et à la mémoire de mon feu papa, en qui j’ai vu
Jesus-Christ vivre pour la première fois.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
Remerciements
Je tiens à exprimer ma gratitude et mes sincères remerciements à toutes les personnes
qui, d’une manière ou d’une autre, ont contribué à la realisation de ce mémoire. Je pense
particulièrement :
À Dieu tout puissant sans qui ce travail n’aurait eu lieu.
À tout le personnel enseignant du master de statistique appliquée pour tous leurs enseignements et pour toutes les connaissances dont ils nous ont enrichi durant ces deux dernières
années.
Il s’agit de :
♦ Pr Henri GWET
♦ Pr Bernard ROYNETTE
♦ Pr J. C. THALABARD
♦ Pr O. HILI
♦ Dr E.P. NDONG NGUEMA
♦ Dr J. FEHRENBACH
♦ Dr E. LEPENNEC
♦ Dr Armel YODE
♦ Dr M. NDOUMBE
♦ Dr Y. EMVUDU
♦ Dr J.J. TEWA
♦ Dr Jacques TAGOUDJEU
Au Docteur Joseph KAMGNO pour son encadrement, sa patience et ses conseils durant mon
stage au CRFIL.
A monsieur TCHATCHUENG Jules Brice, Doctorant en statistique appliquée, pour ses multiples conseils et astuces, également pour sa disponibilité malgrè ses travaux.
À touts mes camarades du master statistique 2008-2010, avec qui nous avons passé de bons
moments.
À mes frères Yves Arsene et Cedric Igor, pour leur amour.
Je ne saurai oublier toute la grande famille du GBEEC, pour leur soutien spirituel.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
Lexique des termes techniques
1. Loa loa= parasite qui est est à l’origine de la loase.
2. Loase= maladie developpée apprès infection de Loa loa.
3. Microfilaremie= charge parasitaire.
4. Charge parasitaire= nombre de parasites, généralement contenus dans un millilitre
de sang.
5. Albendazole= médicament généralement utilisé pour le traitement des vers.
6. Filariose= maladie causée par une filaire.
7. GEE= "Generalized Estimating Equations".
8. 0nchocercose=
9. Anova= "Analysis of variance"
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
Résumé
Le traitement des filarioses (Onchocercose et filariose lymphatique) dans les zones endémiques pour la loase pose des problèmes d’effets secondaires graves. Ces effets secondaires
sont dû à la destruction massive des microfilaires de loase chez les individus hypermicrofilaremiques (≥30000mf/ml). Une façon de prévenir ces effets secondaires serait d’administrer
chez ces patients hypermicrofilarémiques un prétraitement qui abaisserait les charges de loase
en dessous du seuil à risque. C’est dans cette optique que nous avons entrepris un essai clinique randomisé en double aveugle, dont l’objectif était d’evaluer l’effet de l’albendazole sur
la microfilaremie à Loa loa. Pour cette étude, 60 personnes ont été inclus et équirépartis dans
trois groupes de traitement : groupe placebo ; groupe albendazol+placebo ; groupe albendazole. L’étude s’est étendue sur une période de 24 mois, où tous les 2 mois le prélèvement des
charges de loa loa puis le traitement sou jacent à chaque groupe étaient effectués. Notre étude
étant longitudinale, avec pour objectif de mettre en évidence un éventuel effet de l’albendazole
sur la Loa loa. Nous avons premièrement utilisé des tests de comparaison non paramétriques,
notamment celui de Kruskal-wallis, pour établir s’il existe une différence entre les trois
groupes de traitement à l’inclusion de l’étude. Un modèle mixte (à intercepte aléatoire) et
un autre modèle basée sur les équation d’estimations généralisées (GEE), ont ensuite
été utilisé pour comparer l’évolution des charges parasitaires dans les différents groupes. Nous
avons ainsi pu mettre en évidence un effet significatif de l’albendazole sur la Loa loa, traduit
par l’observation d’une différence significative entre nos trois groupes de traitement.
Mots-clés : Loa loa, Loase, Onchocercose, filariose lymphatique, Albendazole, placebo,
microfilaremique, microfilaires ,modèle mixte, GEE
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
Abstract
The treatment of the filarioses (lymphatic Onchocercose and filariose) in the endemic
zones for the loase poses problems of side serious effects. These side effects are the consequences of massive destruction of the microfilaries of loase on hypermicrofilaremic individuals
(≥30000mf/ml). A way of preventing these side effects would be to manage among these
hypermicrofilaremic patients a pretreatment, which would lower the loads of loase below the
risk threshold. It is accordingly that we undertook a clinical trial randomized as a double
blind man, whose objective was to evaluate the effect of the Albendazole on the microfilaremy with Loa loa. For this study, 60 patients were included and balanced in three groups of
treatment : placebo group ; albendazol+placebo group ; albendazolegroup. The study extended over a period of 24 months, where every 2 months the taking away of the loads of Loa
loa then unclaimed the penny treatment with each group were carried out. Our study being
longitudinal, with for objective to highlight a possible effect of the albendazole on Loa loa.
We firstly used nonparametric tests of comparison, in particular that of Kruskal-Wallis, to
establish if there is a difference between the three groups of treatment at the inclusion. A
mixed model (with random intercept) and another model based on the generalized estimating equations (GEE), was then used to compare the evolution of the parasitic loads in
the various groups. We thus could highlight a significant effect of the albendazole on Loa loa,
translated by the observation of a significant difference between our three groups of treatment.
key-words :Loa loa, Loase, Onchocercose, lymphatic filarisis , Albendazole, placebo, microfilaremic, microfilaries, mixed model, GEE.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
Résumé exécutif
Problématique
Depuis plusieurs années, la communauté scientifique est préocupé par des cas d’encéphalopaties décrits, après traitement par ivermectine, chez des sujets présentant de fortes microfilarémies à Loa loa. Ces accidents sont dus à une action brutale et massive du médicament
sur les microfilaires de Loa loa. Une façon de résoudre ce problème d’effets secondaires graves
serait d’administrer aux patients hypermicrofilaremiques un prétraitement qui abaisserait les
charges parasitaires en dessous du seuil à risque (30000mf/ml). C’est ainsi que le CRFILMT
a initié au Cameroun un essai ("essai albendazole"), dont l’objectif était d’évaluer l’effet de
l’albendazole sur la microfilaremie à Loa loa. Cet essai s’est étendu sur une période de 24 mois.
60 partients adultes ont été retenus pour l’étude et répartis en trois groupes. ils recevaient
soit un placebo, soit l’albendazole puis un placebo, soit l’albendazole. Les prèlèvement des
charges microfilariennes et l’administration du médicament ont été réalisés tous les deux mois
de la période d’étude. Le problème posé est donc celui de savoir s’il existe une différence significative entre les trois groupes de traitement, et si c’est le cas, quel est le traitement parmi
les trois qui baisserait vraiment les charges de Loa loa .
Méthodologie
Pour apporter une solution statistique à ces problèmes, nous avons utilisé :
1. Une analyse descriptive des données et comparaison des groupes à l’inclusion, pour avoir
la tendance de départ et voir si déjà à l’inclusion, il n’y avait pas hétérogeneité entre les
groupes selon les variables d’inclusion.
2. L’approche conditionelle d’analyse des données repétées ou modèle mixte : elle est une
extension des modèles linéaires classiques.Elle consistent à faire intervenir des effets
aléatoires spécifiques à chaque sujet, et c’est donc l’espérance de la variable réponse
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
xi
conditionnellement à ces effets aléatoires qui est modèlisée sous forme d’une combinaison linéaire des variables explicatives, incluant à la fois des facteurs fixes et des facteurs
aléatoires. C’est l’introduction des facteurs aléatoires spécifiques à chaque sujet qui permet de modéliser la structure de corrlation des données.Dans cette approche donc la
moyenne et la variance de la variable réponse sont modélisées en même temps.
3. L’approche Marginale d’analyse des données repétées par les GEE (General Estimating
Equation) :elle a été introduite par Liang et Zeger. Les GEE dérivent des modèles
linéaires généralisés (GLM) et permettent de traiter le cas des données corrélées en
modélisant séparement la matrice de corrélation (celle qui definit la liason entre les
observations sur un même sujet) de la moyenne, il n’est donc pas nécéssaire ici de
définir toute la distribution de la variable réponse comme c’est le cas dans les GLM,
seuls les deux premiers moments de la variable réponse sont suffisants, ils sont l’analogue
de modèles de quasi-vraisemblance pour données longitudinales.
Résultats
1. Pour La comparaison des groupes à l’inclusion, elle a été faite selon toute les variables
d’inclusion. On conclura d’après la table 1, que les trois groupes de traitement ne sont
pas significativement distincts selon chacune des variables d’inclusion.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
xii
Variable
Groupe
Moyenne
p-value (kruskal-wallis)
Age
groupe 1
47.30
0.3
groupe 2
43.85
groupe 3
50.50
groupe 1
0.80
groupe 2
0.79
groupe 3
0.73
groupe 1
39.21
groupe 2
31.15
groupe 3
28.05
groupe 1
22.23
groupe 2
18.74
groupe 3
21.11
groupe 1
11.12
groupe 2
11.10
groupe 3
11.45
groupe 1
35720
groupe 2
52780
groupe 3
56300
Creat
GOT
GPT
Hb
LoaM0
0.8
0.11
0.42
0.59
0.55
TAB . 1 – résumé des variables et comparaison des groupes selon chacune d’elle
2. Les modèles retenus, utilisant respectivement les deux approches méthodologiques évoquées précédemment sont présentés dans le tableau 4.2.
Il ressort donc de ces modèles que notre facteur traitement est significatif, c’est à dire
qu’il y a une différence significative entre les trois groupes de traitement Placebo, Alben+placebo, et Albendazole.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
xiii
TAB . 2 – Comparaison des anova des modèles retenus
modèle⇒
GEE :modèle4
Mixte : modèle1
Mixte : modèle 2
facteurs ⇓
p-valeur
p-valeur
p-valeur
traitement
0.032
0.0194
0.03
temps
4.6e-08
<.0001
<.0001
traitement*temps
3.7e-10
<.0001
0.022
paramètre de variance
ρ=0.709
ρ=0.77
φ=0.53
Conclusion et recommandations
Le travail qui nous avait été demandé était de comparer les trois groupes de traitement
Placebo, ALben+placebo, Albendazole et déterminer lequel des trois fait baisser au mieux les
charges microfilariennes. La base de données disponible comportait 60 patients à l’inclusion,
mais dans notre travail (partie méthodologique) nous avons exclu 4 de ces sujets sur lesquels
on avait que les observations d’inclusion. Après une analyse descriptive et comparaison d’inclusion, nous avons pu à l’aide d’un modèle linéaire mixte et d’un modèle GEE, mettre en
evidence l’effet de l’albendazole sur la microfilaremie à Loa loa. S’illustrant par une différence
significative entre les trois groupes de traitement. L’analyse des profils nous a permis de voir
que le groupe Albendazole (groupe 3) se distingue des autres, c’est dans ce groupe que la
baisse de la microfilaremie a été la plus importante. Seulement même dans ce groupe il y’a
des sujets qui sont restés avec une charge parasitaire ≥ 30000mf/ml. Parconséquent ce régime
même s’il permet de diminuer le risque d’effets secondaires graves, ne permettrait pas de
prévénir tous les cas. Il devrait aussi normalement en suivre une comparaison des moyennes
dans chaque groupe par la méthode de Bonferroni, pour pouvoir déterminer rigoureusement
lequel des trois facteurs est significativement distinct des autres. Cela n’a pas pu être fait dans
notre travail car nous n’avons pas trouver d’équivalent à ce test pour le modèle mixte avec le
logiciel R. L’utilisation du logiciel SAS permettrait de contourner cette difficulté.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
Introduction
Contexte et problématique
Depuis plusieurs années, des cas d’encéphalopaties (effets secondaires graves au niveau du
cerveau) sont décrits après le traitement de l’onchocerchose par le mectizan dans les zones de
co-endemie onchocercose et loase. Le principal facteur de risque d’effets secondaires étant les
fortes charges de loases (> 30000 mf|ml) [14]. Pour prévenir ces effets, il faut donc trouver un
médicament qui permette de baisser les charges de Loase en dessous du seuil à risque, avant
de traiter l’onchocercose par le Mectizan. C’est ce qui a motivé la mise en place de l’essai
de prévention par l’Albendazol. Il s’agit d’une étude longitudinale conduite par le Centre
de Recherche sur les Filarioses et autres Maladies tropicale (CRFILMT).Cette étude a duré
24 mois, de 2007 à 2009. 60 patients ont été inclus et équirépartis de façon aléatoire dans
trois groupes de traitement : le groupe placebo, le groupe Albendazole+Placebo, et le groupe
Albendazole.
Objectif
L’objectif principal de l’étude était de comparer l’effet des deux régimes d’albendazole
sur la microfilaremie à Loa loa. C’est à dire dire si les trois thérapies sont significativement
différentes, et, si oui, laquelle des trois limiterait effectivement le facteur de risque d’effets
secondaires.
Revue de littérature
Avant la réalisation de cet essai, le CRFIL a entrepris plusieurs études sur le sujet, telles
que : l’essai à faible dose d’ivermectine en 2000 [12], l’essai à faible dose d’albendazole (600mg)
en 2002 [13] et bien d’autres. Tous ces précedents essais rapportent globalement que l’administration de ces différentes thérapies à ces doses ne permet pas de prévenir la survenue d’une
encéphalopathie post-thérapeutique.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
2
Plan du travail
Afin de pouvoir donner une réponse statistique à l’objectif , nous organiserons notre travail
de la manière suivante :
– Au chapitre 1, nous ferons une analyse descriptive des données d’inclusion, avec comparaison des groupes à l’inclusion .
– Au chapitre 2, nous présenterons l’approche conditionnelle basée sur le modèle linéaire
mixte et nous l’appliquerons ensuite sur les données de la cohorte Albendazol.
– Au chapitre 3, nous présenterons l’approche marginal basée sur les GEE (general estimating equation) et nous l’appliquerons ensuite sur les données de la cohorte Albendazol.
– Nous finirons au chapitre 4 par une discussion sur les deux approches appliquées à nos
données.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
C HAPITRE 1
E TUDE DESCRIPTIVE DES DONNÉES
1.1
Présentation des données
Les données disponibles proviennent d’un essai randomisé en double aveugle nommé : "essai albendazole", qui a été mené au Cameroun en 2007, dans une région où l’onchocercose et
la loase sont en co-endémie. A l’issue d’une enquête préliminaire, 60 individus ont été retenus
pour l’essai. Les critères d’inclusion étaient :
– l’âge (15-65)
– l’état général (satisfaisant)
– la microfilaremie (> 150mf /ml)
Les sujets pour l’essai clinique ont ensuite été répartis de façon aléatoire dans 3 groupes de 20
personnes chacun avec stratification sur les charges parasitaires, les strates étant :15-30000,
30000-50000, > 50000.
L’étude s’est étalée sur une période de 24 mois où, tous les deux mois, des prélèvements, puis
un traitement, étaient attribués.
– Dans le 1er groupe, les patients ont reçu un placebo tous les 2 mois pendant 10 mois.
– Dans le 2-ème groupe, les patients ont reçu le traitement (albendazol à 800 mg) les 2
premiers mois, puis un placebo les 8 derniers mois.
– Dans le 3-ème groupe, les patients ont reçu le traitement (albendazol à 800 mg) tous
les 2 mois pendant 10 mois.
Ainsi donc, sur un individu de notre base de donnés, on a les informations suivantes :
a- l’identifiant ;
b- l’âge ;
c- le sexe ;
d- le groupe de traitement ;
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
4
e- les différents paramètres biochimiques (créatinine, GPT, GOT, Hb) ;
f- les différentes mesures des charges microfilarienes (10 mesures pour celui qui a participé à
l’étude jusqu’à la fin).
1.2
Analyse descriptive des données d’inclusion
Toute tentative de modélisation nécessite au préalable une analyse descriptive des données. Nous allons d’abord faire une étude descriptive des données d’inclusion, pour détecter
les dissymétries ou encore les valeurs atypiques.
1.2.1
Variables quantitatives
– Age :l’âge des individus ;
– LoaM0 : la microfilaremie (charge microfilarienne) au premier mois ;
– Creat : la créatinine, qui est un indicateur de l’état du rein ;
– GOT : indicateur de l’état de fonctionnement du foie ;
– GPT : autre indicateur de l’état de fonctionnement du foie ;
– Hb : l’hémoglobine, qui est un indicateur d’anémie.
Les quatres dernières variables précédentes (Creat, GOT, GPT, Hb) sont des paramètres
biochimiques qui indiquent l’état de l’individu à l’inclusion.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
5
Analyses univariées
Les statistiques élémentaires sont contenues dans le tableau 1.1 ci-dessous
TAB . 1.1 – Résumés des variables quantitatives
Variable
Min
Moyenne ecart-type
max
Age
18
47.22
13.70
65
Creat
0.00
0.77
0.18
1.20
GOT
16.00
32.81
16.56
90.60
GPT
6.40
20.69
17.88
121.81
Hb
8.35
11.22
1.13
14.60
LoaM0
11040
48266
42964.47
197060
D’après le tableau 1.1, on remarque une grande hétérogénéité entre les 6 varaibles considérées, les ordres de grandeur distincts pour les moyennes, min et max, ce qui n’est pas
étonnant, car ces variables ne sont pas de la même nature.
Il serait également très important d’avoir des informations sur la distribution de chacune
de ces variables.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
6
Variable Age
histogram
0
20
40
60
80
20
30
40
50
60
Age
20 30 40 50 60
N = 60 Bandwidth = 5.436
0 2 4 6 8
Frequency
0.020
0.010
0.000
Density
12
Age
F IG . 1.1 – Diagramme de la variable Age
test de normalité de Shapiro-Wilk de la variable Age : W = 0.9391, p-value = 0.004929.
La densité estimée (trait continu ) de la variable Age montre que l’échantillon est issu d’une
population homogène. Elle est visiblement différente de la densité d’une loi normale de mêmes
caractéristiques (trait interrompu), ce qui est bien confirmé par le test de Shapiro-Wilk précédent.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
7
Variable Creat
histogram
20
0
5 10
Frequency
1.0
0.0
Density
2.0
Creat
0.0
0.5
1.0
0.4
0.8
1.2
Creat
0.0
0.4
0.8
1.2
N = 60 Bandwidth = 0.06108
0.0
●
F IG . 1.2 – Diagramme de la variable Creat
test de normalité de Shapiro-Wilk de la variable Creat : W = 0.9352, p-value = 0.003317.
La distribution de cette variable semble être proche de celle d’une loi normale, cependant
elle présente une valeur aberrante, et une assymetrie. le test de Shapiro-Wilk est tout aussi
significatif au seuil de 0.05.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
8
Variable GPT
histogram
30
20
0
10
Frequency
0.03
0.00
Density
0.06
40
GPT
0
20
60
100
N = 60 Bandwidth = 2.362
0 20
60
100
140
GPT
100
●
60
●
●
20
●
●
●
F IG . 1.3 – Diagramme de la variable GPT
test de normalité de Shapiro-Wilk de la variable GPT : W = 0.5572, p-value = 3.53 × 10−12 .
La distribution de cette variable est significativement distincte de celle d’une loi normale, on
constate aussi bien la présence de plusieurs valeures aberrantes.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
9
Variable GOT
histogram
25
0
0.00
5
15
Frequency
0.02
Density
0.04
GOT
0
20
40
60
80
100
N = 60 Bandwidth = 4.42
20
40
60
80
100
GOT
●
●
●
20
40
60
80
●
●
F IG . 1.4 – Diagramme de la variable GOT
test de normalité de Shapiro-Wilk de la variable GOT : W = 0.7744, p-value = 3.285 × 10−8 .
La distribution de la variable GOT est plus ou moins symétrique, mais n’est pas gaussienne
(p-value<0,05), et on observe 5 valeures aberrantes.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
10
Variable Hb
histogram
20
15
10
0
5
Frequency
0.02
0.00
Density
0.04
Hb
0
20
40
60
80
100
N = 60 Bandwidth = 4.42
8
9 10
12
14
Hb
9
11
13
●
●
●
F IG . 1.5 – Diagramme de la variable Hb
test de normalité de Shapiro-Wilk de la variable Hb : 0.9827, p-value = 0.5509.
La distribution de la variable Hb présente une assymetrie ; cependant le test de Shapiro-Wilk
n’a pas pu mettre en évidence une différence significative avec la loi gaussienne (p-value =0.5).
Variable LoaM0
test de normalité de Shapiro-Wilk de la variable LoaM0 : W = 0.6945, p-value = 6.952 × 10−10 .
D’après la figure 1.6, la distribution de la variable LoaM0 (charge microfilarienne initiale) ne
présente aucune particularité, le test de Shapiro-Wilk nous révèle qu’elle se distingue significativement de la loi gaussienne. On note aussi 8 valeures aberrantes.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
11
0 5
15
25
histogram
Frequency
1.5e−05
0.0e+00
Density
LoaM0
0
50000
150000
N = 60 Bandwidth = 7239
0
50000
150000
LoaM0
150000
●
●
●
●
●
●
50000
●
F IG . 1.6 – Diagramme de la variable LoaM0
1.2.2 Variables qualitatives
le résumé des variables qualitatives est contenu dans le tableau ci-dessous
TAB . 1.2 – Résumé des variables qualitatives
Variable
fréquence par modalité
Sexe
M=34,F=26
Groupe de traitement
traitement1=20,traitement2=20,traitement3=20
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
12
1.3
Comparaison des groupes de traitement à l’inclusion
L’objectif de cette section est de déterminer, à partir des données d’inclusion, les différences
significatives existantes entre le groupe de traitement 1 (placebo), le groupe de traitement 2
(Alben+placebo) et le groupe de traitement 3 (Albendazole).
1.3.1
Tests de comparaison
A partir d’un ensemble de données, on vérifie premièrement la normalité de la distribution,
soit au moyen d’un test de Shapiro- Wilk, soit d’une manière graphique. Puis selon les cas, il
est nécessaire de tester l’égalité des variances au moyen du test de Bartlett . Si les données sont
distribuées suivant une distribution connue, par exemple suivant une distribution normale, on
applique des tests paramétriques pour comparer les moyennes de chacun de ces ensembles de
données. En revanche, si elles n’ont pas une distribution connue, on doit appliquer des tests
de comparaison non paramétriques. Nos variables étant presque toutes non normales, nous
nous attarderons seulement sur des tests non paramétriques qui nous seront utiles, notamment
celui de Kruskal-Wallis.
Test de Kruskal-Wallis
Le test de Kruskall-Wallis est la version non paramétrique du test d’analyse de variance
à 1 facteur. La seule différence est que le test s’exerce sur une moyenne de rangs. Il sert à
tester l’hypothèse que les k échantillons viennent de populations dont la tendance centrale est
égale. Le test est vivement recommandé dans tous les cas où l’on ignore la loi de distribution
d’une variable, que l’on possède un petit échantillon et que l’on veut comprarer plusieurs
groupes d’individus dans l’échantillon. Dans l’ANOVA simple, on avait un seul facteur à k
modalités, mais il existe plusieurs conditions d’emploi de cette procédure : normalité des
variables, variance égale, . . . . Si ces conditions ne sont pas respectées, on peut alors utiliser
le test de Kruskal et Wallis, qui va permettre l’étude des liaisons entre un caractère quantitatif
et un caractère qualitatif à k classes.
H0 : µ1 = ... = µk ; contre, H1 : ∃µi 6= µj .
La statistique de test est :
k
X Wj2
12
H=
− 3(N + 1),
N (N + 1) j=1 nj
où Wj est la somme des rangs de l’échantillon j, N l’effectif total, nj l’effectif de l’échantillon
j.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
13
Sous H0 , la statistique suit assymptotiquement χ2 (k − 1). On obtient une région critique de
la forme W = {H > kd(k − 1, 1 − α)} où kd est le quantile de la loi du Khi-deux.
1-Comparaison des groupes selon l’age
20
30
40
50
60
Age
1
2
3
F IG . 1.7 – Boîte à moustache Age en fonction des groupes
Min 1er Qu
Médiane
Moyenne 3ième Q
Max
Groupe 1
18
39.75
50.
47.30
56
64
Groupe 2
25
32.25
40
43.85
58.25
65
Groupe 3
20
40.75
53
50.50
63.25
65
Test de comparaison
Kruskal-Wallis chi-squared = 2.414, df = 2, p-value = 0.2991
TAB . 1.3 – Comparaison des 3 groupes selon l’Age
Le test précedent ne permet pas de rejetter l’hypothèse d’égalité des moyennes d’âges
dans les trois groupes. Il n’y a donc pas, à priori, une association entre l’âge des patients et
le traitement (1, 2 ou 3).
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
14
2-Comparaison selon Creat
Min
1er Qu Médiane
Moyenne
3ième Q
Max
Groupe 1
0.54
0.70
0.78
0.80
0.88
1.2
Groupe 2
0.53
0.69
0.72
0.79
0.93
1.11
Groupe 3
0
0.65
0.78
0.73
0.89
1.01
Test de comparaison
Kruskal-Wallis chi-squared = 0.3029, df = 2, p-value = 0.8595
TAB . 1.4 – comparaison des 3 groupes selon la variable Creat
Les résultats du tableau 1.4 montrent que les 3 groupes de traitement ne sont pas significativement distincts selon la créatinine (Creat).
3-Comparaison selon GPT
Min
1er Qu
Groupe 1
9.30
12.53
16.90
Groupe 2
8.77
11.67
Groupe 3
6.40
14.00
Test de comparaison
Médiane Moyenne
3ième Q
Max
22.23
24.72
62.70
14.60
18.74
17.80
73.60
16.05
21.11
19.08
121.80
Kruskal-Wallis chi-squared = 1.6955 , df = 2, p-value = 0.4284
TAB . 1.5 – comparaison des 3 groupes selon la variable GPT
Les résultats du tableau 1.5 montrent qu’on n’a pas pu mettre en évidence une association
entre les différents groupes de traitement et la variable GPT.
4-Comparaison selon GOT
Min
1er Qu Médiane
Moyenne
3ième Q
Max
Groupe1
19.40
24.50
30.35
39.21
50.48
88.40
Groupe2
16
20.80
26.50
31.15
30.80
90.60
Groupe3
16.60
21.10
28.75
28.05
34.45
43.80
Test de comparaison
Kruskal-Wallis chi-squared = 4.3165, df = 2, p-value = 0.1155
TAB . 1.6 – Comparaison des 3 groupes selon la variable GOT
Les résultats de la table 1.6 montrent que les 3 groupes de traitement ne sont pas significativement distincts selon la variable GOT.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
15
Min
1er Qu Médiane
Groupe 1
8.57
10.45
Groupe 2
8.35
Groupe 3
9.32
Test de comparaison
Moyenne
3ième Q
Max
11.30
11.12
11.85
12.40
10.50
10.75
11.10
11.65
13.70
10.67
11.50
11.45
11.95
14.60
Kruskal-Wallis chi-squared = 1.0408, df = 2, p-value = 0.5943
TAB . 1.7 – Comparaison des 3 groupes selon la variable Hb
5-Comparaison selon Hb
Les résultats du tableau 1.7 montrent que les 3 groupes de traitement ne sont pas significativement différents selon la variable Hb.
5-Comparaison selon LoaM0
200000
LoaM0
●
●
150000
●
●
100000
●
●
50000
●
●
1
2
3
F IG . 1.8 – boîte à moustache LoaM0 en fonction des groupes
Min
1er Qu Médiane
Moyenne
3ième Q
Max
Groupe 1
20860
24500
30080
35720
39980
69120
Groupe 2
11040
30350
37010
52780
61620
169800
Groupe 3
15460
20500
29090
56300
60970
197100
Test de comparaison
Kruskal-Wallis chi-squared = 1.176, df = 2, p-value = 0.5554
TAB . 1.8 – comparaison des 3 groupes selon la variable LoaM0
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
16
Les résultats de la figure 1.8 et du tableau 1.8 montrent une différence entre le deuxième
groupe et les autres groupes, les charges de loase semblent plus élevées dans le groupe 2 (ceci
peut se voir au niveau des médianes). Seulement, le test de Kruskal-Wallis de la table 1.8
manque de puissance pour mettre en évidence cette différence. L’hypothèse d’égalité des
moyennes des charges microfilariennes dans les 3 groupes de traitements n’est donc pas rejettée.
1.4
Profil graphique des charges dans les différents groupes
100000 150000 200000
50000
charge de Loa loa (mf /ml)
profil des charges dans le groupe placebo
0
zone de seuil à risque (30000)
5
10
15
20
25
Temps (en mois)
3e+05
2e+05
1e+05
zone de seuil à risque (30000)
0e+00
charge de Loa loa (mf /ml)
4e+05
profil des charges dans le groupe Alben+placebo
5
10
15
20
25
Temps (en mois)
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
17
150000
100000
50000
charge de Loa loa (mf /ml)
200000
profil des charges dans le groupe Albendazole
0
zone de seuil à risque (30000)
5
10
15
20
25
Temps (en mois)
4e+05
charge de loa loa
3e+05
traitement
1
2
2e+05
3
1e+05
5
10
15
20
25
Temps
F IG . 1.9 – Profil moyen des charges de Loa loa dans les 3 groupes
Les figures 1.9 et 1.10 confirment encore le précédent constat selon lequel, les charges
de Loa loa semblent plus élevées dans le groupe2 à l’inclusion ainsi qu’au cour du suivi.
Mais globalement, on peut voir au travers de ces différents profils, que dans les groupes
Placebo et Alben+placebo, il n’y a pas une tendance particulière, les charges de Loa loa
ne semblent pas vraiment diminuer avec le temps, la majorité des sujets, surtout dans le
groupe Alben+placebo, restent presque au même niveau de charge qu’ils avaient à l’inclusion.
Pourtant dans le groupe Albendazole on note quand même une sorte de tendance de baisse
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
18
4e+05
charge de loa loa
3e+05
traitement
1
2
2e+05
3
1e+05
5
10
15
20
25
Temps
F IG . 1.10 – Profil médian des charges de Loa loa dans les 3 groupes
surtout les premiers mois de l’étude (8 premiers mois), puis, après une stabilisation durant le
reste de l’étude. Seulement ce ne sont que des appréciations visuelles.
1.5
Comparaison des courbes de survie
Nous nous proposons, dans cette partie de l’analyse, de comparer les traitements à l’aide
d’une analyse des courbes de survie.
Nous définissons ici comme censure tous ceux pour qui l’évènement d’intérêt n’est pas observé
à la fin de l’étude (à la fin des 24 mois). L’évènement d’interêt étant ici la baisse des charges
en dessous du seuil à risque d’effets secondaires, ce seuil est de 30000 mf/ml. De
même, seront censurés tous les patients perdus de vue retenus pour le test (3 patients sur qui
on n’avait que l’observation d’inclusion ont été enlevés de la base de données).
Obsevés
Espérés
(O−E)2
E
(O−E)2
V
Groupe 1 18
7.98
7.98
3.95e-31
7.93e-31
Groupe 2 19
5.80
9.21
1.26e+00 2.77e+00
Groupe 3 19
10.59
7.18
1.62e+00 3.06e+00
Groupe
N
LOG-RANK, chisq = 5, df = 2, p-value =0.083
TAB . 1.9 – test de Log-Rank de comparaison des 3 courbes de survie
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
1.0
19
Groupe1
groupe2
0.0
0.2
0.4
0.6
0.8
Groupe3
0
50000
100000
150000
F IG . 1.11 – Courbes de survie de Kaplan-Meier dans les 3 groupes
Le test du LOG-RANK, test d’egalité des fonctions de risque cumulé de baisse des charges
microfilariennes en desous de 30000mf/ml dans les trois groupes, nous montre qu’il n’y a pas
de différence significative entre les trois traitements (p-value = 0.0833 ).
Cependant, au regard de la figure 1.11, on remarque que les différentes coubes de survie se
croisent, situation qui biaiserait éventuellement la perfomance du test de Log-Rank précédent.
Nous ne saurons donc conclure avec pertinence sur la validité des résultats du tableau 1.9.
1.6
Conclusion
Au regard des précédentes analyses descriptives et comparaisons des groupes à l’inclusion,
il ressort qu’il n’y a pas de différence significative entre les trois groupes de patients (Placebo,
Alben+placebo,Albendazole) suivant chacune des autres variables d’inclusion. A l’inclusion
donc les trois groupes de patients sont homogènes, résultat qui n’est qu’une confirmation que
le protocole de l’essai n’aurait pas introduit des biais naïfs inclusifs.
Toutefois ces différentes analyses faites dans ce chapitre, analyse à l’inclusion et comparaison
des courbes de survie , ne sauraient être des outils efficaces pour répondre à notre objectif
, puisqu’elles n’utilisent qu’une partie des données disponibles, induisant ainsi une grande
perte d’information. Elle constituent néamoins une étape fondementale dans la construction
des modèles des chapitres suivants.
Nous allons donc, dans les prochains chapitres, présenter les principaux outils méthodologiques
d’analyse des données repétées, et les appliquer sur les données de la "cohorte Albendazole".
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
C HAPITRE 2
MODÉLISATION DE L’ EFFET DE
L’ ALBENDAZOLE SUR LA
Loa loa PAR
L’ APPROCHE CONDITIONNELLE
2.1
La modélisation avec effets aléatoires
Dans tout relevé d’expérience, les données présentent une certaine variabilité. L’intérêt
d’une étude statistique réside justement dans l’analyse de celle-ci. Les modèles à effets aléatoires constituent un moyen plus élaboré d’étudier cette variabilité. Ainsi, l’introduction d’effets aléatoires permet, d’une part, de séparer la variabilité totale en deux parties : la variabilité
due aux effets aléatoires et celle que l’on affecte aux erreurs, d’autre part, elle permet de modéliser la corrélation entre les variables endogènes.
Mais qu’est-ce qu’un effet aléatoire ? Tentons de répondre à cette question à l’aide d’une
illustration basée sur un exemple purement fictif dans lequel on oppose les deux natures possibles des effets : effet fixe/effet aléatoire. Imaginons que l’on s’intéresse à l’effet de trois types
de médicaments sur des maux de tête sévères. On dispose pour cela d’un échantillon de 12
personnes souffrant régulièrement de ces maux de tête, et on donne à chacun un type de
médicament de façon à ce que chaque type soit administré à quatre personnes différentes.
Pour chaque personne, on relève, après chacune des quatre prises du médicament (en quatre
occasions différentes), le temps de disparition des maux de tête. On a donc mentionné deux
facteurs pouvant avoir effet : le médicament administré et la personne concernée. Ainsi, chaque
niveau du facteur médicament apparaît important et l’on aimerait en mesurer l’effet sur le
soulagement des maux du malade. Ce facteur est donc considéré comme facteur à effet fixe.
Cependant, les 12 personnes ne sont qu’un échantillon de l’ensemble de toutes les personnes
souffrant de ces maux. Ce qui est alors intéressant, c’est de mesurer la variabilité des données
induites par ces personnes. Ceci représentera une des composantes de la variabilité totale. Le
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
21
facteur personne est donc considéré comme facteur à effet aléatoire.
Grâce à cette notion d’effet aléatoire, les modèles linéaires classiques ne contenant que des
effets fixes ont pu être enrichis et élargis en y introduisant des effets aléatoires pour donner
naissance aux modèles linéaires mixtes, l’objet de ce chapitre, qui permettent eux de modéliser la corrélation entre les mesures (sur le même individu).
Dans ce chapitre nous présenterons donc la structure du modèle mixte, ses différentes proprietés, ainsi que les différentes méthodes d’estimation de ses paramètres avec des inférences,
puis nous ferons une application sur les données de la "cohorte ALbendazole".
2.2
Structure du modèle
Soit ni le nombre d’observations réalisées sur l’individu i, on note Yi = (yi1 , ...yini ) le
vecteur des réponses et Xi = (xi1 , ...xini ) le vecteur des covariables , i = 1, ...n pour lequel
chacune des ni composantes est elle même un vecteur de covariables. Le modèle mixte pour
données normales s’écrit :
0
yij = zij0 β + wij
bi + eij
(2.1)
ou
– zij = zij (xij ) est un vecteur de dimension p fonction appropriée du vecteur des covariables. Dans la plupart des cas, 1 est la première composante de zij ;
– wij = wij (xij ) est un vecteur de dimension q, également fonction du vecteur des covariables xij . Dans la plupart des cas, wij est un sous vecteur de zij ;
– β est un vecteur de dimension p représentant les effets dans la population, c’est le vecteur des paramètres des effets fixes ;
– bi est un vecteur de dimension q, représentant les effets pour le sujet i, c’est le vecteur
des effets aléatoires spécifiques au sujet i. On pose commme hypothèse sur ces
effets aléatoires :bi ∼ N (0, Q) ;
– ei = (ei1 , ..., eini ) est un vecteur de dimension ni , représentant en réalité le vecteur résiduel. On pose comme hypothèse : les ei ∼ N (0, Ri ). On ajoute, de plus, que les {ei } et
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
22
les {bi } sont indépendants.
Le modèle précédent peut s’écrire sous forme matricielle :
(2.2)
Yi = Zi β + Wi bi + ei
ou Zi0 est la matrice (zi1 , ..., zini ) et Wi0 est la matrice (wi1 , ..., wini ).
En regroupant les deux derniers termes en un seul, le model s’écrit :
Yi = Zi β + e∗i
(2.3)
ou e∗i ∼ N (0, Vi (α)) avec Vi (α) = Wi0 QWi + Ri
α représente ici un vecteur de dimension r comprenant les éléments de Q et les éléments
permettant de paramétriser les matrices Ri .
Notons que les e∗i sont aussi indépendants i = 1..., n.
2.3
estimation des paramètres
Cette étape est plus complexe pour les modèles mixtes que pour le modèle linéaire à effets
fixes. Il faut donc ici estimer les composantes de β, mais aussi celles de α (par conséquent
celles de Q et Ri ). Pour cela, plusieurs méthodes sont utilisées mais nous présenterons celle
du maximum de vraissemblance (MLE) et celle du maximum de vraissemblance restreint
(REML).
2.3.1
Estimation par maximum de vraisemblance
La distribution de la variable réponse Yi est une Nni (Zi β, Wi0 QWi + Ri ). En général, la
matrice de variance covariance Wi0 QWi +Ri est definie positive et la proprieté de la loi normale
multidimensionnelle implique que sa densité est donnée par :
f (Yi |β, Q, Ri ) = Li (β, Q, Ri ) =
= Li (β, α) =
Master de Statistique Appliquée
exp {−(Yi − Zi β)0 (Ri + Wi0 QWi )−1 (Yi − Zi β)/2}
ni
1
(2π) 2 |Ri + Wi0 QWi | 2
exp {−(Yi − Zi β)0 (Vi (α))−1 (Yi − Zi β)/2}
ni
1
(2π) 2 |Vi (α)| 2
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
23
La vraisemblance pour les n observations s’écrit :
Ln (β, α) =
n
Y
exp {−(Yi − Zi β)0 (Vi (α))−1 (Yi − Zi β)/2}
ni
1
(2π) 2 |Vi (α)| 2
i=1
On passe à -2log de cette expression et on est conduit à maximiser la log-vraissemblance
Ln (β, α) =
n
X
log(|Vi (α)|) +
i=1
n
X
(Yi − Zi β)0 (Vi (α))−1 (Yi − Zi β),
(2.4)
i=1
afin d’obtenir les estimateurs par maximum de vraissemblance de β et α.
On en déduit que :
∂Ln (β, α)
=0⇔
∂β
n
X
!
Zi0 Vi−1 (α)Zi β =
n
X
i=1
Zi0 Vi−1 (α)Yi
i=1
Et si α est fixe ou connue on a :
β̂(α) =
n
X
!−1
Zi0 Vi−1 (α)Zi
i=1
n
X
Zi0 Vi−1 (α)Yi
(2.5)
i=1
Cependant les estimateurs du maximum de vraisemblance pour le vecteur α des paramètres
de variances sont biaisés même pour des modèles simples. Les estimateurs du maximum de
vraisemblance restreints(REML) sont souvent utilisés pour contourner ce problème.
2.3.2
Estimation par maximum de vraisemblance restreint
Définition 2.3.1. On appelle vraisemblance restreinte, la vraisemblance de H 0 Yi , ou H est
une matrice quelconque à n lignes et de rang maximal tel que H 0 Zi =0.
Dans notre cas, H sera une matrice ni × (ni − p) contenant une base à l’espace vectoriel
orthogonal à celui généré par les colones de Zi .
Comme H 0 Yi ∼N (0, H 0 Vi (α)), la vraisemblance s’écrira :
LR
n (α)
=
n
Y
exp {−(H 0 Yi )0 (H 0 Vi (α)H)−1 (H 0 Yi )/2}
i=1
(2π)
ni −p
2
1
|H 0 Vi (α)H| 2
.
Cette vraisemblance restreinte ne concerne plus que α (β n’intervient pas dans son expression).
Une foi choisie H telle H 0 Zi =0, on montre que cette matrice n’intervient plus dans l’estimation
par maximum de vraisemblance restreinte (Azais, Bardin, et Dhorne 1993).
On passe à -2log de cette expression et on est conduit à maximiser la log-vraissemblance :
L∗n (α) =
n
X
i=1
Master de Statistique Appliquée
log(|H 0 Vi (α)H|) +
n
X
(H 0 Yi )0 (H 0 Vi (α)H)−1 (H 0 Yi ).
(2.6)
i=1
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
24
L’estimation de α se fait donc à l’aide de procédures itératives :Algorithme de NewtonRaphson ou algorithme d’Estimation-Maximisation. Une fois l’estimation α̂ de α obtenue en maximisant l’expression ( 2.6), on obtient alors l’estimation de β en remplaçant α par
α̂ dans l’équation 2.5.
L’estimation des effets aléatoires {b̂i } est basée sur la fonction de densité des {bi } conditionnellement aux données {Yi } . La distribution a posteriori de bi ne dépend que de Yi car
les {bi } et les {ei } sont indépendants. On aura donc :
b̂i = E(bi /Yi ) = Q̂Wi0 V̂i−1 (Yi − Zi β̂)
(2.7)
Le vecteur β̂ est un estimateur EBLUE (Empirical Best Linear Unbiased Estimator) de β.
Le vecteur b̂i est un prédicteur EBLUP (Empirical Best Linear Unbiased Predictor) de bi .
2.4
Inférence sur les paramètres
2.4.1
Paramètres fixes
Quelque soit la méthode utilisée pour estimer α la distribution asymptotique de l’estimateur de β tel que à l’équation ( 2.5) est toujours la même, on a asymptotiquement :
n
X
β̂ ' Np (β, {
Zi0 V̂i−1 (α̂)Zi }−1 )
i=1
Un estimateur de variance covariance de β̂ est donc donné par :
v(β̂) = {
n
X
Zi0 V̂i−1 (α̂)Zi }−1 .
i=1
La variance de β̂j , j-ième élément de β̂, est v(β̂)jj l’élément (j, j) de v(β̂). Dans le modèle
linéaire standard, v(β̂)jj est égale à une constante multipliée par une variable aléatoire χ2ni −p .
Dans ce cas
β̂ − βj
qj
∼ tni −p .
v(β̂)jj
(2.8)
β̂ −β
Dans un modèle mixte, la loi de √j j est complexe.On l’approxime souvent à l’aide d’une
v(β̂)jj
distribution de Student t. Une méthode pour estimer le nombre de degrés de libertés de cette
distribution est la suivante :
– connaissant α̂, et donc la matrice de variance covariance V̂α̂ , on estime v(β̂)jj par linéarisation ;
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
25
– on utilise la méthode de Satterthwaite pour estimer le nombre de degrés de liberté m
de v(β̂)jj
– on utilise ( 2.8), avec ni − p remplacé par m
Plus généralement, soit H0 , l’hypothèse nulle à tester :
ψ = Lβ = ψ0 ,
où L est une matrice de dimension l × p et de rang l.
On montre que sous l’hypothèse nulle,
(ψ̂ − ψ0 )0 (LV̂ L0 )−1 (ψ̂ − ψ0 )
suit approximativement une distribution du χ2 à l degrés de liberté
2.4.2
Paramètres aléatoires
Le plus souvent, les tests sur les effets aléatoires correspondent à la nullité d’une variance :
on peut chercher ainsi à tester la nullité d’un effet "famille génétique", ou "sujet" par
exemple. La première solution consiste à utiliser un test exact de Fisher. En effet, la nullité d’un effet aléatoire correspond strictement à l’absence d’effet individuel ou aléatoire. En
résumé, pour tester la nullité d’une composante de la variance, on peut déclarer l’effet correspondant en fixe et utiliser le test de Fisher correspondant. Seulement, dans le cas équilibré,
ce n’est pas optimal (coursol, 1980).
Une autre option est d’utiliser les tests classiques asymptotiques associés à la méthode du
maximum de vraisemblance : le test du rapport de vraisemblance et le test de Wald.
2.5
2.5.1
Application aux données de la cohorte Albendazole
Effet de l’Albendazol sur la loase
Au vu de toute la théorie précédente, nous voulons à présent modéliser l’effet du traitement
à 3 niveaux (Placebo, Alben+Placebo, Alben), sur la Loa loa, pour pouvoir ainsi apporter
une réponse statistique à notre objectif.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
26
Etant donné que nous voulons modéliser la variabilité inter-sujet et intra-sujet et tenir
compte de la variabilité dûe à l’individu sans s’interresser aux modalités précises de ce facteurs,
nous considèrerons dans notre modèle un seul effet aléatoire spécifique à chaque sujet.(modèle
à intercepte aléatoire)
L’écriture simple du modèle (sous forme de modèle linéaire tel que défini en (2.2)), que nous
postulons pour les donnés est :
Yi = β0 + β1 A1 + β2 A2 + β3 T + β4 (A1 ∗ T ) + β5 (A2 ∗ T ) + δi + ei
(2.9)
où
– A1 , A2 représentent respectivement le traitement2 (Alben+Placebo)
et le traitement3 (Albendazole), β1 et β2 sont les effets respectifs de ces traitements.
le traitement1(Placebo) ne figure pas dans l’écriture du modèle car il est pri comme
niveaux de référence pour l’identifiabilité du modèle.
– β3 représente l’ effet du facteur T, représentant le temps, qui sera pris en continu
– β4 et β5 respectivement les effets des facteurs (A1 ∗T ) et (A2 ∗T ), interaction temps*traitement
– δi est l’effet aléatoire spécifique au sujet i.
– ei est le vecteur résiduel, correspondant aux différentes mesures sur le sujet i
Les bi suivent indépendamment une loi N (0, σs2 ) (σs2 étant la variance inter-sujet), pareil
pour les ei ∼ N (0, Ri ) (Ri étant la matrice de variance intra-sujet) .On ajoute de plus
que les {ei } et les {bi } sont indépendants.
Le précédent modèle décrit en (2.9) peut aussi s’écrire sous une autre forme. C’est d’ailleurs
avec cette nouvelle forme que nous travaillerons beaucoup plus. elle est la suivante :
log(Yijt ) = µ + traitementi + T emps + traitementi ∗ T emps + bj(i) + eijt
(2.10)
où
– traitementi , i = 1..3 représente le facteur étudié traitemennt, à 3 niveaux
(placebo, ALben+placebo, ALbendazole) ;
– Temps représentant le facteur temps toujours pris en continu ;
– traitementi ∗ T emps est l’intéraction temps*traitement ;
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
27
– bj(i) est l’effet aléatoire spécifique au sujet j du traitement i ;
– eijt est le terme résiduel correspondant à la t-ème mesure sur le j-ème sujet du groupe
de traitement i ;
– Yijt est la la t-ème mesure de la charge microfilarienne de Loase sur le j-ème sujet du
groupe de traitement i.
Les bj(i) suivent indépendamment une loi N (0, σs2 ) ,où σs2 est la variance inter-sujet.
De même les eijt ∼ N (0, σε2 ) avec σε2 étant
n ola matrice de variance intra-sujet. On ajoute
de plus que les variables {eijt } et les bj(i) sont indépendantes.
2.5.2
Résultats
Le modèle mixte à un effet aléatoire a été ajusté aux données en utilisant la méthode
REML.
La distribution des charges de "Loa Loa" étant très surdispersée dans la population, il a été
effectué une transformation logarithmique des charges pour limiter le poids des fortes charges.
Les résultats sont donnés dans les tableaux qui suivront et ont été obtenus à l’aide de la
procédure "lme" du package "nlme" du logiciel R. L’interpretation de ces résultats sera fait
selon un seuil de significativité de α = 5%
TAB . 2.1 – Tableau de l’anova du modèle
source de variation
DDL
p-value
intercept
1
<0.0001
traitement
2
0.0194
temps
1
<0.0001
traitement*temps
2
<0.0001
Le tableau 2.1 précédent montre :
– Un effet significatif du traitement, c’est à dire une différence significative entre les trois
traitements ;
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
28
– Un effet très significatif du Temps, c’est-à-dire que les valeures moyennes des charges
microfilariennes sont différentes d’un instant (de mesure) à un autre ;
– Un effet significatif de l’interraction Temps*traitement, cela traduit le fait que l’évolution temporelle de la charge microfilarienne n’est pas la même selon les traitements.
TAB . 2.2 – Estimation des paramètres du modèle mixte modélisant la variance
Paramètre
Estimation
σs
0.76
σε
0.41
Du fait de l’indépendance des variables aléatoires bji et eijt , on déduit de ce modèle que
toutes les mesures prises sur le même individu sont corrélées de cette manière :
\
Cor(Y
ijt , Yijt0 ) = ρ̂ =
σˆs2
σˆs2 + σˆε2
= 0.77.
(2.11)
Cependant, cette corrélation intra-sujet ne semble pas très plausible pour nos données. Il est
donc possible d’améliorer notre modèle avec une corrélation du type :
0
Cor(Yijt , Yijt0 ) = ρ|t−t | ,
possibilité qu’ offre la fonction "lme" de R. Nous obtenons alors les résultats suivants :
TAB . 2.3 – Tableau de l’anova du modèle2
source de variaition
DDL
p-value
intercept
1
<0.0001
traitement
2
0.030
temps
1
<0.0001
traitement*temps
2
0.022
On remarque une légère modification des paramètres du modèle, mais l’interpretation générale sur l’effet de chaque facteur reste la même que précédemment.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
29
L’estimation du paramètre de covariance est :
(2.12)
ρ̂ = 0.532
TAB . 2.4 – Valeurs de plusieurs critères : critère d’Akaike (AIC) et de Schwarz(BIC) pour
les 2 modèles.
Master de Statistique Appliquée
modèle
DDL
AIC BIC
modèle 1
8
812
846
modèle 2
9
724
762
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
30
D’après les résultats du tableau 2.4, on observe que le modèle 2 serait le meilleur selon les
critères AIC et BIC. Mais avant de se lancer dans de quelconques interprétations examinons,
bien les hypotèses posées sur les composantes aléatoires.
Pour la significativité de l’effet aléatoire spécifique à chaque sujet, nous ferons un test de
rapport de vraisemblance (car nous sommes bien dans les conditions asymptotiques, n=56).
Les hypothèses de test sont les suivantes :
H0 : le modèle 0 (sans effet aléatoire) est le bon modèle,
H1 : le modèle 2 (1) est le bon modèle.
On obtient donc :
TAB . 2.5 – Test de significativité de l’effet aléatoire
modèle
DDL
Test
L-ratio
p-valeur
modèle 0
7
modèle 1
8
modèle 1 vs modèle 0
542.62
<0.0001
modéle 2
9
modèle 2 vs modèle 0
628.05
< 0.0001
Le test précédent du tableau 2.5, montre bien que les deux modèles mixtes (modèle 1 et
modèle 2) sont significativement meilleurs que le modèle sans effet aléatoire (modèle 0), ce qui
revèle bien la significativité du facteur aléatoire spécifique à chaque sujet. La significativité
de ce facteur (qui n’est pas un facteur étudié) permet de tenir compte dans notre modèle de
la variabilité due aux différences entre sujets (variabilité des données induite par les sujets).
La vérification graphique des conditions de normalité nous est donnée par la figure 2.1, on
ne constate pas une violation forte de l’hypothèse de normalité, elle semble donc raisonable.
Commentaire
Le modèle retenu avec cette approche est donc le modèle 2.Les coefficients estimés dans
ce modèle sont donnés dans le tableau 2.6.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
31
F IG . 2.1 – test de normalité des effets aléatoires
Q−Q Normal−effet aléatoire sujet
Q−Q Normal−résidu
●●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
2
1.5
●
● ●
●
0
Sample Quantiles
0.5
0.0
●●
●●
●●●
●●
●
●●
●●
●●●
●
●●●
●
●●●●
●●
●
●●●
●●
●●●
●
●
●●
●
●●
●●
−4
−0.5
Sample Quantiles
●
●
●●
●
−2
1.0
●●
●
●
●
−6
−1.5
−1.0
●●
●
●
−2
●
−1
0
1
2
●
−3
Theoretical Quantiles
−2
−1
0
1
2
3
Theoretical Quantiles
– Le coefficient significatif intercept β0 =10.40, représente l’estimation de la charge moyenne
de Loa loa dans le groupe de traitement1 (groupe Placebo), qui est considéré comme
notre groupe de référence.
– Le coefficient traitement 2 β1 =0.44, représentant la différence entre la charge moyenne
de Loa loa dans le groupe 2 (groupe Alben+Placebo) et celle du groupe 1, n’est pas
significatif. Cela signifierait qu’il n’y a pas a priori, de différence entre les charges microfilariennes moyennes dans ces deux groupes.
– Le coefficient traitement 3 β2 =0.003, représentant la différence entre la charge moyenne
de Loa loa dans le groupe 3 (groupe Albendazole) et celle du groupe 1, n’est pas significatif. De même, cela signifierait qu’il n’y a pas, a priori de différence entre les charges
microfilariennes moyenne dans ces deux groupes.
– Le coefficient temps β3 = -0.01, représentant la variabilité des valeures moyennes des
charges de Loa loa suivant les diffrérents instants de mesures, est significative. Cela veut
donc dire que la charge de loase est différente d’un instant de mesure à un autre.
– le coefficient traitement2*temps β4 ,= 0.002, représentant la différence entre les valeurs
moyennes de l’évolution temporelle des charges de Loa loa dans les groupe 2 et groupe
1, ce coefficient pas significatif nous revèle que l’évolution temporelle serait la même
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
32
TAB . 2.6 – Estimation des paramètres du modèle2 modélisant la moyenne
Effets fixes
Paramètre
Estimation
Ecart-type de l’estimateur
p-valeur
intercepte
β0
10.40
0.19
0.000
traitement2
β1
0.44
0.26
0.10
traitement3
β2
0.003
0.26
0.99
temps
β3
-0.01
0.006
0.05
traitement2*temps
β4
0.002
0.008
0.76
traitement3*temps
β5
-0.002
0.008
0.011
dans ces deux groupes.
– le coefficient traitement2*temps, β5 = -0.002, représentant la différence entre les valeurs
moyennes de l’évolution temporelle des charges de Loa loa dans les groupe3 et groupe1,
ce coefficient significatif et négatif nous revèle que les charges de Loa loa baissent mieux
avec le temps dans le groupe 3 que dans le groupe 1.
Le tableau d’anova du modèle 2 (voir tableau 2.3) nous montre un effet significatif du
facteur traitement, bien que nous ne soyons pas très loin du seuil (p-value=0.030).
Aussi ce modèle nous montre un effet très significatif du temps, signifiant que les valeurs moyennes des charges microfilariennes sont différentes d’un instant à un autre.
Ces différences temporelles ne sauraient donc être dues au simple hasard, mais assurément au traitement, ce qui peut bien se confirmer par la significativité de l’interaction
temps*traitement. On peut donc dire avec ce modèle et au risque de 0.05, que nous
avons pu mettre en évidence un effet significatif de l’albendazole sur les charges de loase,
traduit par cette différence significative entre nos trois groupes de traitement.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
C HAPITRE 3
M ODÉLISATION PAR L’A PPROCHE
MARGINALE BASÉE SUR LES ÉQUATIONS
D ’ ESTIMATION GÉNÉRALISÉES (GEE)
Introduction
Les modèles marginaux ont été introduits par Liang et Zeger [7] pour analyser les données
longitudinales normales, non normales, ou discrètes. Les données longitudinales sont des données où les variables explicatives et réponses sont mesurées à différents temps pour chaque
individu, induisant ainsi une corrélation entre ces mesures. Dans ce chapitre, nous verrons
comment il est possible de tenir compte de ce type de corrélation dans nos inférences sur
les coefficients de régression d’un modèle linéaire généralisé. L’approche que nous adapterons
utilisera le concept d’équations d’estimation généralisées (GEE). Cette approche ne spécifie
pas entièrement la distribution conjointe de la variable réponse, mais plutôt une modélisation
de la moyenne et une spécification de la structure de corrélation de travail. Dans le contexte
longitudinal, différentes formes de la structure de corrélation de travail sont utilisées et les
estimateurs sont solutions des GEE. Un élément attrayant de cette approche est que les estimateurs des paramètres du modèle sont convergents, même dans l’éventualité où la structure
de corrélation de travail serait mal spécifiée. Nous terminons ce chapitre par une application
sur les données de la cohorte Albendazol.
3.1
Définitions et hypothèses
Supposons que, pour chaque individu i , nous avons un vecteur Yi =(Yi1 , ...., Yini )0 de plusieurs observations de la variable endogène, ainsi que la matrice de dimension ni × p, Xi =
(xi1 , ..., xini )0 où xij = (xij1 , ....xijp ) représente la valeur des p variables exogènes pour l’observation j de l’individu i. On suppose que la distribution marginale de chaque variable endogène
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
34
Yij étant donnée Xij appartient à la famille exponentielle. Plus précisément, on suppose que
la fonction de densité de Yij étant donné Xij s’écrit :
yij θij − b(θij )
f (yij |xij ) = exp
+ c(yij , φ) , i = 1..., n; j = 1, ..., ni ,
a(φ)
(3.1)
avec E(Yij |xij ) = µij = g −1 (ηij ) = g −1 (x0ij β) pour une fonction de lien g(.) connue. Le paramètre θij est un paramètre canonique et φ est le paramètre de dispersion ; ηij = x0ij β est
le prédicteur linéaire. Le lien entre la ieme composante de ce prédicteur et l’espérence de Yi
s’établit par l’intermédiaire de la fonction de lien g(.). Parmi toutes les fonctions de lien celle
qui permet d’égaler le prédicteur linéaire et le paramètre canonique est appelée fonction de
lien canonique. Les fonctions b(.) et c(.) sont spécifiques à chaque distribution et la fonction
a(φ) est généralement de la forme
φ
,
wij
ou la valeur de φ reste constante pour toutes les ob-
servations, tandis que wij est une valeur connue qui peut varier d’observation en observation.
Cette famille de lois regroupe un grand nombre de lois dont les plus classiques sont : binomiale, poisson, normale, gamma, etc. Dans le tableau ci-après, on décrit pour chacune de
ces lois l’expression du paramètre canonique θ en fonction des paramètres naturels de la loi,
le paramètre φ et les fonctions a(.), b(.) associées (ces expressions s’obtiennent par simple
calcul ; nous ommettrons l’indice ij pour simplifier la lecture du tableau).
loi
B(n,π)
n
P(λ)
N(µ, σ 2 )
θ
b(θ)
a(θ)
π
) b(θ) = ln(1 + eθ )
θ = ln( 1−π
ln(λ)
b(θ) = eθ
θ=µ
θ2
2
b(θ) =
1
n
φ=1
w=n
a(φ) =
φ=1
w=1
a(φ) = 1
φ = σ2
w=1
a(φ) = σ 2
Pour toute distribution de la famille exponentielle donnée en l’equation ( 3.1), l’espérence
et la variance de la variable associée s’exprime à l’aide des fonctions a(.) et b(.). On a donc
ainsi :
E(Yij |xij ) = µij = b0 (θij ),
(3.2)
Var(Yij |xij ) = a(φ)b00 (θij ).
(3.3)
Les égalitées 3.2 et 3.3 sont démontrées en annexe.
Il est aussi tout important de souligner qu’il existe une relation directe entre l’espérance de
Yij |xij et sa variance :
Var(Yij |xij ) = a(φ)b00 (b0−1 (µij )).
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
35
On désignera par la suite par V = b00 ob0−1 cette fonction de variance. D’ou :
Var(Yij |xij ) = a(φ)V (µij ).
Nous donnons dans le tableau suivant l’expression de l’espérance en fonction du (des) paramètre(s) naturel(s), du paramètre canonique ainsi que de la fonction de variance des lois
usuelles de la famille exponentielle.
µ
loi
B(n,π)
n
π
P(λ)
λ
N(µ, σ 2 )
µ
3.2
V (µ)
eθ
1+eθ
θ
µ(1 − µ)
e
µ
θ
1
Equations d’estimation sous l’hypothèse d’indépendance
3.2.1
Estimation des paramètres de régression
Nous allons tout d’abord commencer par estimer le vecteur des coefficients de régression
β en supposant que les composantes d’un vecteur Yi sont indépendantes. Cette hypothèse est
généralement fausse, mais elle nous permet d’amorcer la procédure d’estimation. Dans ce cas
la matrice de variance de Yi est donnée par :
1
1
Vi = Var(Yi ) = φAi2 Ri Ai2 ,
1
avec Ai = Diag{V ar(Yij |xij ), j = 1..., ni } et ou Ri =
1
(Ai2 )−1 Vi (Ai2 )−1
φ
= Ini ×ni est la matrice des
corrélations des éléments du vecteur Yi qui est dans ce cas égale à la matrice identité de dimension ni ×ni . Nous appelons cette matrice la structure de corrélation de "travail" pour Yi .
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
36
Nous obtenons l’estimateur βb de β en maximisant la fonction de vraisemblance du paramètre β sous l’hypothèse d’indépendance. Puisque d’après l’équation ( 3.1), on a :
f (yij |xij ) = exp
yij θij − b(θij )
+ c(yij , φ) , i = 1..., n; j = 1, ..., ni ,
a(φ)
et que l’on suppose que les Yi sont indépendantes, la fonction de vraisemblance est donnée
par :
( n ni
)
n X
ni
X X yij θij − b(θij ) X
L(β, φ, yij ) = exp
+
c(yij , φ)
a(φ)
i=1 j=1
i=1 j=1
(3.4)
Quant à elle, la fonction de log-vraisemblance est donnée par :
n
ni
n X
ni
X
yij θij − b(θij ) X X
+
c(yij , φ).
l(β, φ, yij ) =
a(φ)
i=1 j=1
i=1 j=1
(3.5)
Comme dans le cas de la famille exponentielle, la fonction de vraisemblance est "régulière"
(propriété de la famille exponentielle), on trouve la valeur de β qui la maximise en résolvant
le système d’équations :
∂l(β, φ, yij )
∂βk
k=1...p
(

)
n
ni
XX 1
∂θij
∂θij

=
yij
− b0 (θij )
= [0]p×1
a(φ)
∂β
∂β
k
k
i=1 j=1
k=1...p p×1

(
)
n X
ni
X
∂θij ∂nij
∂θij ∂nij
1

yij
− b0 (θij )
= [0]p×1
=
a(φ)
∂n
∂β
∂n
∂β
ij
k
ij
k
i=1 j=1
k=1...p p×1

(
)
n X
ni
X
1 ∂θij


xijk (yij − µij )
= [0]p×1
=
a(φ)
∂n
ij
i=1 j=1
k=1...p
Master de Statistique Appliquée
p×1
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
37
ou p est le nombre de colonnes de la matrice X. En reécrivant sous forme matricielle on a :
n
X
1
Uindep (β) =
Xi0 ∆i (Yi − µi (β)) = 0
a(φ)
i=1
(3.6)
où Xi = (xi1 , ..., xini )0 , avec xij = (xij1 , ..., xijp ) et µi (β) = (µi1 (β), ..., µini (β))0 .∆i est une
matrice diagonale de dimension ni × ni dont l’élément en position (j, j) est
∂θij
,
∂nij
où θij est le
paramètre canonique de la famille exponentielle.
Ce système n’étant pas linéaire, des méthodes numériques itératives sont utilisées pour sa
résolution, notamment le schéma de Newton-Raphston.
3.2.2
Intervalles de confiance et tests d’hypothèses pour βj
On utilise le fait que β̂ est un EMV de β et par conséquent asymptotiquement on aura
β̂≈ N (β, V̂ ). Ainsi, pour un paramètre individuel βj , soit Vjj , l’élément de V̂ correspondant
à la variance de βj alors de cette proprieté asymptotique de β̂ on a :
"
#
β̂j − βj
≤ z α2 ≈ 1 − α.
P −z α2 ≤ p
Vij
Ceci suggère l’interval de confinace de niveau 1 − α suivant pour βj :
β̂j ± z α2
p
Vij .
Pour tester une hypothèse de la forme H0 : βj = βj0 , la procédure est simple. On calcule tout
β̂j −βj0
.
d’abord sous H0 la statistique de test Z0 = √
Vij
– Si la contre-hypothèse est H1 : βj 6= βj0 , le seuil du test est 2P [N (0, 1) ≥ |z0 |].
– Si la contre-hypothèse est H1 : βj > βj0 , le seuil du test est P [N (0, 1) ≥ z0 ].
– Si la contre-hypothèse est H1 : βj < βj0 , le seuil du test est P [N (0, 1) ≤ −z0 ].
3.3
Équations d’estimation généralisées (GEE)
Les équations d’estimation généralisées sont en fait une généralisation des équations d’estimation ( 3.6) où l’on peut supposer une structure de corrélation de travail autre que l’indépendance pour Ri . Pour compenser le fait que la structure de corrélation de travail puisse ne
pas être la vraie structure de corrélation, la variance de l’estimateur β̂ sera estimée par un
estimateur de variance robuste.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
38
1
1
Soit Vi = Var(Yi ) = φAi2 Ri Ai2 , la matrice de variance de travail pour Yi , où Ri (α) est
une structure de corrélation de travail pour Yi . Ici on suppose que cette matrice contient
certains paramètres inconnus que l’on représente par le vecteur α. L’idée est d’approcher la
vraie structure de corrélation de Yi . Si on spécifie une mauvaise structure, les inférences sur
β seront quand même valides, mais si on spécifie la structure correctement, on aura des inférences plus efficaces (variance des estimateurs plus faibles).
Les équations d’estimation sont ensuite données par :
n
X
Di0 Vi−1 {Yi − µi (β)} = 0,
(3.7)
i=1
où Di = Ai ∆i Xi . Si on pose Ri (α) = Ini ×ni , alors l’equation ( 3.6) se simplifie à l’équation
3.7. Nous donnons plus bas un algorithme permettant de trouver la valeur de l’estimateur β̂
qui résoud 3.6.
Afin d’estimer les paramètres de la matrice de variance et de vérifier l’ajustement du modèle,
Y −µ
on peut définir les résidus eij = √ij00 ij que l’on évalue à β = β̂. On obtient donc à partir de
b (θij )
cette définition de résidus de Pearson :
n
φ̂ =
où N =
Pn
i=1
n
i
1 XX
e2
N − p i=1 j=1 ij
ni est le nombre total d’observations dans l’échantillon et p = dimension(β).
On estime ensuite β en utilisant l’algorithme suivant :
1. Estimer β sous l’hypothèse d’indépendance et dénoter l’estimateur obtenu β̂0 (il est
donc le point initial de notre schéma itératif).
2. Estimer α et φ à partir de β̂(βˆ0 ) et des eij .
1
1
3. Poser Vi = φ̂Ai2 Ri (α̂)Ai2 .
4. Mettre la valeur de β̂ à jour :
β̂m+1 = β̂m +
n
X
i=1
!−1
Di0 Vi−1 Di
n
X
!
n
o
Di0 Vi−1 Yi − µi (βˆm )
.
i=1
5. Itérer les étapes 2 à 4 jusqu’a convergence (différence entre β̂m et β̂m+1 plus petite qu’une
tolérance spécifiée).
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
39
Si Ri (α) était la vraie structure de corrélation pour Yi , alors la variance de β̂ serait estimée
par :
VT =
n
X
!−1
Di0 Vi−1 Di
i=1
α=α̂,φ=φ̂,β=β̂
(à voir dans [11])
Mais comme Ri (α) n’est qu’une matrice de corrélation de travail, il est possible qu’elle ne soit
pas exacte, alors on estime la variance de β̂ par un estimateur appelé estimateur de matrice
de variance sandwich robuste :
VT
n
X
!
Di0 Vi−1 {Yi − µi (β)} {Yi − µi (β)}0 Vi−1 Di
i=1
VT
(3.8)
α=α̂,φ=φ̂,β=β̂
le terme "sandwich" vient du fait que dans l’expression 3.8, une correction empirique est
prise en "sandwich" entre deux estimateurs de variance basés sur le modèle de travail.
3.4
Spécification et estimation de R(α)
Il y a plusieurs manières dont nous pouvons spécifier la structure de corrélation de travail.
Dans cette section nous présenterons une liste des formes les plus courantes pour la structure
de corrélation de travail Ri (α) tout en déterminant l’estimateur de α pour chacune de ces
formes.
3.4.1
Corrélation échangeable
La forme la plus simple de la matrice de corrélation de travail est la matrice identité
(R(α) = Ini ×ni ) où l’on assume que la corrélation entre Yij et Yij 0 est nulle pour j 6= j 0 . Dans
une extension simple de cette strucrure, on fait l’hypothèse que la corrélation entre Yij et Yij 0
est α pour j 6= j 0 . Ce type de corrélation est lacorrélation échangeable. On l’appelle également
la corrélation commune, la corrélation égale, ou la corrélation composée. Dans ce cas, α est
un scalaire et la matrice de corrélation de travail a

1 α α

 α 1 α


R(α) =  α α 1
 . . .
 . . .
 . . .
α α α
la structure suivante :

... α

... α 

. 
. . . .. 

. . . .. 
. 
... 1
Cette hypothèse est généralement appropriée pour des ensembles de données dans lesquels
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
40
les mesures répétées n’ont aucune dépendance de temps. S’il y a peu d’individus et beaucoup
d’observations par individu, une matrice de corrélation de travail échangeable est un bon
choix.Un exemple de ce type de données peut être les différentes mesures prises chez les
individus de la iime famille. La corrélation échangeable suppose un seul facteur de corrélation
entre deux mesures répétées quelconques et la même variance pour chaque mesure répétée.
Afin d’obtenir l’estimateur de α, les estimés des résidus de Pearson sont premièrement calculés
de cette façon :
yij − µ̂ij
r̂ij = p
Vµ̂ij
(3.9)
L’estimateur de α utilisant ces résidus est :
Pni 2 n Pni Pni
1X
u=1
v=1 r̂iu r̂iv −
u=1 r̂iu
.
α̂ =
ni (ni − 1)
φ̂ i=1
3.4.2
Corrélation auto-regressive d’ordre 1 (AR(1))
0
Dans ce type de structure, on suppose que la corrélation entre Yij et Yij 0 = est α|j −j|
pour j 6= j 0 . Dans ce cas α est toujours un scalaire et la matrice de corrélation de travail a la
structure suivante :

1



R(α) = 


α
..
.
ni −1
α
... α
..
..
.
1
.
... ...
α
αni −1 . . .
α







1
Comme cette structure implique que la corrélation diminue à mesure que l’écart entre j et j 0
augmente, ce type de corrélation est indiqué pour des ensembles de données dans lesquels les
mesures répétées ont une dépendance temporelle, l’indice j dénotant l’ordre (chronologique)
dans lequel les mesures ont été prises. En effet, il est souvent raisonnable que les corrélations
entre les mesures répétées prises ensemble dans le temps soient plus fortes que celles prises
après de longs intervalles de temps. Dans ce type de structure, on exploite la corrélation temporelle des mesures répétées. Bref, une matrice de corrélation de travail autorégressive permet
de tenir compte de l’effet de l’autocorrélation temporelle. Une étude de santé dans laquelle
les panels sont représentés par les patients avec plusieurs mesures sur chaque patient dans le
temps est un bon exemple pour ce type de données.
Comme dans la structure de corrélation échangeable, pour trouver la valeur de α̂, on calcule premièrement les estimés des résidus de Pearson r̂ij (voir equation 3.9). L’estimateur de
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
41
α utilisant ces résidus est :
α̂ =
1
n n
i −1
X
X
(K1 − p)φ̂
i=1 j=1
où K1 =
Pn
3.4.3
Corrélation non structurée
i=1 (ni
r̂i,j r̂i,j+1 ,
− 1).
Ce type de structure suppose que la corrélation entre Yij et Yij 0 est αjj 0 pour j 6= j 0 .
La matrice de corrélation de travail non structurée est la plus générale des structures de
corrélations discutées. Elle est donc la suivante :

1
α1,2
...
α1,ni

..
..
 α
.
1
.
 1,2
R(α) =  .
...
...
 ..
αni −1,ni

1
α1,ni . . . αni −1,ni







Cette hypothèse n’impose aucune structure particulière à la matrice de corrélation de travail.
En d’autres termes, aucune structure particulière n’est assumée sur les covariances entre Yij
et Yij 0 pour j 6= j 0 . Ceci implique que chaque paire d’observations a sa propre corrélation.
S’il y a peu d’observations par individu et plusieurs individus, une matrice de corrélation de
travail non structurée est sans doute un bon choix.
Comme dans les sous-sections précédentes, on utilise les estimés des résidus de Pearson r̂ij
de l’ajustement du modèle pour estimer les corrélations. L’estimateur de R(α) utilisant ces
résidus est :
Pn
ni
R̂(α) = P i=1
n Pni
i=1
où

2
g1,1 r̂i,1
g1,2 r̂i,1 r̂i,2
2
r̂ij
j=1 ni
. . . g1,ni r̂i,1 r̂i,ni
..
. g2,ni r̂i,2 r̂i,ni
..
...
.

 g r̂ r̂
2
g2,2 r̂i,2
 2,1 i,2 i,1
G=
..
..

.
.

gni ,1 r̂i,ni r̂i,1 gni ,2 r̂i,ni r̂i,2 . . .
avec guv =
Pn
i=1
G
2
gni ,ni r̂i,n
i




,


I(i, u, v)−1 ,
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
42
et
(
I(i, u, v) =
1 si le panel i (individu) a des observations aux indices u et v
0 sinon.
Malheureusement, la matrice de corrélation ainsi estimée n’est pas nécessairement inversible
et des problèmes numériques peuvent survenir, particulièrement pour des ensembles de données non équilibrés, c’est-à-dire le cas où l’on n’a pas le même nombre d’observations par
panel ou des données manquantes.
En pratique le modèle GEE n’est plus efficace que sur des données équilibrées. Cela n’exclut
pas le fait qu’il puisse avoir des données manquantes.
On dit qu’un jeu de données longitudinales est équilibré lorsque toutes les mesures sont faites
chez tous les individus aux même instants, et à des intervalles de temps réguliers (identiques).
3.5
Application aux données
Tout comme au chapitre précédent nous allons à présent comparer les trois groupes de
traitement (Placebo, Alben+Placebo, Alben), avec une modélisation marginale basée sur les
GEE.
Le 1-er modèle proposé est le suivant :
a. Modélisation de la moyenne
µit = µ + αtraitementi + β.T empsi + γtraitementi ∗T empsi
(3.10)
où
– µit = E(log(Yit )) est l’espérance marginale du logarithme de la charge microfilarienne
de Loa-Loa ;
– αtraitementi représente l’effet du facteur du traitement (placebo ou Alben+Placebo ou
Alben) qu’a reçu le sujet i ;
– β est l’effet du temps du sujet i (tous les sujets n’ayant pas le même nombre de mesures) ;
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
43
– γtraitementi ∗T empsi est l’effet de l’interaction temps*traitement.
b. Modélisation de la variance
La première structure de corrélation de travail que nous postulons à nos données est la structure AR(1), qui dépend d’un seul paramètre ρ
0
Cor(log(Yit ), log(Yit0 )) = ρ|t−t |
3.5.1
(3.11)
Résultats
Les résultats sont donnés dans les tableaux qui suivront et ont été obtenus à l’aide de la
procédure "geeglm" du package "geepack" du logiciel R. L’interprétation de ces résultats sera
toujours faite selon un seuil de significativité de α = 5%.
TAB . 3.1 – Paramètres du modèle marginal modélisant la moyenne
Paramètre Estimation
Ecart-type de l’estimateur
p-valeur
intercept
µ
10.42
0.15
<2e-16
traitement2
α2
0.41
0.217
0.061
traitement3
α3
-0.0078
0.24
0.974
temps
β
-0.012
0.0058
0.034
traitement2*temps
γ2
-0.008
0.0128
0.534
traitement3*temps
γ3
-0.0178
0.0078
0.024
TAB . 3.2 – Paramètre du modèle marginal modélisant la variance : avec correlation du type
AR1
Paramètre Estimation
ρ
Master de Statistique Appliquée
0.903
ecart-type de l’estimateur
0.019
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
44
TAB . 3.3 – Tableau de l’anova du modèle
source de variaition
DDL
p-value
traitement
2
0.061
temps
1
1.4e-05
traitement*temps
2
0.077
Le tableau 3.3 précédent montre que :
– Le facteur traitement n’est pas significatif,
– l’interraction Temps*traitement n’est pas significative.
NB : Les deux facteurs précédents n’étant pas simultanément significatifs, on dira donc
qu’il n’y a pas une différence significative entre les trois traitements.
– Un effet très significatif du Temps, c’est-à-dire que les valeures moyennes des charges
microfilariennes sont différentes d’un instant(de mesure) à un autre.
Au vu de ce résultat, il est tout à fait logique de bien se demander si la variabilité observée sur
les données (revélée par le facteur temps) est due au simple hasard ? Mais avant de répondre à
cette question, nous allons ajuster sur ces données d’autres modèles GEE en changeant juste
les matrices de travail.
TAB . 3.4 – Comparaison des modèles avec différentes structures de travail
structure de travail⇒
Ar1
Echangeable
Indépendante
Non structurée
p-valeur
p-valeur
p-valeur
p-valeur
traitement
0.061
0.032 *
0.00960**
0.61
temps
1.4e-05***
4.6e-08***
2.4e-05***
1.3e-05***
traitement*temps
0.077
3.7e-10***
0.00046***
4.4e-16***
paramètre de variance
ρ=0.903
ρ=0.709
pas de paramètre
Le tableau 3.4 nous montre une très grande variabilité des résultats quand on change
les structures de corrélation de travail, par exemple, l’interaction traitement*temps n’est pas
significative avec la structure autoregressive, tandis qu’elle l’est avec les autres structures.Mais
tous ces différents modèles sont unanimes sur la significativité du facteur temps. Ceci laisse
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
45
quand même croire que le choix d’une matrice de travail la plus proche possible de la réalité
est cruciale.
Mais comme il a été dit dans la théorie, qu’il soit rare que nous connaissions la vraie structure
de matrice de corrélation à utiliser. Ainsi, peu importe le choix de la matrice Ri (α), les
estimateurs de β seraient très similaires d’une structure à l’autre, mais leurs variances seraient
corrigées par un estimateur robuste de la variance, donné par l’expression 3.8. Alors, peu
importe la structure de corrélation, les estimés de β seraient semblables, mais les erreurs
standards sont corrigées.
Le choix de la structure de la matrice Ri (α) est fait selon la connaissance qu’a l’utilisateur
de la corrélation entre les ni mesures. Dans notre cas, les 10 mesures des charges de Loa loa
ayant un ordre chronologique, il est possible de dire qu’elles sont dépendantes les unes des
autres dans le temps et même que les corrélations entre mesures diminuent avec le temps.
C’est pourquoi nous avons pensé que la structure autoregressive reflèterait mieux la réalité.
La structure échengeable a bien aussi été choisie pour nos données.
Reconnaissant qu’il est très difficile d’un point de vue théorique de priviligier une structure
à une autre, les méthodes de validation d’hypothèses et critères de sélection de modèle étant
plus complexes avec cette approche, nous retiendrons néamoins les deux modèles suivants :
– Le modèle avec structure ar1, noté : modèle3 ;
– Le modèle avec structure exchengeable, noté : modèle4.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
C HAPITRE 4
D ISCUSSION ET C ONCLUSION
En général, les modèles marginaux sont recommandés quand l’objectif est de réaliser des
inférences sur la moyenne de la variable réponse, les corrélations entre observations n’étant
que des paramètres de nuisance, alors que les modèles mixtes permettent d’analyser plus
finement le phénomème étudie en fournissant une connaissance de la matrice des variancescovariances et de réaliser des prédictions individuelles. Mais ceci au prix d’hypothèses plus
contraignantes : il faut que le modèle, aussi bien dans sa partie fixe (qui modélise la moyenne)
que dans sa partie aléatoire (qui modélise la variance), soit correctement spécifié. Par ailleurs,
si le nombre d’observations réalisées sur un même sujet est important, les modèles marginaux sont particulièrement deconseillés : il est nécessaire d’utiliser des modèles mixtes qui
permettent de paramétriser la matrice de variance-covariance et de diminuer ainsi le nombre
de paramètres à estimer. Enfin, s’il existe des données manquantes, les modèles mixtes sont
moins contraignants puisqu’ils reposent sur une hypothèse plus faible, à savoir que les données
sont manquantes au hasard, alors qu’elles doivent être manquantes complètement au hasard
si on veur utiliser un modèle marginal.
Il est intéressant d’examiner et de confronter les résultats apportés par les deux approches.
4.1
Comparaison des résultats des deux approches.
Le modèle GEE avec matrice de corrélation de travail "exchangeable" que nous allons
appeller modèle 4, est celui qui semble bien être en accord avec les résultats du modèle
mixte notamment ceux du modèle 1 et modèle 2 du chapitre 2. On peut le voir dans les
tableaux suivants :
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
47
TAB . 4.1 – comparaison des paramètres du modèle 1 modèle 2 et modèle 4
Paramètre
GEE : modele 4
modèle mixte : modèle 1 modèle mixte : modèle 2
intercepte
10.389
10.390
10.40
traitement2
0.449236
0.448
0.438
traitement3
0.025684
0.025
0.002
temps
-0.011752
-0.012
-0.0118
traitement2*temps
0.000174
0.000
-0.0026
traitement3*temps
-0.025784
-0.026
-0.022
TAB . 4.2 – Comparaison des anova des modèles
modèle⇒
GEE : modèle 4
Mixte : modèle1
Mixte : modèle 2
p-valeur
p-valeur
p-valeur
traitement
0.032
0.0194
0.03
temps
4.6e-08
<.0001
<.0001
traitement*temps
3.7e-10
<.0001
0.022
paramètre de variance
ρ=0.709
ρ=0.77
ρ=0.53
Implicitement, le modèle à effets aléatoires modèle 1 estime un écart-type unique pour
l’intercepte aléatoire, et est donc proche du modèle GEE estimée modèle 4, qui fait la même
hypothèse. La corrélation entre les observations dans le modèle GEE est estimée à 0.709. Cette
estimation est très proche du coefficient de corrélation intra-classe issu du modèle 1 :ρ=0.77
(voir (2.9)). De même, la significativité des différents facteurs étudiés est la même dans les
deux modèles.
Il ne serait donc pas abusif de penser que la structure de travail la plus proche de la réalité
est "exchangeable", ce qui nous amenera à priviligier avec l’approche GEE le modèle 4.
Toutefois, dans l’application sur les données de la cohorte Albendazole, l’utilisation d’un
modèle marginal est délicate parce qu’il y’a plusieurs mesures sur un même individu et tous les
individus n’ont pas le même nombre de mesures, présence de valeures manquantes...(Notons
que pour prendre en compte les données manquantes sous l’hypothèse MAR il existe une
extention des GEE : c’est le WGEE)
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
48
L’utilisation d’un modèle mixte serait préférable, car comme nous l’avons vu au chapitre
2, les hypothèses de normalité de l’effet aléatoire et de la rèsiduelle ne sont pas fortement
violées. Pour notre travail, nous retiendrons comme modèle final le modèle 2. Celui-ci nous
revèle alors une différence significative entre les trois groupes de traitement, ce qui répond
bien à une des questions de départ à savoir est-ce qu’il y’a un régime de traitement qui est
plus efficace que les autres. Nous dirons donc qu’il y’a un effet significatif de l’albendazole sur
la microfilaire Loa loa, bien que la p-valeur (p=0.03) du facteur traitement du modèle mixte
retenu ne soit pas très éloignée du seuil α = 5%.
Nous avons pu montrer qu’il y’a une différence entre les trois groupe de traitement. Le groupe
3 ou groupe albendazole comme nous l’avons vu au chapitre 1, lors de l’analyse des profils,
est celui où la baisse de la microfilarémie a été la plus importante. Cependant même dans
ce groupe, il y’a des sujets qui sont restés avec une charge parasitaire ≥ 30000 mf/ml. Par
conséquent ce régime de traitement même s’il permet de diminuer le risque d’effets secondaires
graves ne permettrait de prévenir tous les cas.
Notons enfin qu’il devrait en suivre normalement une comparaison des moyennes dans chaque
groupe par la méthode de Bonferroni, pour pouvoir déterminer plus rigoureusement quel des
trois facteurs est significativement distinct des autres. Cela n’a pas pu être fait dans notre
travail car nous n’avons pas trouvé d’équivalent à ce test pour le modèle mixte avec le logiciel
R. Ces mèthodes de comparaisons multiples, peu dèveloppèes dans les travaux concernant les
modèles mixtes et le logiciel R, pourraient être le sujet principal d’une étude à elles seules.
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
Bibliographie
[1] Jean-Marc Azaïs et Jean-Marc Bardet, Le Modèle Linéaire par l’exemple : Régression,
Analyse de la Variance et plans d’Expériences ; pages 167-188, Toulouse-Paris Septembre
2005.
[2] Jean-louis Foulley, Le Modèle Linéaire Mixte ; pages 167-188, Paris 2003.
[3] Catherine Trottier, Thèse : Estimation dans les modèles linéaires généralisés à effets
aléatoires, Grenoble juillet 1998.
[4] Peter Schlattmann, Mixed effects models for longitudinal data.
[5] Crowder, M.J. et Hand D.J, Analysis of Repeated Measures, London 1990
[6] Lionel RIOU FRANÇA, Les Modèles à Effets Aléatoires Une introduction,INSERM 2008
[7] Liang K-Y , Zeger S.L, Longitudinal data analysis using generalized linear models,pages
13-22. Biometrika 1986.
[8] Jean-louis Foulley, Le Modèle Linéaire Mixte ; pages 167-188, Paris 2003.
[9] A.Guéguen,M.Zins,J.P.Nakache, Utilisation des modèles marginaux et des modèles mixtes
dans l’analyse des données Longitudinales,page 57-73, revue de statistique appliquée,
tome 48, n˚ 3, 2000
[10] Laura A.Thomson, R(and S-Plus)Manual to Accompany Agresti’s Categorical Data Analysis, 2009.
[11] Søren Højsgaard and Ulrich Halekoh, Generalized Estimating Equations (GEE) , University of Aarhus, 2007.
[12] J.Kamgno, J. Gardons, M.Boussinesq, Essai de prévention des encéphalopaties à Loa Loa
post ivermectine par l’administration d’une faible dose, Médecine tropicale, 2000.
[13] J.Kamgno, M.Boussinesq, Effect of a single dose (600mg) of albendazole on Loa loa microfilaremia, Parasite 9, 2002 .
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
50
[14] M.Boussinesq, J.Kamgno, J.Gardon, et al Serious reactions after mass treatment of
onchocerciasis with ivermectin in an area endemic for Loa loa infection. Lancet 350,
page 18-22, 1997
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
Annexe
Code R
library(nlme)
library(lattice)
library(geepack)
library(foreign)
library(survival)
library(splines)
library(epicalc)
###############################################################################
#
Chagement des données d’inclusion
#
###################################################################################"
inclusion<-read.table("inclusion.txt",h=T)
inclusion1<-inclusion[,-3]
#############################################################################
#
Fonction pour comparaison des groupes à l’inclusion
#
#############################################################################
f2=function(inclusion)
{
for(i in 2:ncol(inclusion))
{
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
52
suj<-1:nrow(inclusion)
g1<-inclusion[suj[inclusion$Group==1],]
g2<-inclusion[suj[inclusion$Group==2],]
g3<-inclusion[suj[inclusion$Group==3],]
c=names(inclusion)[i]
print(c)
print(summary(c(g1[,i],g2[,i],g3[,i])))
require(graphics)
print(kruskal.test(inclusion[,i]~Group,data=inclusion))
boxplot(inclusion[,i]~Group,data=inclusion)
}
}
f2(inclusion1)
##################################################################################
Alben<-read.table ("Alben.txt",header=T)#jeu de données avec supression
#des 3 individus sur lesquel on a eu
#que les charges les deux premiers mois
trmt <- as.factor(rep(c(rep(1,18),rep(2,20),rep(3,19)),10))
sujet <- as.factor(rep(seq(1,57,1),10))
seance <- as.numeric(c(rep(1,57),rep(3,57),rep(5,57),rep(7,57),rep(9,57),rep(11,57),r
explore <- c(Alben$RLoaM0, Alben$RLoaM2, Alben$RLoaM4,Alben$RLoaM6, Alben$RLoaM8, Alb
data.frame(trmt=trmt,sujet=sujet,seance=seance,explore=explore)
ALBEN<-data.frame(traitement=trmt,sujet=sujet,Temps=seance,explore=explore)
#################################################################################
#Disposition des données sous forme groupée pour qu’elles soient bien analysées
#par les fonctions des modèles
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
53
+
Profil des charges
###############################################################################
ALBEN1 <- ALBEN[order(as.numeric(ALBEN$sujet)),]
ALB<-ALBEN1[-(211:220),]#supression d’un individu supplémentaire
followup.plot(ALBEN1$sujet, ALBEN1$Temps, ALBEN1$explore,by=ALBEN1$traitement)
title(main="profil des charges ",ylab="mm",xlab="moi") # profils des charges
#######################################################################################
#
model1:avec correlation du type CS(compound Symetry),et test sur la distributions
#
des effets aléatoires ,avec na.omit
#######################################################################################
modele1<-lme(log(explore)~traitement*Temps,data=ALB,na.action=na.omit,random=~1|suje
summary(modele1)A
anova(modele1)
opar<-par(mfrow=c(1,2))
random<-ranef(modele1)[[1]]
qqnorm(random,main="Q-Q Normal-effet aléatoire sujet")
qqline(random,col="red")
qqnorm(residuals(modele1,type="pearson"),main="Q-Q Normal-résidu")
qqline(residuals(modele1,type="pearson"),col="red")
#####################################################################################
#
model2:avec correlation du type AR1
###############################################################################
modele2<-lme(log(explore)~traitement*Temps,data=ALB,na.action=na.omit,correlation=corAR
summary(modele2)
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010
54
anova(modele2)
opar<-par(mfrow=c(1,2))
random2<-ranef(modele2)[[1]]
qqnorm(random2,main="Q-Q Normal-effet aléatoire sujet")
qqline(random2,col="red")
qqnorm(residuals(modele2,type="pearson"),main="Q-Q Normal-résidu")
qqline(residuals(modele2,type="pearson"),col="red")
AIC(modele1,modele2)# comparaison des 2 modèles selon les critères AIC BIC
#################################################################################
#
utilisation des modèles marginaux:GEE
###############################################################################
ALBEN1 <- ALBEN[order(as.numeric(ALBEN$sujet)),]
#Tri des données par sujets
# pour le mettre sur le bon
# format utilisable par geepack
model3<-geeglm(log(explore)~traitement*Temps,id=sujet,family=gaussian,data=ALB,na.actio
summary(model3)
anova(model3)
plot(model3)
Master de Statistique Appliquée
c
NJOMO NANA Yannick Lionel ENSP
2008-2010

Documents pareils