Njomo - MASTAT
Transcription
Njomo - MASTAT
EFFET DE L’ALBENDAZOLE SUR LA MICRO-FILAIRE LOA LOA Par : NJOMO NANA YANNICK LIONEL Etudiant en master II de Statistique Appliquée Dirigé par : Dr. Joseph KAMGNO Directeur du CRFILMT Sous la supervision du : Pr. Henri GWET Chef de Département de Mathématiques et Sciences Physiques à l’ENSP de Yaoundé Responsable du Master de Statistique Appliquée. Octobre 2010 Table des matières liste des figures iii liste des tableaux iv Dédicaces v Remerciements vi Lexique des termes techniques vii Résumé viii Abstract ix Résumé exécutif x Introduction 1 1 Etude descriptive des données 3 1.1 Présentation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Analyse descriptive des données d’inclusion . . . . . . . . . . . . . . . . . . . . 4 1.2.1 Variables quantitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2.2 Variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3 Comparaison des groupes de traitement à l’inclusion . . . . . . . . . . . . . . . 12 1.3.1 Tests de comparaison . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.4 Profil graphique des charges dans les différents groupes . . . . . . . . . . . . . 16 1.5 Comparaison des courbes de survie . . . . . . . . . . . . . . . . . . . . . . . . 18 1.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 ii 2 modélisation de l’effet de l’albendazole sur la Loa loa par l’approche conditionnelle 20 2.1 La modélisation avec effets aléatoires . . . . . . . . . . . . . . . . . . . . . . . 20 2.2 Structure du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3 estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.4 2.5 . . . . . . . . . . . . . . . 22 2.3.1 Estimation par maximum de vraisemblance 2.3.2 Estimation par maximum de vraisemblance restreint . . . . . . . . . . 23 Inférence sur les paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.4.1 Paramètres fixes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.4.2 Paramètres aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Application aux données de la cohorte Albendazole . . . . . . . . . . . . . . . 25 2.5.1 Effet de l’Albendazol sur la loase . . . . . . . . . . . . . . . . . . . . . 25 2.5.2 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3 Modélisation par l’Approche marginale basée sur les équations d’estimation généralisées(GEE) 33 3.1 Définitions et hypothèses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2 Equations d’estimation sous l’hypothèse d’indépendance . . . . . . . . . . . . 35 3.2.1 Estimation des paramètres de régression . . . . . . . . . . . . . . . . . 35 3.2.2 Intervalles de confiance et tests d’hypothèses pour βj . . . . . . . . . . 37 3.3 Équations d’estimation généralisées (GEE) . . . . . . . . . . . . . . . . . . . . 37 3.4 Spécification et estimation de R(α) . . . . . . . . . . . . . . . . . . . . . . . . 39 3.5 3.4.1 Corrélation échangeable . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3.4.2 Corrélation auto-regressive d’ordre 1 (AR(1)) . . . . . . . . . . . . . . 40 3.4.3 Corrélation non structurée . . . . . . . . . . . . . . . . . . . . . . . . . 41 Application aux données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.5.1 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 4 Discussion et Conclusion 4.1 46 Comparaison des résultats des deux approches. . . . . . . . . . . . . . . . . . . 46 Bibliographie 48 Annexe 51 Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 Table des figures 1.1 Diagramme de la variable Age . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2 Diagramme de la variable Creat . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.3 Diagramme de la variable GPT . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.4 Diagramme de la variable GOT . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.5 Diagramme de la variable Hb . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.6 Diagramme de la variable LoaM0 . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.7 Boîte à moustache Age en fonction des groupes . . . . . . . . . . . . . . . . . 13 1.8 boîte à moustache LoaM0 en fonction des groupes 1.9 Profil moyen des charges de Loa loa dans les 3 groupes . . . . . . . . . . . . . 17 . . . . . . . . . . . . . . . 15 1.10 Profil médian des charges de Loa loa dans les 3 groupes . . . . . . . . . . . . . 18 1.11 Courbes de survie de Kaplan-Meier dans les 3 groupes 2.1 . . . . . . . . . . . . . 19 test de normalité des effets aléatoires . . . . . . . . . . . . . . . . . . . . . . . 31 Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 Liste des tableaux xii 1 résumé des variables et comparaison des groupes selon chacune d’elle . . . . . 2 Comparaison des anova des modèles retenus . . . . . . . . . . . . . . . . . . . xiii 1.1 Résumés des variables quantitatives 1.2 Résumé des variables qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3 Comparaison des 3 groupes selon l’Age . . . . . . . . . . . . . . . . . . . . . . 13 1.4 comparaison des 3 groupes selon la variable Creat . . . . . . . . . . . . . . . . 14 1.5 comparaison des 3 groupes selon la variable GPT . . . . . . . . . . . . . . . . 14 1.6 Comparaison des 3 groupes selon la variable GOT . . . . . . . . . . . . . . . . 14 1.7 Comparaison des 3 groupes selon la variable Hb . . . . . . . . . . . . . . . . . 15 1.8 comparaison des 3 groupes selon la variable LoaM0 . . . . . . . . . . . . . . . 15 1.9 test de Log-Rank de comparaison des 3 courbes de survie . . . . . . . . . . . . 18 2.1 Tableau de l’anova du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.2 Estimation des paramètres du modèle mixte modélisant la variance . . . . . . 28 2.3 Tableau de l’anova du modèle2 2.4 Valeurs de plusieurs critères : critère d’Akaike (AIC) et de Schwarz(BIC) pour . . . . . . . . . . . . . . . . . . . . . . . 5 . . . . . . . . . . . . . . . . . . . . . . . . . . 28 les 2 modèles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.5 Test de significativité de l’effet aléatoire . . . . . . . . . . . . . . . . . . . . . . 30 2.6 Estimation des paramètres du modèle2 modélisant la moyenne . . . . . . . . . 32 3.1 Paramètres du modèle marginal modélisant la moyenne . . . . . . . . . . . . . 43 3.2 Paramètre du modèle marginal modélisant la variance : avec correlation du type AR1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.3 Tableau de l’anova du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.4 Comparaison des modèles avec différentes structures de travail . . . . . . . . . 44 4.1 comparaison des paramètres du modèle 1 modèle 2 et modèle 4 4.2 Comparaison des anova des modèles . . . . . . . . . . . . . . . . . . . . . . . . 47 Master de Statistique Appliquée . . . . . . . . 47 c NJOMO NANA Yannick Lionel ENSP 2008-2010 Dédicaces Je dédie ce mémoire à ma Maman et à la mémoire de mon feu papa, en qui j’ai vu Jesus-Christ vivre pour la première fois. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 Remerciements Je tiens à exprimer ma gratitude et mes sincères remerciements à toutes les personnes qui, d’une manière ou d’une autre, ont contribué à la realisation de ce mémoire. Je pense particulièrement : À Dieu tout puissant sans qui ce travail n’aurait eu lieu. À tout le personnel enseignant du master de statistique appliquée pour tous leurs enseignements et pour toutes les connaissances dont ils nous ont enrichi durant ces deux dernières années. Il s’agit de : ♦ Pr Henri GWET ♦ Pr Bernard ROYNETTE ♦ Pr J. C. THALABARD ♦ Pr O. HILI ♦ Dr E.P. NDONG NGUEMA ♦ Dr J. FEHRENBACH ♦ Dr E. LEPENNEC ♦ Dr Armel YODE ♦ Dr M. NDOUMBE ♦ Dr Y. EMVUDU ♦ Dr J.J. TEWA ♦ Dr Jacques TAGOUDJEU Au Docteur Joseph KAMGNO pour son encadrement, sa patience et ses conseils durant mon stage au CRFIL. A monsieur TCHATCHUENG Jules Brice, Doctorant en statistique appliquée, pour ses multiples conseils et astuces, également pour sa disponibilité malgrè ses travaux. À touts mes camarades du master statistique 2008-2010, avec qui nous avons passé de bons moments. À mes frères Yves Arsene et Cedric Igor, pour leur amour. Je ne saurai oublier toute la grande famille du GBEEC, pour leur soutien spirituel. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 Lexique des termes techniques 1. Loa loa= parasite qui est est à l’origine de la loase. 2. Loase= maladie developpée apprès infection de Loa loa. 3. Microfilaremie= charge parasitaire. 4. Charge parasitaire= nombre de parasites, généralement contenus dans un millilitre de sang. 5. Albendazole= médicament généralement utilisé pour le traitement des vers. 6. Filariose= maladie causée par une filaire. 7. GEE= "Generalized Estimating Equations". 8. 0nchocercose= 9. Anova= "Analysis of variance" Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 Résumé Le traitement des filarioses (Onchocercose et filariose lymphatique) dans les zones endémiques pour la loase pose des problèmes d’effets secondaires graves. Ces effets secondaires sont dû à la destruction massive des microfilaires de loase chez les individus hypermicrofilaremiques (≥30000mf/ml). Une façon de prévenir ces effets secondaires serait d’administrer chez ces patients hypermicrofilarémiques un prétraitement qui abaisserait les charges de loase en dessous du seuil à risque. C’est dans cette optique que nous avons entrepris un essai clinique randomisé en double aveugle, dont l’objectif était d’evaluer l’effet de l’albendazole sur la microfilaremie à Loa loa. Pour cette étude, 60 personnes ont été inclus et équirépartis dans trois groupes de traitement : groupe placebo ; groupe albendazol+placebo ; groupe albendazole. L’étude s’est étendue sur une période de 24 mois, où tous les 2 mois le prélèvement des charges de loa loa puis le traitement sou jacent à chaque groupe étaient effectués. Notre étude étant longitudinale, avec pour objectif de mettre en évidence un éventuel effet de l’albendazole sur la Loa loa. Nous avons premièrement utilisé des tests de comparaison non paramétriques, notamment celui de Kruskal-wallis, pour établir s’il existe une différence entre les trois groupes de traitement à l’inclusion de l’étude. Un modèle mixte (à intercepte aléatoire) et un autre modèle basée sur les équation d’estimations généralisées (GEE), ont ensuite été utilisé pour comparer l’évolution des charges parasitaires dans les différents groupes. Nous avons ainsi pu mettre en évidence un effet significatif de l’albendazole sur la Loa loa, traduit par l’observation d’une différence significative entre nos trois groupes de traitement. Mots-clés : Loa loa, Loase, Onchocercose, filariose lymphatique, Albendazole, placebo, microfilaremique, microfilaires ,modèle mixte, GEE Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 Abstract The treatment of the filarioses (lymphatic Onchocercose and filariose) in the endemic zones for the loase poses problems of side serious effects. These side effects are the consequences of massive destruction of the microfilaries of loase on hypermicrofilaremic individuals (≥30000mf/ml). A way of preventing these side effects would be to manage among these hypermicrofilaremic patients a pretreatment, which would lower the loads of loase below the risk threshold. It is accordingly that we undertook a clinical trial randomized as a double blind man, whose objective was to evaluate the effect of the Albendazole on the microfilaremy with Loa loa. For this study, 60 patients were included and balanced in three groups of treatment : placebo group ; albendazol+placebo group ; albendazolegroup. The study extended over a period of 24 months, where every 2 months the taking away of the loads of Loa loa then unclaimed the penny treatment with each group were carried out. Our study being longitudinal, with for objective to highlight a possible effect of the albendazole on Loa loa. We firstly used nonparametric tests of comparison, in particular that of Kruskal-Wallis, to establish if there is a difference between the three groups of treatment at the inclusion. A mixed model (with random intercept) and another model based on the generalized estimating equations (GEE), was then used to compare the evolution of the parasitic loads in the various groups. We thus could highlight a significant effect of the albendazole on Loa loa, translated by the observation of a significant difference between our three groups of treatment. key-words :Loa loa, Loase, Onchocercose, lymphatic filarisis , Albendazole, placebo, microfilaremic, microfilaries, mixed model, GEE. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 Résumé exécutif Problématique Depuis plusieurs années, la communauté scientifique est préocupé par des cas d’encéphalopaties décrits, après traitement par ivermectine, chez des sujets présentant de fortes microfilarémies à Loa loa. Ces accidents sont dus à une action brutale et massive du médicament sur les microfilaires de Loa loa. Une façon de résoudre ce problème d’effets secondaires graves serait d’administrer aux patients hypermicrofilaremiques un prétraitement qui abaisserait les charges parasitaires en dessous du seuil à risque (30000mf/ml). C’est ainsi que le CRFILMT a initié au Cameroun un essai ("essai albendazole"), dont l’objectif était d’évaluer l’effet de l’albendazole sur la microfilaremie à Loa loa. Cet essai s’est étendu sur une période de 24 mois. 60 partients adultes ont été retenus pour l’étude et répartis en trois groupes. ils recevaient soit un placebo, soit l’albendazole puis un placebo, soit l’albendazole. Les prèlèvement des charges microfilariennes et l’administration du médicament ont été réalisés tous les deux mois de la période d’étude. Le problème posé est donc celui de savoir s’il existe une différence significative entre les trois groupes de traitement, et si c’est le cas, quel est le traitement parmi les trois qui baisserait vraiment les charges de Loa loa . Méthodologie Pour apporter une solution statistique à ces problèmes, nous avons utilisé : 1. Une analyse descriptive des données et comparaison des groupes à l’inclusion, pour avoir la tendance de départ et voir si déjà à l’inclusion, il n’y avait pas hétérogeneité entre les groupes selon les variables d’inclusion. 2. L’approche conditionelle d’analyse des données repétées ou modèle mixte : elle est une extension des modèles linéaires classiques.Elle consistent à faire intervenir des effets aléatoires spécifiques à chaque sujet, et c’est donc l’espérance de la variable réponse Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 xi conditionnellement à ces effets aléatoires qui est modèlisée sous forme d’une combinaison linéaire des variables explicatives, incluant à la fois des facteurs fixes et des facteurs aléatoires. C’est l’introduction des facteurs aléatoires spécifiques à chaque sujet qui permet de modéliser la structure de corrlation des données.Dans cette approche donc la moyenne et la variance de la variable réponse sont modélisées en même temps. 3. L’approche Marginale d’analyse des données repétées par les GEE (General Estimating Equation) :elle a été introduite par Liang et Zeger. Les GEE dérivent des modèles linéaires généralisés (GLM) et permettent de traiter le cas des données corrélées en modélisant séparement la matrice de corrélation (celle qui definit la liason entre les observations sur un même sujet) de la moyenne, il n’est donc pas nécéssaire ici de définir toute la distribution de la variable réponse comme c’est le cas dans les GLM, seuls les deux premiers moments de la variable réponse sont suffisants, ils sont l’analogue de modèles de quasi-vraisemblance pour données longitudinales. Résultats 1. Pour La comparaison des groupes à l’inclusion, elle a été faite selon toute les variables d’inclusion. On conclura d’après la table 1, que les trois groupes de traitement ne sont pas significativement distincts selon chacune des variables d’inclusion. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 xii Variable Groupe Moyenne p-value (kruskal-wallis) Age groupe 1 47.30 0.3 groupe 2 43.85 groupe 3 50.50 groupe 1 0.80 groupe 2 0.79 groupe 3 0.73 groupe 1 39.21 groupe 2 31.15 groupe 3 28.05 groupe 1 22.23 groupe 2 18.74 groupe 3 21.11 groupe 1 11.12 groupe 2 11.10 groupe 3 11.45 groupe 1 35720 groupe 2 52780 groupe 3 56300 Creat GOT GPT Hb LoaM0 0.8 0.11 0.42 0.59 0.55 TAB . 1 – résumé des variables et comparaison des groupes selon chacune d’elle 2. Les modèles retenus, utilisant respectivement les deux approches méthodologiques évoquées précédemment sont présentés dans le tableau 4.2. Il ressort donc de ces modèles que notre facteur traitement est significatif, c’est à dire qu’il y a une différence significative entre les trois groupes de traitement Placebo, Alben+placebo, et Albendazole. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 xiii TAB . 2 – Comparaison des anova des modèles retenus modèle⇒ GEE :modèle4 Mixte : modèle1 Mixte : modèle 2 facteurs ⇓ p-valeur p-valeur p-valeur traitement 0.032 0.0194 0.03 temps 4.6e-08 <.0001 <.0001 traitement*temps 3.7e-10 <.0001 0.022 paramètre de variance ρ=0.709 ρ=0.77 φ=0.53 Conclusion et recommandations Le travail qui nous avait été demandé était de comparer les trois groupes de traitement Placebo, ALben+placebo, Albendazole et déterminer lequel des trois fait baisser au mieux les charges microfilariennes. La base de données disponible comportait 60 patients à l’inclusion, mais dans notre travail (partie méthodologique) nous avons exclu 4 de ces sujets sur lesquels on avait que les observations d’inclusion. Après une analyse descriptive et comparaison d’inclusion, nous avons pu à l’aide d’un modèle linéaire mixte et d’un modèle GEE, mettre en evidence l’effet de l’albendazole sur la microfilaremie à Loa loa. S’illustrant par une différence significative entre les trois groupes de traitement. L’analyse des profils nous a permis de voir que le groupe Albendazole (groupe 3) se distingue des autres, c’est dans ce groupe que la baisse de la microfilaremie a été la plus importante. Seulement même dans ce groupe il y’a des sujets qui sont restés avec une charge parasitaire ≥ 30000mf/ml. Parconséquent ce régime même s’il permet de diminuer le risque d’effets secondaires graves, ne permettrait pas de prévénir tous les cas. Il devrait aussi normalement en suivre une comparaison des moyennes dans chaque groupe par la méthode de Bonferroni, pour pouvoir déterminer rigoureusement lequel des trois facteurs est significativement distinct des autres. Cela n’a pas pu être fait dans notre travail car nous n’avons pas trouver d’équivalent à ce test pour le modèle mixte avec le logiciel R. L’utilisation du logiciel SAS permettrait de contourner cette difficulté. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 Introduction Contexte et problématique Depuis plusieurs années, des cas d’encéphalopaties (effets secondaires graves au niveau du cerveau) sont décrits après le traitement de l’onchocerchose par le mectizan dans les zones de co-endemie onchocercose et loase. Le principal facteur de risque d’effets secondaires étant les fortes charges de loases (> 30000 mf|ml) [14]. Pour prévenir ces effets, il faut donc trouver un médicament qui permette de baisser les charges de Loase en dessous du seuil à risque, avant de traiter l’onchocercose par le Mectizan. C’est ce qui a motivé la mise en place de l’essai de prévention par l’Albendazol. Il s’agit d’une étude longitudinale conduite par le Centre de Recherche sur les Filarioses et autres Maladies tropicale (CRFILMT).Cette étude a duré 24 mois, de 2007 à 2009. 60 patients ont été inclus et équirépartis de façon aléatoire dans trois groupes de traitement : le groupe placebo, le groupe Albendazole+Placebo, et le groupe Albendazole. Objectif L’objectif principal de l’étude était de comparer l’effet des deux régimes d’albendazole sur la microfilaremie à Loa loa. C’est à dire dire si les trois thérapies sont significativement différentes, et, si oui, laquelle des trois limiterait effectivement le facteur de risque d’effets secondaires. Revue de littérature Avant la réalisation de cet essai, le CRFIL a entrepris plusieurs études sur le sujet, telles que : l’essai à faible dose d’ivermectine en 2000 [12], l’essai à faible dose d’albendazole (600mg) en 2002 [13] et bien d’autres. Tous ces précedents essais rapportent globalement que l’administration de ces différentes thérapies à ces doses ne permet pas de prévenir la survenue d’une encéphalopathie post-thérapeutique. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 2 Plan du travail Afin de pouvoir donner une réponse statistique à l’objectif , nous organiserons notre travail de la manière suivante : – Au chapitre 1, nous ferons une analyse descriptive des données d’inclusion, avec comparaison des groupes à l’inclusion . – Au chapitre 2, nous présenterons l’approche conditionnelle basée sur le modèle linéaire mixte et nous l’appliquerons ensuite sur les données de la cohorte Albendazol. – Au chapitre 3, nous présenterons l’approche marginal basée sur les GEE (general estimating equation) et nous l’appliquerons ensuite sur les données de la cohorte Albendazol. – Nous finirons au chapitre 4 par une discussion sur les deux approches appliquées à nos données. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 C HAPITRE 1 E TUDE DESCRIPTIVE DES DONNÉES 1.1 Présentation des données Les données disponibles proviennent d’un essai randomisé en double aveugle nommé : "essai albendazole", qui a été mené au Cameroun en 2007, dans une région où l’onchocercose et la loase sont en co-endémie. A l’issue d’une enquête préliminaire, 60 individus ont été retenus pour l’essai. Les critères d’inclusion étaient : – l’âge (15-65) – l’état général (satisfaisant) – la microfilaremie (> 150mf /ml) Les sujets pour l’essai clinique ont ensuite été répartis de façon aléatoire dans 3 groupes de 20 personnes chacun avec stratification sur les charges parasitaires, les strates étant :15-30000, 30000-50000, > 50000. L’étude s’est étalée sur une période de 24 mois où, tous les deux mois, des prélèvements, puis un traitement, étaient attribués. – Dans le 1er groupe, les patients ont reçu un placebo tous les 2 mois pendant 10 mois. – Dans le 2-ème groupe, les patients ont reçu le traitement (albendazol à 800 mg) les 2 premiers mois, puis un placebo les 8 derniers mois. – Dans le 3-ème groupe, les patients ont reçu le traitement (albendazol à 800 mg) tous les 2 mois pendant 10 mois. Ainsi donc, sur un individu de notre base de donnés, on a les informations suivantes : a- l’identifiant ; b- l’âge ; c- le sexe ; d- le groupe de traitement ; Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 4 e- les différents paramètres biochimiques (créatinine, GPT, GOT, Hb) ; f- les différentes mesures des charges microfilarienes (10 mesures pour celui qui a participé à l’étude jusqu’à la fin). 1.2 Analyse descriptive des données d’inclusion Toute tentative de modélisation nécessite au préalable une analyse descriptive des données. Nous allons d’abord faire une étude descriptive des données d’inclusion, pour détecter les dissymétries ou encore les valeurs atypiques. 1.2.1 Variables quantitatives – Age :l’âge des individus ; – LoaM0 : la microfilaremie (charge microfilarienne) au premier mois ; – Creat : la créatinine, qui est un indicateur de l’état du rein ; – GOT : indicateur de l’état de fonctionnement du foie ; – GPT : autre indicateur de l’état de fonctionnement du foie ; – Hb : l’hémoglobine, qui est un indicateur d’anémie. Les quatres dernières variables précédentes (Creat, GOT, GPT, Hb) sont des paramètres biochimiques qui indiquent l’état de l’individu à l’inclusion. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 5 Analyses univariées Les statistiques élémentaires sont contenues dans le tableau 1.1 ci-dessous TAB . 1.1 – Résumés des variables quantitatives Variable Min Moyenne ecart-type max Age 18 47.22 13.70 65 Creat 0.00 0.77 0.18 1.20 GOT 16.00 32.81 16.56 90.60 GPT 6.40 20.69 17.88 121.81 Hb 8.35 11.22 1.13 14.60 LoaM0 11040 48266 42964.47 197060 D’après le tableau 1.1, on remarque une grande hétérogénéité entre les 6 varaibles considérées, les ordres de grandeur distincts pour les moyennes, min et max, ce qui n’est pas étonnant, car ces variables ne sont pas de la même nature. Il serait également très important d’avoir des informations sur la distribution de chacune de ces variables. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 6 Variable Age histogram 0 20 40 60 80 20 30 40 50 60 Age 20 30 40 50 60 N = 60 Bandwidth = 5.436 0 2 4 6 8 Frequency 0.020 0.010 0.000 Density 12 Age F IG . 1.1 – Diagramme de la variable Age test de normalité de Shapiro-Wilk de la variable Age : W = 0.9391, p-value = 0.004929. La densité estimée (trait continu ) de la variable Age montre que l’échantillon est issu d’une population homogène. Elle est visiblement différente de la densité d’une loi normale de mêmes caractéristiques (trait interrompu), ce qui est bien confirmé par le test de Shapiro-Wilk précédent. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 7 Variable Creat histogram 20 0 5 10 Frequency 1.0 0.0 Density 2.0 Creat 0.0 0.5 1.0 0.4 0.8 1.2 Creat 0.0 0.4 0.8 1.2 N = 60 Bandwidth = 0.06108 0.0 ● F IG . 1.2 – Diagramme de la variable Creat test de normalité de Shapiro-Wilk de la variable Creat : W = 0.9352, p-value = 0.003317. La distribution de cette variable semble être proche de celle d’une loi normale, cependant elle présente une valeur aberrante, et une assymetrie. le test de Shapiro-Wilk est tout aussi significatif au seuil de 0.05. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 8 Variable GPT histogram 30 20 0 10 Frequency 0.03 0.00 Density 0.06 40 GPT 0 20 60 100 N = 60 Bandwidth = 2.362 0 20 60 100 140 GPT 100 ● 60 ● ● 20 ● ● ● F IG . 1.3 – Diagramme de la variable GPT test de normalité de Shapiro-Wilk de la variable GPT : W = 0.5572, p-value = 3.53 × 10−12 . La distribution de cette variable est significativement distincte de celle d’une loi normale, on constate aussi bien la présence de plusieurs valeures aberrantes. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 9 Variable GOT histogram 25 0 0.00 5 15 Frequency 0.02 Density 0.04 GOT 0 20 40 60 80 100 N = 60 Bandwidth = 4.42 20 40 60 80 100 GOT ● ● ● 20 40 60 80 ● ● F IG . 1.4 – Diagramme de la variable GOT test de normalité de Shapiro-Wilk de la variable GOT : W = 0.7744, p-value = 3.285 × 10−8 . La distribution de la variable GOT est plus ou moins symétrique, mais n’est pas gaussienne (p-value<0,05), et on observe 5 valeures aberrantes. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 10 Variable Hb histogram 20 15 10 0 5 Frequency 0.02 0.00 Density 0.04 Hb 0 20 40 60 80 100 N = 60 Bandwidth = 4.42 8 9 10 12 14 Hb 9 11 13 ● ● ● F IG . 1.5 – Diagramme de la variable Hb test de normalité de Shapiro-Wilk de la variable Hb : 0.9827, p-value = 0.5509. La distribution de la variable Hb présente une assymetrie ; cependant le test de Shapiro-Wilk n’a pas pu mettre en évidence une différence significative avec la loi gaussienne (p-value =0.5). Variable LoaM0 test de normalité de Shapiro-Wilk de la variable LoaM0 : W = 0.6945, p-value = 6.952 × 10−10 . D’après la figure 1.6, la distribution de la variable LoaM0 (charge microfilarienne initiale) ne présente aucune particularité, le test de Shapiro-Wilk nous révèle qu’elle se distingue significativement de la loi gaussienne. On note aussi 8 valeures aberrantes. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 11 0 5 15 25 histogram Frequency 1.5e−05 0.0e+00 Density LoaM0 0 50000 150000 N = 60 Bandwidth = 7239 0 50000 150000 LoaM0 150000 ● ● ● ● ● ● 50000 ● F IG . 1.6 – Diagramme de la variable LoaM0 1.2.2 Variables qualitatives le résumé des variables qualitatives est contenu dans le tableau ci-dessous TAB . 1.2 – Résumé des variables qualitatives Variable fréquence par modalité Sexe M=34,F=26 Groupe de traitement traitement1=20,traitement2=20,traitement3=20 Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 12 1.3 Comparaison des groupes de traitement à l’inclusion L’objectif de cette section est de déterminer, à partir des données d’inclusion, les différences significatives existantes entre le groupe de traitement 1 (placebo), le groupe de traitement 2 (Alben+placebo) et le groupe de traitement 3 (Albendazole). 1.3.1 Tests de comparaison A partir d’un ensemble de données, on vérifie premièrement la normalité de la distribution, soit au moyen d’un test de Shapiro- Wilk, soit d’une manière graphique. Puis selon les cas, il est nécessaire de tester l’égalité des variances au moyen du test de Bartlett . Si les données sont distribuées suivant une distribution connue, par exemple suivant une distribution normale, on applique des tests paramétriques pour comparer les moyennes de chacun de ces ensembles de données. En revanche, si elles n’ont pas une distribution connue, on doit appliquer des tests de comparaison non paramétriques. Nos variables étant presque toutes non normales, nous nous attarderons seulement sur des tests non paramétriques qui nous seront utiles, notamment celui de Kruskal-Wallis. Test de Kruskal-Wallis Le test de Kruskall-Wallis est la version non paramétrique du test d’analyse de variance à 1 facteur. La seule différence est que le test s’exerce sur une moyenne de rangs. Il sert à tester l’hypothèse que les k échantillons viennent de populations dont la tendance centrale est égale. Le test est vivement recommandé dans tous les cas où l’on ignore la loi de distribution d’une variable, que l’on possède un petit échantillon et que l’on veut comprarer plusieurs groupes d’individus dans l’échantillon. Dans l’ANOVA simple, on avait un seul facteur à k modalités, mais il existe plusieurs conditions d’emploi de cette procédure : normalité des variables, variance égale, . . . . Si ces conditions ne sont pas respectées, on peut alors utiliser le test de Kruskal et Wallis, qui va permettre l’étude des liaisons entre un caractère quantitatif et un caractère qualitatif à k classes. H0 : µ1 = ... = µk ; contre, H1 : ∃µi 6= µj . La statistique de test est : k X Wj2 12 H= − 3(N + 1), N (N + 1) j=1 nj où Wj est la somme des rangs de l’échantillon j, N l’effectif total, nj l’effectif de l’échantillon j. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 13 Sous H0 , la statistique suit assymptotiquement χ2 (k − 1). On obtient une région critique de la forme W = {H > kd(k − 1, 1 − α)} où kd est le quantile de la loi du Khi-deux. 1-Comparaison des groupes selon l’age 20 30 40 50 60 Age 1 2 3 F IG . 1.7 – Boîte à moustache Age en fonction des groupes Min 1er Qu Médiane Moyenne 3ième Q Max Groupe 1 18 39.75 50. 47.30 56 64 Groupe 2 25 32.25 40 43.85 58.25 65 Groupe 3 20 40.75 53 50.50 63.25 65 Test de comparaison Kruskal-Wallis chi-squared = 2.414, df = 2, p-value = 0.2991 TAB . 1.3 – Comparaison des 3 groupes selon l’Age Le test précedent ne permet pas de rejetter l’hypothèse d’égalité des moyennes d’âges dans les trois groupes. Il n’y a donc pas, à priori, une association entre l’âge des patients et le traitement (1, 2 ou 3). Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 14 2-Comparaison selon Creat Min 1er Qu Médiane Moyenne 3ième Q Max Groupe 1 0.54 0.70 0.78 0.80 0.88 1.2 Groupe 2 0.53 0.69 0.72 0.79 0.93 1.11 Groupe 3 0 0.65 0.78 0.73 0.89 1.01 Test de comparaison Kruskal-Wallis chi-squared = 0.3029, df = 2, p-value = 0.8595 TAB . 1.4 – comparaison des 3 groupes selon la variable Creat Les résultats du tableau 1.4 montrent que les 3 groupes de traitement ne sont pas significativement distincts selon la créatinine (Creat). 3-Comparaison selon GPT Min 1er Qu Groupe 1 9.30 12.53 16.90 Groupe 2 8.77 11.67 Groupe 3 6.40 14.00 Test de comparaison Médiane Moyenne 3ième Q Max 22.23 24.72 62.70 14.60 18.74 17.80 73.60 16.05 21.11 19.08 121.80 Kruskal-Wallis chi-squared = 1.6955 , df = 2, p-value = 0.4284 TAB . 1.5 – comparaison des 3 groupes selon la variable GPT Les résultats du tableau 1.5 montrent qu’on n’a pas pu mettre en évidence une association entre les différents groupes de traitement et la variable GPT. 4-Comparaison selon GOT Min 1er Qu Médiane Moyenne 3ième Q Max Groupe1 19.40 24.50 30.35 39.21 50.48 88.40 Groupe2 16 20.80 26.50 31.15 30.80 90.60 Groupe3 16.60 21.10 28.75 28.05 34.45 43.80 Test de comparaison Kruskal-Wallis chi-squared = 4.3165, df = 2, p-value = 0.1155 TAB . 1.6 – Comparaison des 3 groupes selon la variable GOT Les résultats de la table 1.6 montrent que les 3 groupes de traitement ne sont pas significativement distincts selon la variable GOT. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 15 Min 1er Qu Médiane Groupe 1 8.57 10.45 Groupe 2 8.35 Groupe 3 9.32 Test de comparaison Moyenne 3ième Q Max 11.30 11.12 11.85 12.40 10.50 10.75 11.10 11.65 13.70 10.67 11.50 11.45 11.95 14.60 Kruskal-Wallis chi-squared = 1.0408, df = 2, p-value = 0.5943 TAB . 1.7 – Comparaison des 3 groupes selon la variable Hb 5-Comparaison selon Hb Les résultats du tableau 1.7 montrent que les 3 groupes de traitement ne sont pas significativement différents selon la variable Hb. 5-Comparaison selon LoaM0 200000 LoaM0 ● ● 150000 ● ● 100000 ● ● 50000 ● ● 1 2 3 F IG . 1.8 – boîte à moustache LoaM0 en fonction des groupes Min 1er Qu Médiane Moyenne 3ième Q Max Groupe 1 20860 24500 30080 35720 39980 69120 Groupe 2 11040 30350 37010 52780 61620 169800 Groupe 3 15460 20500 29090 56300 60970 197100 Test de comparaison Kruskal-Wallis chi-squared = 1.176, df = 2, p-value = 0.5554 TAB . 1.8 – comparaison des 3 groupes selon la variable LoaM0 Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 16 Les résultats de la figure 1.8 et du tableau 1.8 montrent une différence entre le deuxième groupe et les autres groupes, les charges de loase semblent plus élevées dans le groupe 2 (ceci peut se voir au niveau des médianes). Seulement, le test de Kruskal-Wallis de la table 1.8 manque de puissance pour mettre en évidence cette différence. L’hypothèse d’égalité des moyennes des charges microfilariennes dans les 3 groupes de traitements n’est donc pas rejettée. 1.4 Profil graphique des charges dans les différents groupes 100000 150000 200000 50000 charge de Loa loa (mf /ml) profil des charges dans le groupe placebo 0 zone de seuil à risque (30000) 5 10 15 20 25 Temps (en mois) 3e+05 2e+05 1e+05 zone de seuil à risque (30000) 0e+00 charge de Loa loa (mf /ml) 4e+05 profil des charges dans le groupe Alben+placebo 5 10 15 20 25 Temps (en mois) Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 17 150000 100000 50000 charge de Loa loa (mf /ml) 200000 profil des charges dans le groupe Albendazole 0 zone de seuil à risque (30000) 5 10 15 20 25 Temps (en mois) 4e+05 charge de loa loa 3e+05 traitement 1 2 2e+05 3 1e+05 5 10 15 20 25 Temps F IG . 1.9 – Profil moyen des charges de Loa loa dans les 3 groupes Les figures 1.9 et 1.10 confirment encore le précédent constat selon lequel, les charges de Loa loa semblent plus élevées dans le groupe2 à l’inclusion ainsi qu’au cour du suivi. Mais globalement, on peut voir au travers de ces différents profils, que dans les groupes Placebo et Alben+placebo, il n’y a pas une tendance particulière, les charges de Loa loa ne semblent pas vraiment diminuer avec le temps, la majorité des sujets, surtout dans le groupe Alben+placebo, restent presque au même niveau de charge qu’ils avaient à l’inclusion. Pourtant dans le groupe Albendazole on note quand même une sorte de tendance de baisse Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 18 4e+05 charge de loa loa 3e+05 traitement 1 2 2e+05 3 1e+05 5 10 15 20 25 Temps F IG . 1.10 – Profil médian des charges de Loa loa dans les 3 groupes surtout les premiers mois de l’étude (8 premiers mois), puis, après une stabilisation durant le reste de l’étude. Seulement ce ne sont que des appréciations visuelles. 1.5 Comparaison des courbes de survie Nous nous proposons, dans cette partie de l’analyse, de comparer les traitements à l’aide d’une analyse des courbes de survie. Nous définissons ici comme censure tous ceux pour qui l’évènement d’intérêt n’est pas observé à la fin de l’étude (à la fin des 24 mois). L’évènement d’interêt étant ici la baisse des charges en dessous du seuil à risque d’effets secondaires, ce seuil est de 30000 mf/ml. De même, seront censurés tous les patients perdus de vue retenus pour le test (3 patients sur qui on n’avait que l’observation d’inclusion ont été enlevés de la base de données). Obsevés Espérés (O−E)2 E (O−E)2 V Groupe 1 18 7.98 7.98 3.95e-31 7.93e-31 Groupe 2 19 5.80 9.21 1.26e+00 2.77e+00 Groupe 3 19 10.59 7.18 1.62e+00 3.06e+00 Groupe N LOG-RANK, chisq = 5, df = 2, p-value =0.083 TAB . 1.9 – test de Log-Rank de comparaison des 3 courbes de survie Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 1.0 19 Groupe1 groupe2 0.0 0.2 0.4 0.6 0.8 Groupe3 0 50000 100000 150000 F IG . 1.11 – Courbes de survie de Kaplan-Meier dans les 3 groupes Le test du LOG-RANK, test d’egalité des fonctions de risque cumulé de baisse des charges microfilariennes en desous de 30000mf/ml dans les trois groupes, nous montre qu’il n’y a pas de différence significative entre les trois traitements (p-value = 0.0833 ). Cependant, au regard de la figure 1.11, on remarque que les différentes coubes de survie se croisent, situation qui biaiserait éventuellement la perfomance du test de Log-Rank précédent. Nous ne saurons donc conclure avec pertinence sur la validité des résultats du tableau 1.9. 1.6 Conclusion Au regard des précédentes analyses descriptives et comparaisons des groupes à l’inclusion, il ressort qu’il n’y a pas de différence significative entre les trois groupes de patients (Placebo, Alben+placebo,Albendazole) suivant chacune des autres variables d’inclusion. A l’inclusion donc les trois groupes de patients sont homogènes, résultat qui n’est qu’une confirmation que le protocole de l’essai n’aurait pas introduit des biais naïfs inclusifs. Toutefois ces différentes analyses faites dans ce chapitre, analyse à l’inclusion et comparaison des courbes de survie , ne sauraient être des outils efficaces pour répondre à notre objectif , puisqu’elles n’utilisent qu’une partie des données disponibles, induisant ainsi une grande perte d’information. Elle constituent néamoins une étape fondementale dans la construction des modèles des chapitres suivants. Nous allons donc, dans les prochains chapitres, présenter les principaux outils méthodologiques d’analyse des données repétées, et les appliquer sur les données de la "cohorte Albendazole". Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 C HAPITRE 2 MODÉLISATION DE L’ EFFET DE L’ ALBENDAZOLE SUR LA Loa loa PAR L’ APPROCHE CONDITIONNELLE 2.1 La modélisation avec effets aléatoires Dans tout relevé d’expérience, les données présentent une certaine variabilité. L’intérêt d’une étude statistique réside justement dans l’analyse de celle-ci. Les modèles à effets aléatoires constituent un moyen plus élaboré d’étudier cette variabilité. Ainsi, l’introduction d’effets aléatoires permet, d’une part, de séparer la variabilité totale en deux parties : la variabilité due aux effets aléatoires et celle que l’on affecte aux erreurs, d’autre part, elle permet de modéliser la corrélation entre les variables endogènes. Mais qu’est-ce qu’un effet aléatoire ? Tentons de répondre à cette question à l’aide d’une illustration basée sur un exemple purement fictif dans lequel on oppose les deux natures possibles des effets : effet fixe/effet aléatoire. Imaginons que l’on s’intéresse à l’effet de trois types de médicaments sur des maux de tête sévères. On dispose pour cela d’un échantillon de 12 personnes souffrant régulièrement de ces maux de tête, et on donne à chacun un type de médicament de façon à ce que chaque type soit administré à quatre personnes différentes. Pour chaque personne, on relève, après chacune des quatre prises du médicament (en quatre occasions différentes), le temps de disparition des maux de tête. On a donc mentionné deux facteurs pouvant avoir effet : le médicament administré et la personne concernée. Ainsi, chaque niveau du facteur médicament apparaît important et l’on aimerait en mesurer l’effet sur le soulagement des maux du malade. Ce facteur est donc considéré comme facteur à effet fixe. Cependant, les 12 personnes ne sont qu’un échantillon de l’ensemble de toutes les personnes souffrant de ces maux. Ce qui est alors intéressant, c’est de mesurer la variabilité des données induites par ces personnes. Ceci représentera une des composantes de la variabilité totale. Le Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 21 facteur personne est donc considéré comme facteur à effet aléatoire. Grâce à cette notion d’effet aléatoire, les modèles linéaires classiques ne contenant que des effets fixes ont pu être enrichis et élargis en y introduisant des effets aléatoires pour donner naissance aux modèles linéaires mixtes, l’objet de ce chapitre, qui permettent eux de modéliser la corrélation entre les mesures (sur le même individu). Dans ce chapitre nous présenterons donc la structure du modèle mixte, ses différentes proprietés, ainsi que les différentes méthodes d’estimation de ses paramètres avec des inférences, puis nous ferons une application sur les données de la "cohorte ALbendazole". 2.2 Structure du modèle Soit ni le nombre d’observations réalisées sur l’individu i, on note Yi = (yi1 , ...yini ) le vecteur des réponses et Xi = (xi1 , ...xini ) le vecteur des covariables , i = 1, ...n pour lequel chacune des ni composantes est elle même un vecteur de covariables. Le modèle mixte pour données normales s’écrit : 0 yij = zij0 β + wij bi + eij (2.1) ou – zij = zij (xij ) est un vecteur de dimension p fonction appropriée du vecteur des covariables. Dans la plupart des cas, 1 est la première composante de zij ; – wij = wij (xij ) est un vecteur de dimension q, également fonction du vecteur des covariables xij . Dans la plupart des cas, wij est un sous vecteur de zij ; – β est un vecteur de dimension p représentant les effets dans la population, c’est le vecteur des paramètres des effets fixes ; – bi est un vecteur de dimension q, représentant les effets pour le sujet i, c’est le vecteur des effets aléatoires spécifiques au sujet i. On pose commme hypothèse sur ces effets aléatoires :bi ∼ N (0, Q) ; – ei = (ei1 , ..., eini ) est un vecteur de dimension ni , représentant en réalité le vecteur résiduel. On pose comme hypothèse : les ei ∼ N (0, Ri ). On ajoute, de plus, que les {ei } et Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 22 les {bi } sont indépendants. Le modèle précédent peut s’écrire sous forme matricielle : (2.2) Yi = Zi β + Wi bi + ei ou Zi0 est la matrice (zi1 , ..., zini ) et Wi0 est la matrice (wi1 , ..., wini ). En regroupant les deux derniers termes en un seul, le model s’écrit : Yi = Zi β + e∗i (2.3) ou e∗i ∼ N (0, Vi (α)) avec Vi (α) = Wi0 QWi + Ri α représente ici un vecteur de dimension r comprenant les éléments de Q et les éléments permettant de paramétriser les matrices Ri . Notons que les e∗i sont aussi indépendants i = 1..., n. 2.3 estimation des paramètres Cette étape est plus complexe pour les modèles mixtes que pour le modèle linéaire à effets fixes. Il faut donc ici estimer les composantes de β, mais aussi celles de α (par conséquent celles de Q et Ri ). Pour cela, plusieurs méthodes sont utilisées mais nous présenterons celle du maximum de vraissemblance (MLE) et celle du maximum de vraissemblance restreint (REML). 2.3.1 Estimation par maximum de vraisemblance La distribution de la variable réponse Yi est une Nni (Zi β, Wi0 QWi + Ri ). En général, la matrice de variance covariance Wi0 QWi +Ri est definie positive et la proprieté de la loi normale multidimensionnelle implique que sa densité est donnée par : f (Yi |β, Q, Ri ) = Li (β, Q, Ri ) = = Li (β, α) = Master de Statistique Appliquée exp {−(Yi − Zi β)0 (Ri + Wi0 QWi )−1 (Yi − Zi β)/2} ni 1 (2π) 2 |Ri + Wi0 QWi | 2 exp {−(Yi − Zi β)0 (Vi (α))−1 (Yi − Zi β)/2} ni 1 (2π) 2 |Vi (α)| 2 c NJOMO NANA Yannick Lionel ENSP 2008-2010 23 La vraisemblance pour les n observations s’écrit : Ln (β, α) = n Y exp {−(Yi − Zi β)0 (Vi (α))−1 (Yi − Zi β)/2} ni 1 (2π) 2 |Vi (α)| 2 i=1 On passe à -2log de cette expression et on est conduit à maximiser la log-vraissemblance Ln (β, α) = n X log(|Vi (α)|) + i=1 n X (Yi − Zi β)0 (Vi (α))−1 (Yi − Zi β), (2.4) i=1 afin d’obtenir les estimateurs par maximum de vraissemblance de β et α. On en déduit que : ∂Ln (β, α) =0⇔ ∂β n X ! Zi0 Vi−1 (α)Zi β = n X i=1 Zi0 Vi−1 (α)Yi i=1 Et si α est fixe ou connue on a : β̂(α) = n X !−1 Zi0 Vi−1 (α)Zi i=1 n X Zi0 Vi−1 (α)Yi (2.5) i=1 Cependant les estimateurs du maximum de vraisemblance pour le vecteur α des paramètres de variances sont biaisés même pour des modèles simples. Les estimateurs du maximum de vraisemblance restreints(REML) sont souvent utilisés pour contourner ce problème. 2.3.2 Estimation par maximum de vraisemblance restreint Définition 2.3.1. On appelle vraisemblance restreinte, la vraisemblance de H 0 Yi , ou H est une matrice quelconque à n lignes et de rang maximal tel que H 0 Zi =0. Dans notre cas, H sera une matrice ni × (ni − p) contenant une base à l’espace vectoriel orthogonal à celui généré par les colones de Zi . Comme H 0 Yi ∼N (0, H 0 Vi (α)), la vraisemblance s’écrira : LR n (α) = n Y exp {−(H 0 Yi )0 (H 0 Vi (α)H)−1 (H 0 Yi )/2} i=1 (2π) ni −p 2 1 |H 0 Vi (α)H| 2 . Cette vraisemblance restreinte ne concerne plus que α (β n’intervient pas dans son expression). Une foi choisie H telle H 0 Zi =0, on montre que cette matrice n’intervient plus dans l’estimation par maximum de vraisemblance restreinte (Azais, Bardin, et Dhorne 1993). On passe à -2log de cette expression et on est conduit à maximiser la log-vraissemblance : L∗n (α) = n X i=1 Master de Statistique Appliquée log(|H 0 Vi (α)H|) + n X (H 0 Yi )0 (H 0 Vi (α)H)−1 (H 0 Yi ). (2.6) i=1 c NJOMO NANA Yannick Lionel ENSP 2008-2010 24 L’estimation de α se fait donc à l’aide de procédures itératives :Algorithme de NewtonRaphson ou algorithme d’Estimation-Maximisation. Une fois l’estimation α̂ de α obtenue en maximisant l’expression ( 2.6), on obtient alors l’estimation de β en remplaçant α par α̂ dans l’équation 2.5. L’estimation des effets aléatoires {b̂i } est basée sur la fonction de densité des {bi } conditionnellement aux données {Yi } . La distribution a posteriori de bi ne dépend que de Yi car les {bi } et les {ei } sont indépendants. On aura donc : b̂i = E(bi /Yi ) = Q̂Wi0 V̂i−1 (Yi − Zi β̂) (2.7) Le vecteur β̂ est un estimateur EBLUE (Empirical Best Linear Unbiased Estimator) de β. Le vecteur b̂i est un prédicteur EBLUP (Empirical Best Linear Unbiased Predictor) de bi . 2.4 Inférence sur les paramètres 2.4.1 Paramètres fixes Quelque soit la méthode utilisée pour estimer α la distribution asymptotique de l’estimateur de β tel que à l’équation ( 2.5) est toujours la même, on a asymptotiquement : n X β̂ ' Np (β, { Zi0 V̂i−1 (α̂)Zi }−1 ) i=1 Un estimateur de variance covariance de β̂ est donc donné par : v(β̂) = { n X Zi0 V̂i−1 (α̂)Zi }−1 . i=1 La variance de β̂j , j-ième élément de β̂, est v(β̂)jj l’élément (j, j) de v(β̂). Dans le modèle linéaire standard, v(β̂)jj est égale à une constante multipliée par une variable aléatoire χ2ni −p . Dans ce cas β̂ − βj qj ∼ tni −p . v(β̂)jj (2.8) β̂ −β Dans un modèle mixte, la loi de √j j est complexe.On l’approxime souvent à l’aide d’une v(β̂)jj distribution de Student t. Une méthode pour estimer le nombre de degrés de libertés de cette distribution est la suivante : – connaissant α̂, et donc la matrice de variance covariance V̂α̂ , on estime v(β̂)jj par linéarisation ; Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 25 – on utilise la méthode de Satterthwaite pour estimer le nombre de degrés de liberté m de v(β̂)jj – on utilise ( 2.8), avec ni − p remplacé par m Plus généralement, soit H0 , l’hypothèse nulle à tester : ψ = Lβ = ψ0 , où L est une matrice de dimension l × p et de rang l. On montre que sous l’hypothèse nulle, (ψ̂ − ψ0 )0 (LV̂ L0 )−1 (ψ̂ − ψ0 ) suit approximativement une distribution du χ2 à l degrés de liberté 2.4.2 Paramètres aléatoires Le plus souvent, les tests sur les effets aléatoires correspondent à la nullité d’une variance : on peut chercher ainsi à tester la nullité d’un effet "famille génétique", ou "sujet" par exemple. La première solution consiste à utiliser un test exact de Fisher. En effet, la nullité d’un effet aléatoire correspond strictement à l’absence d’effet individuel ou aléatoire. En résumé, pour tester la nullité d’une composante de la variance, on peut déclarer l’effet correspondant en fixe et utiliser le test de Fisher correspondant. Seulement, dans le cas équilibré, ce n’est pas optimal (coursol, 1980). Une autre option est d’utiliser les tests classiques asymptotiques associés à la méthode du maximum de vraisemblance : le test du rapport de vraisemblance et le test de Wald. 2.5 2.5.1 Application aux données de la cohorte Albendazole Effet de l’Albendazol sur la loase Au vu de toute la théorie précédente, nous voulons à présent modéliser l’effet du traitement à 3 niveaux (Placebo, Alben+Placebo, Alben), sur la Loa loa, pour pouvoir ainsi apporter une réponse statistique à notre objectif. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 26 Etant donné que nous voulons modéliser la variabilité inter-sujet et intra-sujet et tenir compte de la variabilité dûe à l’individu sans s’interresser aux modalités précises de ce facteurs, nous considèrerons dans notre modèle un seul effet aléatoire spécifique à chaque sujet.(modèle à intercepte aléatoire) L’écriture simple du modèle (sous forme de modèle linéaire tel que défini en (2.2)), que nous postulons pour les donnés est : Yi = β0 + β1 A1 + β2 A2 + β3 T + β4 (A1 ∗ T ) + β5 (A2 ∗ T ) + δi + ei (2.9) où – A1 , A2 représentent respectivement le traitement2 (Alben+Placebo) et le traitement3 (Albendazole), β1 et β2 sont les effets respectifs de ces traitements. le traitement1(Placebo) ne figure pas dans l’écriture du modèle car il est pri comme niveaux de référence pour l’identifiabilité du modèle. – β3 représente l’ effet du facteur T, représentant le temps, qui sera pris en continu – β4 et β5 respectivement les effets des facteurs (A1 ∗T ) et (A2 ∗T ), interaction temps*traitement – δi est l’effet aléatoire spécifique au sujet i. – ei est le vecteur résiduel, correspondant aux différentes mesures sur le sujet i Les bi suivent indépendamment une loi N (0, σs2 ) (σs2 étant la variance inter-sujet), pareil pour les ei ∼ N (0, Ri ) (Ri étant la matrice de variance intra-sujet) .On ajoute de plus que les {ei } et les {bi } sont indépendants. Le précédent modèle décrit en (2.9) peut aussi s’écrire sous une autre forme. C’est d’ailleurs avec cette nouvelle forme que nous travaillerons beaucoup plus. elle est la suivante : log(Yijt ) = µ + traitementi + T emps + traitementi ∗ T emps + bj(i) + eijt (2.10) où – traitementi , i = 1..3 représente le facteur étudié traitemennt, à 3 niveaux (placebo, ALben+placebo, ALbendazole) ; – Temps représentant le facteur temps toujours pris en continu ; – traitementi ∗ T emps est l’intéraction temps*traitement ; Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 27 – bj(i) est l’effet aléatoire spécifique au sujet j du traitement i ; – eijt est le terme résiduel correspondant à la t-ème mesure sur le j-ème sujet du groupe de traitement i ; – Yijt est la la t-ème mesure de la charge microfilarienne de Loase sur le j-ème sujet du groupe de traitement i. Les bj(i) suivent indépendamment une loi N (0, σs2 ) ,où σs2 est la variance inter-sujet. De même les eijt ∼ N (0, σε2 ) avec σε2 étant n ola matrice de variance intra-sujet. On ajoute de plus que les variables {eijt } et les bj(i) sont indépendantes. 2.5.2 Résultats Le modèle mixte à un effet aléatoire a été ajusté aux données en utilisant la méthode REML. La distribution des charges de "Loa Loa" étant très surdispersée dans la population, il a été effectué une transformation logarithmique des charges pour limiter le poids des fortes charges. Les résultats sont donnés dans les tableaux qui suivront et ont été obtenus à l’aide de la procédure "lme" du package "nlme" du logiciel R. L’interpretation de ces résultats sera fait selon un seuil de significativité de α = 5% TAB . 2.1 – Tableau de l’anova du modèle source de variation DDL p-value intercept 1 <0.0001 traitement 2 0.0194 temps 1 <0.0001 traitement*temps 2 <0.0001 Le tableau 2.1 précédent montre : – Un effet significatif du traitement, c’est à dire une différence significative entre les trois traitements ; Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 28 – Un effet très significatif du Temps, c’est-à-dire que les valeures moyennes des charges microfilariennes sont différentes d’un instant (de mesure) à un autre ; – Un effet significatif de l’interraction Temps*traitement, cela traduit le fait que l’évolution temporelle de la charge microfilarienne n’est pas la même selon les traitements. TAB . 2.2 – Estimation des paramètres du modèle mixte modélisant la variance Paramètre Estimation σs 0.76 σε 0.41 Du fait de l’indépendance des variables aléatoires bji et eijt , on déduit de ce modèle que toutes les mesures prises sur le même individu sont corrélées de cette manière : \ Cor(Y ijt , Yijt0 ) = ρ̂ = σˆs2 σˆs2 + σˆε2 = 0.77. (2.11) Cependant, cette corrélation intra-sujet ne semble pas très plausible pour nos données. Il est donc possible d’améliorer notre modèle avec une corrélation du type : 0 Cor(Yijt , Yijt0 ) = ρ|t−t | , possibilité qu’ offre la fonction "lme" de R. Nous obtenons alors les résultats suivants : TAB . 2.3 – Tableau de l’anova du modèle2 source de variaition DDL p-value intercept 1 <0.0001 traitement 2 0.030 temps 1 <0.0001 traitement*temps 2 0.022 On remarque une légère modification des paramètres du modèle, mais l’interpretation générale sur l’effet de chaque facteur reste la même que précédemment. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 29 L’estimation du paramètre de covariance est : (2.12) ρ̂ = 0.532 TAB . 2.4 – Valeurs de plusieurs critères : critère d’Akaike (AIC) et de Schwarz(BIC) pour les 2 modèles. Master de Statistique Appliquée modèle DDL AIC BIC modèle 1 8 812 846 modèle 2 9 724 762 c NJOMO NANA Yannick Lionel ENSP 2008-2010 30 D’après les résultats du tableau 2.4, on observe que le modèle 2 serait le meilleur selon les critères AIC et BIC. Mais avant de se lancer dans de quelconques interprétations examinons, bien les hypotèses posées sur les composantes aléatoires. Pour la significativité de l’effet aléatoire spécifique à chaque sujet, nous ferons un test de rapport de vraisemblance (car nous sommes bien dans les conditions asymptotiques, n=56). Les hypothèses de test sont les suivantes : H0 : le modèle 0 (sans effet aléatoire) est le bon modèle, H1 : le modèle 2 (1) est le bon modèle. On obtient donc : TAB . 2.5 – Test de significativité de l’effet aléatoire modèle DDL Test L-ratio p-valeur modèle 0 7 modèle 1 8 modèle 1 vs modèle 0 542.62 <0.0001 modéle 2 9 modèle 2 vs modèle 0 628.05 < 0.0001 Le test précédent du tableau 2.5, montre bien que les deux modèles mixtes (modèle 1 et modèle 2) sont significativement meilleurs que le modèle sans effet aléatoire (modèle 0), ce qui revèle bien la significativité du facteur aléatoire spécifique à chaque sujet. La significativité de ce facteur (qui n’est pas un facteur étudié) permet de tenir compte dans notre modèle de la variabilité due aux différences entre sujets (variabilité des données induite par les sujets). La vérification graphique des conditions de normalité nous est donnée par la figure 2.1, on ne constate pas une violation forte de l’hypothèse de normalité, elle semble donc raisonable. Commentaire Le modèle retenu avec cette approche est donc le modèle 2.Les coefficients estimés dans ce modèle sont donnés dans le tableau 2.6. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 31 F IG . 2.1 – test de normalité des effets aléatoires Q−Q Normal−effet aléatoire sujet Q−Q Normal−résidu ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 2 1.5 ● ● ● ● 0 Sample Quantiles 0.5 0.0 ●● ●● ●●● ●● ● ●● ●● ●●● ● ●●● ● ●●●● ●● ● ●●● ●● ●●● ● ● ●● ● ●● ●● −4 −0.5 Sample Quantiles ● ● ●● ● −2 1.0 ●● ● ● ● −6 −1.5 −1.0 ●● ● ● −2 ● −1 0 1 2 ● −3 Theoretical Quantiles −2 −1 0 1 2 3 Theoretical Quantiles – Le coefficient significatif intercept β0 =10.40, représente l’estimation de la charge moyenne de Loa loa dans le groupe de traitement1 (groupe Placebo), qui est considéré comme notre groupe de référence. – Le coefficient traitement 2 β1 =0.44, représentant la différence entre la charge moyenne de Loa loa dans le groupe 2 (groupe Alben+Placebo) et celle du groupe 1, n’est pas significatif. Cela signifierait qu’il n’y a pas a priori, de différence entre les charges microfilariennes moyennes dans ces deux groupes. – Le coefficient traitement 3 β2 =0.003, représentant la différence entre la charge moyenne de Loa loa dans le groupe 3 (groupe Albendazole) et celle du groupe 1, n’est pas significatif. De même, cela signifierait qu’il n’y a pas, a priori de différence entre les charges microfilariennes moyenne dans ces deux groupes. – Le coefficient temps β3 = -0.01, représentant la variabilité des valeures moyennes des charges de Loa loa suivant les diffrérents instants de mesures, est significative. Cela veut donc dire que la charge de loase est différente d’un instant de mesure à un autre. – le coefficient traitement2*temps β4 ,= 0.002, représentant la différence entre les valeurs moyennes de l’évolution temporelle des charges de Loa loa dans les groupe 2 et groupe 1, ce coefficient pas significatif nous revèle que l’évolution temporelle serait la même Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 32 TAB . 2.6 – Estimation des paramètres du modèle2 modélisant la moyenne Effets fixes Paramètre Estimation Ecart-type de l’estimateur p-valeur intercepte β0 10.40 0.19 0.000 traitement2 β1 0.44 0.26 0.10 traitement3 β2 0.003 0.26 0.99 temps β3 -0.01 0.006 0.05 traitement2*temps β4 0.002 0.008 0.76 traitement3*temps β5 -0.002 0.008 0.011 dans ces deux groupes. – le coefficient traitement2*temps, β5 = -0.002, représentant la différence entre les valeurs moyennes de l’évolution temporelle des charges de Loa loa dans les groupe3 et groupe1, ce coefficient significatif et négatif nous revèle que les charges de Loa loa baissent mieux avec le temps dans le groupe 3 que dans le groupe 1. Le tableau d’anova du modèle 2 (voir tableau 2.3) nous montre un effet significatif du facteur traitement, bien que nous ne soyons pas très loin du seuil (p-value=0.030). Aussi ce modèle nous montre un effet très significatif du temps, signifiant que les valeurs moyennes des charges microfilariennes sont différentes d’un instant à un autre. Ces différences temporelles ne sauraient donc être dues au simple hasard, mais assurément au traitement, ce qui peut bien se confirmer par la significativité de l’interaction temps*traitement. On peut donc dire avec ce modèle et au risque de 0.05, que nous avons pu mettre en évidence un effet significatif de l’albendazole sur les charges de loase, traduit par cette différence significative entre nos trois groupes de traitement. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 C HAPITRE 3 M ODÉLISATION PAR L’A PPROCHE MARGINALE BASÉE SUR LES ÉQUATIONS D ’ ESTIMATION GÉNÉRALISÉES (GEE) Introduction Les modèles marginaux ont été introduits par Liang et Zeger [7] pour analyser les données longitudinales normales, non normales, ou discrètes. Les données longitudinales sont des données où les variables explicatives et réponses sont mesurées à différents temps pour chaque individu, induisant ainsi une corrélation entre ces mesures. Dans ce chapitre, nous verrons comment il est possible de tenir compte de ce type de corrélation dans nos inférences sur les coefficients de régression d’un modèle linéaire généralisé. L’approche que nous adapterons utilisera le concept d’équations d’estimation généralisées (GEE). Cette approche ne spécifie pas entièrement la distribution conjointe de la variable réponse, mais plutôt une modélisation de la moyenne et une spécification de la structure de corrélation de travail. Dans le contexte longitudinal, différentes formes de la structure de corrélation de travail sont utilisées et les estimateurs sont solutions des GEE. Un élément attrayant de cette approche est que les estimateurs des paramètres du modèle sont convergents, même dans l’éventualité où la structure de corrélation de travail serait mal spécifiée. Nous terminons ce chapitre par une application sur les données de la cohorte Albendazol. 3.1 Définitions et hypothèses Supposons que, pour chaque individu i , nous avons un vecteur Yi =(Yi1 , ...., Yini )0 de plusieurs observations de la variable endogène, ainsi que la matrice de dimension ni × p, Xi = (xi1 , ..., xini )0 où xij = (xij1 , ....xijp ) représente la valeur des p variables exogènes pour l’observation j de l’individu i. On suppose que la distribution marginale de chaque variable endogène Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 34 Yij étant donnée Xij appartient à la famille exponentielle. Plus précisément, on suppose que la fonction de densité de Yij étant donné Xij s’écrit : yij θij − b(θij ) f (yij |xij ) = exp + c(yij , φ) , i = 1..., n; j = 1, ..., ni , a(φ) (3.1) avec E(Yij |xij ) = µij = g −1 (ηij ) = g −1 (x0ij β) pour une fonction de lien g(.) connue. Le paramètre θij est un paramètre canonique et φ est le paramètre de dispersion ; ηij = x0ij β est le prédicteur linéaire. Le lien entre la ieme composante de ce prédicteur et l’espérence de Yi s’établit par l’intermédiaire de la fonction de lien g(.). Parmi toutes les fonctions de lien celle qui permet d’égaler le prédicteur linéaire et le paramètre canonique est appelée fonction de lien canonique. Les fonctions b(.) et c(.) sont spécifiques à chaque distribution et la fonction a(φ) est généralement de la forme φ , wij ou la valeur de φ reste constante pour toutes les ob- servations, tandis que wij est une valeur connue qui peut varier d’observation en observation. Cette famille de lois regroupe un grand nombre de lois dont les plus classiques sont : binomiale, poisson, normale, gamma, etc. Dans le tableau ci-après, on décrit pour chacune de ces lois l’expression du paramètre canonique θ en fonction des paramètres naturels de la loi, le paramètre φ et les fonctions a(.), b(.) associées (ces expressions s’obtiennent par simple calcul ; nous ommettrons l’indice ij pour simplifier la lecture du tableau). loi B(n,π) n P(λ) N(µ, σ 2 ) θ b(θ) a(θ) π ) b(θ) = ln(1 + eθ ) θ = ln( 1−π ln(λ) b(θ) = eθ θ=µ θ2 2 b(θ) = 1 n φ=1 w=n a(φ) = φ=1 w=1 a(φ) = 1 φ = σ2 w=1 a(φ) = σ 2 Pour toute distribution de la famille exponentielle donnée en l’equation ( 3.1), l’espérence et la variance de la variable associée s’exprime à l’aide des fonctions a(.) et b(.). On a donc ainsi : E(Yij |xij ) = µij = b0 (θij ), (3.2) Var(Yij |xij ) = a(φ)b00 (θij ). (3.3) Les égalitées 3.2 et 3.3 sont démontrées en annexe. Il est aussi tout important de souligner qu’il existe une relation directe entre l’espérance de Yij |xij et sa variance : Var(Yij |xij ) = a(φ)b00 (b0−1 (µij )). Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 35 On désignera par la suite par V = b00 ob0−1 cette fonction de variance. D’ou : Var(Yij |xij ) = a(φ)V (µij ). Nous donnons dans le tableau suivant l’expression de l’espérance en fonction du (des) paramètre(s) naturel(s), du paramètre canonique ainsi que de la fonction de variance des lois usuelles de la famille exponentielle. µ loi B(n,π) n π P(λ) λ N(µ, σ 2 ) µ 3.2 V (µ) eθ 1+eθ θ µ(1 − µ) e µ θ 1 Equations d’estimation sous l’hypothèse d’indépendance 3.2.1 Estimation des paramètres de régression Nous allons tout d’abord commencer par estimer le vecteur des coefficients de régression β en supposant que les composantes d’un vecteur Yi sont indépendantes. Cette hypothèse est généralement fausse, mais elle nous permet d’amorcer la procédure d’estimation. Dans ce cas la matrice de variance de Yi est donnée par : 1 1 Vi = Var(Yi ) = φAi2 Ri Ai2 , 1 avec Ai = Diag{V ar(Yij |xij ), j = 1..., ni } et ou Ri = 1 (Ai2 )−1 Vi (Ai2 )−1 φ = Ini ×ni est la matrice des corrélations des éléments du vecteur Yi qui est dans ce cas égale à la matrice identité de dimension ni ×ni . Nous appelons cette matrice la structure de corrélation de "travail" pour Yi . Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 36 Nous obtenons l’estimateur βb de β en maximisant la fonction de vraisemblance du paramètre β sous l’hypothèse d’indépendance. Puisque d’après l’équation ( 3.1), on a : f (yij |xij ) = exp yij θij − b(θij ) + c(yij , φ) , i = 1..., n; j = 1, ..., ni , a(φ) et que l’on suppose que les Yi sont indépendantes, la fonction de vraisemblance est donnée par : ( n ni ) n X ni X X yij θij − b(θij ) X L(β, φ, yij ) = exp + c(yij , φ) a(φ) i=1 j=1 i=1 j=1 (3.4) Quant à elle, la fonction de log-vraisemblance est donnée par : n ni n X ni X yij θij − b(θij ) X X + c(yij , φ). l(β, φ, yij ) = a(φ) i=1 j=1 i=1 j=1 (3.5) Comme dans le cas de la famille exponentielle, la fonction de vraisemblance est "régulière" (propriété de la famille exponentielle), on trouve la valeur de β qui la maximise en résolvant le système d’équations : ∂l(β, φ, yij ) ∂βk k=1...p ( ) n ni XX 1 ∂θij ∂θij = yij − b0 (θij ) = [0]p×1 a(φ) ∂β ∂β k k i=1 j=1 k=1...p p×1 ( ) n X ni X ∂θij ∂nij ∂θij ∂nij 1 yij − b0 (θij ) = [0]p×1 = a(φ) ∂n ∂β ∂n ∂β ij k ij k i=1 j=1 k=1...p p×1 ( ) n X ni X 1 ∂θij xijk (yij − µij ) = [0]p×1 = a(φ) ∂n ij i=1 j=1 k=1...p Master de Statistique Appliquée p×1 c NJOMO NANA Yannick Lionel ENSP 2008-2010 37 ou p est le nombre de colonnes de la matrice X. En reécrivant sous forme matricielle on a : n X 1 Uindep (β) = Xi0 ∆i (Yi − µi (β)) = 0 a(φ) i=1 (3.6) où Xi = (xi1 , ..., xini )0 , avec xij = (xij1 , ..., xijp ) et µi (β) = (µi1 (β), ..., µini (β))0 .∆i est une matrice diagonale de dimension ni × ni dont l’élément en position (j, j) est ∂θij , ∂nij où θij est le paramètre canonique de la famille exponentielle. Ce système n’étant pas linéaire, des méthodes numériques itératives sont utilisées pour sa résolution, notamment le schéma de Newton-Raphston. 3.2.2 Intervalles de confiance et tests d’hypothèses pour βj On utilise le fait que β̂ est un EMV de β et par conséquent asymptotiquement on aura β̂≈ N (β, V̂ ). Ainsi, pour un paramètre individuel βj , soit Vjj , l’élément de V̂ correspondant à la variance de βj alors de cette proprieté asymptotique de β̂ on a : " # β̂j − βj ≤ z α2 ≈ 1 − α. P −z α2 ≤ p Vij Ceci suggère l’interval de confinace de niveau 1 − α suivant pour βj : β̂j ± z α2 p Vij . Pour tester une hypothèse de la forme H0 : βj = βj0 , la procédure est simple. On calcule tout β̂j −βj0 . d’abord sous H0 la statistique de test Z0 = √ Vij – Si la contre-hypothèse est H1 : βj 6= βj0 , le seuil du test est 2P [N (0, 1) ≥ |z0 |]. – Si la contre-hypothèse est H1 : βj > βj0 , le seuil du test est P [N (0, 1) ≥ z0 ]. – Si la contre-hypothèse est H1 : βj < βj0 , le seuil du test est P [N (0, 1) ≤ −z0 ]. 3.3 Équations d’estimation généralisées (GEE) Les équations d’estimation généralisées sont en fait une généralisation des équations d’estimation ( 3.6) où l’on peut supposer une structure de corrélation de travail autre que l’indépendance pour Ri . Pour compenser le fait que la structure de corrélation de travail puisse ne pas être la vraie structure de corrélation, la variance de l’estimateur β̂ sera estimée par un estimateur de variance robuste. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 38 1 1 Soit Vi = Var(Yi ) = φAi2 Ri Ai2 , la matrice de variance de travail pour Yi , où Ri (α) est une structure de corrélation de travail pour Yi . Ici on suppose que cette matrice contient certains paramètres inconnus que l’on représente par le vecteur α. L’idée est d’approcher la vraie structure de corrélation de Yi . Si on spécifie une mauvaise structure, les inférences sur β seront quand même valides, mais si on spécifie la structure correctement, on aura des inférences plus efficaces (variance des estimateurs plus faibles). Les équations d’estimation sont ensuite données par : n X Di0 Vi−1 {Yi − µi (β)} = 0, (3.7) i=1 où Di = Ai ∆i Xi . Si on pose Ri (α) = Ini ×ni , alors l’equation ( 3.6) se simplifie à l’équation 3.7. Nous donnons plus bas un algorithme permettant de trouver la valeur de l’estimateur β̂ qui résoud 3.6. Afin d’estimer les paramètres de la matrice de variance et de vérifier l’ajustement du modèle, Y −µ on peut définir les résidus eij = √ij00 ij que l’on évalue à β = β̂. On obtient donc à partir de b (θij ) cette définition de résidus de Pearson : n φ̂ = où N = Pn i=1 n i 1 XX e2 N − p i=1 j=1 ij ni est le nombre total d’observations dans l’échantillon et p = dimension(β). On estime ensuite β en utilisant l’algorithme suivant : 1. Estimer β sous l’hypothèse d’indépendance et dénoter l’estimateur obtenu β̂0 (il est donc le point initial de notre schéma itératif). 2. Estimer α et φ à partir de β̂(βˆ0 ) et des eij . 1 1 3. Poser Vi = φ̂Ai2 Ri (α̂)Ai2 . 4. Mettre la valeur de β̂ à jour : β̂m+1 = β̂m + n X i=1 !−1 Di0 Vi−1 Di n X ! n o Di0 Vi−1 Yi − µi (βˆm ) . i=1 5. Itérer les étapes 2 à 4 jusqu’a convergence (différence entre β̂m et β̂m+1 plus petite qu’une tolérance spécifiée). Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 39 Si Ri (α) était la vraie structure de corrélation pour Yi , alors la variance de β̂ serait estimée par : VT = n X !−1 Di0 Vi−1 Di i=1 α=α̂,φ=φ̂,β=β̂ (à voir dans [11]) Mais comme Ri (α) n’est qu’une matrice de corrélation de travail, il est possible qu’elle ne soit pas exacte, alors on estime la variance de β̂ par un estimateur appelé estimateur de matrice de variance sandwich robuste : VT n X ! Di0 Vi−1 {Yi − µi (β)} {Yi − µi (β)}0 Vi−1 Di i=1 VT (3.8) α=α̂,φ=φ̂,β=β̂ le terme "sandwich" vient du fait que dans l’expression 3.8, une correction empirique est prise en "sandwich" entre deux estimateurs de variance basés sur le modèle de travail. 3.4 Spécification et estimation de R(α) Il y a plusieurs manières dont nous pouvons spécifier la structure de corrélation de travail. Dans cette section nous présenterons une liste des formes les plus courantes pour la structure de corrélation de travail Ri (α) tout en déterminant l’estimateur de α pour chacune de ces formes. 3.4.1 Corrélation échangeable La forme la plus simple de la matrice de corrélation de travail est la matrice identité (R(α) = Ini ×ni ) où l’on assume que la corrélation entre Yij et Yij 0 est nulle pour j 6= j 0 . Dans une extension simple de cette strucrure, on fait l’hypothèse que la corrélation entre Yij et Yij 0 est α pour j 6= j 0 . Ce type de corrélation est lacorrélation échangeable. On l’appelle également la corrélation commune, la corrélation égale, ou la corrélation composée. Dans ce cas, α est un scalaire et la matrice de corrélation de travail a 1 α α α 1 α R(α) = α α 1 . . . . . . . . . α α α la structure suivante : ... α ... α . . . . .. . . . .. . ... 1 Cette hypothèse est généralement appropriée pour des ensembles de données dans lesquels Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 40 les mesures répétées n’ont aucune dépendance de temps. S’il y a peu d’individus et beaucoup d’observations par individu, une matrice de corrélation de travail échangeable est un bon choix.Un exemple de ce type de données peut être les différentes mesures prises chez les individus de la iime famille. La corrélation échangeable suppose un seul facteur de corrélation entre deux mesures répétées quelconques et la même variance pour chaque mesure répétée. Afin d’obtenir l’estimateur de α, les estimés des résidus de Pearson sont premièrement calculés de cette façon : yij − µ̂ij r̂ij = p Vµ̂ij (3.9) L’estimateur de α utilisant ces résidus est : Pni 2 n Pni Pni 1X u=1 v=1 r̂iu r̂iv − u=1 r̂iu . α̂ = ni (ni − 1) φ̂ i=1 3.4.2 Corrélation auto-regressive d’ordre 1 (AR(1)) 0 Dans ce type de structure, on suppose que la corrélation entre Yij et Yij 0 = est α|j −j| pour j 6= j 0 . Dans ce cas α est toujours un scalaire et la matrice de corrélation de travail a la structure suivante : 1 R(α) = α .. . ni −1 α ... α .. .. . 1 . ... ... α αni −1 . . . α 1 Comme cette structure implique que la corrélation diminue à mesure que l’écart entre j et j 0 augmente, ce type de corrélation est indiqué pour des ensembles de données dans lesquels les mesures répétées ont une dépendance temporelle, l’indice j dénotant l’ordre (chronologique) dans lequel les mesures ont été prises. En effet, il est souvent raisonnable que les corrélations entre les mesures répétées prises ensemble dans le temps soient plus fortes que celles prises après de longs intervalles de temps. Dans ce type de structure, on exploite la corrélation temporelle des mesures répétées. Bref, une matrice de corrélation de travail autorégressive permet de tenir compte de l’effet de l’autocorrélation temporelle. Une étude de santé dans laquelle les panels sont représentés par les patients avec plusieurs mesures sur chaque patient dans le temps est un bon exemple pour ce type de données. Comme dans la structure de corrélation échangeable, pour trouver la valeur de α̂, on calcule premièrement les estimés des résidus de Pearson r̂ij (voir equation 3.9). L’estimateur de Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 41 α utilisant ces résidus est : α̂ = 1 n n i −1 X X (K1 − p)φ̂ i=1 j=1 où K1 = Pn 3.4.3 Corrélation non structurée i=1 (ni r̂i,j r̂i,j+1 , − 1). Ce type de structure suppose que la corrélation entre Yij et Yij 0 est αjj 0 pour j 6= j 0 . La matrice de corrélation de travail non structurée est la plus générale des structures de corrélations discutées. Elle est donc la suivante : 1 α1,2 ... α1,ni .. .. α . 1 . 1,2 R(α) = . ... ... .. αni −1,ni 1 α1,ni . . . αni −1,ni Cette hypothèse n’impose aucune structure particulière à la matrice de corrélation de travail. En d’autres termes, aucune structure particulière n’est assumée sur les covariances entre Yij et Yij 0 pour j 6= j 0 . Ceci implique que chaque paire d’observations a sa propre corrélation. S’il y a peu d’observations par individu et plusieurs individus, une matrice de corrélation de travail non structurée est sans doute un bon choix. Comme dans les sous-sections précédentes, on utilise les estimés des résidus de Pearson r̂ij de l’ajustement du modèle pour estimer les corrélations. L’estimateur de R(α) utilisant ces résidus est : Pn ni R̂(α) = P i=1 n Pni i=1 où 2 g1,1 r̂i,1 g1,2 r̂i,1 r̂i,2 2 r̂ij j=1 ni . . . g1,ni r̂i,1 r̂i,ni .. . g2,ni r̂i,2 r̂i,ni .. ... . g r̂ r̂ 2 g2,2 r̂i,2 2,1 i,2 i,1 G= .. .. . . gni ,1 r̂i,ni r̂i,1 gni ,2 r̂i,ni r̂i,2 . . . avec guv = Pn i=1 G 2 gni ,ni r̂i,n i , I(i, u, v)−1 , Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 42 et ( I(i, u, v) = 1 si le panel i (individu) a des observations aux indices u et v 0 sinon. Malheureusement, la matrice de corrélation ainsi estimée n’est pas nécessairement inversible et des problèmes numériques peuvent survenir, particulièrement pour des ensembles de données non équilibrés, c’est-à-dire le cas où l’on n’a pas le même nombre d’observations par panel ou des données manquantes. En pratique le modèle GEE n’est plus efficace que sur des données équilibrées. Cela n’exclut pas le fait qu’il puisse avoir des données manquantes. On dit qu’un jeu de données longitudinales est équilibré lorsque toutes les mesures sont faites chez tous les individus aux même instants, et à des intervalles de temps réguliers (identiques). 3.5 Application aux données Tout comme au chapitre précédent nous allons à présent comparer les trois groupes de traitement (Placebo, Alben+Placebo, Alben), avec une modélisation marginale basée sur les GEE. Le 1-er modèle proposé est le suivant : a. Modélisation de la moyenne µit = µ + αtraitementi + β.T empsi + γtraitementi ∗T empsi (3.10) où – µit = E(log(Yit )) est l’espérance marginale du logarithme de la charge microfilarienne de Loa-Loa ; – αtraitementi représente l’effet du facteur du traitement (placebo ou Alben+Placebo ou Alben) qu’a reçu le sujet i ; – β est l’effet du temps du sujet i (tous les sujets n’ayant pas le même nombre de mesures) ; Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 43 – γtraitementi ∗T empsi est l’effet de l’interaction temps*traitement. b. Modélisation de la variance La première structure de corrélation de travail que nous postulons à nos données est la structure AR(1), qui dépend d’un seul paramètre ρ 0 Cor(log(Yit ), log(Yit0 )) = ρ|t−t | 3.5.1 (3.11) Résultats Les résultats sont donnés dans les tableaux qui suivront et ont été obtenus à l’aide de la procédure "geeglm" du package "geepack" du logiciel R. L’interprétation de ces résultats sera toujours faite selon un seuil de significativité de α = 5%. TAB . 3.1 – Paramètres du modèle marginal modélisant la moyenne Paramètre Estimation Ecart-type de l’estimateur p-valeur intercept µ 10.42 0.15 <2e-16 traitement2 α2 0.41 0.217 0.061 traitement3 α3 -0.0078 0.24 0.974 temps β -0.012 0.0058 0.034 traitement2*temps γ2 -0.008 0.0128 0.534 traitement3*temps γ3 -0.0178 0.0078 0.024 TAB . 3.2 – Paramètre du modèle marginal modélisant la variance : avec correlation du type AR1 Paramètre Estimation ρ Master de Statistique Appliquée 0.903 ecart-type de l’estimateur 0.019 c NJOMO NANA Yannick Lionel ENSP 2008-2010 44 TAB . 3.3 – Tableau de l’anova du modèle source de variaition DDL p-value traitement 2 0.061 temps 1 1.4e-05 traitement*temps 2 0.077 Le tableau 3.3 précédent montre que : – Le facteur traitement n’est pas significatif, – l’interraction Temps*traitement n’est pas significative. NB : Les deux facteurs précédents n’étant pas simultanément significatifs, on dira donc qu’il n’y a pas une différence significative entre les trois traitements. – Un effet très significatif du Temps, c’est-à-dire que les valeures moyennes des charges microfilariennes sont différentes d’un instant(de mesure) à un autre. Au vu de ce résultat, il est tout à fait logique de bien se demander si la variabilité observée sur les données (revélée par le facteur temps) est due au simple hasard ? Mais avant de répondre à cette question, nous allons ajuster sur ces données d’autres modèles GEE en changeant juste les matrices de travail. TAB . 3.4 – Comparaison des modèles avec différentes structures de travail structure de travail⇒ Ar1 Echangeable Indépendante Non structurée p-valeur p-valeur p-valeur p-valeur traitement 0.061 0.032 * 0.00960** 0.61 temps 1.4e-05*** 4.6e-08*** 2.4e-05*** 1.3e-05*** traitement*temps 0.077 3.7e-10*** 0.00046*** 4.4e-16*** paramètre de variance ρ=0.903 ρ=0.709 pas de paramètre Le tableau 3.4 nous montre une très grande variabilité des résultats quand on change les structures de corrélation de travail, par exemple, l’interaction traitement*temps n’est pas significative avec la structure autoregressive, tandis qu’elle l’est avec les autres structures.Mais tous ces différents modèles sont unanimes sur la significativité du facteur temps. Ceci laisse Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 45 quand même croire que le choix d’une matrice de travail la plus proche possible de la réalité est cruciale. Mais comme il a été dit dans la théorie, qu’il soit rare que nous connaissions la vraie structure de matrice de corrélation à utiliser. Ainsi, peu importe le choix de la matrice Ri (α), les estimateurs de β seraient très similaires d’une structure à l’autre, mais leurs variances seraient corrigées par un estimateur robuste de la variance, donné par l’expression 3.8. Alors, peu importe la structure de corrélation, les estimés de β seraient semblables, mais les erreurs standards sont corrigées. Le choix de la structure de la matrice Ri (α) est fait selon la connaissance qu’a l’utilisateur de la corrélation entre les ni mesures. Dans notre cas, les 10 mesures des charges de Loa loa ayant un ordre chronologique, il est possible de dire qu’elles sont dépendantes les unes des autres dans le temps et même que les corrélations entre mesures diminuent avec le temps. C’est pourquoi nous avons pensé que la structure autoregressive reflèterait mieux la réalité. La structure échengeable a bien aussi été choisie pour nos données. Reconnaissant qu’il est très difficile d’un point de vue théorique de priviligier une structure à une autre, les méthodes de validation d’hypothèses et critères de sélection de modèle étant plus complexes avec cette approche, nous retiendrons néamoins les deux modèles suivants : – Le modèle avec structure ar1, noté : modèle3 ; – Le modèle avec structure exchengeable, noté : modèle4. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 C HAPITRE 4 D ISCUSSION ET C ONCLUSION En général, les modèles marginaux sont recommandés quand l’objectif est de réaliser des inférences sur la moyenne de la variable réponse, les corrélations entre observations n’étant que des paramètres de nuisance, alors que les modèles mixtes permettent d’analyser plus finement le phénomème étudie en fournissant une connaissance de la matrice des variancescovariances et de réaliser des prédictions individuelles. Mais ceci au prix d’hypothèses plus contraignantes : il faut que le modèle, aussi bien dans sa partie fixe (qui modélise la moyenne) que dans sa partie aléatoire (qui modélise la variance), soit correctement spécifié. Par ailleurs, si le nombre d’observations réalisées sur un même sujet est important, les modèles marginaux sont particulièrement deconseillés : il est nécessaire d’utiliser des modèles mixtes qui permettent de paramétriser la matrice de variance-covariance et de diminuer ainsi le nombre de paramètres à estimer. Enfin, s’il existe des données manquantes, les modèles mixtes sont moins contraignants puisqu’ils reposent sur une hypothèse plus faible, à savoir que les données sont manquantes au hasard, alors qu’elles doivent être manquantes complètement au hasard si on veur utiliser un modèle marginal. Il est intéressant d’examiner et de confronter les résultats apportés par les deux approches. 4.1 Comparaison des résultats des deux approches. Le modèle GEE avec matrice de corrélation de travail "exchangeable" que nous allons appeller modèle 4, est celui qui semble bien être en accord avec les résultats du modèle mixte notamment ceux du modèle 1 et modèle 2 du chapitre 2. On peut le voir dans les tableaux suivants : Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 47 TAB . 4.1 – comparaison des paramètres du modèle 1 modèle 2 et modèle 4 Paramètre GEE : modele 4 modèle mixte : modèle 1 modèle mixte : modèle 2 intercepte 10.389 10.390 10.40 traitement2 0.449236 0.448 0.438 traitement3 0.025684 0.025 0.002 temps -0.011752 -0.012 -0.0118 traitement2*temps 0.000174 0.000 -0.0026 traitement3*temps -0.025784 -0.026 -0.022 TAB . 4.2 – Comparaison des anova des modèles modèle⇒ GEE : modèle 4 Mixte : modèle1 Mixte : modèle 2 p-valeur p-valeur p-valeur traitement 0.032 0.0194 0.03 temps 4.6e-08 <.0001 <.0001 traitement*temps 3.7e-10 <.0001 0.022 paramètre de variance ρ=0.709 ρ=0.77 ρ=0.53 Implicitement, le modèle à effets aléatoires modèle 1 estime un écart-type unique pour l’intercepte aléatoire, et est donc proche du modèle GEE estimée modèle 4, qui fait la même hypothèse. La corrélation entre les observations dans le modèle GEE est estimée à 0.709. Cette estimation est très proche du coefficient de corrélation intra-classe issu du modèle 1 :ρ=0.77 (voir (2.9)). De même, la significativité des différents facteurs étudiés est la même dans les deux modèles. Il ne serait donc pas abusif de penser que la structure de travail la plus proche de la réalité est "exchangeable", ce qui nous amenera à priviligier avec l’approche GEE le modèle 4. Toutefois, dans l’application sur les données de la cohorte Albendazole, l’utilisation d’un modèle marginal est délicate parce qu’il y’a plusieurs mesures sur un même individu et tous les individus n’ont pas le même nombre de mesures, présence de valeures manquantes...(Notons que pour prendre en compte les données manquantes sous l’hypothèse MAR il existe une extention des GEE : c’est le WGEE) Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 48 L’utilisation d’un modèle mixte serait préférable, car comme nous l’avons vu au chapitre 2, les hypothèses de normalité de l’effet aléatoire et de la rèsiduelle ne sont pas fortement violées. Pour notre travail, nous retiendrons comme modèle final le modèle 2. Celui-ci nous revèle alors une différence significative entre les trois groupes de traitement, ce qui répond bien à une des questions de départ à savoir est-ce qu’il y’a un régime de traitement qui est plus efficace que les autres. Nous dirons donc qu’il y’a un effet significatif de l’albendazole sur la microfilaire Loa loa, bien que la p-valeur (p=0.03) du facteur traitement du modèle mixte retenu ne soit pas très éloignée du seuil α = 5%. Nous avons pu montrer qu’il y’a une différence entre les trois groupe de traitement. Le groupe 3 ou groupe albendazole comme nous l’avons vu au chapitre 1, lors de l’analyse des profils, est celui où la baisse de la microfilarémie a été la plus importante. Cependant même dans ce groupe, il y’a des sujets qui sont restés avec une charge parasitaire ≥ 30000 mf/ml. Par conséquent ce régime de traitement même s’il permet de diminuer le risque d’effets secondaires graves ne permettrait de prévenir tous les cas. Notons enfin qu’il devrait en suivre normalement une comparaison des moyennes dans chaque groupe par la méthode de Bonferroni, pour pouvoir déterminer plus rigoureusement quel des trois facteurs est significativement distinct des autres. Cela n’a pas pu être fait dans notre travail car nous n’avons pas trouvé d’équivalent à ce test pour le modèle mixte avec le logiciel R. Ces mèthodes de comparaisons multiples, peu dèveloppèes dans les travaux concernant les modèles mixtes et le logiciel R, pourraient être le sujet principal d’une étude à elles seules. Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 Bibliographie [1] Jean-Marc Azaïs et Jean-Marc Bardet, Le Modèle Linéaire par l’exemple : Régression, Analyse de la Variance et plans d’Expériences ; pages 167-188, Toulouse-Paris Septembre 2005. [2] Jean-louis Foulley, Le Modèle Linéaire Mixte ; pages 167-188, Paris 2003. [3] Catherine Trottier, Thèse : Estimation dans les modèles linéaires généralisés à effets aléatoires, Grenoble juillet 1998. [4] Peter Schlattmann, Mixed effects models for longitudinal data. [5] Crowder, M.J. et Hand D.J, Analysis of Repeated Measures, London 1990 [6] Lionel RIOU FRANÇA, Les Modèles à Effets Aléatoires Une introduction,INSERM 2008 [7] Liang K-Y , Zeger S.L, Longitudinal data analysis using generalized linear models,pages 13-22. Biometrika 1986. [8] Jean-louis Foulley, Le Modèle Linéaire Mixte ; pages 167-188, Paris 2003. [9] A.Guéguen,M.Zins,J.P.Nakache, Utilisation des modèles marginaux et des modèles mixtes dans l’analyse des données Longitudinales,page 57-73, revue de statistique appliquée, tome 48, n˚ 3, 2000 [10] Laura A.Thomson, R(and S-Plus)Manual to Accompany Agresti’s Categorical Data Analysis, 2009. [11] Søren Højsgaard and Ulrich Halekoh, Generalized Estimating Equations (GEE) , University of Aarhus, 2007. [12] J.Kamgno, J. Gardons, M.Boussinesq, Essai de prévention des encéphalopaties à Loa Loa post ivermectine par l’administration d’une faible dose, Médecine tropicale, 2000. [13] J.Kamgno, M.Boussinesq, Effect of a single dose (600mg) of albendazole on Loa loa microfilaremia, Parasite 9, 2002 . Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 50 [14] M.Boussinesq, J.Kamgno, J.Gardon, et al Serious reactions after mass treatment of onchocerciasis with ivermectin in an area endemic for Loa loa infection. Lancet 350, page 18-22, 1997 Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 Annexe Code R library(nlme) library(lattice) library(geepack) library(foreign) library(survival) library(splines) library(epicalc) ############################################################################### # Chagement des données d’inclusion # ###################################################################################" inclusion<-read.table("inclusion.txt",h=T) inclusion1<-inclusion[,-3] ############################################################################# # Fonction pour comparaison des groupes à l’inclusion # ############################################################################# f2=function(inclusion) { for(i in 2:ncol(inclusion)) { Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 52 suj<-1:nrow(inclusion) g1<-inclusion[suj[inclusion$Group==1],] g2<-inclusion[suj[inclusion$Group==2],] g3<-inclusion[suj[inclusion$Group==3],] c=names(inclusion)[i] print(c) print(summary(c(g1[,i],g2[,i],g3[,i]))) require(graphics) print(kruskal.test(inclusion[,i]~Group,data=inclusion)) boxplot(inclusion[,i]~Group,data=inclusion) } } f2(inclusion1) ################################################################################## Alben<-read.table ("Alben.txt",header=T)#jeu de données avec supression #des 3 individus sur lesquel on a eu #que les charges les deux premiers mois trmt <- as.factor(rep(c(rep(1,18),rep(2,20),rep(3,19)),10)) sujet <- as.factor(rep(seq(1,57,1),10)) seance <- as.numeric(c(rep(1,57),rep(3,57),rep(5,57),rep(7,57),rep(9,57),rep(11,57),r explore <- c(Alben$RLoaM0, Alben$RLoaM2, Alben$RLoaM4,Alben$RLoaM6, Alben$RLoaM8, Alb data.frame(trmt=trmt,sujet=sujet,seance=seance,explore=explore) ALBEN<-data.frame(traitement=trmt,sujet=sujet,Temps=seance,explore=explore) ################################################################################# #Disposition des données sous forme groupée pour qu’elles soient bien analysées #par les fonctions des modèles Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 53 + Profil des charges ############################################################################### ALBEN1 <- ALBEN[order(as.numeric(ALBEN$sujet)),] ALB<-ALBEN1[-(211:220),]#supression d’un individu supplémentaire followup.plot(ALBEN1$sujet, ALBEN1$Temps, ALBEN1$explore,by=ALBEN1$traitement) title(main="profil des charges ",ylab="mm",xlab="moi") # profils des charges ####################################################################################### # model1:avec correlation du type CS(compound Symetry),et test sur la distributions # des effets aléatoires ,avec na.omit ####################################################################################### modele1<-lme(log(explore)~traitement*Temps,data=ALB,na.action=na.omit,random=~1|suje summary(modele1)A anova(modele1) opar<-par(mfrow=c(1,2)) random<-ranef(modele1)[[1]] qqnorm(random,main="Q-Q Normal-effet aléatoire sujet") qqline(random,col="red") qqnorm(residuals(modele1,type="pearson"),main="Q-Q Normal-résidu") qqline(residuals(modele1,type="pearson"),col="red") ##################################################################################### # model2:avec correlation du type AR1 ############################################################################### modele2<-lme(log(explore)~traitement*Temps,data=ALB,na.action=na.omit,correlation=corAR summary(modele2) Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010 54 anova(modele2) opar<-par(mfrow=c(1,2)) random2<-ranef(modele2)[[1]] qqnorm(random2,main="Q-Q Normal-effet aléatoire sujet") qqline(random2,col="red") qqnorm(residuals(modele2,type="pearson"),main="Q-Q Normal-résidu") qqline(residuals(modele2,type="pearson"),col="red") AIC(modele1,modele2)# comparaison des 2 modèles selon les critères AIC BIC ################################################################################# # utilisation des modèles marginaux:GEE ############################################################################### ALBEN1 <- ALBEN[order(as.numeric(ALBEN$sujet)),] #Tri des données par sujets # pour le mettre sur le bon # format utilisable par geepack model3<-geeglm(log(explore)~traitement*Temps,id=sujet,family=gaussian,data=ALB,na.actio summary(model3) anova(model3) plot(model3) Master de Statistique Appliquée c NJOMO NANA Yannick Lionel ENSP 2008-2010