La régression logistique
Transcription
La régression logistique
Mémento biostatistique Qu’est-ce qu’une régression logistique ? P.M. Preux1, 2, P. Odermatt3, A. Perna1, 2, B. Marin1, 2, A. Vergnenègre1, 2 Introduction 1 Service de l’Information Médicale et de l’Evaluation, UF de Recherche Clinique et Biostatistique, Hôpital du Cluzeau, Limoges, France. 2 Institut d’Epidémiologie et de Neurologie Tropicale (EA3174), Limoges, France. 3 Institut Francophone de Médecine Tropicale, Vientiane, Laos. Correspondance : P.M. Preux Service de l’Information Médicale et de l’Evaluation, UF de Recherche Clinique et Biostatistique, Hôpital du Cluzeau, 23, avenue Dominique Larrey, 87042 Limoges Cedex. [email protected] Réception version princeps à la Revue : 07.02.2004. Retour aux auteurs pour révision : 26.02.2004. Réception 1ère version revisée : 28.02.2004. Acceptation définitive : 28.02.2004. Rev Mal Respir 2005 ; 22 : 159-62 La régression logistique est un des modèles multivariables couramment utilisé en épidémiologie avec la régression linéaire multiple, la régression de Poisson et le modèle de Cox. Elle s’utilise lorsque la variable à expliquer (variable dépendante Y) est qualitative, le plus souvent binaire. Les variables explicatives (variables indépendantes Xi) peuvent être par contre soit qualitatives, soit quantitatives. La variable dépendante est habituellement la survenue ou non d’un événement (maladie ou autre) et les variables indépendantes sont celles susceptibles d’influencer la survenue de cet événement c’est-à-dire les variables mesurant l’exposition à un facteur de risque ou à un facteur protecteur, ou variable représentant un facteur de confusion. L’intérêt majeur de cette technique est de quantifier la force de l’association entre chaque variable indépendante et la variable dépendante, en tenant compte de l’effet des autres variables intégrées dans le modèle (« mesure ajustée ») [1, 2]. Cette méthode est relativement simple à comprendre et à appliquer ; ses résultats peuvent être aisément interprétés car liés directement à l’épidémiologie. Les coefficients estimés par le modèle sont en effet liés mathématiquement à l’odds-ratio (ou rapport des cotes) qui représente la force de l’association entre un facteur et une maladie, bien qu’il ne soit qu’une approximation du risque relatif. La méthode de régression logistique est donc la méthode multivariable de choix pour rechercher des facteurs de risque ou des facteurs protecteurs de maladie. Toutefois, il ne faut pas oublier qu’elle reste une simplification mathématique de phénomènes complexes, qu’elle repose théoriquement sur des conditions, dont le respect est trop peu souvent vérifié par les chercheurs qui l’appliquent. La régression logistique est différente du modèle de Cox car elle ne permet pas la prise en compte de données censurées (c’est-à-dire en tenant compte des temps d’observation individuels). Elle impose des données pour lesquelles les patients ont été observés pendant la même période. © 2005 SPLF, tous droits réservés 159 P.M. Preux et coll. Cet article n’est pas destiné à permettre au lecteur de réaliser lui-même une régression logistique, ce qui reste du domaine des biostatisticiens ou des épidémiologistes. Il a pour but de sensibiliser à la méthode (savoir y penser), d’en donner les principes fondamentaux, et de donner les clefs de la lecture de ses résultats. Nous donnerons d’abord brièvement la définition théorique du modèle logistique, puis exposerons les points essentiels de sa pratique et de son interprétation. Fig. 1. Représentation graphique de la fonction logistique. Définition du modèle logistique On supposera que la variable Y à laquelle on s’intéresse est la survenue ou non d’une maladie, dont les deux catégories seront notées M + et M-. Dans le cas d’une seule variable X explicative (équivalent d’une régression simple), le modèle s’écrit : exp D + EX P M + |X = f X = ----------------------------------------1 + exp D + EX Il s’agit de la probabilité de maladie si la variable X est prise en compte et quand sa valeur est connue P (M + |X) se lit : probabilité de maladie si X. f (X) est la fonction logistique. L’intérêt de cette fonction réside dans la simplicité de passage à l’estimation d’un odds-ratio (OR) ou rapport des cotes qui mesure la force de l’association entre la maladie M et une variable d’exposition. En effet, si l’exposition est codée en 0/1 (non exposé/exposé), le modèle permet d’arriver après simplification à OR = exp (E). Le coefficient Ede la variable d’exposition dans le modèle logistique est donc le logarithme de l’odds-ratio mesurant l’association entre cette variable et la maladie, ce qui permet d’interpréter facilement les résultats d’une régression logistique. De plus, la fonction logistique a une forme sigmoïde (fig. 1) qui correspond à une forme de relation souvent observée entre une « dose » d’exposition et la fréquence d’une maladie. Ainsi, le modèle logistique permet de décrire l’association entre le degré d’exposition à un facteur quantitatif et l’accroissement du risque de la maladie, car pour tous les degrés d’exposition, la valeur du modèle logistique reste entre 0 et 1 ce qui correspond à une probabilité de maladie. L’extension vers un modèle à plusieurs variables (régression multiple) se fait facilement : n § ·½ °¨ ° exp ® D + E i X i¸ ¾ ¨ ¸ °© ¹° i=1 ¯ ¿ P M + |X X 1 ... X n = --------------------------------------------------------------n § ·½ °¨ ° 1 + exp ® D + E i X i¸ ¾ ¨ ¸ °© ¹° i=1 ¯ ¿ À chaque variable Xi est associé un coefficient Ei et ORi (mesurant l’association entre Xi et M+) se calcule par exp (Ei). ¦ ¦ 160 Rev Mal Respir 2005 ; 22 : 159-62 Conduite pratique Choix des variables Xi Ce choix est primordial. Il doit être basé sur les connaissances antérieures du problème traité, en particulier sur les facteurs de confusion possibles. Le modèle logistique utilisé pour l’analyse doit être basé sur des hypothèses et les connaissances du « réseau de causalité » qui se tisse autour d’une maladie. On pourrait aussi appeler ce réseau « modèle épidémiologique » de la maladie étudiée. Des méthodes graphiques (Directed Acyclic Graphics) peuvent être utiles pour visualiser ce réseau de causalité. Un exemple et des références théoriques de ces graphiques peuvent être trouvés dans Merchant et Pitiphat [3]. Il faut en préalable à l’analyse multivariable réaliser une analyse descriptive précise et complète (distribution des variables, recodage, et/ou regroupement…) puis une analyse univariable par régression logistique. Les odds-ratio calculés par cette analyse sont dits « bruts ». On inclura ensuite dans le modèle initial de l’analyse multivariable les variables qui sont liées de façon suffisamment forte à la variable dépendante que l’on cherche à expliquer. On tolère d’inclure dans ce modèle initial des variables dont le degré de significativité est inférieur à 0,20 en univariable car elles peuvent être alors des facteurs de confusion ou être influencées par d’autres variables dans un modèle multivariable et devenir alors significatives. On inclura aussi éventuellement des variables d’intérêt clinique connu, des facteurs de confusion manifestes dont l’analyse univariable n’aurait pourtant pas abouti à un p inférieur à 0,20, ou dans certains cas les facteurs d’appariement des enquêtes castémoins appariées (voir paragraphe cas particuliers). Parfois il peut être utile de créer plusieurs variables binaires fictives (dummy variables) pour représenter chaque item de variables polytomiques. Enfin, dans certains cas, la liaison entre deux variables qui devraient être entrées dans le modèle initial est très forte (elles apportent toutes deux la même information). Les coefficients du modèle ne peuvent alors parfois pas être estimés. On parle dans ce cas de colinéarité entre variables. Pour l’éviter, il est donc particulièrement important de bien sélectionner les variables initiales tant d’un point de vue clinique que statistique. Qu’est-ce qu’une régression logistique ? Sélection du modèle final Cas particuliers On peut inclure progressivement les variables (pas à pas ascendant ou stepwise regression) en laissant de côté celles qui ne deviennent pas significatives ou ne le restent plus. Cette première procédure, utilisée comme procédure automatique dans certains logiciels, peut être risquée car des facteurs de confusion pourraient alors ne pas être contrôlés (notamment si tous ces facteurs ne sont pas entrés dans l’analyse). Nous recommandons la procédure pas à pas descendant (backward elimination) qui consiste à inclure toutes les variables choisies puis de retirer progressivement les non significatives. À chaque pas, on vérifie qu’il n’y avait pas de confusion majeure entre la variable enlevée et celles restantes dans le modèle en vérifiant les modifications de leurs odds-ratio (variation tolérée : r 20 %) voire changements radicaux de leurs degrés de significativité. Ces phénomènes devront être pris en compte dans l’interprétation. Lorsque le modèle final est atteint (plus petit nombre possible de variables explicatives liées significativement à la variable dépendante) on vérifie l’absence d’interaction entre les variables du modèle final. Ceci se fait en incluant des termes d’interaction (produit des 2 variables concernées) dans le modèle et en vérifiant leur non significativité. Ici encore en cas d’interaction significative, il faudra en tenir compte dans l’interprétation. En particulier cela peut signifier que l’effet d’une variable ne pourra être interprété qu’en tenant compte du niveau d’une autre variable. Il peut parfois arriver que plusieurs modèles finaux conviennent selon les stratégies d’analyse. Dans ce cas, l’interprétation des facteurs de confusion suspectés ou confirmés, des interactions, la meilleure adéquation statistique d’un modèle (cf. paragraphe adéquation) mais surtout l’utilité clinique des modèles permettront d’en choisir un. En fait, l’idéal serait de déterminer a priori quel modèle théorique on souhaite tester et de ne rechercher d’autres modèles que dans un second temps. Le modèle logistique peut s’appliquer dans toutes les études d’observation, directement aux enquêtes de cohorte ou aux enquêtes transversales où l’on peut connaître le risque de la maladie. On peut montrer toutefois qu’il peut s’appliquer également dans les enquêtes cas-témoins non appariées ou appariées. Un échantillon apparié peut être considéré comme un échantillon stratifié à l’extrême, chaque strate étant constituée des sujets d’une même paire. Les estimations classiques peuvent alors être biaisées du fait du nombre très élevé de strates. Dans ce cas on utilise la régression logistique conditionnelle qui n’est pas disponible dans tous les logiciels. Toutefois, lorsque les variables d’appariement sont explicites et comportent peu de catégories (sexe, âge en 2 ou 3 classes) on montre qu’on obtient des résultats proches d’une régression logistique conditionnelle en incluant (forçant) ces variables d’appariement dans le modèle d’une régression logistique classique. Adéquation du ou des modèles Il s’agit d’une étape souvent éludée par les chercheurs et/ou non rapportée dans les publications. Elle est pourtant importante. Une modélisation consiste à décrire les données sous la forme d’un modèle qui possède certaines conditions et basé sur une loi précise. Il s’agit de la même problématique que la vérification des conditions des tests statistiques classiques. Cette vérification fait appel soit à des méthodes graphiques, soit à des tests d’adéquation équivalents à la comparaison d’une distribution observée à une distribution théorique (chi2). Ces tests sont donnés par certains logiciels. Il est également possible de se baser sur une quantité appelée « déviance » qui permet de comparer deux modèles [4]. Enfin, la valeur R2 peut être utile. Elle représente le pourcentage expliqué de variation de la variable dépendante par les variables indépendantes incluses dans le modèle. Il est possible que des variables soient significatives mais que le modèle n’explique pas bien la variable dépendante parce que des facteurs n’ont pas été recherchés ou inclus dans l’analyse. Exemple L’exemple suivant émane d’une publication présentant les résultats d’une étude transversale par autoquestionnaire dont les objectifs étaient de déterminer la prévalence de la bronchite chronique dans la population française adulte et de mettre en évidence ses facteurs de risque [5]. La régression logistique a été utilisée pour ce deuxième objectif. À partir d’un panel de 20 000 foyers choisis sur la base de critères géographiques et socio-économiques, 16 800 individus ont été sélectionnés en utilisant cinq données d’échantillonnage assurant la représentativité par rapport à la population française adulte âgée de plus de 25 ans : zone de résidence, type d’habitat, âge, profession et statut socio-économique, nombre de personnes vivant dans le foyer. Le nombre de répondeurs a été de 14 076 soit 83,5 % des enquêtés. Une prévalence de bronchite chronique de 4,1 % a été obtenue. Tableau I. Identification des facteurs de risque de la bronchite chronique par régression logistique, échantillon de la population française adulte, 2002 [5]. Variables dépendantes Référence Existence d’une comorbidité Absence de comorbidité 4,90 4,10-5,86 < 0,0001 Tabagisme en cours Non fumeur 3,41 2,75-4,22 < 0,0001 Pour 1 paquet-année supplémentaire 1,02 1,01-1,03 < 0,0001 Nombre de paquets-année OR ajustés IC 95% p OR : odds ratio ; IC : intervalle de confiance ; p : degré de significativité en analyse multivariée. © 2005 SPLF, tous droits réservés 161 P.M. Preux et coll. Dans le cadre de la régression logistique, la variable dépendante était l’existence ou non d’une bronchite chronique. Les variables indépendantes étudiées (en accord avec les données de la littérature) étaient l’âge, le sexe, le statut socioéconomique, la présence de comorbidités (antécédents ou présence de pleurésie, tuberculose pulmonaire, bronchectasie, infarctus du myocarde, asthme), le statut tabagique et ses caractéristiques. Après une phase préalable d’analyse descriptive, les odds ratio (OR) bruts ont été calculés en analyse univariable. Seules les variables dont le degré de significativité était inférieur à 0,25 ont été incluses dans le modèle de régression logistique, ce qui était le cas pour la présence de comorbidités, le tabagisme en cours et le nombre de paquets-année consommés, mais non pour le sexe, l’âge et le statut socio-économique. Les OR ajustés ont ensuite été calculés en analyse multivariable par régression logistique (modèle final : tableau I). Ce résultat final s’interprète de la façon suivante, par exemple pour les comorbidités : l’existence d’au moins une comorbidité multi- 162 Rev Mal Respir 2005 ; 22 : 159-62 plie le risque d’avoir une bronchique chronique par 4,9, ce qui est très significatif. Références 1 2 3 4 5 Aminot I, Damon MN : Régression logistique : intérêt dans l’analyse de données relatives aux pratiques médicales. Revue Médicale de l’Assurance Maladie 2002 ; 33 : 137-43. Katz MH : Multivariable analysis. A practical guide for clinicians. Cambridge University Press, 1999. Merchant AT, Pitiphat W : Directed acyclic graphs (DAGs): an aid to assess confounding in dental research. Community Dentistry and Oral Epidemiology 2002 ; 30 : 399-404. Hosmer DW, Lemeshow S : Applied logistic regression. Editions Wiley, 1989, 307p. Huchon GJ, Vergnenègre A, Neukirch F, Brami G, Roche N, Preux PM : Chronic bronchitis among French adults: high prevalence and underdiagnosis. Eur Respir J 2002 ; 20 : 806-12.