La régression logistique

Transcription

La régression logistique
Mémento biostatistique
Qu’est-ce qu’une régression logistique ?
P.M. Preux1, 2, P. Odermatt3, A. Perna1, 2, B. Marin1, 2, A. Vergnenègre1, 2
Introduction
1
Service de l’Information Médicale et de l’Evaluation,
UF de Recherche Clinique et Biostatistique, Hôpital du Cluzeau,
Limoges, France.
2
Institut d’Epidémiologie et de Neurologie Tropicale (EA3174),
Limoges, France.
3
Institut Francophone de Médecine Tropicale, Vientiane, Laos.
Correspondance : P.M. Preux
Service de l’Information Médicale et de l’Evaluation,
UF de Recherche Clinique et Biostatistique, Hôpital du Cluzeau,
23, avenue Dominique Larrey, 87042 Limoges Cedex.
[email protected]
Réception version princeps à la Revue : 07.02.2004.
Retour aux auteurs pour révision : 26.02.2004.
Réception 1ère version revisée : 28.02.2004.
Acceptation définitive : 28.02.2004.
Rev Mal Respir 2005 ; 22 : 159-62
La régression logistique est un des modèles multivariables couramment utilisé en épidémiologie avec la régression
linéaire multiple, la régression de Poisson et le modèle de
Cox. Elle s’utilise lorsque la variable à expliquer (variable
dépendante Y) est qualitative, le plus souvent binaire. Les
variables explicatives (variables indépendantes Xi) peuvent
être par contre soit qualitatives, soit quantitatives. La variable
dépendante est habituellement la survenue ou non d’un événement (maladie ou autre) et les variables indépendantes sont
celles susceptibles d’influencer la survenue de cet événement
c’est-à-dire les variables mesurant l’exposition à un facteur de
risque ou à un facteur protecteur, ou variable représentant un
facteur de confusion.
L’intérêt majeur de cette technique est de quantifier la
force de l’association entre chaque variable indépendante et
la variable dépendante, en tenant compte de l’effet des
autres variables intégrées dans le modèle (« mesure ajustée »)
[1, 2].
Cette méthode est relativement simple à comprendre et
à appliquer ; ses résultats peuvent être aisément interprétés
car liés directement à l’épidémiologie. Les coefficients estimés par le modèle sont en effet liés mathématiquement à
l’odds-ratio (ou rapport des cotes) qui représente la force de
l’association entre un facteur et une maladie, bien qu’il ne
soit qu’une approximation du risque relatif. La méthode de
régression logistique est donc la méthode multivariable de
choix pour rechercher des facteurs de risque ou des facteurs
protecteurs de maladie. Toutefois, il ne faut pas oublier
qu’elle reste une simplification mathématique de phénomènes complexes, qu’elle repose théoriquement sur des conditions, dont le respect est trop peu souvent vérifié par les
chercheurs qui l’appliquent. La régression logistique est différente du modèle de Cox car elle ne permet pas la prise en
compte de données censurées (c’est-à-dire en tenant compte
des temps d’observation individuels). Elle impose des données pour lesquelles les patients ont été observés pendant la
même période.
© 2005 SPLF, tous droits réservés
159
P.M. Preux et coll.
Cet article n’est pas destiné à permettre au lecteur de réaliser lui-même une régression logistique, ce qui reste du
domaine des biostatisticiens ou des épidémiologistes.
Il a pour but de sensibiliser à la méthode (savoir y penser), d’en donner les principes fondamentaux, et de donner
les clefs de la lecture de ses résultats.
Nous donnerons d’abord brièvement la définition théorique du modèle logistique, puis exposerons les points essentiels de sa pratique et de son interprétation.
Fig. 1.
Représentation graphique de la fonction logistique.
Définition du modèle logistique
On supposera que la variable Y à laquelle on s’intéresse
est la survenue ou non d’une maladie, dont les deux catégories seront notées M + et M-.
Dans le cas d’une seule variable X explicative (équivalent
d’une régression simple), le modèle s’écrit :
exp D + EX P M + |X = f X = ----------------------------------------1 + exp D + EX Il s’agit de la probabilité de maladie si la variable X est
prise en compte et quand sa valeur est connue P (M + |X) se
lit : probabilité de maladie si X. f (X) est la fonction logistique. L’intérêt de cette fonction réside dans la simplicité de
passage à l’estimation d’un odds-ratio (OR) ou rapport des
cotes qui mesure la force de l’association entre la maladie M et
une variable d’exposition. En effet, si l’exposition est codée en
0/1 (non exposé/exposé), le modèle permet d’arriver après
simplification à OR = exp (E). Le coefficient Ede la variable
d’exposition dans le modèle logistique est donc le logarithme
de l’odds-ratio mesurant l’association entre cette variable et la
maladie, ce qui permet d’interpréter facilement les résultats
d’une régression logistique.
De plus, la fonction logistique a une forme sigmoïde
(fig. 1) qui correspond à une forme de relation souvent observée entre une « dose » d’exposition et la fréquence d’une
maladie. Ainsi, le modèle logistique permet de décrire l’association entre le degré d’exposition à un facteur quantitatif et
l’accroissement du risque de la maladie, car pour tous les
degrés d’exposition, la valeur du modèle logistique reste entre
0 et 1 ce qui correspond à une probabilité de maladie.
L’extension vers un modèle à plusieurs variables (régression multiple) se fait facilement :
n
­§
·½
°¨
°
exp ® D +
E i X i¸ ¾
¨
¸
°©
¹°
i=1
¯
¿
P M + |X X 1 ... X n = --------------------------------------------------------------n
­§
·½
°¨
°
1 + exp ® D +
E i X i¸ ¾
¨
¸
°©
¹°
i=1
¯
¿
À chaque variable Xi est associé un coefficient Ei et ORi
(mesurant l’association entre Xi et M+) se calcule par exp (Ei).
¦
¦
160
Rev Mal Respir 2005 ; 22 : 159-62
Conduite pratique
Choix des variables Xi
Ce choix est primordial. Il doit être basé sur les connaissances antérieures du problème traité, en particulier sur les
facteurs de confusion possibles. Le modèle logistique utilisé
pour l’analyse doit être basé sur des hypothèses et les connaissances du « réseau de causalité » qui se tisse autour d’une
maladie. On pourrait aussi appeler ce réseau « modèle
épidémiologique » de la maladie étudiée. Des méthodes graphiques (Directed Acyclic Graphics) peuvent être utiles pour
visualiser ce réseau de causalité. Un exemple et des références
théoriques de ces graphiques peuvent être trouvés dans Merchant et Pitiphat [3]. Il faut en préalable à l’analyse multivariable réaliser une analyse descriptive précise et complète
(distribution des variables, recodage, et/ou regroupement…)
puis une analyse univariable par régression logistique. Les
odds-ratio calculés par cette analyse sont dits « bruts ». On
inclura ensuite dans le modèle initial de l’analyse multivariable les variables qui sont liées de façon suffisamment forte à la
variable dépendante que l’on cherche à expliquer.
On tolère d’inclure dans ce modèle initial des variables
dont le degré de significativité est inférieur à 0,20 en univariable car elles peuvent être alors des facteurs de confusion ou
être influencées par d’autres variables dans un modèle multivariable et devenir alors significatives. On inclura aussi éventuellement des variables d’intérêt clinique connu, des
facteurs de confusion manifestes dont l’analyse univariable
n’aurait pourtant pas abouti à un p inférieur à 0,20, ou dans
certains cas les facteurs d’appariement des enquêtes castémoins appariées (voir paragraphe cas particuliers). Parfois il
peut être utile de créer plusieurs variables binaires fictives
(dummy variables) pour représenter chaque item de variables
polytomiques. Enfin, dans certains cas, la liaison entre deux
variables qui devraient être entrées dans le modèle initial est
très forte (elles apportent toutes deux la même information).
Les coefficients du modèle ne peuvent alors parfois pas être
estimés. On parle dans ce cas de colinéarité entre variables.
Pour l’éviter, il est donc particulièrement important de bien
sélectionner les variables initiales tant d’un point de vue clinique que statistique.
Qu’est-ce qu’une régression logistique ?
Sélection du modèle final
Cas particuliers
On peut inclure progressivement les variables (pas à pas
ascendant ou stepwise regression) en laissant de côté celles qui
ne deviennent pas significatives ou ne le restent plus.
Cette première procédure, utilisée comme procédure
automatique dans certains logiciels, peut être risquée car des
facteurs de confusion pourraient alors ne pas être contrôlés
(notamment si tous ces facteurs ne sont pas entrés dans l’analyse). Nous recommandons la procédure pas à pas descendant
(backward elimination) qui consiste à inclure toutes les variables choisies puis de retirer progressivement les non significatives. À chaque pas, on vérifie qu’il n’y avait pas de confusion
majeure entre la variable enlevée et celles restantes dans le
modèle en vérifiant les modifications de leurs odds-ratio
(variation tolérée : r 20 %) voire changements radicaux de
leurs degrés de significativité. Ces phénomènes devront être
pris en compte dans l’interprétation. Lorsque le modèle final
est atteint (plus petit nombre possible de variables explicatives
liées significativement à la variable dépendante) on vérifie
l’absence d’interaction entre les variables du modèle final. Ceci
se fait en incluant des termes d’interaction (produit des 2
variables concernées) dans le modèle et en vérifiant leur non
significativité. Ici encore en cas d’interaction significative, il
faudra en tenir compte dans l’interprétation. En particulier
cela peut signifier que l’effet d’une variable ne pourra être
interprété qu’en tenant compte du niveau d’une autre variable.
Il peut parfois arriver que plusieurs modèles finaux conviennent selon les stratégies d’analyse. Dans ce cas, l’interprétation
des facteurs de confusion suspectés ou confirmés, des interactions, la meilleure adéquation statistique d’un modèle (cf.
paragraphe adéquation) mais surtout l’utilité clinique des
modèles permettront d’en choisir un.
En fait, l’idéal serait de déterminer a priori quel modèle
théorique on souhaite tester et de ne rechercher d’autres
modèles que dans un second temps.
Le modèle logistique peut s’appliquer dans toutes les
études d’observation, directement aux enquêtes de cohorte ou
aux enquêtes transversales où l’on peut connaître le risque de
la maladie. On peut montrer toutefois qu’il peut s’appliquer
également dans les enquêtes cas-témoins non appariées ou
appariées.
Un échantillon apparié peut être considéré comme un
échantillon stratifié à l’extrême, chaque strate étant constituée des sujets d’une même paire. Les estimations classiques
peuvent alors être biaisées du fait du nombre très élevé de
strates. Dans ce cas on utilise la régression logistique conditionnelle qui n’est pas disponible dans tous les logiciels. Toutefois, lorsque les variables d’appariement sont explicites et
comportent peu de catégories (sexe, âge en 2 ou 3 classes) on
montre qu’on obtient des résultats proches d’une régression
logistique conditionnelle en incluant (forçant) ces variables
d’appariement dans le modèle d’une régression logistique
classique.
Adéquation du ou des modèles
Il s’agit d’une étape souvent éludée par les chercheurs
et/ou non rapportée dans les publications. Elle est pourtant
importante. Une modélisation consiste à décrire les données
sous la forme d’un modèle qui possède certaines conditions et
basé sur une loi précise. Il s’agit de la même problématique
que la vérification des conditions des tests statistiques classiques. Cette vérification fait appel soit à des méthodes graphiques, soit à des tests d’adéquation équivalents à la
comparaison d’une distribution observée à une distribution
théorique (chi2). Ces tests sont donnés par certains logiciels.
Il est également possible de se baser sur une quantité appelée
« déviance » qui permet de comparer deux modèles [4].
Enfin, la valeur R2 peut être utile. Elle représente le pourcentage expliqué de variation de la variable dépendante par les
variables indépendantes incluses dans le modèle. Il est possible que des variables soient significatives mais que le modèle
n’explique pas bien la variable dépendante parce que des facteurs n’ont pas été recherchés ou inclus dans l’analyse.
Exemple
L’exemple suivant émane d’une publication présentant
les résultats d’une étude transversale par autoquestionnaire
dont les objectifs étaient de déterminer la prévalence de la
bronchite chronique dans la population française adulte et de
mettre en évidence ses facteurs de risque [5]. La régression
logistique a été utilisée pour ce deuxième objectif.
À partir d’un panel de 20 000 foyers choisis sur la base
de critères géographiques et socio-économiques, 16 800 individus ont été sélectionnés en utilisant cinq données d’échantillonnage assurant la représentativité par rapport à la
population française adulte âgée de plus de 25 ans : zone de
résidence, type d’habitat, âge, profession et statut socio-économique, nombre de personnes vivant dans le foyer. Le nombre
de répondeurs a été de 14 076 soit 83,5 % des enquêtés. Une
prévalence de bronchite chronique de 4,1 % a été obtenue.
Tableau I.
Identification des facteurs de risque de la bronchite chronique par
régression logistique, échantillon de la population française adulte,
2002 [5].
Variables
dépendantes
Référence
Existence d’une
comorbidité
Absence de
comorbidité
4,90
4,10-5,86 < 0,0001
Tabagisme
en cours
Non fumeur
3,41
2,75-4,22 < 0,0001
Pour 1
paquet-année
supplémentaire
1,02
1,01-1,03 < 0,0001
Nombre de
paquets-année
OR ajustés IC 95%
p
OR : odds ratio ; IC : intervalle de confiance ; p : degré de
significativité en analyse multivariée.
© 2005 SPLF, tous droits réservés
161
P.M. Preux et coll.
Dans le cadre de la régression logistique, la variable
dépendante était l’existence ou non d’une bronchite chronique. Les variables indépendantes étudiées (en accord avec les
données de la littérature) étaient l’âge, le sexe, le statut socioéconomique, la présence de comorbidités (antécédents ou
présence de pleurésie, tuberculose pulmonaire, bronchectasie,
infarctus du myocarde, asthme), le statut tabagique et ses
caractéristiques.
Après une phase préalable d’analyse descriptive, les odds
ratio (OR) bruts ont été calculés en analyse univariable. Seules les variables dont le degré de significativité était inférieur à
0,25 ont été incluses dans le modèle de régression logistique,
ce qui était le cas pour la présence de comorbidités, le tabagisme en cours et le nombre de paquets-année consommés,
mais non pour le sexe, l’âge et le statut socio-économique. Les
OR ajustés ont ensuite été calculés en analyse multivariable
par régression logistique (modèle final : tableau I). Ce résultat
final s’interprète de la façon suivante, par exemple pour les
comorbidités : l’existence d’au moins une comorbidité multi-
162
Rev Mal Respir 2005 ; 22 : 159-62
plie le risque d’avoir une bronchique chronique par 4,9, ce
qui est très significatif.
Références
1
2
3
4
5
Aminot I, Damon MN : Régression logistique : intérêt dans l’analyse
de données relatives aux pratiques médicales. Revue Médicale de l’Assurance Maladie 2002 ; 33 : 137-43.
Katz MH : Multivariable analysis. A practical guide for clinicians.
Cambridge University Press, 1999.
Merchant AT, Pitiphat W : Directed acyclic graphs (DAGs): an aid to
assess confounding in dental research. Community Dentistry and Oral
Epidemiology 2002 ; 30 : 399-404.
Hosmer DW, Lemeshow S : Applied logistic regression. Editions
Wiley, 1989, 307p.
Huchon GJ, Vergnenègre A, Neukirch F, Brami G, Roche N,
Preux PM : Chronic bronchitis among French adults: high prevalence
and underdiagnosis. Eur Respir J 2002 ; 20 : 806-12.