Chapitre 6 Régression logistique
Transcription
Chapitre 6 Régression logistique
Statistique appliquée aux sciences de l’ingénieurChapitre 6 Régression logistique C. BLANCHET-SCALLIET 2007-2008 On peut considérer la régression logistique comme une extension du problème de régression au cas où la variable à expliquer est qualitative. Les données consistent en n observations réparties en k classes et décrites par p variables explicatives. On suppose que les k groupes sont en proportion p1 , p2 , ..., pk dans la population totale et que la distribution de probabilité du vecteur d’observation x = (x1 , ...xp ) est donnée pour chaque groupe j par la densité fj (x). Observant un point (x1 , .., xp ), la probabilité qu’il provienne du groupe j est donnée par la formule de Bayes pj fj (x) P (Gj /x) = Pk i=1 pi fi (x) Cette probabilité est appelée probabilité à posteriori. La régression logistique binaire, k=2, propose la modèle suivant. (On supposera que l’on cherche à prédire Y qui prend deux valeurs 0 ou 1. 0 eβ0 +β x P (G1 /x) = π(x) = 1 + eβ0 +β 0 x La probabilité s’écrit comme une fonction logistique de β0 + β0x. 0.1 Interprétation Le choix de la fonction logistique conduit à une expression comprise entre 0 et 1 et peut être justifié dans le cas d’hypothèses de loi normales. De plus, les coefficients du modèle sont liés aux odds-ratios de la manière suivante. Considérons tout d’abord le cas d’une variable explicative binaire. Par exemple, si on étudie l’impact d’être fummeur sur l’apparition d’une maladie, on aurait X = 1 si l’on fume et X = 0 sinon et Y = 1 désigne l’apparition de la maladie. eβ0 +β1 La probabilité d’être malade si l’on fume est P (Y = 1/X = 1) = 1+e β0 +β1 que l’on compare à la probabilité de ne pas être malade si l’on fume P (Y = 0/X = 1) = 1 − P (Y = 1/X = 1). L’odds est le rapport de ces deux probabilités. On fait de même pour les non-fumeurs et on définit l’odds-ration comme le rapport des deux odds O.R = P (Y = 1/X = 1)/(Y = 0/X = 1) = eβ1 P (Y = 1/X = 0)/(Y = 0/X = 0) C’est le facteur par lequel la cote (ou odds) est multiplié si l’on passe de X = 0 à X = 1. Dans notre exemple, un O.R = a > 1 indique un facteur aggravant le fait de fumer. En effet le risque d’être malade est a fois supérieur pour les fumeurs que pour les non-fumeurs. Remarque : Si les variables sont indépendantes , O.R. = 1 Pour une v.a. numérique , on a O.R = π(x + 1)/(1 − π(x + 1)) = eβ1 π(x)/(1 − π(x)) La valeur de l’odds-ratio est indépendante de la valeur de x, mais dépend de l’unité de mesure de la variable. 1 On peut sans difficulté utiliser des prédicteurs qualitatifs à m modalités. Chaque variable est remplacée par (m-1) indicatrices après élimination d’une des modalités dite de référence, qui aura un coefficient nul. Les comparaisons de coefficients se font alors par rapport à cette modalité : une valeur proche de 0 signifie que la modalité est proche de la modalité de référence. 0.2 Estimation Elle s’effectue par la méthode du maximum de vraisemblance à partir d’un échantillon i.i.d de n observations (yi , xi ). La vraisemblance correspond d’habitude à la probabilité d’observer les (yi , xi ), mais ici on calcule une vraisemblance conditionnelle d’observer (yi sachant xi ). (1−yi ) 0 Q eβ0 +β0 xi yi eβ0 +β xi ∗ 1 − L(β0 , β) = 0 0 1+eβ0 +β x−i 1+eβ0 +β xi = Q π(xi )yi (1 − π(xi ))(1−yi ) En annulant les dérivées de la log-vraisemblance, on obtient le système ( ∂l(β) P = (yi − π(xi )) = 0 ∂β0 P j ∂l(β) = xi (yi − π(xi )) = 0 j=1,..,p ∂βj qui n’a pas de solution analytique et se résout par des algorithmes numériques. On obtient la matrice de variance-covariance asymptotique des estimateurs. 2 −1 ∂ l(β) V̂ (β̂) = − = (X0 V̂X)−1 ∂β 2 πˆ1 (1 − πˆ1 ) 0 où V̂ = 0 πˆn (1 − πˆn ) 0.3 Test et sélection de variables Trois méthodes sont disponibles pour tester l’apport d’une variable au modèle. Pour ces trois tests, l’hypothèse est : H0 : La variable xj est non influente : βj = 0 2 βˆ – Test de Wald : Statistique : T 2 = σˆjj 2 suit une loi du χ2 (1) – Test du rapport de vraisemblance : Vraisemblance sans la variable L = −2Ln Vraisemblance avec la variable suit une loi du χ2 (1) 2 – Test du score : 0 h U = U (β)β̂H0 J(β̂H0 ) h 2 i où J(β̂) = − ∂∂βl(β) 2 i−1 U (β)β̂H0 et U le vecteur des dérivées partielles de la log-vraisemblance. β=β̂ La statistique U suit une loi du χ2 (1). Ces trois tests donnent des résultats très proches. Le test de Wald compare l’écart entre le coefficient théorique et sa valeur estimée, celui du score compare à zéro la pente de la tangente au point théorique. Le test du rapport de vraisemblance et le test de score peuvent servir à tester globalement le modèle ou bien plusieurs variables. Il suffit d’adapter le degré de liberté de la loi du χ2 . 0.4 Validation Pour prédire la variable Ŷ , la règle d’affectation est la suivante : On affecte un nouvel individu x à la classe telle que la probabilité à postériori est maximale, i.e Ŷ = argmax1≤i≤k π̂(x) Si la variable Y est binaire, cela revient à prédire Ŷ = 1 si π̂(x) > 0.5. On appelle probabilité de coupure la valeur 0.5. On peut éventuellement modifier cette probabilité. On dresse ensuite la matrice de confusion (ou cross-over) qui croisent les valeurs de Y et les valeurs prédites Ŷ . La comparaison de performance ne va pas toujours de soi, quand les modèles n’ont pas le même nombre de paramètres ou ne sont pas du même type. Le modèle le plus complexe sera plus performant sur les données ayant servi à l’estimation. Pour palier à ce biais, deux méthodes sont proposées. – On partage l’échantillon du départ en deux sous-échantillon : le premier dit d’apprentissage sert à estimer le modèle, le second de validation sert à construire la matrice de confusion. Cette méthode nécessite un grand nombre d’observations. – On réalise une validation croisée en partageant en 10 échantillons les données : les 9 premiers servant à l’apprentissage et le dixième à la validation, puis en réalise une permutation circulaire sur le rôle des échantillons. Le taux d’erreur est obtenu comme une moyenne sur des 10 taux d’erreurs obtenus. 3