Chapitre 6 Régression logistique

Transcription

Chapitre 6 Régression logistique
Statistique appliquée aux sciences de l’ingénieurChapitre 6 Régression logistique
C. BLANCHET-SCALLIET
2007-2008
On peut considérer la régression logistique comme une extension du problème de régression
au cas où la variable à expliquer est qualitative.
Les données consistent en n observations réparties en k classes et décrites par p variables
explicatives. On suppose que les k groupes sont en proportion p1 , p2 , ..., pk dans la population
totale et que la distribution de probabilité du vecteur d’observation x = (x1 , ...xp ) est donnée
pour chaque groupe j par la densité fj (x).
Observant un point (x1 , .., xp ), la probabilité qu’il provienne du groupe j est donnée par la
formule de Bayes
pj fj (x)
P (Gj /x) = Pk
i=1 pi fi (x)
Cette probabilité est appelée probabilité à posteriori. La régression logistique binaire, k=2,
propose la modèle suivant. (On supposera que l’on cherche à prédire Y qui prend deux valeurs
0 ou 1.
0
eβ0 +β x
P (G1 /x) = π(x) =
1 + eβ0 +β 0 x
La probabilité s’écrit comme une fonction logistique de β0 + β0x.
0.1
Interprétation
Le choix de la fonction logistique conduit à une expression comprise entre 0 et 1 et peut
être justifié dans le cas d’hypothèses de loi normales. De plus, les coefficients du modèle sont
liés aux odds-ratios de la manière suivante.
Considérons tout d’abord le cas d’une variable explicative binaire. Par exemple, si on étudie
l’impact d’être fummeur sur l’apparition d’une maladie, on aurait X = 1 si l’on fume et
X = 0 sinon et Y = 1 désigne l’apparition de la maladie.
eβ0 +β1
La probabilité d’être malade si l’on fume est P (Y = 1/X = 1) = 1+e
β0 +β1 que l’on compare
à la probabilité de ne pas être malade si l’on fume P (Y = 0/X = 1) = 1 − P (Y = 1/X = 1).
L’odds est le rapport de ces deux probabilités. On fait de même pour les non-fumeurs et on
définit l’odds-ration comme le rapport des deux odds
O.R =
P (Y = 1/X = 1)/(Y = 0/X = 1)
= eβ1
P (Y = 1/X = 0)/(Y = 0/X = 0)
C’est le facteur par lequel la cote (ou odds) est multiplié si l’on passe de X = 0 à X = 1.
Dans notre exemple, un O.R = a > 1 indique un facteur aggravant le fait de fumer. En
effet le risque d’être malade est a fois supérieur pour les fumeurs que pour les non-fumeurs.
Remarque : Si les variables sont indépendantes , O.R. = 1
Pour une v.a. numérique , on a
O.R =
π(x + 1)/(1 − π(x + 1))
= eβ1
π(x)/(1 − π(x))
La valeur de l’odds-ratio est indépendante de la valeur de x, mais dépend de l’unité de mesure
de la variable.
1
On peut sans difficulté utiliser des prédicteurs qualitatifs à m modalités. Chaque variable
est remplacée par (m-1) indicatrices après élimination d’une des modalités dite de référence,
qui aura un coefficient nul. Les comparaisons de coefficients se font alors par rapport à cette
modalité : une valeur proche de 0 signifie que la modalité est proche de la modalité de
référence.
0.2
Estimation
Elle s’effectue par la méthode du maximum de vraisemblance à partir d’un échantillon i.i.d
de n observations (yi , xi ). La vraisemblance correspond d’habitude à la probabilité d’observer
les (yi , xi ), mais ici on calcule une vraisemblance conditionnelle d’observer (yi sachant xi ).
(1−yi )
0
Q eβ0 +β0 xi yi eβ0 +β xi
∗
1
−
L(β0 , β) =
0
0
1+eβ0 +β x−i
1+eβ0 +β xi
=
Q
π(xi )yi (1 − π(xi ))(1−yi )
En annulant les dérivées de la log-vraisemblance, on obtient le système
( ∂l(β)
P
=
(yi − π(xi )) = 0
∂β0
P j
∂l(β)
=
xi (yi − π(xi )) = 0 j=1,..,p
∂βj
qui n’a pas de solution analytique et se résout par des algorithmes numériques. On obtient
la matrice de variance-covariance asymptotique des estimateurs.
2
−1
∂ l(β)
V̂ (β̂) = −
= (X0 V̂X)−1
∂β 2
πˆ1 (1 − πˆ1 )
0
où V̂ =
0
πˆn (1 − πˆn )
0.3
Test et sélection de variables
Trois méthodes sont disponibles pour tester l’apport d’une variable au modèle. Pour ces
trois tests, l’hypothèse est :
H0 : La variable xj est non influente : βj = 0
2
βˆ
– Test de Wald : Statistique : T 2 = σˆjj 2 suit une loi du χ2 (1)
– Test du rapport de vraisemblance :
Vraisemblance sans la variable
L = −2Ln
Vraisemblance avec la variable
suit une loi du χ2 (1)
2
– Test du score :
0
h
U = U (β)β̂H0 J(β̂H0 )
h 2 i
où J(β̂) = − ∂∂βl(β)
2
i−1
U (β)β̂H0
et U le vecteur des dérivées partielles de la log-vraisemblance.
β=β̂
La statistique U suit une loi du χ2 (1).
Ces trois tests donnent des résultats très proches. Le test de Wald compare l’écart entre
le coefficient théorique et sa valeur estimée, celui du score compare à zéro la pente de la
tangente au point théorique.
Le test du rapport de vraisemblance et le test de score peuvent servir à tester globalement
le modèle ou bien plusieurs variables. Il suffit d’adapter le degré de liberté de la loi du χ2 .
0.4
Validation
Pour prédire la variable Ŷ , la règle d’affectation est la suivante : On affecte un nouvel
individu x à la classe telle que la probabilité à postériori est maximale, i.e
Ŷ = argmax1≤i≤k π̂(x)
Si la variable Y est binaire, cela revient à prédire Ŷ = 1 si π̂(x) > 0.5. On appelle
probabilité de coupure la valeur 0.5. On peut éventuellement modifier cette probabilité.
On dresse ensuite la matrice de confusion (ou cross-over) qui croisent les valeurs de Y et
les valeurs prédites Ŷ .
La comparaison de performance ne va pas toujours de soi, quand les modèles n’ont pas
le même nombre de paramètres ou ne sont pas du même type. Le modèle le plus complexe
sera plus performant sur les données ayant servi à l’estimation. Pour palier à ce biais, deux
méthodes sont proposées.
– On partage l’échantillon du départ en deux sous-échantillon : le premier dit d’apprentissage sert à estimer le modèle, le second de validation sert à construire la matrice de
confusion. Cette méthode nécessite un grand nombre d’observations.
– On réalise une validation croisée en partageant en 10 échantillons les données : les 9
premiers servant à l’apprentissage et le dixième à la validation, puis en réalise une
permutation circulaire sur le rôle des échantillons. Le taux d’erreur est obtenu comme
une moyenne sur des 10 taux d’erreurs obtenus.
3