Chapitre 6 Régression logistique

Transcription

Statistique appliquée aux sciences de l’ingénieurChapitre 6 Régression logistique
C. BLANCHET-SCALLIET
2007-2008
On peut considérer la régression logistique comme une extension du problème de régression
au cas où la variable à expliquer est qualitative.
Les données consistent en n observations réparties en k classes et décrites par p variables
explicatives. On suppose que les k groupes sont en proportion p1 , p2 , ..., pk dans la population
totale et que la distribution de probabilité du vecteur d’observation x = (x1 , ...xp ) est donnée
pour chaque groupe j par la densité fj (x).
Observant un point (x1 , .., xp ), la probabilité qu’il provienne du groupe j est donnée par la
formule de Bayes
pj fj (x)
P (Gj /x) = Pk
i=1 pi fi (x)
Cette probabilité est appelée probabilité à posteriori. La régression logistique binaire, k=2,
propose la modèle suivant. (On supposera que l’on cherche à prédire Y qui prend deux valeurs
0 ou 1.
0
eβ0 +β x
P (G1 /x) = π(x) =
1 + eβ0 +β 0 x
La probabilité s’écrit comme une fonction logistique de β0 + β0x.
0.1
Interprétation
Le choix de la fonction logistique conduit à une expression comprise entre 0 et 1 et peut
être justifié dans le cas d’hypothèses de loi normales. De plus, les coefficients du modèle sont
liés aux odds-ratios de la manière suivante.
Considérons tout d’abord le cas d’une variable explicative binaire. Par exemple, si on étudie
l’impact d’être fummeur sur l’apparition d’une maladie, on aurait X = 1 si l’on fume et
X = 0 sinon et Y = 1 désigne l’apparition de la maladie.
eβ0 +β1
La probabilité d’être malade si l’on fume est P (Y = 1/X = 1) = 1+e
β0 +β1 que l’on compare
à la probabilité de ne pas être malade si l’on fume P (Y = 0/X = 1) = 1 − P (Y = 1/X = 1).
L’odds est le rapport de ces deux probabilités. On fait de même pour les non-fumeurs et on
définit l’odds-ration comme le rapport des deux odds
O.R =
P (Y = 1/X = 1)/(Y = 0/X = 1)
= eβ1
P (Y = 1/X = 0)/(Y = 0/X = 0)
C’est le facteur par lequel la cote (ou odds) est multiplié si l’on passe de X = 0 à X = 1.
Dans notre exemple, un O.R = a > 1 indique un facteur aggravant le fait de fumer. En
effet le risque d’être malade est a fois supérieur pour les fumeurs que pour les non-fumeurs.
Remarque : Si les variables sont indépendantes , O.R. = 1
Pour une v.a. numérique , on a
O.R =
π(x + 1)/(1 − π(x + 1))
= eβ1
π(x)/(1 − π(x))
La valeur de l’odds-ratio est indépendante de la valeur de x, mais dépend de l’unité de mesure
de la variable.
1
On peut sans difficulté utiliser des prédicteurs qualitatifs à m modalités. Chaque variable
est remplacée par (m-1) indicatrices après élimination d’une des modalités dite de référence,
qui aura un coefficient nul. Les comparaisons de coefficients se font alors par rapport à cette
modalité : une valeur proche de 0 signifie que la modalité est proche de la modalité de
référence.
0.2
Estimation
Elle s’effectue par la méthode du maximum de vraisemblance à partir d’un échantillon i.i.d
de n observations (yi , xi ). La vraisemblance correspond d’habitude à la probabilité d’observer
les (yi , xi ), mais ici on calcule une vraisemblance conditionnelle d’observer (yi sachant xi ).
(1−yi )
0
Q eβ0 +β0 xi yi eβ0 +β xi
∗
1
−
L(β0 , β) =
0
0
1+eβ0 +β x−i
1+eβ0 +β xi
=
Q
π(xi )yi (1 − π(xi ))(1−yi )
En annulant les dérivées de la log-vraisemblance, on obtient le système
( ∂l(β)
P
=
(yi − π(xi )) = 0
∂β0
P j
∂l(β)
=
xi (yi − π(xi )) = 0 j=1,..,p
∂βj
qui n’a pas de solution analytique et se résout par des algorithmes numériques. On obtient
la matrice de variance-covariance asymptotique des estimateurs.
2
−1
∂ l(β)
V̂ (β̂) = −
= (X0 V̂X)−1
∂β 2
πˆ1 (1 − πˆ1 )
0
où V̂ =
0
πˆn (1 − πˆn )
0.3
Test et sélection de variables
Trois méthodes sont disponibles pour tester l’apport d’une variable au modèle. Pour ces
trois tests, l’hypothèse est :
H0 : La variable xj est non influente : βj = 0
2
βˆ
– Test de Wald : Statistique : T 2 = σˆjj 2 suit une loi du χ2 (1)
– Test du rapport de vraisemblance :
Vraisemblance sans la variable
L = −2Ln
Vraisemblance avec la variable
suit une loi du χ2 (1)
2
– Test du score :
0
h
U = U (β)β̂H0 J(β̂H0 )
h 2 i
où J(β̂) = − ∂∂βl(β)
2
i−1
U (β)β̂H0
et U le vecteur des dérivées partielles de la log-vraisemblance.
β=β̂
La statistique U suit une loi du χ2 (1).
Ces trois tests donnent des résultats très proches. Le test de Wald compare l’écart entre
le coefficient théorique et sa valeur estimée, celui du score compare à zéro la pente de la
tangente au point théorique.
Le test du rapport de vraisemblance et le test de score peuvent servir à tester globalement
le modèle ou bien plusieurs variables. Il suffit d’adapter le degré de liberté de la loi du χ2 .
0.4
Validation
Pour prédire la variable Ŷ , la règle d’affectation est la suivante : On affecte un nouvel
individu x à la classe telle que la probabilité à postériori est maximale, i.e
Ŷ = argmax1≤i≤k π̂(x)
Si la variable Y est binaire, cela revient à prédire Ŷ = 1 si π̂(x) > 0.5. On appelle
probabilité de coupure la valeur 0.5. On peut éventuellement modifier cette probabilité.
On dresse ensuite la matrice de confusion (ou cross-over) qui croisent les valeurs de Y et
les valeurs prédites Ŷ .
La comparaison de performance ne va pas toujours de soi, quand les modèles n’ont pas
le même nombre de paramètres ou ne sont pas du même type. Le modèle le plus complexe
sera plus performant sur les données ayant servi à l’estimation. Pour palier à ce biais, deux
méthodes sont proposées.
– On partage l’échantillon du départ en deux sous-échantillon : le premier dit d’apprentissage sert à estimer le modèle, le second de validation sert à construire la matrice de
confusion. Cette méthode nécessite un grand nombre d’observations.
– On réalise une validation croisée en partageant en 10 échantillons les données : les 9
premiers servant à l’apprentissage et le dixième à la validation, puis en réalise une
permutation circulaire sur le rôle des échantillons. Le taux d’erreur est obtenu comme
une moyenne sur des 10 taux d’erreurs obtenus.
3

Chapitre 6 Régression logistique

Transcription

Documents pareils

exercice 1 exercice 2

EXERCICES 9 1) On consid`ere un centre service avec file d`attente

Université de Nice Identifiant :....... LSV1

Devoir de mathématiques: Probabilités

Bachelor académique en Sciences et Ingénierie Probabilités et

1 Exercice 2 Exercice

Exercice I Exercice II Exercice III Exercice IV

StatL3S5

Septembre 2016. Année d`é - Université Paris 2 Panthéon

Variables aléatoires - Episode II Exercice 1 Exercice 2

TD — feuille 1 : ´Evénements et probabilités

Analyse discriminante linéaire 1 Introduction

Estimation de l`indice de valeurs extrêmes `a partir de

Correction du devoir de mathématiques no 9

Théorie des sondages : cours 1

Et si vous étiez un bayésien qui s`ignore?

Introduction aux approches économiques de l`incertitude - Hal-SHS