TME 4 : Régression logisitique

Transcription

SPLEX TME 4
La régression logistique
Implementer l’algorithme de la régression logistique et tester le sur les
données simulées et les données “obeses temoins” pour classifier les patients
en deux classes. Comparez vous resultats avec ceux obtenus avec un package R.
1. Simulez un jeu de données
set.seed(666)
x1 = rnorm(1000)
x2 = rnorm(1000)
z = 1 + 2*x1 + 3*x2
pr = 1/(1+exp(-z))
y = rbinom(1000,1,pr)
et tester la régression logistique (la fonction glm()) sur ce jeu de
données
df = data.frame(y=y,x1=x1,x2=x2)
glm( y~x1+x2,data=df,family="binomial")
2. La régression logistique binaire
Soit une ensemble “training set” de N observation {Xn , Yn }N
n=1 . Dans
le cadre de la régression logistique binaire, la variable Y prend deux
modalités possibles {1, 0}. Les variables X sont exclusivement continues ou binaires.
La régression logistique est un modèle parametrique donc la log-vrasemblance
est donnée par
`(Y |X; θ) = −
N X
yn θT xn − log(1 + exp(θT xn ))
i=n
1
(1)
où θ est le vecteur de paramètres à estimer.
Pour classifier une nouvelle observation X, on calcule et comapre les
probabilités de classes sachant l’observation
exp θT X
1 + exp θT X
1
p(Y = 0|X) =
.
1 + exp θT X
p(Y = 1|X) =
(2)
(3)
La méthode de Newton-Raphson
La méthode de Newton-Raphson qu’on utilise pour maximiser la logvraisemblance et pour estimer les paramètres θ du modèle est une
procedure itérative du gradient. Pour la régression logistique binaire
la procedure est la suivante:
Initialize θ = (0, . . . , 0)
for t = 1 : T // Faire plusieurs itérations ou jusqu’à la convergence
do
Compute
first derivative
Pthe
∂`(θ)
N
n=1 xn (yn −p(y = 1|xn )) // dimension = 1×nb of parameters
∂θ =
Compute the Hessian matrix
PN
∂ 2 `(θ)
t
n=1 xn xn p(y = 1|xn )(1 − p(y = 1|xn ))
∂θ∂θ0 =
//dimension = nb of parameters × nb of parameters
Update the parameters
θ=θ−
end for
∂ 2 `(θ) −1 ∂`(θ)
∂θ∂θ0
∂θ
2

TME 4 : Régression logisitique

Transcription

Documents pareils

La droite de Williamson : une technique de

NOM : Date : . PRENOM : Groupe : . Statistiques : Feuille de

TD 6 : Régression linéaire

NOM : Date : 5 au 9 décembre 2011 PRENOM : Groupe

Mesure de la résistance de fuite d`un condensateur

Modélisation non paramétrique de la régression pour variables

TP 7 - Informatique Pour Tous - Lycée Jean Perrin (Marseille)

TP d`Econométrie II avec le logiciel R

STAT-G204 Chapitre II: La régression multiple

Cours 2

ER Cinétique Chimique — Loi d`Arrhénius

T E S Exercices de statistique. Séries simples Une série simple X

Mise `a niveau en R 1 Statistiques descriptives (4 points) 2 Tests (3

Programmation Génétique en Fifth sur carte GPGPU

Corrélation linéaire et régression linéaire simple

TP - IRMA - Université de Strasbourg

Estimation conjointe de plusieurs mod`eles de régression

Introduction aux travaux pratiques de physique

KITS MEMBRES\Adhesion - 25e-Bilingual.frm

COMMUNIQUÉ Sean P. McMahon revient chez exp!

membership application / renewal formulaire d`adhésion

les splines cubiques