ARF-2014-cours3

Transcription

ARF-2014-cours3
ARF
Regression linéaire
Descente de gradient
Cours 3
Nicolas Baskiotis
[email protected]
Master 1 DAC
équipe MLIA, Laboratoire d’Informatique de Paris 6 (LIP6)
Université Pierre et Marie Curie (UPMC)
S2 (2014-2015)
N. Baskiotis (LIP6, UPMC)
ARF
S2 (2014-2015)
1 / 13
Plan
1
Regression linéaire
2
Régression logistique
3
Descente de gradientt
N. Baskiotis (LIP6, UPMC)
ARF
S2 (2014-2015)
2 / 13
Introduction
Regression linéaire
Objectif : prédire une sortie continue réèlle y à partir d’un nombre de
variables d’entrée
beaucoup d’applications, très utilisée un peu dans tous les domaines
très flexible (transformation des entrées)
400000
Prix moyen par logement
350000
300000
250000
200000
150000
100000
50000
20000
25000
30000
35000 40000 45000
Revenu par menage
N. Baskiotis (LIP6, UPMC)
50000
55000
ARF
S2 (2014-2015)
3 / 13
Formalisation
Objectifs
Etant donné un ensemble {(xi , yi )} ∈ Rd × R,
on cherche une
linéaire en fonction des entrées :
Psortie
d
E(y|x) = w0 + i=1 wi xi
Pd
⇒ f (x) = w0 + i=1 wi xi
qui fait le moins d’erreurs : f (xi ) doit être proche de yi
sous la condition que l’erreur est indépendante de x, de variance σ 2
constante, suit une loi normale.
⇒ y|x ∼ N (f (x), σ 2 ) (lien avec l’apprentissage bayésien)
Pn
Erreur moindres carrés (MSE) : i=1 (yi − f (xi ))2
N. Baskiotis (LIP6, UPMC)
ARF
S2 (2014-2015)
4 / 13
Résolution
Méthode
Minimiser
Pn
j
j=1 (y
− f (xj ))2 =
Pn
j
j=1 (y
− w0 −
Pd
i=1
wi xij )2
Annuler le gradient → solution analytique.
Ecriture matricielle
 1   1
x1
x
 x2   x11
 

X= . =
 ..  
x1n
xn
0
x21
x12
...
...
..
.
x2n
...
0
Minimiser : (Y − W X)(Y − W X)

 1
xd1
y
 y2
xd2 


, Y =  ..

 .
n
yn
xd






, W = 


w1
w2
..
.





wd
0
Solution : (X 0 X)−1 X 0 Y
Et pour w0 ?
N. Baskiotis (LIP6, UPMC)
ARF
S2 (2014-2015)
5 / 13
Plan
1
Regression linéaire
2
Régression logistique
3
Descente de gradientt
N. Baskiotis (LIP6, UPMC)
ARF
S2 (2014-2015)
6 / 13
Problèmatique
Comment adapter la régression à la classification ?
Régression : y|x ∼ N (w‘x, σ 2 )
Pas adapter ! On veut une classification binaire
⇒ Modélisation par une variable de Bernouilli :
p(y = 1|x) = µ(x)y (1 − µ(x))1−y
Comment représenter µ(x) ? fonction linéaire ?
Non . . . (pourquoi ?)
⇒ fonction logistique : µ(x) =
1
1+e−η(x)
1.0
0.8
0.6
0.4
0.2
0.0
6
4
2
0
N. Baskiotis (LIP6, UPMC)
2
4
6
ARF
S2 (2014-2015)
7 / 13
Régression logistique
Principe
Quand est-ce que :
p(+|x) = 0.5 ?
p(+|x) < 0.5 ?
p(+|x) > 0.5 ?
Résolution
Pas de solution analytique.
Méthode d’optimisation numérique → descente de gradient.
N. Baskiotis (LIP6, UPMC)
ARF
S2 (2014-2015)
8 / 13
Plan
1
Regression linéaire
2
Régression logistique
3
Descente de gradientt
N. Baskiotis (LIP6, UPMC)
ARF
S2 (2014-2015)
9 / 13
Principe
Algorithme d’optimisation différentiable
S’applique pour toute fonction différentiable
Idée simple : améliorer de façon itérative la solution courante
N. Baskiotis (LIP6, UPMC)
ARF
S2 (2014-2015)
10 / 13
Quelques notations et rappels
Convexité
C ensemble convexe de Rn : ∀x, y ∈ C, ∀λ ∈ [0, 1], λx + (1 − λ)y ∈ C
P
P
i λi xi est une combinaison convexe ssi ∀i, λi ≥ 0 et
i λi = 1
Enveloppe convexe d’un ensemble fini {xi }, i = 1 . . . n : toutes les
combinaisons convexes de l’ensemble
Fonction convexe f : X → R ssi ∀x, x0 ∈ X, ∀λ ∈ [0, 1] tq λx + (1 − λx0 ∈ X
alors f (λx + (1 − λ)x0 ) ≤ λf (x) + (1 − λ)f (x0 )
P
P
P
→ si λi ≥ 0 et i λi = 1, alors f ( i λi xi ) ≤ i λi f (xi ) (inégalité de Jensen)
N. Baskiotis (LIP6, UPMC)
ARF
S2 (2014-2015)
11 / 13
Quelques notations et rappels
Différentiabilité
Si f : X → R est convexe ssi ∀x, x0 ∈ X, f (x0 ) ≥ f (x)+ < x0 − x, ∇f (x) >
Si f convexe, alors sa matrice hessienne est définie semi-positive :
∇2 f ≥ 0.
Minimum
Si f atteint son minimum, alors les minimums forment un ensemble
convexe.
Si l’ensemble est strictement convexe, le minimum est un singleton.
N. Baskiotis (LIP6, UPMC)
ARF
S2 (2014-2015)
12 / 13
Algorithme du gradient
Algorithme
1
2
Choisir un point x0
Itérer :
I
I
Calculer ∇f (xt )
mettre à jour xt+1 ← xt − α∇f (xt )
N. Baskiotis (LIP6, UPMC)
ARF
S2 (2014-2015)
13 / 13