ARF-2014-cours3
Transcription
ARF-2014-cours3
ARF Regression linéaire Descente de gradient Cours 3 Nicolas Baskiotis [email protected] Master 1 DAC équipe MLIA, Laboratoire d’Informatique de Paris 6 (LIP6) Université Pierre et Marie Curie (UPMC) S2 (2014-2015) N. Baskiotis (LIP6, UPMC) ARF S2 (2014-2015) 1 / 13 Plan 1 Regression linéaire 2 Régression logistique 3 Descente de gradientt N. Baskiotis (LIP6, UPMC) ARF S2 (2014-2015) 2 / 13 Introduction Regression linéaire Objectif : prédire une sortie continue réèlle y à partir d’un nombre de variables d’entrée beaucoup d’applications, très utilisée un peu dans tous les domaines très flexible (transformation des entrées) 400000 Prix moyen par logement 350000 300000 250000 200000 150000 100000 50000 20000 25000 30000 35000 40000 45000 Revenu par menage N. Baskiotis (LIP6, UPMC) 50000 55000 ARF S2 (2014-2015) 3 / 13 Formalisation Objectifs Etant donné un ensemble {(xi , yi )} ∈ Rd × R, on cherche une linéaire en fonction des entrées : Psortie d E(y|x) = w0 + i=1 wi xi Pd ⇒ f (x) = w0 + i=1 wi xi qui fait le moins d’erreurs : f (xi ) doit être proche de yi sous la condition que l’erreur est indépendante de x, de variance σ 2 constante, suit une loi normale. ⇒ y|x ∼ N (f (x), σ 2 ) (lien avec l’apprentissage bayésien) Pn Erreur moindres carrés (MSE) : i=1 (yi − f (xi ))2 N. Baskiotis (LIP6, UPMC) ARF S2 (2014-2015) 4 / 13 Résolution Méthode Minimiser Pn j j=1 (y − f (xj ))2 = Pn j j=1 (y − w0 − Pd i=1 wi xij )2 Annuler le gradient → solution analytique. Ecriture matricielle 1 1 x1 x x2 x11 X= . = .. x1n xn 0 x21 x12 ... ... .. . x2n ... 0 Minimiser : (Y − W X)(Y − W X) 1 xd1 y y2 xd2 , Y = .. . n yn xd , W = w1 w2 .. . wd 0 Solution : (X 0 X)−1 X 0 Y Et pour w0 ? N. Baskiotis (LIP6, UPMC) ARF S2 (2014-2015) 5 / 13 Plan 1 Regression linéaire 2 Régression logistique 3 Descente de gradientt N. Baskiotis (LIP6, UPMC) ARF S2 (2014-2015) 6 / 13 Problèmatique Comment adapter la régression à la classification ? Régression : y|x ∼ N (w‘x, σ 2 ) Pas adapter ! On veut une classification binaire ⇒ Modélisation par une variable de Bernouilli : p(y = 1|x) = µ(x)y (1 − µ(x))1−y Comment représenter µ(x) ? fonction linéaire ? Non . . . (pourquoi ?) ⇒ fonction logistique : µ(x) = 1 1+e−η(x) 1.0 0.8 0.6 0.4 0.2 0.0 6 4 2 0 N. Baskiotis (LIP6, UPMC) 2 4 6 ARF S2 (2014-2015) 7 / 13 Régression logistique Principe Quand est-ce que : p(+|x) = 0.5 ? p(+|x) < 0.5 ? p(+|x) > 0.5 ? Résolution Pas de solution analytique. Méthode d’optimisation numérique → descente de gradient. N. Baskiotis (LIP6, UPMC) ARF S2 (2014-2015) 8 / 13 Plan 1 Regression linéaire 2 Régression logistique 3 Descente de gradientt N. Baskiotis (LIP6, UPMC) ARF S2 (2014-2015) 9 / 13 Principe Algorithme d’optimisation différentiable S’applique pour toute fonction différentiable Idée simple : améliorer de façon itérative la solution courante N. Baskiotis (LIP6, UPMC) ARF S2 (2014-2015) 10 / 13 Quelques notations et rappels Convexité C ensemble convexe de Rn : ∀x, y ∈ C, ∀λ ∈ [0, 1], λx + (1 − λ)y ∈ C P P i λi xi est une combinaison convexe ssi ∀i, λi ≥ 0 et i λi = 1 Enveloppe convexe d’un ensemble fini {xi }, i = 1 . . . n : toutes les combinaisons convexes de l’ensemble Fonction convexe f : X → R ssi ∀x, x0 ∈ X, ∀λ ∈ [0, 1] tq λx + (1 − λx0 ∈ X alors f (λx + (1 − λ)x0 ) ≤ λf (x) + (1 − λ)f (x0 ) P P P → si λi ≥ 0 et i λi = 1, alors f ( i λi xi ) ≤ i λi f (xi ) (inégalité de Jensen) N. Baskiotis (LIP6, UPMC) ARF S2 (2014-2015) 11 / 13 Quelques notations et rappels Différentiabilité Si f : X → R est convexe ssi ∀x, x0 ∈ X, f (x0 ) ≥ f (x)+ < x0 − x, ∇f (x) > Si f convexe, alors sa matrice hessienne est définie semi-positive : ∇2 f ≥ 0. Minimum Si f atteint son minimum, alors les minimums forment un ensemble convexe. Si l’ensemble est strictement convexe, le minimum est un singleton. N. Baskiotis (LIP6, UPMC) ARF S2 (2014-2015) 12 / 13 Algorithme du gradient Algorithme 1 2 Choisir un point x0 Itérer : I I Calculer ∇f (xt ) mettre à jour xt+1 ← xt − α∇f (xt ) N. Baskiotis (LIP6, UPMC) ARF S2 (2014-2015) 13 / 13