TD SVM et optimisation 1 SVM à la main (8 points)
Transcription
TD SVM et optimisation 1 SVM à la main (8 points)
TD SVM et optimisation 1 4ème année G. Gasso SVM à la main (8 points) On veut réaliser la classification par SVM des points (xi ∈ R2 , yi ) en deux dimensions suivants : Point x1 x2 x3 x4 Abcisse 1 2 -1 1 Ordonnée 1 0 -1 -2 label yi -1 -1 1 1 Pour cela on se propose de trouver la fonction de décision f (x) = w> x + b en résolvant le problème minw,b 12 kwk2 s.c. yi (w> xi + b) ≥ 1 ∀i = 1, · · · , 4 1. Ecrire le problème dual correspondant. 2. Admettons qu’une solution (approchée) de ce problème dual soit donnée par α1 = 0, α2 = 0.4, α3 = 0 et α4 = 0.4 et le coefficient b = −0.2. (a) En déduire alors le vecteur w de la fonction de décision. (b) Matérialiser sur un schéma les points à classer. Entourer les points qui sont supports en justifiant votre réponse. 3. On considère maintenant les points de validation Point x5 x6 x7 x8 Abcisse 0 0 -1 1 Ordonnée 1 -1 1 -3/4 label yi -1 1 1 -1 Quel est le taux d’erreur en validation de votre SVM ? Justifier votre réponse. 2 SVM à pénalisations différentes en fonction des points Soit un ensemble de données étiquettées {(xi , yi ) ∈ X × Y}i=1,...,n avec Y = {−1, +1} et X = Rd . On cherche à résoudre un problème SVM où on utilise un terme de régularisation Ci spécifique pour chaque point xi . Le problème d’apprentissage est alors Pn minw∈Rd ,b∈R,ξi 1 2 2 kwk s.c. yi w> xi + b ≥ 1 − ξi ∀ i = 1, . . . , n ξi ≥ 0 + i=1 Ci ξi ∀ i = 1, · · · , n p.1/5 ASI4 DM Dans cette formulation du problème, les ξi représentent les variables d’écart, les Ci représentent les paramètres de régularisation fixés par l’utilisateur. 1. Exprimer le lagrangien L correspondant à ce problème. 2. Exprimer les conditions d’optimalité du lagrangien par rapport aux variables primales w, b, ξi . 3. Donner la formulation du problème dual. Quelle méthode connaissez-vous pour résoudre ce problème dual ? 4. Proposer une façon de calculer le paramètre b. 5. On note respectivement D+ = {(xi , yi ), yi = 1} et D− = {(xi , yi ), yi = −1)} les ensembles de points des classes "positive" et "négative". On considère Ci = C+ , ∀i ∈ D+ et Ci = C− , ∀i ∈ D− . En s’inspirant de la question 1, donner la nouvelle formulation du problème SVM. Que devient le problème dual ? 3 SVM à fonction de coût quadratique On cherche à résoudre un problème de maximisation de marge avec des données non- séparable, en introduisant une variable de relachement qui est pénalisée quadratiquement. P minw,b,ξi 21 kwk2 + C i ξi2 sous contraintes yi (hw, xi i + b) ≥ 1 − ξi 1. Montrer que le Lagrangien associé à ce problème s’écrit : n X X 1 L(w, b, ξi ) = kwk2 + C ξi2 − αi (yi (hw, xi i + b) − 1 + ξi ) 2 i i=1 2. En déduire les conditions d’optimalités associés à w, b et ξk 3. En déduire l’expression du problème dual. 4 Minimum volume data description Soit un ensemble de n points de IR2 . On cherche le centre et le rayon du plus petit cercle englobant ces données. 1. Montrer que le problème s’écrit : minR∈IR,u∈IRn R2 sc. kxj − uk2 ≤ R2 ∀j où u est le centre du cercle et R le rayon 2. En écrivant les conditions d’optimalité de ce problemè, déduire que le centre du cercle s’écrit comme étant une combinaison linéaire convexe des points xi 3. Donner l’expression du problème dual p.2/5 ASI4 5 DM Du OneClass-SVM comme plat de résistance (Exam 2007) Soit un ensemble de données {xi ∈ IR2 }i=1,...,n . On cherche à déterminer le cercle de plus petit rayon R et de centre a englobant ces données. Cette contrainte étant trop restrictive, on se donne alors le problème d’optimisation suivant : minR,a∈IR2 ,ξi R2 + λ Pn i=1 ξi s.c. kxi − ak2 ≤ R2 + ξi ∀i = 1, . . . n ξi ≥ 0 ∀ i = 1, · · · , n Dans cette formulation du problème, ξi représente les variables d’écart (c’est-à-dire on autorise des points à être en dehors du cercle), λ est un paramètre positif fixé par l’utilisateur qui règle le compromis entre la minimisation du rayon du cercle et l’erreur liée aux variables d’écart ξi . 1. Exprimer le lagrangien L correspondant à ce problème. 2. Donner les conditions d’optimalité du lagrangien par rapport aux variables primales R, a, ξi . En déduire l’expression du centre du cercle a. 3. Donner la formulation du problème dual. 4. Dire pour les points suivants, ceux qui sont des points supports. On justifiera les réponses. (a) Points se trouvant à l’intérieur du cercle, (b) Points se trouvant sur le cercle, (c) Points à l’extérieur du cercle. 5. On veut estimer le rayon du cercle. En utilisant la condition KKT associée aux points se trouvant sur le cercle, donner l’expression de R. 6 Nu-Nu-SVM (Exam 2006) On considère le classifieur ν SVM comme le problème de minimisation suivant : n 1 1X min kwk2 − νρ + ξi w,b,ξi ,ρ 2 n i=1 s.c. yi (hxi , wi + b) ≥ ρ − ξi ∀ i = 1, · · · , n ξi ≥ 0 ∀ i = 1, · · · , n ρ≥0 Dans cette formulation du problème, ξi représente les variables d’écart, ν ∈ [0, 1] est un 2ρ avec ρ un paramètre à optimiser. paramètre fixé par l’utilisateur. La marge est définie par kwk 1. Exprimer le lagrangien L correspondant à ce problème. 2. Donner les conditions d’optimalité du lagrangien par rapport aux variables primales w, b, ξi , ρ. En déduire l’expression du vecteur w. p.3/5 ASI4 DM 3. Donner la formulation du problème dual. 4. Dire pour les points suivants, ceux qui sont des points supports. On justifiera les réponses. (a) points bien classés, (b) points mal classés, (c) points qui se trouvent dans la marge, (d) points qui se trouvent sur la marge. 5. Exprimer la condition KKT pour les points se trouvant sur la marge. 6. A l’optimalité, on désire calculer b∗ et ρ∗ . Soit deux ensembles S+ et S− de taille identique m contenant respectivement les points sur la marge relevant de la classe 1 et -1. Montrer à partir de la question précédente qu’on a : X X 1 hw, xi i + hw, xi i b∗ = − 2m xi ∈S+ xi ∈S− X X 1 ρ∗ = hw, xi i − hw, xi i 2m xi ∈S+ xi ∈S− 7. On désire trouver une frontière de décision non-linéaire. Proposer une solution de SVM non-linéaire et donner l’expression de ce nouveau problème. 7 L’ordonnancement du Dr SVM (Exam 2010) On considère une application de recherche d’informations sur internet. Par exemple, un utilisateur à la recherche d’articles sur Paris tape la requête Paris et reçoit en retour des documents sur la ville de Paris, sur Paris Hilton et les sites de paris en ligne. Les documents sur la ville de Paris sont considérés comme pertinents et le reste non pertinent. n+ Chaque document est représenté par le vecteur x ∈ IRd . Soit S+ = {xi }i=1 l’ensemble des n− documents pertinents et soit S− = {xj }j=1 l’ensemble des documents non pertinents. On note xi xj pour dire que le document xi est plus pertinent que xj et. On cherche une fonction f (x) = w> x permettant d’ordonner correctement les documents c’est-à-dire f (xi ) > f (xj ) si xi xj . On définit alors le problème d’optimisation suivant n min w,ξij sous les contraintes m XX 1 kwk2 + C ξij 2 i=1 j=1 > > w xi − w xj ≥ 1 − ξij ξij ≥ 0 ∀i = 1, · · · , n+ et ∀j = 1, · · · , n− ∀i = 1, · · · , n+ et ∀j = 1, · · · , n− avec C, le paramètre de régularisation et ξij les variables d’écart. 1. Expliquer le sens du problème d’optimisation. 2. Ecrire le lagrangien correspondant au problème d’ordonnancement. p.4/5 ASI4 DM 3. Ecrire les conditions d’optimalités par rapport aux variables primales w et ξij et en déduire l’expression du vecteur de paramètres w. 4. A partir de ces éléments, exprimer le problème dual. 5. Parmi les situations suivantes, dites en justifiant votre réponse, les paires de points (xi , xj ) ∈ S+ × S− qui correspondent à des points supports. a) (xi , xj ) telle que f (xi ) − f (xj ) = 1, b) (xi , xj ) telle que f (xi ) − f (xj ) > 1, c) (xi , xj ) telle que f (xi ) − f (xj ) = 0, d) (xi , xj ) telle que f (xi ) − f (xj ) < 1. 6. On définit maintenant les observations suivantes (z` , y` ) avec 1 si xi xj z` = xi − xj , y` = −1 autrement (a) Montrez que le problème d’ordonnancement précédent équivaut à un problème SVM particulier sans le terme de biais appliqué aux points z` . Formuler ce problème SVM. (b) Supposons que n+ = n− = n. Comparé à un SVM normal avec n points, quelle est la complexité en termes de nombre de paramètres du dual du problème d’ordonnancement. p.5/5