TD SVM et optimisation 1 SVM à la main (8 points)

Transcription

TD SVM et optimisation 1 SVM à la main (8 points)
TD SVM et optimisation
1
4ème année
G. Gasso
SVM à la main
(8 points)
On veut réaliser la classification par SVM des points (xi ∈ R2 , yi ) en deux dimensions
suivants :
Point
x1
x2
x3
x4
Abcisse
1
2
-1
1
Ordonnée
1
0
-1
-2
label yi
-1
-1
1
1
Pour cela on se propose de trouver la fonction de décision f (x) = w> x + b en résolvant le
problème
minw,b 12 kwk2
s.c.
yi (w> xi + b) ≥ 1 ∀i = 1, · · · , 4
1. Ecrire le problème dual correspondant.
2. Admettons qu’une solution (approchée) de ce problème dual soit donnée par α1 = 0, α2 =
0.4, α3 = 0 et α4 = 0.4 et le coefficient b = −0.2.
(a) En déduire alors le vecteur w de la fonction de décision.
(b) Matérialiser sur un schéma les points à classer. Entourer les points qui sont supports en
justifiant votre réponse.
3. On considère maintenant les points de validation
Point
x5
x6
x7
x8
Abcisse
0
0
-1
1
Ordonnée
1
-1
1
-3/4
label yi
-1
1
1
-1
Quel est le taux d’erreur en validation de votre SVM ? Justifier votre réponse.
2
SVM à pénalisations différentes en fonction des points
Soit un ensemble de données étiquettées {(xi , yi ) ∈ X × Y}i=1,...,n avec Y = {−1, +1} et
X = Rd . On cherche à résoudre un problème SVM où on utilise un terme de régularisation Ci
spécifique pour chaque point xi . Le problème d’apprentissage est alors
Pn
minw∈Rd ,b∈R,ξi
1
2
2 kwk
s.c.
yi w> xi + b ≥ 1 − ξi ∀ i = 1, . . . , n
ξi ≥ 0
+
i=1 Ci ξi
∀
i = 1, · · · , n
p.1/5
ASI4
DM
Dans cette formulation du problème, les ξi représentent les variables d’écart, les Ci représentent les paramètres de régularisation fixés par l’utilisateur.
1. Exprimer le lagrangien L correspondant à ce problème.
2. Exprimer les conditions d’optimalité du lagrangien par rapport aux variables primales
w, b, ξi .
3. Donner la formulation du problème dual. Quelle méthode connaissez-vous pour résoudre
ce problème dual ?
4. Proposer une façon de calculer le paramètre b.
5. On note respectivement D+ = {(xi , yi ), yi = 1} et D− = {(xi , yi ), yi = −1)} les
ensembles de points des classes "positive" et "négative". On considère Ci = C+ , ∀i ∈
D+ et Ci = C− , ∀i ∈ D− .
En s’inspirant de la question 1, donner la nouvelle formulation du problème SVM. Que
devient le problème dual ?
3
SVM à fonction de coût quadratique
On cherche à résoudre un problème de maximisation de marge avec des données non- séparable, en introduisant une variable de relachement qui est pénalisée quadratiquement.
P
minw,b,ξi 21 kwk2 + C i ξi2
sous contraintes
yi (hw, xi i + b) ≥ 1 − ξi
1. Montrer que le Lagrangien associé à ce problème s’écrit :
n
X
X
1
L(w, b, ξi ) = kwk2 + C
ξi2 −
αi (yi (hw, xi i + b) − 1 + ξi )
2
i
i=1
2. En déduire les conditions d’optimalités associés à w, b et ξk
3. En déduire l’expression du problème dual.
4
Minimum volume data description
Soit un ensemble de n points de IR2 . On cherche le centre et le rayon du plus petit cercle
englobant ces données.
1. Montrer que le problème s’écrit :
minR∈IR,u∈IRn R2
sc. kxj − uk2 ≤ R2
∀j
où u est le centre du cercle et R le rayon
2. En écrivant les conditions d’optimalité de ce problemè, déduire que le centre du cercle
s’écrit comme étant une combinaison linéaire convexe des points xi
3. Donner l’expression du problème dual
p.2/5
ASI4
5
DM
Du OneClass-SVM comme plat de résistance
(Exam 2007)
Soit un ensemble de données {xi ∈ IR2 }i=1,...,n . On cherche à déterminer le cercle de plus petit
rayon R et de centre a englobant ces données. Cette contrainte étant trop restrictive, on se donne
alors le problème d’optimisation suivant :
minR,a∈IR2 ,ξi R2 + λ
Pn
i=1 ξi
s.c. kxi − ak2 ≤ R2 + ξi
∀i = 1, . . . n
ξi ≥ 0
∀ i = 1, · · · , n
Dans cette formulation du problème, ξi représente les variables d’écart (c’est-à-dire on autorise
des points à être en dehors du cercle), λ est un paramètre positif fixé par l’utilisateur qui règle
le compromis entre la minimisation du rayon du cercle et l’erreur liée aux variables d’écart ξi .
1. Exprimer le lagrangien L correspondant à ce problème.
2. Donner les conditions d’optimalité du lagrangien par rapport aux variables primales
R, a, ξi . En déduire l’expression du centre du cercle a.
3. Donner la formulation du problème dual.
4. Dire pour les points suivants, ceux qui sont des points supports. On justifiera les réponses.
(a) Points se trouvant à l’intérieur du cercle,
(b) Points se trouvant sur le cercle,
(c) Points à l’extérieur du cercle.
5. On veut estimer le rayon du cercle. En utilisant la condition KKT associée aux points se
trouvant sur le cercle, donner l’expression de R.
6
Nu-Nu-SVM
(Exam 2006)
On considère le classifieur ν SVM comme le problème de minimisation suivant :
n
1
1X
min kwk2 − νρ +
ξi
w,b,ξi ,ρ 2
n
i=1
s.c.
yi (hxi , wi + b) ≥ ρ − ξi
∀ i = 1, · · · , n
ξi ≥ 0 ∀ i = 1, · · · , n
ρ≥0
Dans cette formulation du problème, ξi représente les variables d’écart, ν ∈ [0, 1] est un
2ρ
avec ρ un paramètre à optimiser.
paramètre fixé par l’utilisateur. La marge est définie par kwk
1. Exprimer le lagrangien L correspondant à ce problème.
2. Donner les conditions d’optimalité du lagrangien par rapport aux variables primales
w, b, ξi , ρ. En déduire l’expression du vecteur w.
p.3/5
ASI4
DM
3. Donner la formulation du problème dual.
4. Dire pour les points suivants, ceux qui sont des points supports. On justifiera les réponses.
(a) points bien classés,
(b) points mal classés,
(c) points qui se trouvent dans la marge,
(d) points qui se trouvent sur la marge.
5. Exprimer la condition KKT pour les points se trouvant sur la marge.
6. A l’optimalité, on désire calculer b∗ et ρ∗ . Soit deux ensembles S+ et S− de taille identique m contenant respectivement les points sur la marge relevant de la classe 1 et -1.
Montrer à partir de la question précédente qu’on a :


X
X
1 
hw, xi i +
hw, xi i
b∗ = −
2m
xi ∈S+
xi ∈S−


X
X
1 
ρ∗ =
hw, xi i −
hw, xi i
2m
xi ∈S+
xi ∈S−
7. On désire trouver une frontière de décision non-linéaire. Proposer une solution de SVM
non-linéaire et donner l’expression de ce nouveau problème.
7
L’ordonnancement du Dr SVM
(Exam 2010)
On considère une application de recherche d’informations sur internet. Par exemple, un utilisateur à la recherche d’articles sur Paris tape la requête Paris et reçoit en retour des documents
sur la ville de Paris, sur Paris Hilton et les sites de paris en ligne. Les documents sur la ville de
Paris sont considérés comme pertinents et le reste non pertinent.
n+
Chaque document est représenté par le vecteur x ∈ IRd . Soit S+ = {xi }i=1
l’ensemble des
n−
documents pertinents et soit S− = {xj }j=1
l’ensemble des documents non pertinents. On note
xi xj pour dire que le document xi est plus pertinent que xj et. On cherche une fonction
f (x) = w> x permettant d’ordonner correctement les documents c’est-à-dire f (xi ) > f (xj ) si
xi xj . On définit alors le problème d’optimisation suivant
n
min
w,ξij
sous les contraintes
m
XX
1
kwk2 + C
ξij
2
i=1 j=1
>
>
w xi − w xj ≥ 1 − ξij
ξij ≥ 0
∀i = 1, · · · , n+ et ∀j = 1, · · · , n−
∀i = 1, · · · , n+ et ∀j = 1, · · · , n−
avec C, le paramètre de régularisation et ξij les variables d’écart.
1. Expliquer le sens du problème d’optimisation.
2. Ecrire le lagrangien correspondant au problème d’ordonnancement.
p.4/5
ASI4
DM
3. Ecrire les conditions d’optimalités par rapport aux variables primales w et ξij et en déduire l’expression du vecteur de paramètres w.
4. A partir de ces éléments, exprimer le problème dual.
5. Parmi les situations suivantes, dites en justifiant votre réponse, les paires de points (xi , xj ) ∈
S+ × S− qui correspondent à des points supports.
a) (xi , xj ) telle que f (xi ) − f (xj ) = 1,
b) (xi , xj ) telle que f (xi ) − f (xj ) > 1,
c) (xi , xj ) telle que f (xi ) − f (xj ) = 0,
d) (xi , xj ) telle que f (xi ) − f (xj ) < 1.
6. On définit maintenant les observations suivantes (z` , y` ) avec
1
si
xi xj
z` = xi − xj ,
y` =
−1 autrement
(a) Montrez que le problème d’ordonnancement précédent équivaut à un problème SVM
particulier sans le terme de biais appliqué aux points z` . Formuler ce problème SVM.
(b) Supposons que n+ = n− = n. Comparé à un SVM normal avec n points, quelle est
la complexité en termes de nombre de paramètres du dual du problème d’ordonnancement.
p.5/5