Apprentissage supervisé

Transcription

Apprentissage supervisé
Apprentissage supervisé
Apprentissage et reconnaissance – GIF-4101 / GIF-7005
Professeur : Christian Gagné
Semaine 1 : 7 septembre 2016
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
1 / 15
Apprendre à partir d’exemples
Supposons une classe correspondant au concept de voiture familiale
Problème à deux classes
I
I
Positif : est une voiture familiale
Négatif : n’est pas une voiture familiale
Représentation des exemples sur deux dimensions
I
I
x1 : prix de la voiture
x2 : puissance du moteur
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
2 / 15
x2: Engine power
Apprendre à partir d’exemples
Exemples :
x=
x1
x2
Étiquettes de classe :
1 si x est positif
r=
0 si x est négatif
x2t
Jeu de N exemples :
x1t
x1: Price
X = {xt ,r t }N
t=1
Tiré de E. Alpaydin, Introduction to Machine Learning,
2e édition, MIT Press, 2010.
1: Training set for the class of a “family
h data point corresponds to one example
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
3 / 15
x2: Engine power
Hypothèse de classement
C
e2
Hypothèse possible :
(p1 ≤ x1 ≤ p2 ) et (e1 ≤ x2 ≤ e2 )
e1
p1
p2
x1: Price
Tiré de E. Alpaydin, Introduction to Machine Learning,
2e édition, MIT Press, 2010.
2: Example of a hypothesis class. The class
car is a rectangle in the price-engine power
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
4 / 15
Classe d’hypothèses
Hypothèse particulière :
x2: Engine power
h∈H
???
???
False positive
h
e2
e1
C
p1
p2
h(x) =
False negative

1



0



si h classe x
comme positif
si h classe x
comme négatif
Erreur empirique :
E (h|X ) =
N
1 X
L(h(xt ),r t )
N t=1
Fonction de perte 0-1 :
1 si a 6= b
e 2.3: C is the actual class and h is our induced
L(a,b) =
0 si a = b
x1: Price
Tiré de E. Alpaydin, Introduction to Machine Learning,
2e édition, MIT Press, 2010.
hesis. The point where C is 1 but h is 0 is a
negative, and the point where C is 0 but h is 1
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
5 / 15
x2: Engine power
Hypothèses générales et spécifiques
G
G : hypothèse la plus générale
C
S
S : hypothèse la plus spécifique
Hypothèses dans H entre S et G
font parties de l’espace des
versions
x1: Price
Tiré de E. Alpaydin, Introduction to Machine Learning,
2e édition, MIT Press, 2010.
2.4: S is the most specific hypothesis and G is
st general hypothesis. From: E. Alpaydın.
GIF-4101 / GIF-7005
(U. Laval)
Apprentissage
c supervisé
ntroduction
to Machine
Learning.
°The
MIT
C. Gagné
6 / 15
x2
Complexité des modèles et bruit
Bruit dans les données
I
I
h2
h1
I
Manque de précision
Erreurs d’étiquetage
Mesures latentes
À performances égales, préférer le
modèle le plus simple
Plus facile à utiliser et à
entraı̂ner (complexité
algorithmique et en espace)
I Plus facile à expliquer
(interprétabilité)
x1
I Généralise mieux
Tiré de E. Alpaydin, Introduction to Machine Learning,
(rasoir d’Ockham)
2e édition, MIT Press, 2010.
2.7: When there
is noise, there is not a simple
I
ry between the positive and negative
es, and
zero
misclassification
error
maysupervisé
not be
GIF-4101
/ GIF-7005
(U. Laval)
Apprentissage
C. Gagné
7 / 15
Problèmes à plusieurs classes
Jeu à K classes :
X = {xt ,rt }N
t=1
Engine power
Sports car
Étiquettes à K dimensions :
rt = r1t r2t . . . rKt
1 si xt ∈ Ci
t
ri =
0 si xt ∈ Cj , j 6= i
?
?
Luxury sedan
K hypothèses à entraı̂ner :
Family car
Price
Tiré de E. Alpaydin, Introduction to Machine Learning,
2e are
édition,
MIT Press,
2010. family car, sports
igure 2.8: There
three
classes:
ar, and luxury sedan. There are three hypotheses
hi , i = 1, . . . ,K
1 si xt ∈ Ci
t
hi (x ) =
0 si xt ∈ Cj , j 6= i
nduced, each one covering the instances of one class
nd leaving outside the instances of the other two
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
8 / 15
Régression
Jeu de données :
t
X = {xt ,r t }N
t=1 , r ∈ IR
On cherche une fonction h(·) :
r t = h(xt ) + Et on veut minimiser l’erreur quadratique :
E (h|X ) =
N
2
1 X t
r − h(xt )
N
t=1
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
9 / 15
Régression
1er ordre avec une variable :
h(x) = w1 x + w0
y: price
Solution avec dérivées partielles
sur erreur empirique
igure
Sur figure, solutions avec
polynômes du 1er, 2e et 6e ordre
I
x: milage
I
Tiré de E. Alpaydin, Introduction to Machine Learning,
2.9: Linear,
second-order,
and sixth-order
2e édition,
MIT Press, 2010.
6e ordre est « parfait »,
mais généralise mal
2e ordre capture mieux les
données que le 1er
olynomials are fitted to the same set of points. The
ighest order gives a perfect fit but given this much
ata, it is very unlikely that the real curve is so
haped.
The /second
seems better Apprentissage
than the supervisé
GIF-4101
GIF-7005 order
(U. Laval)
C. Gagné
10 / 15
Sélection de modèles
L’apprentissage supervisé est un problème mal posé
I
Les exemples ne sont pas suffisants pour donner une solution unique
Il faut donc avoir un biais inductif, en faisant des suppositions sur H
Objectif premier : généralisation
I
Avoir le modèle qui performe le mieux sur de nouvelles données
Sur-apprentissage : H est plus complexe que le concept à modéliser
Sous-apprentissage : H est moins complexe que le concept
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
11 / 15
Facteurs influençant l’apprentissage
Rappel : notre objectif est de minimiser l’erreur de généralisation sur
de nouveaux exemples
1er facteur : complexité de la classe des hypothèses
I
Si la complexité des hypothèses augmente, alors l’erreur de
généralisation diminue pendant un temps, mais ensuite augmente
2e facteur : taille du jeu d’exemples d’entraı̂nement
I
Plus on a de données, plus l’erreur de généralisation diminue
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
12 / 15
Régularisation
Régularisation : introduire une pénalité dans la fonction optimisée afin
de minimiser la complexité
I
Rasoir d’Ockham : toutes autres choses étant égales, les solutions les
plus simples sont les plus vraisemblables
Forme courante : J(h) = E (h|X ) + λ C (h)
I
λ : pondération relative entre l’erreur empirique E (h|X ) et la
complexité C (h) de la fonction
Exemples de mesures de complexité utilisées pour régulariser
I
I
I
I
Nombre de paramètres utilisés (ou de valeurs non nulles de paramètres)
Norme L2 des valeurs de paramètres
Dimension Vapnik-Chervonenkis
Degré du polynôme pour régression polynomiale
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
13 / 15
Validation empirique
Pour estimer l’erreur de généralisation, on doit utiliser des données
non vues durant l’entraı̂nement
Approche classique, partitionner le jeu d’exemples
I
I
I
Jeu d’entraı̂nement (50%)
Jeu de validation (25%)
Jeu de test (25%)
Procédure suivie
1
2
3
Génère des fonctions à partir du jeu d’entraı̂nement
Évalue l’erreur en généralisation de ces fonctions sur le jeu de
validation, en retournant celle qui la minimise
Rapporte la performance finale de la fonction choisie sur le jeu de test
comme base de comparaison
Si on a peu de données, d’autres solutions existent
I
I
I
I
Partitionner le jeu initial en M plis distincts
Utiliser M − 1 plis pour entraı̂nement et le pli restant pour la validation
Répéter M fois, avec toutes les combinaisons possibles
Cas extrême : M est égal à N
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
14 / 15
Trois dimensions de l’apprentissage supervisé
Représentation
I
I
Hypothèses paramétrées : h(x|θ)
Instances, hyperplans, arbres de décision, ensembles de règles, réseaux
de neurones, modèles graphiques, etc.
Évaluation
I
I
PN
Erreur empirique : E (θ|X ) = N1 t=1 L(r t ,h(xt |θ))
Taux de reconnaissance, précision, rappel, erreur quadratique,
vraisemblance, probabilité a posteriori, gain en information, marge,
coût, etc.
Optimisation
I
I
Procédure : θ∗ = argmin∀θ E (θ|X )
Optimisation combinatoire, descente du gradient, programmation
quadratique, etc.
GIF-4101 / GIF-7005 (U. Laval)
Apprentissage supervisé
C. Gagné
15 / 15

Documents pareils