Apprentissage supervisé

Transcription

Apprentissage supervisé
Apprentissage et reconnaissance – GIF-4101 / GIF-7005
Professeur : Christian Gagné
Semaine 1 : 7 septembre 2016
GIF-4101 / GIF-7005 (U. Laval)
C. Gagné
1 / 15
Apprendre à partir d’exemples
Supposons une classe correspondant au concept de voiture familiale
Problème à deux classes
I
I
Positif : est une voiture familiale
Négatif : n’est pas une voiture familiale
Représentation des exemples sur deux dimensions
I
I
x1 : prix de la voiture
x2 : puissance du moteur
C. Gagné
2 / 15
x2: Engine power
Apprendre à partir d’exemples
Exemples :
x=
x1
x2
Étiquettes de classe :
1 si x est positif
r=
0 si x est négatif
x2t
Jeu de N exemples :
x1t
x1: Price
X = {xt ,r t }N
t=1
Tiré de E. Alpaydin, Introduction to Machine Learning,
2e édition, MIT Press, 2010.
1: Training set for the class of a “family
h data point corresponds to one example
C. Gagné
3 / 15
x2: Engine power
Hypothèse de classement
C
e2
Hypothèse possible :
(p1 ≤ x1 ≤ p2 ) et (e1 ≤ x2 ≤ e2 )
e1
p1
p2
x1: Price
2: Example of a hypothesis class. The class
car is a rectangle in the price-engine power
C. Gagné
4 / 15
Classe d’hypothèses
Hypothèse particulière :
x2: Engine power
h∈H
???
???
False positive
h
e2
e1
C
p1
p2
h(x) =
False negative

1



0



si h classe x
comme positif
si h classe x
comme négatif
Erreur empirique :
E (h|X ) =
N
1 X
L(h(xt ),r t )
N t=1
Fonction de perte 0-1 :
1 si a 6= b
e 2.3: C is the actual class and h is our induced
L(a,b) =
0 si a = b
x1: Price
hesis. The point where C is 1 but h is 0 is a
negative, and the point where C is 0 but h is 1
C. Gagné
5 / 15
x2: Engine power
Hypothèses générales et spécifiques
G
G : hypothèse la plus générale
C
S
S : hypothèse la plus spécifique
Hypothèses dans H entre S et G
font parties de l’espace des
versions
x1: Price
2.4: S is the most specific hypothesis and G is
st general hypothesis. From: E. Alpaydın.
GIF-4101 / GIF-7005
(U. Laval)
Apprentissage
c supervisé
ntroduction
to Machine
Learning.
°The
MIT
C. Gagné
6 / 15
x2
Complexité des modèles et bruit
Bruit dans les données
I
I
h2
h1
I
Manque de précision
Erreurs d’étiquetage
Mesures latentes
À performances égales, préférer le
modèle le plus simple
Plus facile à utiliser et à
entraı̂ner (complexité
algorithmique et en espace)
I Plus facile à expliquer
(interprétabilité)
x1
I Généralise mieux
(rasoir d’Ockham)
2.7: When there
is noise, there is not a simple
I
ry between the positive and negative
es, and
zero
misclassification
error
maysupervisé
not be
GIF-4101
/ GIF-7005
(U. Laval)
Apprentissage
C. Gagné
7 / 15
Problèmes à plusieurs classes
Jeu à K classes :
X = {xt ,rt }N
t=1
Engine power
Sports car
Étiquettes à K dimensions :
rt = r1t r2t . . . rKt
1 si xt ∈ Ci
t
ri =
0 si xt ∈ Cj , j 6= i
?
?
Luxury sedan
K hypothèses à entraı̂ner :
Family car
Price
2e are
édition,
MIT Press,
2010. family car, sports
igure 2.8: There
three
classes:
ar, and luxury sedan. There are three hypotheses
hi , i = 1, . . . ,K
1 si xt ∈ Ci
t
hi (x ) =
0 si xt ∈ Cj , j 6= i
nduced, each one covering the instances of one class
nd leaving outside the instances of the other two
C. Gagné
8 / 15
Régression
Jeu de données :
t
X = {xt ,r t }N
t=1 , r ∈ IR
On cherche une fonction h(·) :
r t = h(xt ) + Et on veut minimiser l’erreur quadratique :
E (h|X ) =
N
2
1 X t
r − h(xt )
N
t=1
C. Gagné
9 / 15
Régression
1er ordre avec une variable :
h(x) = w1 x + w0
y: price
Solution avec dérivées partielles
sur erreur empirique
igure
Sur figure, solutions avec
polynômes du 1er, 2e et 6e ordre
I
x: milage
I
2.9: Linear,
second-order,
and sixth-order
2e édition,
MIT Press, 2010.
6e ordre est « parfait »,
mais généralise mal
2e ordre capture mieux les
données que le 1er
olynomials are fitted to the same set of points. The
ighest order gives a perfect fit but given this much
ata, it is very unlikely that the real curve is so
haped.
The /second
seems better Apprentissage
than the supervisé
GIF-4101
GIF-7005 order
(U. Laval)
C. Gagné
10 / 15
Sélection de modèles
L’apprentissage supervisé est un problème mal posé
I
Les exemples ne sont pas suffisants pour donner une solution unique
Il faut donc avoir un biais inductif, en faisant des suppositions sur H
Objectif premier : généralisation
I
Avoir le modèle qui performe le mieux sur de nouvelles données
Sur-apprentissage : H est plus complexe que le concept à modéliser
Sous-apprentissage : H est moins complexe que le concept
C. Gagné
11 / 15
Facteurs influençant l’apprentissage
Rappel : notre objectif est de minimiser l’erreur de généralisation sur
de nouveaux exemples
1er facteur : complexité de la classe des hypothèses
I
Si la complexité des hypothèses augmente, alors l’erreur de
généralisation diminue pendant un temps, mais ensuite augmente
2e facteur : taille du jeu d’exemples d’entraı̂nement
I
Plus on a de données, plus l’erreur de généralisation diminue
C. Gagné
12 / 15
Régularisation
Régularisation : introduire une pénalité dans la fonction optimisée afin
de minimiser la complexité
I
Rasoir d’Ockham : toutes autres choses étant égales, les solutions les
plus simples sont les plus vraisemblables
Forme courante : J(h) = E (h|X ) + λ C (h)
I
λ : pondération relative entre l’erreur empirique E (h|X ) et la
complexité C (h) de la fonction
Exemples de mesures de complexité utilisées pour régulariser
I
I
I
I
Nombre de paramètres utilisés (ou de valeurs non nulles de paramètres)
Norme L2 des valeurs de paramètres
Dimension Vapnik-Chervonenkis
Degré du polynôme pour régression polynomiale
C. Gagné
13 / 15
Validation empirique
Pour estimer l’erreur de généralisation, on doit utiliser des données
non vues durant l’entraı̂nement
Approche classique, partitionner le jeu d’exemples
I
I
I
Jeu d’entraı̂nement (50%)
Jeu de validation (25%)
Jeu de test (25%)
Procédure suivie
1
2
3
Génère des fonctions à partir du jeu d’entraı̂nement
Évalue l’erreur en généralisation de ces fonctions sur le jeu de
validation, en retournant celle qui la minimise
Rapporte la performance finale de la fonction choisie sur le jeu de test
comme base de comparaison
Si on a peu de données, d’autres solutions existent
I
I
I
I
Partitionner le jeu initial en M plis distincts
Utiliser M − 1 plis pour entraı̂nement et le pli restant pour la validation
Répéter M fois, avec toutes les combinaisons possibles
Cas extrême : M est égal à N
C. Gagné
14 / 15
Trois dimensions de l’apprentissage supervisé
Représentation
I
I
Hypothèses paramétrées : h(x|θ)
Instances, hyperplans, arbres de décision, ensembles de règles, réseaux
de neurones, modèles graphiques, etc.
Évaluation
I
I
PN
Erreur empirique : E (θ|X ) = N1 t=1 L(r t ,h(xt |θ))
Taux de reconnaissance, précision, rappel, erreur quadratique,
vraisemblance, probabilité a posteriori, gain en information, marge,
coût, etc.
Optimisation
I
I
Procédure : θ∗ = argmin∀θ E (θ|X )
Optimisation combinatoire, descente du gradient, programmation
quadratique, etc.
C. Gagné
15 / 15

Apprentissage supervisé

Transcription

Documents pareils

CINE ENFANTS

Offre d`emploi à Laval Située à Laval : ERGOTHÉRAPEUTE

Dessiner c`est gagner

offre emploi chef projet - Pôle Services à la Personne PACA

Restaurant de l`hippodrome – LAVAL

Bulletin d`achat du beau livre souvenir Portrait de famille des 50 ans

(Repas 20 ans du centre école Parachutisme Laval)

Fiche métier Agent de sureté aéroportuaire