Apprentissage supervisé
Transcription
Apprentissage supervisé
Apprentissage supervisé Apprentissage et reconnaissance – GIF-4101 / GIF-7005 Professeur : Christian Gagné Semaine 1 : 7 septembre 2016 GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 1 / 15 Apprendre à partir d’exemples Supposons une classe correspondant au concept de voiture familiale Problème à deux classes I I Positif : est une voiture familiale Négatif : n’est pas une voiture familiale Représentation des exemples sur deux dimensions I I x1 : prix de la voiture x2 : puissance du moteur GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 2 / 15 x2: Engine power Apprendre à partir d’exemples Exemples : x= x1 x2 Étiquettes de classe : 1 si x est positif r= 0 si x est négatif x2t Jeu de N exemples : x1t x1: Price X = {xt ,r t }N t=1 Tiré de E. Alpaydin, Introduction to Machine Learning, 2e édition, MIT Press, 2010. 1: Training set for the class of a “family h data point corresponds to one example GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 3 / 15 x2: Engine power Hypothèse de classement C e2 Hypothèse possible : (p1 ≤ x1 ≤ p2 ) et (e1 ≤ x2 ≤ e2 ) e1 p1 p2 x1: Price Tiré de E. Alpaydin, Introduction to Machine Learning, 2e édition, MIT Press, 2010. 2: Example of a hypothesis class. The class car is a rectangle in the price-engine power GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 4 / 15 Classe d’hypothèses Hypothèse particulière : x2: Engine power h∈H ??? ??? False positive h e2 e1 C p1 p2 h(x) = False negative 1 0 si h classe x comme positif si h classe x comme négatif Erreur empirique : E (h|X ) = N 1 X L(h(xt ),r t ) N t=1 Fonction de perte 0-1 : 1 si a 6= b e 2.3: C is the actual class and h is our induced L(a,b) = 0 si a = b x1: Price Tiré de E. Alpaydin, Introduction to Machine Learning, 2e édition, MIT Press, 2010. hesis. The point where C is 1 but h is 0 is a negative, and the point where C is 0 but h is 1 GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 5 / 15 x2: Engine power Hypothèses générales et spécifiques G G : hypothèse la plus générale C S S : hypothèse la plus spécifique Hypothèses dans H entre S et G font parties de l’espace des versions x1: Price Tiré de E. Alpaydin, Introduction to Machine Learning, 2e édition, MIT Press, 2010. 2.4: S is the most specific hypothesis and G is st general hypothesis. From: E. Alpaydın. GIF-4101 / GIF-7005 (U. Laval) Apprentissage c supervisé ntroduction to Machine Learning. °The MIT C. Gagné 6 / 15 x2 Complexité des modèles et bruit Bruit dans les données I I h2 h1 I Manque de précision Erreurs d’étiquetage Mesures latentes À performances égales, préférer le modèle le plus simple Plus facile à utiliser et à entraı̂ner (complexité algorithmique et en espace) I Plus facile à expliquer (interprétabilité) x1 I Généralise mieux Tiré de E. Alpaydin, Introduction to Machine Learning, (rasoir d’Ockham) 2e édition, MIT Press, 2010. 2.7: When there is noise, there is not a simple I ry between the positive and negative es, and zero misclassification error maysupervisé not be GIF-4101 / GIF-7005 (U. Laval) Apprentissage C. Gagné 7 / 15 Problèmes à plusieurs classes Jeu à K classes : X = {xt ,rt }N t=1 Engine power Sports car Étiquettes à K dimensions : rt = r1t r2t . . . rKt 1 si xt ∈ Ci t ri = 0 si xt ∈ Cj , j 6= i ? ? Luxury sedan K hypothèses à entraı̂ner : Family car Price Tiré de E. Alpaydin, Introduction to Machine Learning, 2e are édition, MIT Press, 2010. family car, sports igure 2.8: There three classes: ar, and luxury sedan. There are three hypotheses hi , i = 1, . . . ,K 1 si xt ∈ Ci t hi (x ) = 0 si xt ∈ Cj , j 6= i nduced, each one covering the instances of one class nd leaving outside the instances of the other two GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 8 / 15 Régression Jeu de données : t X = {xt ,r t }N t=1 , r ∈ IR On cherche une fonction h(·) : r t = h(xt ) + Et on veut minimiser l’erreur quadratique : E (h|X ) = N 2 1 X t r − h(xt ) N t=1 GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 9 / 15 Régression 1er ordre avec une variable : h(x) = w1 x + w0 y: price Solution avec dérivées partielles sur erreur empirique igure Sur figure, solutions avec polynômes du 1er, 2e et 6e ordre I x: milage I Tiré de E. Alpaydin, Introduction to Machine Learning, 2.9: Linear, second-order, and sixth-order 2e édition, MIT Press, 2010. 6e ordre est « parfait », mais généralise mal 2e ordre capture mieux les données que le 1er olynomials are fitted to the same set of points. The ighest order gives a perfect fit but given this much ata, it is very unlikely that the real curve is so haped. The /second seems better Apprentissage than the supervisé GIF-4101 GIF-7005 order (U. Laval) C. Gagné 10 / 15 Sélection de modèles L’apprentissage supervisé est un problème mal posé I Les exemples ne sont pas suffisants pour donner une solution unique Il faut donc avoir un biais inductif, en faisant des suppositions sur H Objectif premier : généralisation I Avoir le modèle qui performe le mieux sur de nouvelles données Sur-apprentissage : H est plus complexe que le concept à modéliser Sous-apprentissage : H est moins complexe que le concept GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 11 / 15 Facteurs influençant l’apprentissage Rappel : notre objectif est de minimiser l’erreur de généralisation sur de nouveaux exemples 1er facteur : complexité de la classe des hypothèses I Si la complexité des hypothèses augmente, alors l’erreur de généralisation diminue pendant un temps, mais ensuite augmente 2e facteur : taille du jeu d’exemples d’entraı̂nement I Plus on a de données, plus l’erreur de généralisation diminue GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 12 / 15 Régularisation Régularisation : introduire une pénalité dans la fonction optimisée afin de minimiser la complexité I Rasoir d’Ockham : toutes autres choses étant égales, les solutions les plus simples sont les plus vraisemblables Forme courante : J(h) = E (h|X ) + λ C (h) I λ : pondération relative entre l’erreur empirique E (h|X ) et la complexité C (h) de la fonction Exemples de mesures de complexité utilisées pour régulariser I I I I Nombre de paramètres utilisés (ou de valeurs non nulles de paramètres) Norme L2 des valeurs de paramètres Dimension Vapnik-Chervonenkis Degré du polynôme pour régression polynomiale GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 13 / 15 Validation empirique Pour estimer l’erreur de généralisation, on doit utiliser des données non vues durant l’entraı̂nement Approche classique, partitionner le jeu d’exemples I I I Jeu d’entraı̂nement (50%) Jeu de validation (25%) Jeu de test (25%) Procédure suivie 1 2 3 Génère des fonctions à partir du jeu d’entraı̂nement Évalue l’erreur en généralisation de ces fonctions sur le jeu de validation, en retournant celle qui la minimise Rapporte la performance finale de la fonction choisie sur le jeu de test comme base de comparaison Si on a peu de données, d’autres solutions existent I I I I Partitionner le jeu initial en M plis distincts Utiliser M − 1 plis pour entraı̂nement et le pli restant pour la validation Répéter M fois, avec toutes les combinaisons possibles Cas extrême : M est égal à N GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 14 / 15 Trois dimensions de l’apprentissage supervisé Représentation I I Hypothèses paramétrées : h(x|θ) Instances, hyperplans, arbres de décision, ensembles de règles, réseaux de neurones, modèles graphiques, etc. Évaluation I I PN Erreur empirique : E (θ|X ) = N1 t=1 L(r t ,h(xt |θ)) Taux de reconnaissance, précision, rappel, erreur quadratique, vraisemblance, probabilité a posteriori, gain en information, marge, coût, etc. Optimisation I I Procédure : θ∗ = argmin∀θ E (θ|X ) Optimisation combinatoire, descente du gradient, programmation quadratique, etc. GIF-4101 / GIF-7005 (U. Laval) Apprentissage supervisé C. Gagné 15 / 15