Apprentissage supervisé et théorie de la décision
Transcription
Apprentissage supervisé et théorie de la décision
Apprentissage supervisé et théorie de la décision Chapitre 1 Marie Chavent à partir des cours d’Adrien Todeschini et Francois Caron Master MIMSE - Université de Bordeaux 2015-2016 Chapitre 1 Apprentissage supervisé 2015-2016 1 / 36 Ressources Livres de référence Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani (2013). An Introduction to Statistical Learning Springer. http://www-bcf.usc.edu/˜gareth/ISL/ Larry Wasserman (2004). All of statistics - A concise course in Statistical Inference Springer Texts in Statistics. http://www.stat.cmu.edu/˜larry/all-of-statistics/ Trevor Hastie, Robert Tibshirani et Jerome Friedman (2009). The Elements of Statistical Learning Springer Series in Statistics. http://statweb.stanford.edu/˜tibs/ElemStatLearn/ Christopher M. Bishop (2009). Pattern recognition and machine learning. Springer. http://research.microsoft.com/en-us/um/people/cmbishop/prml/ Chapitre 1 Apprentissage supervisé 2015-2016 2 / 36 Ressources Cours en ligne I I Machine Learning, Andrew Ng (Stanford University) : https://www.coursera.org/course/ml WikiStat : http://wikistat.fr/ Logiciels I I R + RStudio : http://www.rstudio.com/ Python + scikit-learn : http://scikit-learn.org/ Technologies big data I I MapReduce avec RHadoop Spark+MLlib : http://spark.apache.org/mllib/ Jeux de données I UC Irvine Machine Learning Repository : http://archive.ics.uci.edu/ml/ Challenges industriels I I Kaggle : https://www.kaggle.com/ Datascience.net : https://datascience.net/ Chapitre 1 Apprentissage supervisé 2015-2016 3 / 36 Introduction Exemples L’apprentissage statistique joue un rôle important dans de nombreux problèmes I Prédire si un patient, souffrant d’une attaque cardiaque, aura à nouveau une attaque cardiaque, en se basant sur des mesures cliniques et démographiques sur ce patient Chapitre 1 Apprentissage supervisé 2015-2016 4 / 36 Introduction Exemples L’apprentissage statistique joue un rôle important dans de nombreux problèmes I I Prédire si un patient, souffrant d’une attaque cardiaque, aura à nouveau une attaque cardiaque, en se basant sur des mesures cliniques et démographiques sur ce patient Prédire la consommation en électricité d’un client à partir de données sur l’habitation et les habitudes de consommation Chapitre 1 Apprentissage supervisé 2015-2016 4 / 36 Introduction Exemples L’apprentissage statistique joue un rôle important dans de nombreux problèmes I I I Prédire si un patient, souffrant d’une attaque cardiaque, aura à nouveau une attaque cardiaque, en se basant sur des mesures cliniques et démographiques sur ce patient Prédire la consommation en électricité d’un client à partir de données sur l’habitation et les habitudes de consommation Identifier de façon automatique les chiffres du code postal sur une enveloppe Chapitre 1 Apprentissage supervisé 2015-2016 4 / 36 Introduction Exemples L’apprentissage statistique joue un rôle important dans de nombreux problèmes I I I I Prédire si un patient, souffrant d’une attaque cardiaque, aura à nouveau une attaque cardiaque, en se basant sur des mesures cliniques et démographiques sur ce patient Prédire la consommation en électricité d’un client à partir de données sur l’habitation et les habitudes de consommation Identifier de façon automatique les chiffres du code postal sur une enveloppe Identifier des groupes de sujets similaires dans un ensemble d’articles sur le web Chapitre 1 Apprentissage supervisé 2015-2016 4 / 36 Introduction Exemples Variable de sortie Chapitre 1 Apprentissage supervisé 2015-2016 5 / 36 Introduction Exemples Variable de sortie I quantitative (e.g. consommation d’électricité) Chapitre 1 Apprentissage supervisé 2015-2016 5 / 36 Introduction Exemples Variable de sortie I I quantitative (e.g. consommation d’électricité) qualitative (attaque cardiaque: oui/non) Chapitre 1 Apprentissage supervisé 2015-2016 5 / 36 Introduction Exemples Variable de sortie I I quantitative (e.g. consommation d’électricité) qualitative (attaque cardiaque: oui/non) Objectif : Prédire la valeur de cette variable de sortie en fonction d’un ensemble de caractéristiques (mesures cliniques du patient, données sur l’habitation, etc.) Chapitre 1 Apprentissage supervisé 2015-2016 5 / 36 Introduction Exemples Variable de sortie I I quantitative (e.g. consommation d’électricité) qualitative (attaque cardiaque: oui/non) Objectif : Prédire la valeur de cette variable de sortie en fonction d’un ensemble de caractéristiques (mesures cliniques du patient, données sur l’habitation, etc.) Ensemble d’apprentissage: couples de valeurs entrées/sorties permettant de créer un modèle de prédiction, utilisé pour prédire de nouveaux cas Chapitre 1 Apprentissage supervisé 2015-2016 5 / 36 Exemples Reconnaissance de caractères manuscripts Objectif : Prédire la classe de chaque image (0,. . . ,9) à partir d’une matrice de 16 × 16 pixel, chaque pixel ayant une intensité de 0 à 255 Chapitre 1 Apprentissage supervisé 2015-2016 6 / 36 Exemples Reconnaissance de caractères manuscripts Objectif : Prédire la classe de chaque image (0,. . . ,9) à partir d’une matrice de 16 × 16 pixel, chaque pixel ayant une intensité de 0 à 255 Taux d’erreur doit être faible afin d’éviter les mauvaises attributions du courrier Chapitre 1 Apprentissage supervisé 2015-2016 6 / 36 Exemples Reconnaissance de caractères manuscripts Objectif : Prédire la classe de chaque image (0,. . . ,9) à partir d’une matrice de 16 × 16 pixel, chaque pixel ayant une intensité de 0 à 255 Taux d’erreur doit être faible afin d’éviter les mauvaises attributions du courrier [Classification supervisée] Chapitre 1 Apprentissage supervisé 2015-2016 6 / 36 Exemples Reconnaissance automatique de spams Spam No Spam WINNING NOTIFICATION We are pleased to inform you of the result of the Lottery Winners International programs held on the 30th january 2005. [...] You have been approved for a lump sum pay out of 175,000.00 euros. CONGRATULATIONS!!! Dear George, Could you please send me the report #1248 on the project advancement? Thanks in advance. Regards, Cathia Base de données de courriel identifiés ou non comme spam Chapitre 1 Apprentissage supervisé 2015-2016 7 / 36 Exemples Reconnaissance automatique de spams Spam No Spam WINNING NOTIFICATION We are pleased to inform you of the result of the Lottery Winners International programs held on the 30th january 2005. [...] You have been approved for a lump sum pay out of 175,000.00 euros. CONGRATULATIONS!!! Dear George, Could you please send me the report #1248 on the project advancement? Thanks in advance. Regards, Cathia Base de données de courriel identifiés ou non comme spam Objectif : Définir un modèle de prédiction permettant, à l’arrivée d’un courriel de prédire si celui-ci est un spam ou non Chapitre 1 Apprentissage supervisé 2015-2016 7 / 36 Exemples Reconnaissance automatique de spams Spam No Spam WINNING NOTIFICATION We are pleased to inform you of the result of the Lottery Winners International programs held on the 30th january 2005. [...] You have been approved for a lump sum pay out of 175,000.00 euros. CONGRATULATIONS!!! Dear George, Could you please send me the report #1248 on the project advancement? Thanks in advance. Regards, Cathia Base de données de courriel identifiés ou non comme spam Objectif : Définir un modèle de prédiction permettant, à l’arrivée d’un courriel de prédire si celui-ci est un spam ou non Taux d’erreur doit être faible afin d’éviter de supprimer des messages importants ou d’inonder la boite au lettre de courriers inutiles Chapitre 1 Apprentissage supervisé 2015-2016 7 / 36 Exemples Reconnaissance automatique de spams Spam No Spam WINNING NOTIFICATION We are pleased to inform you of the result of the Lottery Winners International programs held on the 30th january 2005. [...] You have been approved for a lump sum pay out of 175,000.00 euros. CONGRATULATIONS!!! Dear George, Could you please send me the report #1248 on the project advancement? Thanks in advance. Regards, Cathia Base de données de courriel identifiés ou non comme spam Objectif : Définir un modèle de prédiction permettant, à l’arrivée d’un courriel de prédire si celui-ci est un spam ou non Taux d’erreur doit être faible afin d’éviter de supprimer des messages importants ou d’inonder la boite au lettre de courriers inutiles [Classification supervisée] Chapitre 1 Apprentissage supervisé 2015-2016 7 / 36 Exemples Classification de signaux neuronaux Brefs potentiels d’action enregistrés par une micro-électrode Objectif : classer les signaux afin d’attribuer chaque potentiel à un neurone particulier Chapitre 1 Apprentissage supervisé 2015-2016 8 / 36 Exemples Classification de signaux neuronaux Brefs potentiels d’action enregistrés par une micro-électrode Objectif : classer les signaux afin d’attribuer chaque potentiel à un neurone particulier Chapitre 1 Apprentissage supervisé 2015-2016 9 / 36 Exemples Classification de signaux neuronaux Brefs potentiels d’action enregistrés par une micro-électrode Objectif : classer les signaux afin d’attribuer chaque potentiel à un neurone particulier Chapitre 1 Apprentissage supervisé 2015-2016 10 / 36 Exemples Classification de signaux neuronaux Brefs potentiels d’action enregistrés par une micro-électrode Objectif : classer les signaux afin d’attribuer chaque potentiel à un neurone particulier [Classification non supervisée] Chapitre 1 Apprentissage supervisé 2015-2016 10 / 36 Exemples Classification de séquences d’expression de gènes Puces à ADN : données d’expression de gène pour plusieurs gènes et plusieurs conditions expérimentales Classification de gènes avec des séquences d’expression similaires Chapitre 1 Apprentissage supervisé 2015-2016 11 / 36 Exemples Classification de séquences d’expression de gènes Puces à ADN : données d’expression de gène pour plusieurs gènes et plusieurs conditions expérimentales Classification de gènes avec des séquences d’expression similaires Chapitre 1 Apprentissage supervisé 2015-2016 12 / 36 Exemples Classification de séquences d’expression de gènes Puces à ADN : données d’expression de gène pour plusieurs gènes et plusieurs conditions expérimentales Classification de gènes avec des séquences d’expression similaires [Classification non supervisée] Chapitre 1 Apprentissage supervisé 2015-2016 12 / 36 Définitions Régression vs classification Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives Chapitre 1 Apprentissage supervisé 2015-2016 13 / 36 Définitions Régression vs classification Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives Variable de sortie Y : variable à expliquer ou de réponse Chapitre 1 Apprentissage supervisé 2015-2016 13 / 36 Définitions Régression vs classification Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives Variable de sortie Y : variable à expliquer ou de réponse I Y quantitative Chapitre 1 Problème de régression Apprentissage supervisé 2015-2016 13 / 36 Définitions Régression vs classification Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives Variable de sortie Y : variable à expliquer ou de réponse I I Y quantitative Y qualitative Chapitre 1 Problème de régression Problème de classification Apprentissage supervisé 2015-2016 13 / 36 Définitions Régression vs classification Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives Variable de sortie Y : variable à expliquer ou de réponse I I Y quantitative Y qualitative Problème de régression Problème de classification On s’intéressera principalement dans ce cours à des problèmes de classification où Y est une variable qualitative à K modalités et on parle de problème de discrimination en K classes. Chapitre 1 Apprentissage supervisé 2015-2016 13 / 36 Définitions Régression vs classification Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives Variable de sortie Y : variable à expliquer ou de réponse I I Y quantitative Y qualitative Problème de régression Problème de classification On s’intéressera principalement dans ce cours à des problèmes de classification où Y est une variable qualitative à K modalités et on parle de problème de discrimination en K classes. Vocabulaire : apprentissage = machine learning Chapitre 1 Apprentissage supervisé 2015-2016 13 / 36 Définitions Régression vs classification Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives Variable de sortie Y : variable à expliquer ou de réponse I I Y quantitative Y qualitative Problème de régression Problème de classification On s’intéressera principalement dans ce cours à des problèmes de classification où Y est une variable qualitative à K modalités et on parle de problème de discrimination en K classes. Vocabulaire : apprentissage = machine learning I Classification supervisée = discrimination Chapitre 1 Apprentissage supervisé 2015-2016 13 / 36 Définitions Régression vs classification Variables d’entrées X = (X1 , . . . , Xp ) : variables explicatives Variable de sortie Y : variable à expliquer ou de réponse I I Y quantitative Y qualitative Problème de régression Problème de classification On s’intéressera principalement dans ce cours à des problèmes de classification où Y est une variable qualitative à K modalités et on parle de problème de discrimination en K classes. Vocabulaire : apprentissage = machine learning I I Classification supervisée = discrimination Classification non supervisée = clustering Chapitre 1 Apprentissage supervisé 2015-2016 13 / 36 Définitions Classification Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn ) Chapitre 1 Apprentissage supervisé 2015-2016 14 / 36 Définitions Classification Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn ) Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp Chapitre 1 Apprentissage supervisé 2015-2016 14 / 36 Définitions Classification Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn ) Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp Yi prend ses valeurs dans un ensemble fini Y = {1, . . . , K } Chapitre 1 Apprentissage supervisé 2015-2016 14 / 36 Définitions Classification Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn ) Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp Yi prend ses valeurs dans un ensemble fini Y = {1, . . . , K } Définition Une règle de classification est une fonction g : X → Y. Chapitre 1 Apprentissage supervisé 2015-2016 14 / 36 Définitions Classification Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn ) Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp Yi prend ses valeurs dans un ensemble fini Y = {1, . . . , K } Définition Une règle de classification est une fonction g : X → Y. Ensemble d’apprentissage : ensemble de données permettant l’apprentissage de la règle de classification g Chapitre 1 Apprentissage supervisé 2015-2016 14 / 36 Définitions Classification Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn ) Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp Yi prend ses valeurs dans un ensemble fini Y = {1, . . . , K } Définition Une règle de classification est une fonction g : X → Y. Ensemble d’apprentissage : ensemble de données permettant l’apprentissage de la règle de classification g I Classification supervisée : on dispose d’un ensemble de couples (Xi , Yi ) pour l’apprentissage de g. Chapitre 1 Apprentissage supervisé 2015-2016 14 / 36 Définitions Classification Couples de variables aléatoires i.i.d. (X1 , Y1 ), . . . , (Xn , Yn ) Xi = (Xi,1 , . . . , Xi,p ) prend ses valeurs dans X , par exemple X = Rp Yi prend ses valeurs dans un ensemble fini Y = {1, . . . , K } Définition Une règle de classification est une fonction g : X → Y. Ensemble d’apprentissage : ensemble de données permettant l’apprentissage de la règle de classification g I I Classification supervisée : on dispose d’un ensemble de couples (Xi , Yi ) pour l’apprentissage de g. Classification non supervisée : on ne dispose que de données (Xi ) non classées Chapitre 1 Apprentissage supervisé 2015-2016 14 / 36 Définitions Classification supervisée Objectif : A partir de l’ensemble d’apprentissage, définir une règle de classification g permettant des prédictions précises sur de nouveau éléments Chapitre 1 Apprentissage supervisé 2015-2016 15 / 36 Définitions Classification supervisée Objectif : A partir de l’ensemble d’apprentissage, définir une règle de classification g permettant des prédictions précises sur de nouveau éléments Erreur de prédiction est quantifiée par une fonction de coût L : Y × Y → R Chapitre 1 Apprentissage supervisé 2015-2016 15 / 36 Définitions Classification supervisée Objectif : A partir de l’ensemble d’apprentissage, définir une règle de classification g permettant des prédictions précises sur de nouveau éléments Erreur de prédiction est quantifiée par une fonction de coût L : Y × Y → R En classification on considère souvent la fonction de coût 0-1 L(i, j) = 0 si i = j = 1 sinon Chapitre 1 Apprentissage supervisé 2015-2016 15 / 36 Définitions Classification supervisée Objectif : A partir de l’ensemble d’apprentissage, définir une règle de classification g permettant des prédictions précises sur de nouveau éléments Erreur de prédiction est quantifiée par une fonction de coût L : Y × Y → R En classification on considère souvent la fonction de coût 0-1 L(i, j) = 0 si i = j = 1 sinon Combien cela me coûte-t-il de faire des mauvaises prédictions? Chapitre 1 Apprentissage supervisé 2015-2016 15 / 36 Définitions Classification supervisée Le coût moyen d’une règle de classification g est E (g) = EX ,Y [L(Y , g(X )] = EX [EY [L(g(X , Y )|X ]] Chapitre 1 Apprentissage supervisé 2015-2016 16 / 36 Définitions Classification supervisée Le coût moyen d’une règle de classification g est E (g) = EX ,Y [L(Y , g(X )] = EX [EY [L(g(X , Y )|X ]] Ce coût moyen est appelé risque moyen théorique Chapitre 1 Apprentissage supervisé 2015-2016 16 / 36 Définitions Classification supervisée Le coût moyen d’une règle de classification g est E (g) = EX ,Y [L(Y , g(X )] = EX [EY [L(g(X , Y )|X ]] Ce coût moyen est appelé risque moyen théorique Lorsque la fonction de coût 0-1 est utilisée, on parle de taux d’erreur théorique et E (g) = P(g(X ) 6= Y ) Chapitre 1 Apprentissage supervisé 2015-2016 16 / 36 Définitions Classification supervisée Le coût moyen d’une règle de classification g est E (g) = EX ,Y [L(Y , g(X )] = EX [EY [L(g(X , Y )|X ]] Ce coût moyen est appelé risque moyen théorique Lorsque la fonction de coût 0-1 est utilisée, on parle de taux d’erreur théorique et E (g) = P(g(X ) 6= Y ) Le coût moyen empirique associé à l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) est n X bn (g) = 1 E L(g(Xi ), Yi ) n i=1 Chapitre 1 Apprentissage supervisé 2015-2016 16 / 36 Définitions Classification supervisée Le coût moyen d’une règle de classification g est E (g) = EX ,Y [L(Y , g(X )] = EX [EY [L(g(X , Y )|X ]] Ce coût moyen est appelé risque moyen théorique Lorsque la fonction de coût 0-1 est utilisée, on parle de taux d’erreur théorique et E (g) = P(g(X ) 6= Y ) Le coût moyen empirique associé à l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) est n X bn (g) = 1 E L(g(Xi ), Yi ) n i=1 On parle de risque moyen empirique Chapitre 1 Apprentissage supervisé 2015-2016 16 / 36 Définitions Classification supervisée Le coût moyen d’une règle de classification g est E (g) = EX ,Y [L(Y , g(X )] = EX [EY [L(g(X , Y )|X ]] Ce coût moyen est appelé risque moyen théorique Lorsque la fonction de coût 0-1 est utilisée, on parle de taux d’erreur théorique et E (g) = P(g(X ) 6= Y ) Le coût moyen empirique associé à l’échantillon (X1 , Y1 ), . . . , (Xn , Yn ) est n X bn (g) = 1 E L(g(Xi ), Yi ) n i=1 On parle de risque moyen empirique Lorsque la fonction de coût 0-1 est utilisée, on parle de taux d’erreur bn (g) = 1 Pn 1(g(Xi ) 6= Yi ) empirique et E i=1 n Chapitre 1 Apprentissage supervisé 2015-2016 16 / 36 Théorie de la décision statistique Classification On cherche la règle de décision g qui minimise le risque moyen Chapitre 1 Apprentissage supervisé 2015-2016 17 / 36 Théorie de la décision statistique Classification On cherche la règle de décision g qui minimise le risque moyen Obtenue en prenant pour chaque x ∈ X g ? (x ) = arg min E [L(Y , `)|X = x ] `∈{1,...,K } Chapitre 1 Apprentissage supervisé 2015-2016 17 / 36 Théorie de la décision statistique Classification On cherche la règle de décision g qui minimise le risque moyen Obtenue en prenant pour chaque x ∈ X g ? (x ) = arg min E [L(Y , `)|X = x ] `∈{1,...,K } Cette règle est appelée la règle de classification de Bayes Chapitre 1 Apprentissage supervisé 2015-2016 17 / 36 Théorie de la décision statistique Classification On cherche la règle de décision g qui minimise le risque moyen Obtenue en prenant pour chaque x ∈ X g ? (x ) = arg min E [L(Y , `)|X = x ] `∈{1,...,K } Cette règle est appelée la règle de classification de Bayes Le risque associé E (g ? ) est appelé risque de Bayes Chapitre 1 Apprentissage supervisé 2015-2016 17 / 36 Théorie de la décision statistique Classification On cherche la règle de décision g qui minimise le risque moyen Obtenue en prenant pour chaque x ∈ X g ? (x ) = arg min E [L(Y , `)|X = x ] `∈{1,...,K } Cette règle est appelée la règle de classification de Bayes Le risque associé E (g ? ) est appelé risque de Bayes Lorsque la fonction de coût 0-1 est utilisée cette règle s’écrit g ? (x ) = arg max P(Y = `|X = x ) `∈{1,...,K } Chapitre 1 Apprentissage supervisé 2015-2016 17 / 36 Théorie de la décision statistique Classification On cherche la règle de décision g qui minimise le risque moyen Obtenue en prenant pour chaque x ∈ X g ? (x ) = arg min E [L(Y , `)|X = x ] `∈{1,...,K } Cette règle est appelée la règle de classification de Bayes Le risque associé E (g ? ) est appelé risque de Bayes Lorsque la fonction de coût 0-1 est utilisée cette règle s’écrit g ? (x ) = arg max P(Y = `|X = x ) `∈{1,...,K } Le risque associé E (g ? ) est appelé taux d’erreur de Bayes. Chapitre 1 Apprentissage supervisé 2015-2016 17 / 36 En pratique Fonction de coût Soit Ŷ = g(X ) ∈ Y la sortie prédite d’un individu et Y ∈ Y sa vraie valeur. Chapitre 1 Apprentissage supervisé 2015-2016 18 / 36 En pratique Fonction de coût Soit Ŷ = g(X ) ∈ Y la sortie prédite d’un individu et Y ∈ Y sa vraie valeur. Soit L : Y × Y → R une fonction de coût telle que L(Y , Ŷ ) est le coût associé à la décision : “prédire Ŷ alors que la vraie valeur est Y ”. Chapitre 1 Apprentissage supervisé 2015-2016 18 / 36 En pratique Fonction de coût Soit Ŷ = g(X ) ∈ Y la sortie prédite d’un individu et Y ∈ Y sa vraie valeur. Soit L : Y × Y → R une fonction de coût telle que L(Y , Ŷ ) est le coût associé à la décision : “prédire Ŷ alors que la vraie valeur est Y ”. En classification, Y = {1, ..., K } et la fonction de coût peut être résumée par une matrice de coûts C de taille K × K telle que Ck` = L(k, `). vraie classe k =1 k =2 ... k =K Chapitre 1 `=1 C11 ≤ 0 C21 ≥ 0 . . . CK 1 ≥ 0 Apprentissage supervisé classe prédite `=2 ... C12 ≥ 0 ... C22 ≤ 0 ... . . . . . . CK 2 ≥ 0 ... `=K C1K ≥ 0 C2K ≥ 0 . . . CKK ≤ 0 2015-2016 18 / 36 En pratique Fonction de coût Soit Ŷ = g(X ) ∈ Y la sortie prédite d’un individu et Y ∈ Y sa vraie valeur. Soit L : Y × Y → R une fonction de coût telle que L(Y , Ŷ ) est le coût associé à la décision : “prédire Ŷ alors que la vraie valeur est Y ”. En classification, Y = {1, ..., K } et la fonction de coût peut être résumée par une matrice de coûts C de taille K × K telle que Ck` = L(k, `). vraie classe k =1 k =2 ... k =K `=1 C11 ≤ 0 C21 ≥ 0 . . . CK 1 ≥ 0 classe prédite `=2 ... C12 ≥ 0 ... C22 ≤ 0 ... . . . . . . CK 2 ≥ 0 ... `=K C1K ≥ 0 C2K ≥ 0 . . . CKK ≤ 0 La fonction de coût se réecrit : L(Y , Ŷ ) = CY Ŷ = K X K X Ckl 1(Y = k et Ŷ = `) k=1 `=1 Chapitre 1 Apprentissage supervisé 2015-2016 18 / 36 En pratique Matrice de confusion Soit un échantillon (Yi , Ŷi ), i = 1, ..., n de couples classe réelle, classe prédite. Chapitre 1 Apprentissage supervisé 2015-2016 19 / 36 En pratique Matrice de confusion Soit un échantillon (Yi , Ŷi ), i = 1, ..., n de couples classe réelle, classe prédite. La matrice de confusion comptabilise les occurences des prédictions en fonction des vraies valeurs vraie classe k =1 k =2 ... k =K `=1 p11 × n p21 × n . . . pK 1 × n classe prédite `=2 ... p12 × n ... p22 × n ... . . . . . . pK 2 × n ... `=K p1K × n p2K × n . . . pKK × n où pk` est la proportion d’individus de classe k auxquels on a prédit la classe ` Chapitre 1 Apprentissage supervisé 2015-2016 19 / 36 En pratique Matrice de confusion Soit un échantillon (Yi , Ŷi ), i = 1, ..., n de couples classe réelle, classe prédite. La matrice de confusion comptabilise les occurences des prédictions en fonction des vraies valeurs k =1 k =2 vraie classe ... k =K `=1 p11 × n p21 × n . . . pK 1 × n classe prédite `=2 ... p12 × n ... p22 × n ... . . . . . . pK 2 × n ... `=K p1K × n p2K × n . . . pKK × n où pk` est la proportion d’individus de classe k auxquels on a prédit la classe ` On a alors pk` = Chapitre 1 n 1X 1(Yi = k et Ŷi = `) n i=1 Apprentissage supervisé 2015-2016 19 / 36 En pratique Risque de prédiction Le risque théorique ou encore tauxi d’erreur théorique est l’espérance de la h fonction de coût E = E L(Y , Ŷ ) Chapitre 1 Apprentissage supervisé 2015-2016 20 / 36 En pratique Risque de prédiction Le risque théorique ou encore tauxi d’erreur théorique est l’espérance de la h fonction de coût E = E L(Y , Ŷ ) Il peut être approché par le risque empirique ou encore taux d’erreur empirique Ên = n 1X L(Yi , Ŷi ) n i=1 = n K K 1 XXX Ckl 1(Yi = k et Ŷi = `) n i=1 k=1 `=1 = K X K X Ck` pk` k=1 `=1 Il s’agit du coût moyen sur l’échantillon. Chapitre 1 Apprentissage supervisé 2015-2016 20 / 36 En pratique Exemples de risques empiriques On prend l’exemple de la classification binaire Chapitre 1 Apprentissage supervisé 2015-2016 21 / 36 En pratique Exemples de risques empiriques On prend l’exemple de la classification binaire K = 2 et 1=positif et 2=négatif Chapitre 1 Apprentissage supervisé 2015-2016 21 / 36 En pratique Exemples de risques empiriques On prend l’exemple de la classification binaire K = 2 et 1=positif et 2=négatif On note FP = p21 × n le nombre de faux positifs Chapitre 1 Apprentissage supervisé 2015-2016 21 / 36 En pratique Exemples de risques empiriques On prend l’exemple de la classification binaire K = 2 et 1=positif et 2=négatif On note FP = p21 × n le nombre de faux positifs On note FN = p12 × n le nombre de faux négatifs. Chapitre 1 Apprentissage supervisé 2015-2016 21 / 36 En pratique Exemples de risques empiriques On prend l’exemple de la classification binaire K = 2 et 1=positif et 2=négatif On note FP = p21 × n le nombre de faux positifs On note FN = p12 × n le nombre de faux négatifs. Les deux fonctions de coût suivantes sont considérées. Chapitre 1 Apprentissage supervisé 2015-2016 21 / 36 En pratique Exemples de risques empiriques On prend l’exemple de la classification binaire K = 2 et 1=positif et 2=négatif On note FP = p21 × n le nombre de faux positifs On note FN = p12 × n le nombre de faux négatifs. Les deux fonctions de coût suivantes sont considérées. 0 1 I La fonction de coût 0-1 avec C = 1 0 Chapitre 1 Apprentissage supervisé 2015-2016 21 / 36 En pratique Exemples de risques empiriques On prend l’exemple de la classification binaire K = 2 et 1=positif et 2=négatif On note FP = p21 × n le nombre de faux positifs On note FN = p12 × n le nombre de faux négatifs. Les deux fonctions de coût suivantes sont considérées. 0 1 I La fonction de coût 0-1 avec C = 1 0 0 1 I La fonction de coût pondérée avec C = 5 0 Chapitre 1 Apprentissage supervisé 2015-2016 21 / 36 En pratique Exemples de risques empiriques Fonction de coût 0-1 Chapitre 1 Apprentissage supervisé 2015-2016 22 / 36 En pratique Exemples de risques empiriques Fonction de coût 0-1 La matrice de coût ne distingue pas les deux types d’erreurs FP et FN Chapitre 1 Apprentissage supervisé 2015-2016 22 / 36 En pratique Exemples de risques empiriques Fonction de coût 0-1 La matrice de coût ne distingue pas les deux types d’erreurs FP et FN L’expression du coût moyen devient Ên = 2 X 2 X Ck` pk` k=1 `=1 = C11 p11 + C21 p21 + C12 p12 + C22 p22 = p21 + p12 FP + FN = n ce qui correspond au taux d’erreur standard. Chapitre 1 Apprentissage supervisé 2015-2016 22 / 36 En pratique Exemples de risques empiriques Fonction de coût pondérée Chapitre 1 Apprentissage supervisé 2015-2016 23 / 36 En pratique Exemples de risques empiriques Fonction de coût pondérée On associe un coût cinq fois plus important aux faux positifs Chapitre 1 Apprentissage supervisé 2015-2016 23 / 36 En pratique Exemples de risques empiriques Fonction de coût pondérée On associe un coût cinq fois plus important aux faux positifs L’expression du coût moyen devient L’expression du coût moyen devient Ên = C11 p11 + C21 p21 + C12 p12 + C22 p22 = 5 × p21 + p12 5 × FP + FN = n ce qui correspond à un taux d’erreur pondéré. Chapitre 1 Apprentissage supervisé 2015-2016 23 / 36 En pratique Règle de décision Soit x ∈ X la variable d’entrée Chapitre 1 Apprentissage supervisé 2015-2016 24 / 36 En pratique Règle de décision Soit x ∈ X la variable d’entrée La règle optimale de classification de Bayes est donnée par g(x ) = arg min E [L(Y , `)|X = x ] `∈{1,...,K } = arg min K X L(k, `)P(Y = k|X = x ) `∈{1,...,K } k=1 = arg min K X Ck` P(Y = k|X = x ) (approche discriminante) `∈{1,...,K } k=1 = arg min K X Ck` f (x |Y = k)P(Y = k) (modèle génératif) `∈{1,...,K } k=1 où f (x |Y = k) est la densité de X dans la classe k. Chapitre 1 Apprentissage supervisé 2015-2016 24 / 36 En pratique Règle de décision Théorème de Bayes f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK j=1 f (x |Y = j)P(Y = j) Chapitre 1 Apprentissage supervisé 2015-2016 25 / 36 En pratique Règle de décision Théorème de Bayes f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK j=1 f (x |Y = j)P(Y = j) Cette règle de de classification de Bayes est applicable si l’on dispose Chapitre 1 Apprentissage supervisé 2015-2016 25 / 36 En pratique Règle de décision Théorème de Bayes f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK j=1 f (x |Y = j)P(Y = j) Cette règle de de classification de Bayes est applicable si l’on dispose I dans le cas discriminatif : Chapitre 1 Apprentissage supervisé 2015-2016 25 / 36 En pratique Règle de décision Théorème de Bayes f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK j=1 f (x |Y = j)P(Y = j) Cette règle de de classification de Bayes est applicable si l’on dispose I dans le cas discriminatif : des probabilité à posteriori P(Y = k|X = x ) Chapitre 1 Apprentissage supervisé 2015-2016 25 / 36 En pratique Règle de décision Théorème de Bayes f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK j=1 f (x |Y = j)P(Y = j) Cette règle de de classification de Bayes est applicable si l’on dispose I dans le cas discriminatif : des probabilité à posteriori P(Y = k|X = x ) exemple : régression logistique Chapitre 1 Apprentissage supervisé 2015-2016 25 / 36 En pratique Règle de décision Théorème de Bayes f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK j=1 f (x |Y = j)P(Y = j) Cette règle de de classification de Bayes est applicable si l’on dispose I dans le cas discriminatif : des probabilité à posteriori P(Y = k|X = x ) exemple : régression logistique I dans le cas génératif : Chapitre 1 Apprentissage supervisé 2015-2016 25 / 36 En pratique Règle de décision Théorème de Bayes f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK j=1 f (x |Y = j)P(Y = j) Cette règle de de classification de Bayes est applicable si l’on dispose I dans le cas discriminatif : des probabilité à posteriori P(Y = k|X = x ) exemple : régression logistique I dans le cas génératif : des fonctions de densité f (x |Y = k) aussi notées fk (x ) Chapitre 1 Apprentissage supervisé 2015-2016 25 / 36 En pratique Règle de décision Théorème de Bayes f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK j=1 f (x |Y = j)P(Y = j) Cette règle de de classification de Bayes est applicable si l’on dispose I dans le cas discriminatif : des probabilité à posteriori P(Y = k|X = x ) exemple : régression logistique I dans le cas génératif : des fonctions de densité f (x |Y = k) aussi notées fk (x ) des probabilités à priori P(Y = k) aussi notées πk Chapitre 1 Apprentissage supervisé 2015-2016 25 / 36 En pratique Règle de décision Théorème de Bayes f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK j=1 f (x |Y = j)P(Y = j) Cette règle de de classification de Bayes est applicable si l’on dispose I dans le cas discriminatif : des probabilité à posteriori P(Y = k|X = x ) exemple : régression logistique I dans le cas génératif : des fonctions de densité f (x |Y = k) aussi notées fk (x ) des probabilités à priori P(Y = k) aussi notées πk exemples : analyse discriminante, bayésien naı̈f Chapitre 1 Apprentissage supervisé 2015-2016 25 / 36 En pratique Règle de décision binaire On considère le cas de la classification binaire Chapitre 1 Apprentissage supervisé 2015-2016 26 / 36 En pratique Règle de décision binaire On considère le cas de la classification binaire K = 2 classes et la matrice de coûts est C = Chapitre 1 Apprentissage supervisé 0 C21 C12 0 2015-2016 26 / 36 En pratique Règle de décision binaire On considère le cas de la classification binaire K = 2 classes et la matrice de coûts est C = 0 C21 C12 0 Deux cas sont à considérer : Chapitre 1 Apprentissage supervisé 2015-2016 26 / 36 En pratique Règle de décision binaire On considère le cas de la classification binaire K = 2 classes et la matrice de coûts est C = 0 C21 C12 0 Deux cas sont à considérer : I Si la règle prédit ` = 1: E [L(Y , `)|X = x ] = 2 X Ck1 P(Y = k|X = x ) k=1 = C21 P(Y = 2|X = x ) Chapitre 1 Apprentissage supervisé 2015-2016 26 / 36 En pratique Règle de décision binaire On considère le cas de la classification binaire K = 2 classes et la matrice de coûts est C = 0 C21 C12 0 Deux cas sont à considérer : I Si la règle prédit ` = 1: E [L(Y , `)|X = x ] = 2 X Ck1 P(Y = k|X = x ) k=1 = C21 P(Y = 2|X = x ) I Si la règle prédit ` = 2: E [L(Y , `)|X = x ] = 2 X Ck2 Pr(Y = k|X = x ) k=1 = C12 Pr(Y = 1|X = x ) Chapitre 1 Apprentissage supervisé 2015-2016 26 / 36 En pratique Règle de décision binaire On en déduit la règle de décision suivante : Chapitre 1 Apprentissage supervisé 2015-2016 27 / 36 En pratique Règle de décision binaire On en déduit la règle de décision suivante : I cas discriminant : si C21 P(Y = 2|X = x ) ≤ C12 P(Y = 1|X = x ) i.e. P(Y = 1|X = x ) ≥ C21 P(Y = 2|X = x ) C12 alors on affectera x à la classe g(x ) = 1, sinon on affectera x à la classe g(x ) = 2. Chapitre 1 Apprentissage supervisé 2015-2016 27 / 36 En pratique Règle de décision binaire On en déduit la règle de décision suivante : I cas discriminant : si C21 P(Y = 2|X = x ) ≤ C12 P(Y = 1|X = x ) i.e. P(Y = 1|X = x ) ≥ C21 P(Y = 2|X = x ) C12 alors on affectera x à la classe g(x ) = 1, sinon on affectera x à la classe g(x ) = 2. I cas génératif : si C21 f (x |Y = 2)P(Y = 2) ≤ C12 f (x |Y = 1)P(Y = 1) i.e. C21 π2 f (x |Y = 1) ≥ f (x |Y = 2) C12 π1 où P(Y = k) = πk , alors on affectera x à la classe g(x ) = 1, sinon on affectera x à la classe g(x ) = 2. Chapitre 1 Apprentissage supervisé 2015-2016 27 / 36 En pratique Règle de décision binaire Si C21 = C12 (fonction de coût 0-1) on retrouve la règle d’affectation de la classe la plus probable à posteriori Chapitre 1 Apprentissage supervisé 2015-2016 28 / 36 En pratique Règle de décision binaire Si C21 = C12 (fonction de coût 0-1) on retrouve la règle d’affectation de la classe la plus probable à posteriori I cas discriminant : ( 1 si P(Y = 1|X = x ) ≥ P(Y = 2|X = x ) g(x ) = 2 sinon Chapitre 1 Apprentissage supervisé 2015-2016 28 / 36 En pratique Règle de décision binaire Si C21 = C12 (fonction de coût 0-1) on retrouve la règle d’affectation de la classe la plus probable à posteriori I cas discriminant : ( 1 si P(Y = 1|X = x ) ≥ P(Y = 2|X = x ) g(x ) = 2 sinon I cas génératif : ( 1 g(x ) = 2 Chapitre 1 si π1 f (x |Y = 1) ≥ π2 f (x |Y = 2) sinon Apprentissage supervisé 2015-2016 28 / 36 Les méthodes de classification supervisées Modèle ou Prototype Deux approches possibles pour def́inir la règle de classification Y = g(X ) Chapitre 1 Apprentissage supervisé 2015-2016 29 / 36 Les méthodes de classification supervisées Modèle ou Prototype Deux approches possibles pour def́inir la règle de classification Y = g(X ) Approche basée sur un modèle Chapitre 1 Apprentissage supervisé 2015-2016 29 / 36 Les méthodes de classification supervisées Modèle ou Prototype Deux approches possibles pour def́inir la règle de classification Y = g(X ) Approche basée sur un modèle I Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y ) Chapitre 1 Apprentissage supervisé 2015-2016 29 / 36 Les méthodes de classification supervisées Modèle ou Prototype Deux approches possibles pour def́inir la règle de classification Y = g(X ) Approche basée sur un modèle I Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y ) F Chapitre 1 Approche dite générative Apprentissage supervisé 2015-2016 29 / 36 Les méthodes de classification supervisées Modèle ou Prototype Deux approches possibles pour def́inir la règle de classification Y = g(X ) Approche basée sur un modèle I Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y ) F F Chapitre 1 Approche dite générative Exemples : Analyse discriminante linéaire, bayésien naı̈f Apprentissage supervisé 2015-2016 29 / 36 Les méthodes de classification supervisées Modèle ou Prototype Deux approches possibles pour def́inir la règle de classification Y = g(X ) Approche basée sur un modèle I Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y ) F F I Approche dite générative Exemples : Analyse discriminante linéaire, bayésien naı̈f Apprentissage direct de Loi(Y |X ) Chapitre 1 Apprentissage supervisé 2015-2016 29 / 36 Les méthodes de classification supervisées Modèle ou Prototype Deux approches possibles pour def́inir la règle de classification Y = g(X ) Approche basée sur un modèle I Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y ) F F I Approche dite générative Exemples : Analyse discriminante linéaire, bayésien naı̈f Apprentissage direct de Loi(Y |X ) F Chapitre 1 Approche dite discriminative Apprentissage supervisé 2015-2016 29 / 36 Les méthodes de classification supervisées Modèle ou Prototype Deux approches possibles pour def́inir la règle de classification Y = g(X ) Approche basée sur un modèle I Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y ) F F I Approche dite générative Exemples : Analyse discriminante linéaire, bayésien naı̈f Apprentissage direct de Loi(Y |X ) F F Chapitre 1 Approche dite discriminative Exemple : Régression logistique Apprentissage supervisé 2015-2016 29 / 36 Les méthodes de classification supervisées Modèle ou Prototype Deux approches possibles pour def́inir la règle de classification Y = g(X ) Approche basée sur un modèle I Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y ) F F I Approche dite générative Exemples : Analyse discriminante linéaire, bayésien naı̈f Apprentissage direct de Loi(Y |X ) F F Approche dite discriminative Exemple : Régression logistique Approche de type prototype Chapitre 1 Apprentissage supervisé 2015-2016 29 / 36 Les méthodes de classification supervisées Modèle ou Prototype Deux approches possibles pour def́inir la règle de classification Y = g(X ) Approche basée sur un modèle I Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y ) F F I Approche dite générative Exemples : Analyse discriminante linéaire, bayésien naı̈f Apprentissage direct de Loi(Y |X ) F F Approche dite discriminative Exemple : Régression logistique Approche de type prototype I Apprentissage direct de la règle de classification Y = g(X ) Chapitre 1 Apprentissage supervisé 2015-2016 29 / 36 Les méthodes de classification supervisées Modèle ou Prototype Deux approches possibles pour def́inir la règle de classification Y = g(X ) Approche basée sur un modèle I Apprentissage de Loi(X , Y ) = Loi(X |Y )Loi(Y ) F F I Approche dite générative Exemples : Analyse discriminante linéaire, bayésien naı̈f Apprentissage direct de Loi(Y |X ) F F Approche dite discriminative Exemple : Régression logistique Approche de type prototype I I Apprentissage direct de la règle de classification Y = g(X ) Exemple : K-plus proches voisins, arbres de décisions, forêts aléatoires, etc. Chapitre 1 Apprentissage supervisé 2015-2016 29 / 36 Les méthodes de classification supervisées Paramétrique ou non Définir la règle de classification Y = g(X ) revient à définir pour tout k ∈ Y les probabilités à posteriori P[Y = k|X = x ] Chapitre 1 Apprentissage supervisé 2015-2016 30 / 36 Les méthodes de classification supervisées Paramétrique ou non Définir la règle de classification Y = g(X ) revient à définir pour tout k ∈ Y les probabilités à posteriori P[Y = k|X = x ] Approche paramétrique Chapitre 1 Apprentissage supervisé 2015-2016 30 / 36 Les méthodes de classification supervisées Paramétrique ou non Définir la règle de classification Y = g(X ) revient à définir pour tout k ∈ Y les probabilités à posteriori P[Y = k|X = x ] Approche paramétrique I Régression logistique: Y = {0, 1} et P[Y = 1|X = x ] = Chapitre 1 Apprentissage supervisé exp(X T β) 1 + exp(X T β) 2015-2016 30 / 36 Les méthodes de classification supervisées Paramétrique ou non Définir la règle de classification Y = g(X ) revient à définir pour tout k ∈ Y les probabilités à posteriori P[Y = k|X = x ] Approche paramétrique I Régression logistique: Y = {0, 1} et P[Y = 1|X = x ] = I exp(X T β) 1 + exp(X T β) Analyse discriminante: f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK j=1 f (x |Y = j)P(Y = j) et f (x |Y = k) = Chapitre 1 1 1 exp(− (x − µk )T Σk −1 (x − µk )) 2 (2π)p/2 |Σk |1/2 Apprentissage supervisé 2015-2016 30 / 36 Les méthodes de classification supervisées Paramétrique ou non Définir la règle de classification Y = g(X ) revient à définir pour tout k ∈ Y les probabilités à posteriori P[Y = k|X = x ] Approche paramétrique I Régression logistique: Y = {0, 1} et P[Y = 1|X = x ] = I exp(X T β) 1 + exp(X T β) Analyse discriminante: f (x |Y = k)P(Y = k) P(Y = k|X = x ) = PK j=1 f (x |Y = j)P(Y = j) et f (x |Y = k) = 1 1 exp(− (x − µk )T Σk −1 (x − µk )) 2 (2π)p/2 |Σk |1/2 Estimation des paramètres sur l’échantillon d’apprentissage Chapitre 1 Apprentissage supervisé 2015-2016 30 / 36 Les méthodes de classification supervisées Paramétrique ou non Approche non paramétrique Chapitre 1 Apprentissage supervisé 2015-2016 31 / 36 Les méthodes de classification supervisées Paramétrique ou non Approche non paramétrique I Approche de type modèle avec estimation non paramétrique de f (x |Y = k). Par exemple estimée de Parzen n f (x0 |Y = k) = 1 X Kλ (x0 , xi ) nλ i=1 où Kλ est un noyau donné, e.g. gaussien 1D 1 1 2 Kλ (x0 , x ) = √ exp − 2 (x0 − x ) 2λ 2π Chapitre 1 Apprentissage supervisé 2015-2016 31 / 36 Les méthodes de classification supervisées Paramétrique ou non Approche non paramétrique I Approche de type modèle avec estimation non paramétrique de f (x |Y = k). Par exemple estimée de Parzen n f (x0 |Y = k) = 1 X Kλ (x0 , xi ) nλ i=1 où Kλ est un noyau donné, e.g. gaussien 1D 1 1 2 Kλ (x0 , x ) = √ exp − 2 (x0 − x ) 2λ 2π I Approche de type prototype Chapitre 1 Apprentissage supervisé 2015-2016 31 / 36 Les méthodes de classification supervisées Paramétrique ou non Approche non paramétrique I Approche de type modèle avec estimation non paramétrique de f (x |Y = k). Par exemple estimée de Parzen n f (x0 |Y = k) = 1 X Kλ (x0 , xi ) nλ i=1 où Kλ est un noyau donné, e.g. gaussien 1D 1 1 2 Kλ (x0 , x ) = √ exp − 2 (x0 − x ) 2λ 2π I Approche de type prototype F Chapitre 1 Apprentissage direct de la règle de classification Y = g(X ) Apprentissage supervisé 2015-2016 31 / 36 Les méthodes de classification supervisées Paramétrique ou non Approche non paramétrique I Approche de type modèle avec estimation non paramétrique de f (x |Y = k). Par exemple estimée de Parzen n f (x0 |Y = k) = 1 X Kλ (x0 , xi ) nλ i=1 où Kλ est un noyau donné, e.g. gaussien 1D 1 1 2 Kλ (x0 , x ) = √ exp − 2 (x0 − x ) 2λ 2π I Approche de type prototype F F Chapitre 1 Apprentissage direct de la règle de classification Y = g(X ) Exemple : K-plus proches voisins, arbres de décisions, forêts aléatoires, etc. Apprentissage supervisé 2015-2016 31 / 36 Les méthodes de classification supervisées Paramétrique ou non Approche non paramétrique I Approche de type modèle avec estimation non paramétrique de f (x |Y = k). Par exemple estimée de Parzen n f (x0 |Y = k) = 1 X Kλ (x0 , xi ) nλ i=1 où Kλ est un noyau donné, e.g. gaussien 1D 1 1 2 Kλ (x0 , x ) = √ exp − 2 (x0 − x ) 2λ 2π I Approche de type prototype F F Apprentissage direct de la règle de classification Y = g(X ) Exemple : K-plus proches voisins, arbres de décisions, forêts aléatoires, etc. Toujours un un paramètre à choisir. Chapitre 1 Apprentissage supervisé 2015-2016 31 / 36 Une méthode simple k plus proches voisins Approche de type prototype Chapitre 1 Apprentissage supervisé 2015-2016 32 / 36 Une méthode simple k plus proches voisins Approche de type prototype Variables d’entrée réelles X ∈ Rp Chapitre 1 Apprentissage supervisé 2015-2016 32 / 36 Une méthode simple k plus proches voisins Approche de type prototype Variables d’entrée réelles X ∈ Rp règle de classification dans le cas d’une réponse binaire Y ∈ {0, 1} X X g(X ) =1 si Yi > (1 − Yi ) Xi ∈Nk (X ) Xi ∈Nk (X ) =0 sinon où Nk (X ) est un voisinage de X contenant uniquement les k plus proches voisins de l’ensemble d’apprentissage Chapitre 1 Apprentissage supervisé 2015-2016 32 / 36 Une méthode simple k plus proches voisins Approche de type prototype Variables d’entrée réelles X ∈ Rp règle de classification dans le cas d’une réponse binaire Y ∈ {0, 1} X X g(X ) =1 si Yi > (1 − Yi ) Xi ∈Nk (X ) Xi ∈Nk (X ) =0 sinon où Nk (X ) est un voisinage de X contenant uniquement les k plus proches voisins de l’ensemble d’apprentissage Vote à la majorité parmi les k plus proches voisins du point x à classer Chapitre 1 Apprentissage supervisé 2015-2016 32 / 36 Une méthode simple k plus proches voisins Exemple avec k = 15, p = 2 Chapitre 1 Apprentissage supervisé 2015-2016 33 / 36 Une méthode simple k plus proches voisins k=15 Chapitre 1 k=1 Apprentissage supervisé 2015-2016 34 / 36 Une méthode simple k plus proches voisins Pour appliquer cette méthode il faut fixer un paramètre : le nombre de voisins k Chapitre 1 Apprentissage supervisé 2015-2016 35 / 36 Une méthode simple k plus proches voisins Pour appliquer cette méthode il faut fixer un paramètre : le nombre de voisins k Une stratégie de choix du paramètre k Chapitre 1 Apprentissage supervisé 2015-2016 35 / 36 Une méthode simple k plus proches voisins Pour appliquer cette méthode il faut fixer un paramètre : le nombre de voisins k Une stratégie de choix du paramètre k I Choisir un échantillon d’apprentissage et un échantillon test Chapitre 1 Apprentissage supervisé 2015-2016 35 / 36 Une méthode simple k plus proches voisins Pour appliquer cette méthode il faut fixer un paramètre : le nombre de voisins k Une stratégie de choix du paramètre k I I Choisir un échantillon d’apprentissage et un échantillon test Faire varier k Chapitre 1 Apprentissage supervisé 2015-2016 35 / 36 Une méthode simple k plus proches voisins Pour appliquer cette méthode il faut fixer un paramètre : le nombre de voisins k Une stratégie de choix du paramètre k I I I Choisir un échantillon d’apprentissage et un échantillon test Faire varier k Pour chaque valeur de k calculer le taux d’erreur empirique de prédiction des individus de l’échantillon test. Chapitre 1 Apprentissage supervisé 2015-2016 35 / 36 Une méthode simple k plus proches voisins Chapitre 1 Apprentissage supervisé 2015-2016 36 / 36